180 lecturas

Desarrolle XR con Oracle Ep 3: Computer Vision AI, ML y Metaverse

por Paul Parkinson2022/04/12

Demasiado Largo; Para Leer

Esta es la tercera pieza de una serie sobre el desarrollo de aplicaciones y experiencias XR utilizando Oracle y se centra en las aplicaciones XR de IA y ML de visión por computadora y su uso relacionado en el metaverso.

People Mentioned

Companies Mentioned

featured image - Desarrolle XR con Oracle Ep 3: Computer Vision AI, ML y Metaverse

Una vez más, mostraré específicamente las aplicaciones desarrolladas con la base de datos Oracle y las tecnologías en la nube, HoloLens 2, Mixed Reality Toolkit y la plataforma Unity. A lo largo del blog, haré referencia a este video de demostración correspondiente.

Realidad extendida (XR), metaverso y HoloLens

Remitiré al lector al primer artículo de la serie para obtener una descripción general de XR y Hololens. El primer blog de esta serie se basó en un y demostró una serie de aspectos que estarán presentes en el metaverso, como las compras en línea, al interactuar con modelos 3D de alimentos/productos, 3D/espacial del mundo real. mapas, etc., así como backend DevOps (seguimiento de Kubernetes y OpenTelemetry), etc.

El segundo blog se basó en una serie de y demostró la visualización, creación y manipulación de modelos, cuadernos, diseños y aspectos destacados para el análisis de gráficos de propiedades utilizados en gráficos sociales, redes neuronales y el sector financiero (por ejemplo, detección de lavado de dinero ).

En ambos blogs y en este tercer blog también, el tema se puede compartir y colaborar activamente, incluso en tiempo real, de forma remota. Este tipo de habilidades son clave para el concepto de metaverso y se ampliarán y extenderán a conceptos como dobles digitales en estas piezas futuras.

Este blog no profundizará en la IA de visión por computadora y, en cambio, se centrará en la habilitación de XR y en la base de datos y la nube de Oracle.

Capacidades y Posibilidades de la Visión por Computador con XR

Computer Vision AI proporciona una serie de capacidades que incluyen clasificación de imágenes, detección de objetos, detección de texto e inteligencia artificial de documentos.

Predominantemente uso Hololens para demostrar conceptos en esta serie, ya que es la tecnología más cercana a lo que será el uso más común y cotidiano de XR en el futuro, sin embargo, los conceptos que muestro en estos blogs se pueden aplicar en una u otra medida. en diferentes sabores de XR y dispositivos (y, de hecho, daré ejemplos de estos en futuros blogs).

Una cosa que la mayoría de estos dispositivos, si no todos, tienen en común es una interfaz visual (es decir, una computadora y una cámara) entre el usuario y el mundo real. Inherentemente, tiene la capacidad de capturar y procesar los estímulos visuales que rodean al usuario, por lo que el vínculo entre él y Computer Vision AI es lógico y sinérgico.

Esto también es cierto para el audio y el habla de la IA, que también demostraré en un artículo futuro.

Clasificación de imágenes y detección de objetos

Imagine el potencial para ayudar a las personas con problemas de visión, Alzheimer, ... al hacer que el dispositivo XR brinde comentarios contextuales de audio y visuales sobre el entorno.

La primera parte del video muestra la detección de objetos aplicada a XR. Estos son los pasos a seguir...

Los Hololens toman una imagen de la vista actual del usuario (utilizo un botón explícito para esto pero, por supuesto, podría hacerse automáticamente, periódicamente, en reacción a un comando de voz, etc.).
Esta imagen se carga automáticamente en el almacén de objetos y la base de datos de Oracle para su posterior análisis. Esto en sí mismo es una característica útil para almacenar datos recuperados del entorno de los usuarios sin que el usuario necesite instruirlo explícitamente o incluso estar al tanto de la diversa información contextual, etc. que se recopila.
Luego, el servicio Vision AI procesa la imagen y se devuelve a Hololens una respuesta JSON que contiene el nombre, la confianza, los vértices normalizados de bondingPolygon, la categorización, etc. Así es como se ven el procesamiento de imágenes y la respuesta JSON enviada a los Hololens en la consola en la nube de Oracle...
Luego, la aplicación Hololens procesa este JSON, usando los vértices/coordenadas para recrear los polígonos/rectángulos y etiquetas.
La ubicación del usuario (es decir, la cámara del auricular Hololens) se guardó cuando se tomó la imagen inicial y se realizó un raycast desde ese punto, a través de las coordenadas de los rectángulos 2d, y en la malla de superficie espacial 3d de la habitación. (Tenga en cuenta que la representación 2d solo se muestra en la demostración para ilustrar la rutina descrita y, probablemente, en una aplicación real, solo existiría el resultado final de los cubos mapeados espacialmente).
Luego se crean cubos 3D en los puntos de intersección de estos raycasts en la malla de la superficie.
Además, una vez creadas, las etiquetas se envían a un programa de voz a texto que pronuncia el nombre del objeto. Este audio también está mapeado espacialmente en 3D.
Esto proporciona una técnica extremadamente eficiente y rápida, ya que se usa una sola imagen 2D para mapear la vista de entrada de forma visual y audible en 3D y este mapeo persiste exactamente en las mismas ubicaciones más allá de los reinicios de Hololens/app. (La precisión, etc., por supuesto, podría mejorarse aún más con múltiples tomas/fotos y capturarse automáticamente sin que el usuario tenga que presionar un botón, etc.)

¡Imagínese el potencial para ayudar con la discapacidad visual, la enfermedad de Alzheimer, la identificación de elementos desconocidos y difíciles de aislar, el análisis de amenazas, intereses, etc. al hacer que el dispositivo XR brinde comentarios contextuales de audio y visuales sobre el entorno de uno!

Esta información/representación, a su vez, puede compartirse en el metaverso entre cualquier cantidad de dispositivos XR diferentes (que incluyen teléfonos básicos y monitores de computadora simples) para facilitar dobles digitales, colaboración, etc. de una manera muy eficiente y liviana que simultáneamente aprovecha las potentes capacidades de la base de datos Oracle y/o en la nube.

Documento IA

Imagine usar XR e IA para mejorar las interacciones sociales y participar en conversaciones más significativas EN LA VIDA REAL.

La segunda parte del video muestra el uso del servicio de documento AI, nuevamente con la técnica de captura de cámara Hololens utilizada en la primera parte del video, excepto que esta vez se identifica el texto de la imagen (con orientación, distancia, etc. variable). . Nuevamente, esto se puede usar para ayudar al usuario a leer, etc., como en el ejemplo de detección de objetos, y también se puede incorporar a las poderosas capacidades de ML de la base de datos de Oracle para ejecutar el procesamiento en cualquier número de modelos, portátiles, etc. En este caso, yo escanear libros. Esta es una toma de esa imagen con el texto procesado, en la consola OCI.

Podríamos, como hice en el primer blog, usar esto para hacer sugerencias sobre otros libros relacionados o, como hice en el segundo blog, hacer un análisis gráfico para encontrar correlaciones y puntos en común. En este ejemplo en particular, sin embargo, he enviado el texto a varios modelos de conversación GPT-3 que luego retroalimentan una respuesta conversacional. Esta respuesta, o de nuevo cualquier información de varios modelos, se puede dar al usuario para, por ejemplo, entablar una conversación con el propietario de los libros.

Esto, por supuesto, no se limita a libros o conversaciones. Las posibilidades son realmente infinitas en cuanto al uso de esta combinación de XR y el suministro al usuario de información y análisis sobre el entorno en el que se encuentra (algo que la tecnología de Oracle permite perfectamente).

También puedo imaginar al usuario publicitando o "vistiendo" información sobre sí mismo de la misma manera que usa ropa, etc., pero de una manera potencialmente más compleja, que transmite (es decir, "moda" en ambos sentidos de la palabra y "sentido" en ambos sentidos). definiciones de esa palabra). El metaverso está lleno de conversaciones sobre empresas que encuentran nuevas formas de anunciarse e interactuar en un mundo virtual. Los usuarios deberían tener al menos la misma capacidad para expresarse y hacerlo en el mundo real.

Pensamientos Adicionales

He dado algunas ideas y ejemplos de cómo la visión por computadora AI y XR se pueden usar juntos. Espero publicar pronto más blogs sobre este tema y otras áreas de XR con Oracle Cloud and Database.

Consulte los artículos que publico en HackerNoon para obtener más información sobre XR y la nube Oracle y la base de datos convergente, así como varios temas sobre microservicios, observabilidad, procesamiento de transacciones, etc. Además, no dude en ponerse en contacto conmigo si tiene alguna pregunta o sugerencia para nuevos blogs. y videos ya que estoy muy abierto a sugerencias. Gracias por leer y mirar.

También publicado en .

L O A D I N G
. . . comments & more!