Vision Computarizada: El mundo a traves de los ojos de la Inteligencia Artificial

Vision Computarizada: El mundo a traves de los ojos de la Inteligencia Artificial

Si bien todos los sentidos contribuyen a nuestra percepción de la realidad, la vista es la que más nos hace sentir en contacto con el mundo. Con ella conocemos y reconocemos, nos ubicamos y guiamos nuestros movimientos, apreciamos la belleza, leemos y escribimos. Carecer de la visión nos hace sentir vulnerables y un tanto aislados de la realidad que nos rodea. Aunque el hombre cuenta con mecanismos para compensar y hacer plena una vida a ciegas, en la mayoría de las especies no ver significa la muerte.

Y es que, como resultado de cientos de millones de años de evolución, el sentido de la vista es un sofisticado sistema, perfectamente interconectado y adaptado a su entorno, que en fracción de segundos recibe un estímulo, lo transmite, lo interpreta y genera una reacción. De esta forma, un animal decide si atacar o huir, un beisbolista vuela la pelota del parque y un cirujano puede llevar a cabo una delicada operación.

Por ello es sorprendente que en 60 años se haya desarrollado la tecnología para desbloquear nuestro celular con el rostro o con los ojos, que la cámara fotográfica o de video identifique y siga las caras o las sonrisas, o que una aplicación nos diga qué es el objeto al que apuntamos con la cámara y dónde podemos comprarlo. De hecho, la visión computarizada es una de las áreas de la Inteligencia Artificial (IA) en donde se ha logrado superar el nivel de desempeño del ser humano.

La gráfica de abajo muestra la evolución del porcentaje de error en la tarea de identificar la categoría a la que pertenece una imagen tomada de un repositorio llamado ImageNet, el cual tiene 14 millones de imágenes de más de 21 mil categorías, y es utilizado como referencia para evaluar algoritmos y sistemas mediante concursos. En 2012, con el uso de redes neuronales profundas (de varias capas) el porcentaje bajó 10 puntos en un año. A partir de allí, redes neuronales con cada vez más capas lograron porcentajes de error cada vez menores, superando la exactitud del ser humano en 2015. (Lee nuestro artículo sobre cómo funcionan las redes neuronales profundas)

Resultados_ImageNetjpg

El éxito obtenido con el uso de las redes neuronales profundas inspiró el desarrollo de nuevas técnicas y modelos, las cuales han generado avances extraordinarios en los cinco procesos vinculados con la visión computarizada:

  1. Clasificación de imágenes. Predecir las categoría o conceptos que resultan aplicables a una imagen en su conjunto.
  2. Segmentación semántica. Dividir la imagen en regiones bien definidas, grupos de pixeles, que pueden ser identificadas y etiquetadas por separado.
  3. Detección de objetos. Identificar a que categoría pertenecen los objetos que aparecen en una imagen, generalmente enmarcándolos y etiquetándolos.
  4. Instanciación. Llevar la segmentación a un nivel de mayor detalle, para identificar diferentes individuos de una misma categoría, como personas o vehículos.
  5. Seguimiento de objetos. Mantener un objeto identificado mientras se mueve en un video. Es una generalización de la detección, la segmentación o la instanciación, pues un video es una serie de imágenes.

Vision_computarizadajpg

Imágenes publicadas originalmente aquí

multi_object_tracking_dlib_resultgif

SEGUIMIENTO

La posibilidad de realizar todos estos procesos en tiempo real, así como la factibilidad de desplegarlos en equipos como un teléfono celular, han propiciado el uso extendido de las técnicas de visión computarizada en todo tipo de aplicaciones, entre las que podemos mencionar:

  • El funcionamiento de los vehículos autónomos. No hay duda de que las nuevas técnicas de visión computarizada, junto con los avances en las tecnologías de aprendizaje reforzado, han sido el factor determinante para que los vehículos autónomos estén ya en sus primeras pruebas comerciales.
  • El reconocimiento facial para identificación. Funciona bien cuando se usa para identificar una persona a partir de imágenes de ella misma, como en un celular. No obstante, su utilización a gran escala es cuestionada por el uso de bases de ejemplos no representativas, que generan errores con costos altos para las personas y por la invasión a la privacidad que representan.
  • La identificación biométrica. El reconocimiento de huellas digitales o el iris se implementa de manera muy eficiente y sencilla en todo tipo de dispositivos, como teléfonos celulares o dispositivos portátiles.
  • La interpretación de imágenes de laboratorio, como radiografías o tomografías, para la detección de tumores y otros padecimientos médicos. Esta es una tarea en la que también se ha logrado superar el desempeño humano.
  • La identificación de fracturas, fisuras y obstrucciones en ductos, buques, aviones y estructuras, a partir de videos o imágenes de inspección tomados por robots en condiciones inaccesibles o inseguras para una persona.
  • La detección de comportamientos sospechosos en cámaras de vigilancia, a partir del análisis del movimiento de instancias segmentadas. Al igual que pasa con el reconocimiento facial, el tema principal de debate es el alto costo que provoca un error para la persona víctima de éste.

  gif2gif

La revolución provocada por el uso exitoso de las redes neuronales profundas en la visión computarizada, así como también en la interpretación del lenguaje oral y escrito, representan lo que Kai-Fu Lee, en su libro "Superpotencias de la IA”, llama la segunda ola de la Inteligencia Artificial, la ola de la percepción. La primera ola fue la del análisis de datos con aprendizaje de máquina, que llevó a la automatización de la toma decisiones en muchos campos (lee nuestro artículo sobre el tema). La tercera ola será la de la autonomía, en la que las técnicas de las dos anteriores permitirán que un agente inteligente perciba de manera efectiva su entorno, tome decisiones y actúe por sí mismo en un ambiente complejo.

De esta forma, nos acercamos rápidamente a una época en que poderosas herramientas de IA y aprendizaje de máquina estarán a nuestra disposición para aumentar nuestras capacidades y producir beneficios para la sociedad en general. El hecho de que sistemas de IA superen al ser humano en determinadas tareas no representa una amenaza por sí mismo, pues los riesgos no provienen de una buena interpretación de una imagen o de una serie de datos, sino de lo que se hace con dicha interpretación.


¿Qué opinas? Comparte tus comentarios abajo. ¿Te gustó este artículo? Lee otros artículos de nuestro blog IF Inteligencia Futura aquí.

Visita nuestras secciones