Redes Neuronales Convolucionales en el Proyecto AKORI

La tarea de reconocimiento de imágenes es una de las primeras habilidades que aprendemos desde el momento en que nacemos y se hace natural a medida que avanzamos en edad. Sin la necesidad de pensarlo somos capaces de identificar el entorno en que estamos, al igual que los objetos que nos rodean. Traspasar esta habilidad de reconocer rápidamente parámetros, generalizar desde conocimiento anterior, y adaptarlo a diferentes contextos de imágenes es uno de los objetivos declarados en el área de inteligencia artificial en la última década.

Al escuchar por primera vez el término redes neuronales convolucionales (CNN, en sus siglas en inglés), probablemente se pensará en algo relacionado con la neurociencias o la biología, lo cual se acerca en cierta medida a la realidad. CNN tiene inspiración biológica en la corteza visual. Esta tiene una pequeña región de células que son sensibles a una región específica del campo de visión. Esta idea fue profundizada en un experimento de Hubel and Wiesel en 1962 donde mostraron que algunas neuronas individuales en el cerebro responden sólo bajo la presencia de bordes de cierta orientación. Por ejemplo, algunas neuronas se activan cuando son expuestas a bordes verticales y algunas a bordes horizontales o diagonales. Esta idea de un sistema con componentes especializados para distintas tareas es la base detrás de las redes neuronales convolucionales.

Cuando un computador ve una imagen, esta consiste en un arreglo de valores en cada pixel. Por ejemplo, una imagen cualquiera de resolución 480 x 480, representa un arreglo de 480 x 480 x 3. Cada uno de esos números tendrá un valor desde 0 a 255, el cual describe la intensidad del pixel en ese punto. Las CNN trabajan transformando en forma consecutiva pequeñas piezas de información y combinándolas en capas más profundas de la red. Lo anterior se traduce en que las partes o la totalidad del arreglo inicial será operado mediante un producto escalar y al resultado se aplicará una función de activación. Todo esto para simular el sistema de activación de neuronas. Esto se hará sucesivamente y combinará con otras operaciones para llegar un vector que permita clasificar a la imagen o transformarla a otra imagen nueva.

Específicamente, este tipo de modelos fueron utilizados para el servicio de atención visual del proyecto AKORI. El cual consiste en tomar una imagen y transformarla una imagen nueva que muestra dónde el usuario promedio enfocará su atención. Un ejemplo del servicio son las dos imágenes mostradas a continuación. Estas representan la imagen de entrada y de salida, respectivamente.

Leer más