25 jun. 2009

Nuevos Avances en visión computarizada

Los libros de ciencia ficción y las películas siempre imaginaron que las computadoras algún día serían capaces de ver e interpretar el mundo. En Google, creemos que la visión computarizada tiene beneficios potenciales tremendos para los consumidores, por lo cuál le dedicamos muchos esfuerzos de investigación.
Hoy, un equipo de Google está presentando una investigación sobre reconocimiento de monumentos (Estatua de la Libertad, Torre Eiffel) en la conferencia Computer Vision and Pattern Recognition (CVPR) en Miami, Florida. En el trabajo, presentamos una nueva tecnología que permite que las computadoras identifiquen rápidamente imágenes de más de 50,000 monumentos de todo el mundo con una exactitud aproximada del 80 por ciento.

Para ser claros de entrada, este es un trabajo de investigación, no un nuevo producto de Google, pero igual creemos que es muy bueno. Para nuestra demostración, comenzamos con una foto de un monumento sin identificación, ingresamos su dirección Web en el motor de reconocimiento y en un instante la computadora lo identifica y lo nombra:
"Monumento reconocido: Acrópolis, Atenas, Grecia." Gracias computadora.

Como lo logramos? No fue fácil. Para comenzar, dónde encontramos una larga lista de miles de monumentos? Y aún teniendo esa lista, de dónde obtienes las fotografías para desarrollar representaciones visuales de las locaciones? Y cómo obtienes esos materiales en un modelo coherente que funcione, sea veloz, y pueda procesar una enorme cantidad de material? Imagina la cantidad de fotos diferentes del puente Golden Gate que has visto - las diferentes perspectivas, condiciones de iluminación y calidad de imagen. Reconocer un monumento puede ser difícil para un humano, asi que ni que hablar para una computadora.

Nuestras investigaciones se estructuran sobre las vastas cantidades de imagenes existentes en la Web, la capacidad de realizar búsquedas para esas imagenes, y los avances en reconocimiento de objetos y técnicas de agrupamiento. Primero, hemos generado una lista de monumentos apoyándonos en dos fuentes: 40 millones de fotografías con GPS (de Picasa y Panoramio) y páginas Web sobre tours online. Luego, encontramos imagenes para cada monumento utilizando estas fuentes y Google Image Search, que luego limpiamos utilizando técnicas de agrupamiento. Finalmente, desarrollamos un sistema altamente eficiente de indexación para el rápido reconocimiento de imagenes.

Si bien hemos avanzado mucho para desenterrar la información almacenada en los textos en la Web, todavía hay mucho trabajo por delante para encontrar la información almacenada en los pixels. Esta investigación demuestra la posibilidad de la visión computarizada eficiente basada en grandes cantidades de data. Esperamos que estas enseñanzas sean una buena fundación para futuras investigaciones en visión computarizada.

Si estás interesado en contar con más información sobre esta investigación, accede al siguiente paper.

0 comentarios:

Publicar un comentario

Participa,has que tu opinión valga, da a conocer al mundo tu opinión.