miércoles, 23 de marzo de 2011

CBIR - Descripción y bibliografía

Luis Ignacio Díaz del Dedo está desarrollando un sistema, llamado Open Virtual Object Viewer, para detección y categorización de objetos. En el blog hay una entrada que nos describe perfectamente en que consiste la recuperación de imágenes basadas en el contenido, dice que el CBIR realiza la búsqueda basándose en su contexto a colores, formas, texturas o cualquier otra información que pueda derivarse de la propia imagen.

Esquema de funcionamiento de un sistema CBIR
En la prehistoria de los sistemas CBIR se utilizaban metadatos que consisten en palabras o frases cortas que tratan de definir lo que contenía una imagen. La inclusión de estos metadatos se realizaba manualmente y servía como índice y parámetro de recuperación. En la actualidad este proceso podría ocupar a toda la población de un país pequeño y sería extremadamente costoso. Se debe indexar la información para poder recuperarla de forma rápida y efectiva. Es por eso que los metadatos dejan de tener sentido para colecciones de imágenes grandes y toman fuerza los sistemas automáticos de indexación y recuperación basados en lo que contiene la imagen.

1.1. Estado del Arte

Al tratarse de un área de gran importancia por su estrecha relación con el mundo de los buscadores y sistemas de recomendación se han realizado numerosas investigaciones al respecto. Ya en los ochenta se comenzó a referenciar los sistemas de bases de datos de imágenes como hacen H. Tamura y Yokoya [2] en su análisis de tendencias o la pregunta que enuncian Chang y Hu [1] Sistemas de Información de Imágenes: ¿Dónde vamos desde aquí?. Estos estudios muestran la fuerte necesidad de arquitecturas y algoritmos capaces de indexar y recuperar imágenes de forma rápida y segura sin consumos elevados de tiempo y coste de proceso.

A principios del año 2000 se realizan las primeras recopilaciones de investigaciones y análisis de tendencias en este área [3,4,5] comienzan algunas a consolidarse como tendencias fuertes.
Sin duda uno de los mejores y más completos Survey del momento es el realizado por la Universidad del estado de Pennsylvania en el que Ritendra Datta, Dhiraj Joshi y Jia Li analizan en profundidad las últimas ideas, influencias y tendencias. [8] De obligada lectura para aquellos que quieran adentrarse en esta disciplina.

En la actualidad se pueden encontrar dos líneas de investigación principales en lo que a sistemas de recuperación de imágenes por contenido se refiere. Su diferencia radica en la arquitectura que determina los algoritmos de almacenamiento y recuperación.

La primera comprende aquellas aplicaciones capaces de procesar imágenes realizando diferentes transformaciones en tamaño, características de la imagen, espacios de color, calidades y algoritmos matemáticos que permitan destacar determinadas características. Se obtiene una imagen simbólica que deriva directamente de la imagen original. Esta aproximación a la solución se sirve de Bases de Datos de Imágenes que almacenan descripciones de las mismas que posteriormente permiten recuperar de una manera rápida las imágenes almacenadas.

La segunda corriente se encarga de extraer información de las imágenes y generar gráficos descriptivos como histogramas y otros, utilizando estos como índice para su posterior búsqueda.
En ambas se pueden observar diferentes niveles de abstracción al tratarse de enfoques aparentemente distintos. Ambos presentan una característica común, el uso de bases de datos de imágenes, sin embargo existen diferentes categorías que se explican a continuación.

1.2. Categorías de bases de datos de imágenes

La primera categorización de bases de datos de imágenes realizada por Timothy Arndt [9] quien dividió los diferentes sistemas por su funcionalidad. Estableció dos categorías principales y subcategorías:
  • Bases de datos de imágenes que se centran en la recuperación de imágenes a partir de una serie de requisitos entre todas las almacenadas:
    • Automatización de Oficinas
    • Sistemas de información médica.
    • Aplicaciones de visión artificial que requieran medidas de similitud.
  • Bases de Datos de Imágenes que se ocupan de obtener información a partir de una única imagen.
    • Sistemas de Información Geográfica (GIS).
    • Aplicaciones de Visión Artificial que requieran la interpretación de imágenes.
La primera clasificación obtendría como resultado a una consulta un conjunto de imágenes similares a la que se introdujo como entrada.

La segunda clasificación daría como resultado un conjunto de características de la imagen que tras ser analizada se convierte en información útil relacionada con el campo de conocimiento en el que se encuentra la imagen.

Algunos sistemas utilizan los dos modos de funcionamiento con el fin de obtener mayor información sobre la imagen de entrada.

2. Clasificación de los sistemas de bases de datos de imágenes

2.1. Sistemas sencillos de bases de datos de imágenes

La técnica más utilizada en la actualidad para integrar imágenes en bases de datos sencillas consiste en almacenarlas junto con metadatos asignados por operadores humanos. [10] Se basan en atributos o sistemas de texto libre [11] pero presentan grandes limitaciones en lo que a búsquedas por contenido se refiere. En los siguientes párrafos se exponen las características de estos sistemas de manera breve por considerarse obsoletas.

2.1.1. Sistema de almacenamiento secuencial no estructurado

Esta fue la primera solución adoptada para mantener conjuntos de imágenes almacenadas y poder acceder a ellas [11,12]. El sistema genera una pequeña muestra de cada imagen. Esta se genera al insertar una nueva imagen en la BBDD. Cuando se quiere recuperar una imagen se genera la muestra de esta imagen y se realiza una búsqueda secuencial.

Se trata de un mecanismo poco eficiente en colecciones grandes. Útil para pocas imágenes precargadas.

2.1.2. Sistema basado en atributos

Se trata de un SGBD convencional en el que en forma de tupla se insertan los atributos y la imagen en formato binario. Los atributos pueden ser palabras, variables binarias, numéricas o lo que se considere más oportuno en función del tipo de atributo.

La estructuración de esta BD se puede realizar de múltiples maneras. Así como el mecanismo de indexado.

Este tipo de BBDD no permite realizar consultas basadas en contenido de una manera cómoda. Se utiliza para resolver problemas determinados muy cerrados, concretos y en colecciones de escaso tamaño.

2.1.3. Sistemas de texto libre

Como su propio nombre indica se almacena la imagen junto a una descripción manual de la imagen. Su principal utilidad consiste en incluir imágenes en textos a partir de una descripción. Sin embargo gran cantidad de autores tachan este sistema de limitado y poco eficiente en sus trabajos [10,11,13,14]. Las limitaciones más comúnmente señalas son:
  1. La búsqueda depende de las palabras clave. Las definiciones pueden ser escasas o no contener estas palabras.
  2. Hay propiedades de imágenes que son muy complicadas de describir, por no decir imposibles. Por ejemplo, ¿Cómo describiría un símbolo?. Una reflexión interesante sobre el tema se puede encontrar en [15].
  3. No existe vocabulario comúnmente aceptado para describir imágenes.
Existen más limitaciones pero no se ha considerado oportuno indicarlas en este documento.

2.2. Sistemas de recuperación de imágenes basados en el contenido

Autores como Gong [10] opinan que la solución a los problemas anteriormente descritos se encuentra en métodos automáticos de procesado de imágenes que permitan almacenar el contenido con anotaciones objetivas, generales, comprensivas y procesables.

La mayoría de los investigadores está de acuerdo con el concepto de “Bases de datos de imágenes inteligentes” pero este concepto es hoy en día ciencia ficción. Queda mucho por investigar en visión por computador antes de llegar a este punto. Sin embargo la meta está clara y parece un punto de unión entre los investigadores aunque existan claro está varias líneas de investigación en sentidos diferentes.

Los sistemas actuales de recuperación de imágenes basados en contenido ofrecen una solución para encontrar imágenes en función de sus propiedades. Se emplean para ello características de bajo nivel como los colores, formas y texturas, que puedan ser extraídas de manera automática. [16,17,18].
Estos sistemas se utilizan para recuperar imágenes mediante un esbozo de la imagen que se desea encontrar. La ventaja de estos sistemas radica en la facilidad a la hora de extraer características ya que se trata de operaciones entre pixels.

El problema que presentan estos sistemas es que no permite realizar consultas a nivel conceptual como los sistemas sencillos.

2.2.1. Sistemas basados en color

Estos sistemas se basan en la presencia del color en la imagen para describir el contenido de la misma. Lo mas habitual es utilizar histogramas. Dependiendo del autor encontramos diferentes opiniones respecto al número de histogramas en función de las regiones o espacios de color como por ejemplo HSV [19], HSI [20], RGB, YIQ o LAB [11].

2.2.2. Sistemas basados en textura

Existen dos grandes grupos: los basados en características heurísticas que intentan cuantificar y generar patrones para definir texturas [11] y los que aplican técnicas de procesamiento de señales o wavelets [21].

2.2.3. Sistemas basados en similitud espacial

Este sistema se basa en las distancias generalmente euclídeas entre los elementos que se encuentran en la imagen. Por tanto la dificultad principal radica en la detección de los objetos y su correcta parametrización dentro de los marcos de la imagen. Evidentemente solo funciona si no se varía el ángulo, altura, distancia de la cámara a los objetos y la distancia entre los objetos. Las limitaciones de este algoritmo son evidentes pese a que en situaciones determinadas puede funcionar perfectamente. [22]

2.2.4. Sistemas basados en forma

Utilizar descriptores de contorno o de región de objetos de una imagen permite realizar búsquedas sobre los elementos almacenados previamente [23]. Otros sistemas se basan en una serie de características estructurales obtenidas a partir de un mapa de bordes o contornos. Se suelen utilizar para realizar búsquedas a partir de esbozos o ejemplos.

2.2.5. Otros sistemas

Es habitual que surjan diferentes líneas de investigación y como casi siempre las primeras son fusiones de las anteriores. También se suele modificar la arquitectura o los algoritmos de almacenamiento o procesado, utilizando por ejemplo redes neuronales para realizar el almacenaje en lugar de sistemas de bases de datos o incluso estructuras complejas de datos [6,7].
Se pueden por tanto utilizar múltiples enfoques a la hora de implementar un sistema de búsqueda de imágenes basado en contenido dependiendo del problema concreto que se pretenda solucionar y fusionando los algoritmos más oportunos.

3. Bibliografía

[1] Chang, S. K. and Hu, A. (1992) “Image Information Systems: Where Do We Go From Here?” .IEEE Transactions on Knowledge and Data Engineering, vol. 5, n.4, pp. 431-442.
[2] Tamura, H. and Yokoya, Y. (1984) “Image database Systems: A survey”. Pattern Recognition, vol. 17, n. 1, pp. 29-43.
[3] Veltkamp, R.C. and Tanase, M. (2002)“A survey in content-based image retrieval systems”, in Marques, O and Furht, B (eds). Content-Based Image and Video Retrieval, pp. 47-101. Boston. Kluwer Academic Publishers.
[4] Rui, Y., Huang, T.S. and Chang, S.F. (1999) “Image retrieval: current techniques, promising directions and open issues”, Journal of Visual Communication and Image Representation, vol. 10, n. 1, pp. 39-62.
[5] Johansson, B. (2000) “A survey on: Contents Based Search in Image Databases”, Technical report Linköping University [Online].
[6] Swanberg, D., Weymouth, T. and Jain, R. (1992) “Content-based modeling in multimedia information systems”. Proc. of 1st International Conference on Information and Knowledge Management, Baltimore, November.
[7] Yoo, H-W, Jang, D-S, Jung, S-H, Park, J-H. and Song, K-S. (2002) “Visual information retrieval system via content-based approach”, Patter Recognition, n. 35, pp. 749-769
[8] Ritendra Datta, Dhiraj Joshi, Jia Li and James Z. Wang, “Image Retrieval: Ideas, Influences, and Trends of the New Age,” ACM Computing Surveys, vol. 40, no. 2, article 5, pp. 1-60, 2008.
[9] Arndt T. (1990) “A Survey of Recent Research in Image Database Management”. Proceedings of the1990 IEEE Workshop on Visual Languages. October 4-6,pp. 92-97.
[10] Gong, Y. (1998) Intelligent image databases. Towards Advanced Image Retrieval. Kluwer Academic Publishers.
[11] Hermes, Th., Klauck, Ch., Kreyβ, J. and Zhang, J. (1995) “Image Retrieval for information systems”. Storage and Retrieval for Image and Video Databases III., Wayne Niblack, Ramesh C. Jain, Editors, Proc. SPIE 2420, pp. 394-405.
[12] Chen, J.Y. and Bouman, C.A. (1999) “Active browsing using similarity pyramids”. Storage and Retrieval for Image and Video Databases VII, Minerva M. Yeung, Boon-Lock Yeo, Charles A. Bourman, Editors, Proceedings of SPIE, vol. 3656, pp. 144-154.
[13] Niblack, W., Barber, R., Equitz, W., Flickner, M., Glasman, E., Petrovic, D. and Yanker, P. (1993) “The QBIC project: Querying images by content using color, texture and shape”. Wayne Niblack editor, Storage and Retrieval for Image and Video Databases, pp. 173-187.
[14] Liang, K.Ch. and Kuo, C.C. J. (1998) “Implementation and Performance Evaluation of A Progressive Image Retrieval System”. Storage and Retrieval for Image and Video Databases VI., Ishwar K. Sethi, Ramesh C. Jain, Editors, Proc. SPIE 3312, pp. 371-382.
[15] Dyson, M. C. (1992) “How do you describe a symbol? the problems involved in retrieving symbols from a database”. Information Services and Use, nº 76, pp. 12-65.
[16] Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q., Dom, B., Gorkani, M., Hafner, J., Petkovic, D. L., Steele, D. and Yanker, P. (1995) “Query by image and video content: the QBIC system”. IEEE Computer, vol. 28, nº. 9, pp.23-32.
[17] Bach, J.R., Fuller, C., Gupta A., Hampaur, A., Horowitz, B., Humphrey, R., Jain, R., Shu, C. (1996) “The Virage image search engine: an open framework for image management”, SPIE Digital Image Storage and Archiving Systems, vol. 2670, February, pp. 76-87.
[18] Smith, J. R. and Chang, S. F. (1996) “VisualSEEk: a fully automated content-based image query system”. Proc. The Fourth ACM International Multimedia Conference, November, pp. 87-98. vol. 3656, pp. 41-48.
[19] Swain, M. J. (1993) “Interactive indexing into image database”. In Storage and Retrieval for Image and Video Databases, vol. 1908, pp. 95-103
[20] Sethi, I.K., Coman, I., Day, B., Jiang, F., Li, D., Segovia-Juarez, J., Wei, G. and You, B. (1998) “Color-WISE: A system for image similarity retrieval using color”. Storage and Retrieval for Image and Video Databases VI., Ishwar K. Sethi, Ramesh C. Jain, Editors, Proc. SPIE 3312, pp. 140-149.
[21] Manjunath, B.S. and Ma, W.Y. (1996) “Texture features for browsing and retrieval of image data”. IEEE Trans. on PAMI Special Issue on Digital Libraries.
[22] Sciascio, E., Donini, F.M. and Mongiello, M. (2002) “Spatial layout representation for query-by-sketch content-based image retrieval”, Pattern Recognition Letters, n. 23, pp. 1599- 1612.
[23] Tao, Y. and Grosky, W.I. (1999) “Delaunay triangulation for image object indexing: a novel method for shape representation”. Storage and Retrieval for Image and Video Databases VII, inerva M. Yeung, Boon-Lock Yeo, Charles A. Bourman, Editors, Proceedings of SPIE, vol. 3656, pp. 631-642.
[24] T. Zielke, M. Brauckmann, W. Von Seelen (1993) Intensity and edge-based symmetry detection with application to car-following. CVGIP: Image Understanding 58 (2) 177-190.
[25] N. M. Charkari, H. Mori (1995) Visual vehicle detection and tracking based on the sign pattern. Advanced Robotics 9 (4) 367-382.
[26] A. Broggi, M. Bertozzi, A. Fascioli, C. Guarino, A. Piazzi (2000) Visual perception of obstacles and vehicles for platooning. IEEE Transactions on Intelligent Transportation Systems 1 (3) 164- 176.
[27] ND Matthews, PE An, JM Roberts, CJ Harris (1998) A neurofuzzy approach to future intelligent driver support systems. Journal of Automobile Engineering 212, 43-58
[28] Csurka, G., Bray, C., Dance, C., Fan, L. (2004) Visual categorization with bags of key points. In: Workshop on Stat. Learning in Computer Vision, ECCV. 1-22.

lunes, 7 de marzo de 2011

Mejora de los sistemas multimodales mediante el uso de ganancia de información

En un trabajo realizado por varios miembros de la Universidad de Jaen se discute el uso de la ganacia de información para reducir y mejorar la información textual incluida en los sistemas de recuperación de información multimodal.

Con el paso del tiempo la cantidad de información disponible en formato electrónico aumenta y ésta tiende a ser cada vez más multimodal (texto, imágenes, sonidos, videos...). Con lo que surje la necesidad de sistemas de búsqueda eficientes para acceder a la información, ya que de nada sirve disponer de la información y no ser capaces de localizarla.

Un sistema CBIR (Content Based Information Retrieval) es una aplicación que busca dentro de una colección de imágenes aquellas que son semejantes o que tienen un contenido similar a una imagen dada como consulta. Estos sistemas realizan la búsqueda basándose en las características y el contenido de la imagen y no en otro tipo de información añadida manualmente, como por ejemplo el título o palabras clave.

Actualmente, están generando bastante interés sistemas en los que además de almacenar imágenes se incluye cierto texto asociado a dichas imágenes (meta-datos). Es el caso, por ejemplo, de los expedientes médicos en los que una radiografía puede tener asociada una información textual relativa al historial clínico del paciente, al comentario de un especialista sobre la radiografía, información sobre el tratamiento propuesto al paciente…Otro ejemplo sería una colección de fotografías con comentarios sobre las mismas. Las fotografías pueden ser cuadros de un museo, fotografías asociadas a noticias en un periódico o catálogos de productos de cualquier tipo. Una manera de recuperar información en este tipo de sistemas podría incluir la recuperación visual por una parte, la recuperación textual por otra, y finalmente, una mezcla de resultados parciales (visuales y textuales) que persigan la optimización de la respuesta dada.

Un ejemplo práctico de la utilización de un sistema mixto (CBIR+IR), lo tenemos en el trabajo diario de un médico. Éste posee casos clínicos de sus pacientes. Dichos casos están compuestos por textos descriptivos del caso e imágenes que ilustran la dolencia. Con un sistema CBIR, ayudado por un sistema IR, el médico podría utilizar una imagen de una dolencia (por ejemplo, una radiografía) y obtener información de casos similares a dicha dolencia. Por lo tanto, la recuperación sería tanto visual como textual, ya que los casos están compuestos tanto por información textual del caso como por imágenes.

Cabe pues plantearse que una recuperación eficiente del texto puede ayudar a mejorar la calidad de los sistemas multimodales en general. El texto puede beneficiarse de las imágenes y viceversa.

En una colección con gran cantidad de metadatos nos encontramos con la problemática de elegir aquellos metadatos que son de mayor utilidad y desechar aquellos que pueden añadir información no relevante (ruido) en nuestro sistema. La ganancia de información es una técnica a través de la cual podemos seleccionar aquellos metadatos que aportan mayor información al sistema ignorando aquellos que no sólo no aportan información alguna, sino que en ocasiones incluso introducen ruido y pueden distorsionar la respuesta del sistema.

En este trabajo se propone el uso de la ganancia de información como técnica para mejorar la calidad del corpus textual asociado a una colección de documentos que representan expedientes médicos. Una mejora del corpus textual implica una mayor eficacia en la recuperación de este tipo de información, lo que repercute directamente en la eficacia del sistema multimodal global.