Recuperacion de Informacion Multimodal.: Descriptores de imágenes

Continúo con el artículo de La Serna y Alvarado.

Un descriptor de una imagen es una forma de representar a una imagen por sus características, con fines de almacenamiento y recuperación, en donde el descriptor es una formulación matemática. La formulación del descriptor se realiza tanto para características locales como globales. En [1] se clasifica de manera general a los descriptores en dos tipos: a) vectores y b) distribuciones. Aunque, en muchos casos se combinan ambos tipos, los cuales son representados como un conjunto de vectores con peso, obtenidos a partir de distribuciones discretas.

Aunque las distribuciones usualmente son de tipo discreto, también pueden ser de tipo continuo y estocástico. En vectores de características locales, las distribuciones pueden ser como una función de densidad continua [2] o un modelo espacial estocástico. Una densidad continua es generalmente más precisa en describir una colección de vectores de características locales que una distribución discreta, mientras que un modelo estocástico tiene en cuenta la dependencia espacial entre los vectores de características locales.

En la práctica, los vectores están formados por un conjunto de características que corresponden a color, forma, textura. Por ejemplo, en [3] el sistema ASSERT almacena 255 características de propósito general, y para recuperación mediante un algoritmo selecciona 12 características: cinco niveles de gris, cinco de textura, y dos características de forma. Las características de textura son el contraste, la entropía, la homogeneidad, y las tendencias de clusters. Las características de la forma son el área y la distancia más cercana a la región lobular. Ejemplos del mismo estilo de vectores se observan en [4] y [5].

Los métodos más usuales para extracción de características globales son: histograma de color, histograma de textura, disposición del color de toda la imagen, y características seleccionadas desde análisis discriminante multidimensional de una colección de imágenes.

Ejemplos de descriptores con extracción global se observan en [4] y [6]. El sistema CIRES [4] usa extracción de características globales, para ello define una estructura de la imagen como un alto nivel semántico para realizar la recuperación. Para extraer la estructura de la imagen, lo hace mediante el agrupamiento perceptual de las características de bajo nivel de la imagen, tal como la textura o color, dentro de una interpretación significativa de alto nivel.

De otra manera, es importante resaltar que la obtención de características para un sistema de visión de aplicación general, debería presentar las siguientes invariancias, a) respecto a las traslaciones, es decir si la imagen se mueve el sistema debería identificarla, b) respecto a los giros, es decir si la imagen gira un Angulo determinado, y c) a los cambios de escala. Aunque algunas características no requieren de estas invariancias como la textura [7]. Trabajos robustos en CBIR incluyen técnicas para alineamiento de características para procesar invariancias en imágenes.

En [10] se presenta otra clasificación de los descriptores de imágenes, es decir en: a) Histogramas, b) Basados en particiones, y c) Basados en regiones. Algunas de sus técnicas se explican a continuación.

1. Histogramas

Un descriptor ampliamente utilizado tanto para rasgos globales como locales, es el histograma de una imagen, el cual es una herramienta usada para la obtención de características de una imagen, es fácil de calcular aunque se pierde información espacial. Se define como una distribución discreta que representa el número de pixeles de cada color en la imagen. Asimismo, puede ser considerado como un vector de frecuencias de dimensión k, en donde k es el número de colores que aparecen en una imagen, y cada elemento del vector es la frecuencia de aparición de un color, (f1, f2,..,fk) [1] [9].

1.1. Histogramas de color global

Un histograma de color global (CGH, por sus siglas en ingles), define el número de pixeles de cada color que existen en una imagen determinada. Sus ventajas son su rápida implementación, eficiencia e invariabilidad ante ciertos cambios en la imagen, como son rotación y ciertas variaciones en el Angulo con que fueron tomadas.

En cambio sus desventajas son la sensibilidad a la compresión de la imagen, los cambios de brillo y sobre todo el hecho de que no proporciona ningún tipo de información espacial. Esto último quiere decir que no indica la localización de los diferentes colores, únicamente nos dice su cantidad dentro de la imagen. Debido a esto pueden haber dos imágenes completamente diferentes que tengan histogramas muy parecidos (como se muestra en la figura 1) [10].

Figura 1. Dos imágenes distintas con histogramas similares.

En la figura 2 se observan los histogramas para cada imagen de textura que se presenta. Las características extraídas desde el histograma de color para cada imagen son: media, varianza, coeficiente de asimetría y coeficiente de kurtosis, cuyos valores se muestran para cada imagen respectivamente.

Figura 2. Ejemplos de imágenes de textura, histogramas de color y sus características [7].

2. Basados en particiones

El objetivo de este enfoque trata de superar la falta de información espacial acerca de las propiedades extraídas de la imagen en CGH. Primero descompone la imagen en un número fijo de particiones, y para cada una, se obtienen las propiedades de bajo nivel deseadas.

2.1. Vectores de coherencia de colores

Una manera de combatir la falta de información espacial en histogramas, es el uso de vectores de coherencia de colores (CCV por sus siglas en ingles). Los CCV utilizan histogramas de color junto con información acerca de la ubicación de los colores para poder determinar la similitud entre imágenes.

Los autores de este método definen la coherencia de un color como el grado en que los pixeles de ese color pertenecen a regiones grandes de colores similares. Un pixel coherente forma parte de una región grande de un color similar y un pixel incoherente no. Los CCV comparan las imágenes en base a su clasificación de pixeles coherentes e incoherentes [8].

2.2. Enfoque Grid9

Consiste en dividir la imagen en 9 celdas de tamaño uniforme (3 filas X 3 columnas), ver figura 3. Para cada celda se calcula un histograma de color local, de esta manera se pretende representar el color y su ubicación dentro de la imagen.

Figura 3. Una imagen segmentada en base al enfoque Grid.

3. Basados en regiones

Este enfoque usa segmentación para descomponer imágenes en regiones de acuerdo a las características visuales. Con esto se pretende reemplazar a los enfoques anteriores en aspectos importantes. El primero de ellos es representar la imagen en base a los objetos contenidos en ella, lo cual asemeja la forma en que los humanos observamos y descomponemos una imagen en objetos (personas, arboles, cielo, mar, etc.) y no en distribuciones de color y particiones fijas.

El segundo aspecto, el cual tiene que ver con la semántica, se encuentra relacionado con el primero en el sentido que los objetos dan un significado a la imagen. Si los identificamos, podemos deducir con mayor facilidad el contexto y la situación que la imagen describe.

El vector de frecuencias de dimensión k (f1, f2,..,fk), puede ser modificado para contener ubicaciones, para ello cada elemento del vector es un par de valores (z, f), en donde z es el centro o ubicación de un color en la imagen, y f es la frecuencia del color, ((z1, f1), (z2, f2),..,(zk, fk)), de esta manera los k colores dependen de la imagen que es procesada. Esta descripción es ampliamente usada en descriptores basados en regiones, en donde una imagen es segmentada en regiones, y los pixeles en una región tienen rasgos comunes, por ejemplo tienen el mismo color. Es decir, z es un punto en una región con rasgos o características visuales homogéneos [1] [11].

Una técnica utilizada para clasificar características a una región es el clustering, como el k-means, en donde un clúster contiene características de una región. Un método utilizado es el Color-base clustering (CBC) [12], descompone la imagen en componentes conectados disjuntos. Cada región presenta un tamaño mínimo y un máximo color desigual. Además, cada región es definida en términos del color promedio en el espacio Lab, su centro vertical y normalizado horizontal, y su tamaño de pixeles normalizados con respecto al tamaño de la imagen.

4. Segmentación de imágenes

La segmentación subdivide una imagen en sus partes constituyentes u objetos, con el fin de separar las partes de interés del resto de la imagen, por lo tanto el nivel al que se lleva a cabo esta subdivisión depende del problema a resolver. Un aspecto importante de esta técnica es que permite representar la imagen en base a los objetos contenidos en ella, lo cual asemeja la forma en que los humanos observamos y descomponemos una imagen en objetos como personas, montanas, plantas, etc. [13].

Las técnicas básicas en segmentación son: detección de bordes, umbralización y basado en regiones. Mientras que en detección de bordes la segmentación se basa en la diferencia que experimenta una característica en dos regiones adyacentes y que indican la existencia de un borde, en donde los bordes se clasifican por su anchura, ángulo de su pendiente de variación, y las coordenadas de su punto medio.

La umbralización consiste en agrupar los pixeles de una imagen pertenecientes a los diversos objetos de la misma imagen diferenciándolos del fondo. De esta manera, por ejemplo, la segmentación basada en el histograma se basa en la elección de uno o varios umbrales que permiten agrupar los puntos de la imagen en regiones de características similares en función de sus niveles de gris [14] [15].

Varias investigaciones en CBIR utilizan la segmentación basada en regiones, la técnica utiliza propiedades espaciales de una imagen para segmentarla por regiones, es decir la imagen es subdividida en regiones conexas, en donde cada región tiene propiedades distintas que las diferencian unas de otras. En suma, se trata de extraer los objetos de una imagen, las que pueden ser procesadas de manera independiente. Varias técnicas de procesamiento de imágenes basadas en regiones se destacan, dos de ellas son a) crecimiento de regiones y b) división y fusión de regiones [7], [11]. En la figura 4 se observa de manera gráfica un proceso de esta técnica, en la que se alcanza a ver la segmentación de una región de la imagen.

Figura 4. Segmentación orientada a regiones.

[1] Ritendra Datta, et.al. Image Retrieval: Ideas, Influences, and Trends of the New Age. ACM Computing Surveys, Vol. 40, No. 2, 2008.

[2] Do M. and Vetterli M. Wavelet-Based texture retrieval using Generalizad Gaussian density and Kullback distance. IEEE Transaction Image Processing. 2002

[3] ASSERT. The School of Electrical and Computer Engineering at Purdue University,West Lafayette. rvl2.ecn.purdue.edu/˜cbirdev/WEB_ASSERT/assert.html.

[4] CIRES. Department of Electrical and Computer Engineering The University of Texas at Austin. 2007. amazon.ece.utexas.edu/~qasim/research.htm

[5] SICUBO S.L. en estrecha colaboracion con el grupo de investigacion de ingenieria de medios de la Universidad de Extremadura. 2006. www.sicubo.com/index/es/Soluciones/Qatris_Imanager

[6] James Z. Wang, Member, IEEE, Jia Li, Member, IEEE. Simplicity. 2001.

[7] Mazo, Q. M. &Boquete, V.L. &Barea N.R. Visión Artificial. Publicaciones UAH. ISBN 84 8138 101 2, DL. M 1321 1996.

[8] Pass G. et al. Comparing image using color coherence vectors. ACM Multimedia. 1996.

[9] Koskela, M. Content-based image retrieval with self-organizing maps, Master’s thesis, Laboratory of Computer and Information Science, Helsinki University of Technology. 1999.

[10] Swain M. et al. Color indexing IJCV 1991.

[11] Sonka M., Hlavac V., y Boyle R. Image Processing, Analysis, and Machine Vision. Thomson 2008.

[12] Stechling R. et al. An adaptive and efficient clustering-based approach for content-based iimage retrieval in image database. IEEE Int. Database Engineering and Applications Symposium. 2001.

[13] Gonzalez, R.C., Woods, R.E.: Digital Image Processing, Pearson Prentice Hall, 2008.

[14] Mery Domingo. Automated Flaw Detection in Aluminum Castings Based on the Tracking of Potencial Defects in a Radioscopic Image Sequence. IEEE Transactions on Robotics and Automation, Vol XX August 2002.

[15] Pistori, H.; Computer Vision and Digital Inclusion of Persons with Special Needs: Overview and State of Art. CompIMAGE - Computational Modelling of Objects Represented in Images: Fundamentals, Methods and Applications, Coimbra, Outubro 20- 2006.

Recuperacion de Informacion Multimodal.

sábado, 21 de mayo de 2011

Descriptores de imágenes

No hay comentarios:

Publicar un comentario