Recuperacion de Informacion Multimodal.: Extracción de características

Nora La Serna Palomino y Luis Alvarado Ramírez hacen una revisión bibliográfica de las técnicas de representación de imágenes teniendo en cuenta su posterior almacenamiento y recuperación.

Típicamente en CBIR se consideran dos procesos en la representación de imágenes, a) La extracción de características y b) La construcción de descriptores visuales. Sin embargo, en las últimas décadas sobresalen en diversos trabajos la utilización de la técnica de segmentación de imágenes.

Hoy nos centraremos en la extracción de características:

Una característica permite capturar una propiedad visual de una imagen, las mas comúnmente utilizadas en trabajos del CBIR son el color, textura, forma, y puntos salientes en una imagen. A la vez se distinguen dos maneras de extracción: global si se realiza sobre la imagen entera y local si se aplica a un grupo pequeño de pixels.

En extracción global, por ejemplo, en un trabajo que utiliza disposición de color, una imagen es dividida en un numero pequeño de subimágenes, luego se obtienen como característica, para cada subimagen, el promedio de componentes de los colores rojo, verde y azul. Toda la imagen es representada por un vector de componentes de color, en donde una dimensión particular del vector podría corresponder a la ubicación de una cierta subimagen. De igual manera, características de forma o textura pueden ser representados mediante vectores y caracterizar imágenes enteras.

La ventaja de la extracción global es su alta velocidad para ambos extracción de característica y calculo de la similitud para recuperación. Sin embargo, se ha comprobado que utilizar características globales es demasiado rígido para representar una imagen. Específicamente, ellos pueden ser hipersensibles a la ubicación de un componente de la imagen y fallar en identificar características visuales importantes. En este sentido, la extracción local incrementa la robustez de transformaciones espaciales, aunque es necesario un paso adicional, que es sumarizar para obtener la descripción global de la imagen [1], [2].

La extracción local se caracteriza porque se obtiene un conjunto de características para cada pixel y su vecindad, por ejemplo el promedio de los valores de color centrado alrededor de un pixel en un pequeño bloque. En este método, una imagen puede ser dividida en pequeños bloques y las características se obtienen individualmente para cada bloque. De esta manera, los vectores de características que se extraen para el bloque o posición de pixel (i, j) es {Xi j, 1 ≤ i ≤ m, 1 ≤ j ≤ n}, en donde el tamaño de la imagen es m x n.

Para obtener una descripción global de una imagen a partir de extracción local, en la literatura se encuentran varias maneras de sumarizar el conjunto de datos {Xi j, 1 ≤ i ≤ m, 1 ≤ j ≤ n} que han sido extraídos, una de ellas es derivar una distribución para Xi j sobre el conjunto de datos [3]. En otras investigaciones se utilizan técnicas de clarificación, estructuras de arboles o clustering.

Características locales se pueden ver como pequeñas imágenes cuadradas tomadas desde imágenes originales. Las representaciones locales podrían ser de tamaños 15 × 15, 17 × 17 o mas grandes. Las posiciones desde donde los rasgos locales son extraídos, son normalmente determinados por la varianza local de los valores de gris, es decir posiciones con una alta varianza local son de cierta importancia para el contenido de la imagen. En la Figura 1 se muestra una vista de extracción de características locales [1].

Figura 1. Extracción de características locales [1]

1. Característica de color

Es una de las características mas utilizadas en recuperación de imagenes. Un concepto básico es el espacio de color el cual es una expresión numérica que permite especificar un color. El mas conocido es el espacio RGB, mediante el cual se representan en un espacio tridimensional los tres colores primarios por separado, rojo, verde y azul. Por lo tanto, en una imagen con representación de color en el espacio RGB, cada pixel corresponde a un punto en el espacio y a un color que se obtiene por la suma ponderada de los colores básicos rojo, verde y azul, como se muestra en la Figura 2.

Un espacio de color adecuado y mayormente utilizado en CBIR es el HSI o HSV (Hue, Saturation, Intensity/value), que corresponden a matiz, saturación e intensidad o valor. La principal ventaja en este espacio es que no existe correlación entre ellos por lo que cada uno da información diferente sobre los detalles de una imagen, asimismo lo hace adecuado por sus propiedades de invarianza frente a la iluminación y orientación de la cámara. Otros espacios de color utilizados en CBIR son CIE XYZ, CIELAB [3].

El histograma es una herramienta asociada a la característica color de una imagen y es ampliamente utilizada en CBIR, se obtiene la distribución de los niveles de color, es decir, el numero de pixeles de cada color en una imagen, que puede ser util para identificación de características u objetos visuales en una imagen, aunque se pierde información espacial [4] [5].

Figura 2. Sistema RGB (Rojo, Verde y Azul).

imagenes de histología, en donde se calcula el histograma de colores utilizando una partición del espacio RGB de 8 x 8 x 8 obteniéndose 512 posiciones, los cuales se asignaran a un vector de igual cantidad de elementos. Hay varias aproximaciones de histogramas de color, algunas de ellas se explican en la sección 3 de este trabajo.

Un ejemplo de utilización del color se observa en el sistema Qatris [7], en donde para obtener las características de color extraídas de cada imagen, se mide la presencia de un determinado color, enmarcado en una paleta de 14 colores básicos, asignando un porcentaje a cada color de la paleta. La presencia del color se ha medido utilizando el modelo HSV (Hue, Saturation, Value). Además del porcentaje, se obtiene el centroide asociado a cada color, el cual es un punto (x, y) de la matriz de la imagen que determina la situación del centro de gravedad de cada elemento de la paleta. Asimismo, para cada elemento de la paleta de colores, se obtiene el grado de “difuminacion” de un color en la imagen, midiendo para ello la derivación estándar de cada elemento respecto a su centroide.

2. Característica de textura

No hay una definición estándar de textura, en [2] se presenta una definición bastante figurativa, se define la textura como la repetición de un patrón espacial básico, cuya estructura puede ser periódica o aleatoria. Por sus propiedades es fácil de evaluarla: fineza, rugosidad, suavidad, granulación, aleatoriedad, etc.

Una textura puede estar formada por la repetición de un patrón, la repetición puede ser periódica o parcialmente periódica, un ejemplo típico para el primer caso, serian las paredes de ladrillo. En el caso de parcialmente periódica, la repetición del patrón puede ser regular (o estructurado) o puede ser irregular (o aleatorio). Ejemplos para cada caso serian dibujos en una tela y rocas en una montana respectivamente [5]. Algunos ejemplos de textura se observan en la figura 3.

Figura 3. Ejemplos de textura.

Otros aspectos destacables que caracterizan a una textura es su invarianza a los desplazamientos, debido a que siempre se repite cierto patrón a lo largo de una superficie, de esta manera la percepción visual es prácticamente independiente de la posición. Las aplicaciones de textura en recuperación de imagenes son de dominios específicos, como análisis de imagenes medicas, reconocimiento remoto como imagenes aéreas, o en inspección industrial.

Al existir una variedad de texturas, para su análisis no existe una única teoría, sino que en cada caso es preciso aplicar un método adecuado. Al no existir una definición estándar de textura, no existe una clasificación estándar de los métodos para análisis de textura, en esta revisión presentamos aquellas que mas destacan: a) Métodos estructurales o sintácticos, y b) Métodos estadísticos.

En los métodos estructurales, consideran a la textura como una composición de elementos primitivos (características) bien definidos distribuidos con algún patrón de repetición. En la literatura estos métodos de análisis se conocen como descripción de textura sintáctica, debido a que utilizan gramáticas que definen ciertas reglas de las primitivas. Algunos de estos métodos encontrados en [8] son: gramáticas de cadenas de formas, gramáticas de grafos y agrupamiento de primitivas en texturas jerárquicas. En general se aplican como rasgos locales, en regiones y se tienen en cuenta propiedades estadísticas sobre la distribución de los elementos como histogramas, estos estadísticos se convierten en características de textura.

En los métodos estadísticos, en [5] se distinguen los de primer y segundo orden. Los estadísticos de primer orden involucran pixeles simples, por ejemplo en un histograma normalizado de los niveles de gris de una imagen, se pueden considerar datos como la media, mediana, varianza, suavidad, sesgo, curtosis, correlación, energía o entropía para caracterizar una textura. Los estadísticos de segundo orden consideran propiedades de pares de pixeles, por ejemplo métodos de matrices de concurrencia los cuales consideran características como energía, entropía, contraste, homogeneidad, y correlación.

Tamura [9], en su investigación propone seis características de textura que corresponden a la percepción visual humana: aspereza, contraste, direccionalidad, en lineas, regularidad, y rugosidad. Asimismo, se explica en este trabajo las formas de como estas características se pueden medir. El sistema QBIC [10], usa estos rasgos con un ligero cambio para obtener histogramas que describen la textura de la imagen.

En [2] y [8] se describen algunos métodos basados en transformadas y proceso de señales para obtener características de textura, los que están relacionados con la orientación, la magnitud de los componentes frecuenciales, potencia del espectro o segmentación de planos transformados. Algunas de las tecnicas que se utilizan son: operadores de bordes Laplacianas o de Roberts, las basadas en momentos invariantes, aplicadas en el dominio de Fourier o filtros de Gabor, la transformada Wavelet.

3. Característica de forma

Es una de las características mas utilizadas y trabajadas en CBIR, sin embargo su procesamiento automático no es fácil de realizar. Su extracción se realiza tanto de manera local como global. En la literatura se presentan al menos tres categorías para caracterizar las formas presentes en una imagen, que se resumen a continuación: a) Basados en contornos del objeto, b) Basados en mapas de bordes, y c) Basados en regiones [2], [5].

Los métodos de extracción de bordes de una imagen, se basan en la diferencia que experimenta una característica en dos regiones adyacentes y que indican la existencia de un borde. A la vez los bordes pueden clasificarse por su anchura, ángulo de su pendiente de variación, y las coordenadas de su punto medio, entre otros. En general, se identifican diferentes modelos de bordes o contornos: linea, tipo escalón, tipo rampa y tipo tejado. El contorno de una imagen se puede usar como una característica o sobre ella se pueden calcular otras características.

Los métodos basados en mapas de bordes, se aplica a imagenes en las que es difícil realizar una identificacion precisa de los objetos, por ello, los algoritmos de detección de bordes están seguidos por una unión y otros procedimientos de detección de frontera diseñados para reunir a los pixels del borde en un conjunto con significado de fronteras de objetos. Para ello, se usan las derivadas de primer orden con el operador gradiente y las derivadas de segundo orden con el operador Laplaciano.

En extracción local se suelen utilizar dos características, magnitud del vector gradiente y dirección del gradiente, mientras que para procesamiento global se suele utilizar la transformada de Hough que permite detectar bordes de otras formas de objetos que no sean lineas, círculos o elipses [8] [11].

Los métodos basados en regiones, últimamente muy utilizados en CBIR, se trata de extraer los objetos de una imagen, los que pueden ser procesados de manera independiente, para ello se utilizan propiedades espaciales de una imagen para segmentarla por regiones, es decir la imagen es dividida en regiones conexas, en donde cada región tienen características distintas que las diferencian unas de otras [12] [13]. En la figura 4 se observa un ejemplo de extracción de forma.

Figura 4. Característica de forma de un pato.

Hay varios trabajos en CBIR utilizando bordes, por ejemplo, en [14], las curvas son representadas por un conjunto de segmentos o tokens, cuyas representaciones de características (curvatura y orientación) son organizadas en un árbol métrico. En [6], se utiliza el operador Sobel para calcular la diferencia de intensidad en la vecindad de cada pixel en las direcciones vertical y horizontal, obteniéndose como resultado, el cual es una característica, el valor de la magnitud de cambio en esa vecindad. Al utilizar un histograma con base en estos datos se obtiene la función de distribución de los cambios en la imagen.

En la próxima entrada veremos los descriptores de imágenes.

[1] Chen, et al. Machine Learning and Statistical Modeling Approaches to Image Retrieval. Kluwer Academic Publishers, 2004.

[2] Maldonado Bautista Jose. Estudio de metodos de indexacion y recuperacion en bases de datos de imagenes. Tesis Doctoral. Universidad del pais Vasco, 2008.

[3] G. Paschos, I. Radev, and N. Prabakar. Image content-based retrieval using chromaticity

moments. Knowledge and Data Engineering, IEEE. Transactions, 2003.

[4] Gonzalez, R.C., Woods, R.E.: Digital Image Processing, Pearson Prentice Hall, 2008.

[5] Mazo, Q. M. &Boquete, V.L. &Barea N.R. Vision Artificial. Publicaciones UAH. ISBN 84 8138 101 2, DL. M 1321 1996.

[6] Caicedo J., et al. Prototipo de Sistema para almacenamiento y recuperacion por contenido de imagenes medicas de Histopatologia. UNC. 2006.

[7] SICUBO S.L. en estrecha colaboracion con el grupo de investigacion de ingenieria de medios de la Universidad de Extremadura. 2006.

www.sicubo.com/index/es/Soluciones/Qatris_Imanager

[8] Sonka M., Hlavac V., y Boyle R. Image Processing, Analysis, and Machine Vision. Thomson 2008.

[9] Tamura, H et al. Textural features corresponding to visual perception. IEEE Transactions on Systems, Man and Cybernetic. 1978.

[10] Filickner M. et al. QBIC: Query by Image and Video Content: The QBIC System. IEEE Computer, 1995.

[11] Ritendra Datta, et.al. Image Retrieval: Ideas, Influences, and Trends of the New Age. ACM

Computing Surveys, Vol. 40, No. 2, 2008.

[12] Mery Domingo. Automated Flaw Detection in Aluminum Castings Based on the Tracking of

Potencial Defects in a Radioscopic Image Sequence. IEEE Transactions on Robotics and Automation, Vol XX August 2002.

[13] Pistori, H.; Computer Vision and Digital Inclusion of Persons with Special Needs:

Overview and State of Art. CompIMAGE - Computational Modelling of Objects Represented in Images: Fundamentals, Methods and Applications, Coimbra, Outubro 20- 2006.

[14] Berretti et al.Retireval by shape similarity with perceptual distance and effective indexing.IEEE Transaction Multimedia. 2000.

Recuperacion de Informacion Multimodal.

sábado, 7 de mayo de 2011

Extracción de características

No hay comentarios:

Publicar un comentario