Recuperación de información: BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN

miércoles, 6 de octubre de 2010

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN

Búsqueda y Recuperación de información

El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental.

Sistema de recuperación de información: proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.

Componentes:

• Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.

• Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer qué tipo de ecuaciones serán permitidas.

Técnicas de recuperación de información

o Sistemas de recuperación de lógica difusa
Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento

o Técnicas de ponderación de términos
Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

o Técnica de clustering
Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Algoritmos utilizados para realizar la categorización (cluster):

 Algoritmo K-means
 COBWEB
 Algoritmo EM

o Técnicas de retroalimentación por relevancia
Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación

o Técnicas de stemming
Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Algoritmos utilizados para desechar prefijos y sufijos:

 Paice/Husk
 S-stemmer / n-gramas
 Técnicas lingüísticas

Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.

REFERENCIA

PINTO MOLINA, María. Electronic Contents Management Skills. [en línea]. [consulta: 06 de octubre de 2010]. Disponible en: http://www.mariapinto.es/e-coms/recu_infor.htm