BIENVENIDOS A NUESTRO BLOG

Este blog se crea gracias al espacio Academico Recuperación de Información que hace parte del programa de Sistemas de información y documentación de la Universidad de la Salle

Profesor Laureano Felipe Gomez



Recuperación de Información

Recuperación de Información
Este enlace te ayudara a consultar mas sobre recuperacion de información

sábado, 11 de septiembre de 2010

Recuperación de información MEMORIAS DE CLASE 5

viernes 27 de Agosto de 2010
Procesos de recuperación de Informapción 
INDIZACIÓN: es el proceso de describir o representar el contenido temático de un recurso de información. Acción de describir o identificar un documento en relación con su contenido. Genera otra colección igual a la primera. Representar un conjunto de documentos en base a esos términos.

Cada documento implica que un documento está en un sistema de información 2 veces. Son estructuras de datos organizados. Indizar es aplicar una técnica. Dependiendo del sistema de información se puede identificar si usa índices (depende del contenido del documento).

Durante la indización los conceptos se extraen del documento mediante análisis y luego de este proceso los conceptos se transforman en términos de indización. La indización consiste en :

1. Examen del documento y determinación de su contenido
2. Identificación y selección de los conceptos principales del contenido
3. Selección de los términos de indización
Opciones de búsqueda
a. Recorriendo el texto: busca algo que contenga la palabra, sirve para abrir y recorrer el texto. Si corresponde la búsqueda lo muestra. (ejemplo: windows)
b. Procesamiento del contenido del texto: se aplica teoría de indización para grandes colecciones y colecciones estáticas (el contenido siempre va a estar allí, que no se muevan del directorio)
Índices: los índices de estructura de datos de Un Sistema de Recuperación de Información permiten realizar búsquedas mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.
Estructura de índices

1. Archivos directos: se toma de cada documento

2. Archivo inverso: genera una matriz de términos; tipo de documento. Índice en cuya estructura se encuentra: palabra clave, ID documento, ID campo. Se compone de:

Vocabulario: conjunto de palabras que aparece en un texto.

Ocurrencias: lista de las apariciones de cada palabra en el texto, una por cada palabra.

Entramos y revisamos la LISTA WIP, que permite analizar la estructura semántica de la red para medir y comparar la popularidad de los personajes más importantes de todo el mundo. Ingresamos a la dirección http://www.elpais.com/graficos/tecnologia/Lista/WIP/elpeputec/20080215elpeputec_1/Ges/

Y los resultados fueron:

1. Búsqueda de nombres los robots buscan en la red nombres propios de personas que aparezcan en la web, a partir de la web semántica que analiza el contenido de cada sitio por palabra y el contexto en que se encuentra.

2. Documentación: si la palabra cumple los requisitos, el robot contextualiza datos respecto al personaje: profesión, fecha de nacimiento, lugar de trabajo, rol social, etc.

3. Relaciones entre personajes: el robot mediante un algoritmo comprueba otros personajes relacionados con el personaje de la búsqueda y evalúa el porcentaje de relación para determinar si es relevante o no.

4. Presencia en la red: el robot analiza el número de veces que el personaje aparece en internet contextualizando el tipo de perfil del mismo.

5. Índice de popularidad: cada día busca el número de veces que el personaje aparece en sitios de noticias, para poder comprar con fechas anteriores para obtener el índice de tendencia de su índice de popularidad.

6. La lista WIP: todo el contenido se envía a una base de datos que sirve de soporte para la elaboración de la lista WIP.
Se descargo el programa AntConc 3.2.1w se guardo en descargas luego se ejecuto file open dir se escoge el archivo que se va indexar Word list start (genera ranking, frecuencia y términos) se ingresa por collocate se ingresa por concordance se ingresa por concordande plot analizando opciones de la indización



La exploración como mecanismo de recuperación

Las limitaciones inherentes al proceso de recuperación mediante ecuaciones han conducido a experimentar otras aproximaciones. Una de las más utilizadas es aquella que utiliza la exploración, es decir, el acceso a los documentos mediante técnicas de visualización de parte de su contenido que puede ser relevante, y la posterior asociación con otros documentos de perfil similar. Para Doyle (ELLIS, 1990: 22-23), esta capacidad de exploración debería ser fundamental en los sistemas. El usuario accede a un listado o enumeración de elementos descriptivos, y mediante un proceso de selección de elementos, va centrando el objetivo de su búsqueda. Los criterios utilizados por el usuario se basan en la deducción y la asociación de conceptos (aproximación ésta similar a la que utiliza un sistema hipertextual -ver infra el capítulo pertinente-) frente a la lógica de conjuntos que se plantea en un sistema de ecuaciones. Este tipo de representación es más adecuada para reflejar la polirepresentación que un concepto puede tener para un usuario individual. En cambio, la utilización de la exploración suele realizarse en entornos en los cuales el usuario no posee una idea clara de cual debería ser la mejor táctica para aproximarse a la información que precisa. Por lo tanto, la cuestión clave a considerar en un sistema de exploración es combinar las ideas y esquemas del usuario con el esquema de organización de la información que ofrece el sistema (INGWERSEN, 1992: 135-140). Esta es la aproximación que pretenden desarrollar los enfoques cognitivos, poniendo su énfasis en el intermediario que debe existir entre el modelo del usuario y el modelo del sistema.
Referencia
TRAMULLAS,Jesús, KRONOS.La exploración como mecanismo de recuperación 1997, 2000. Consultado En: http://tramullas.com/documatica/3-6.html

Paradigma de interrogación: el problema de la relevancia en la Recuperación de Información

La interrogación se puede caracterizar como un proceso en el que el usuario lanza a una base de datos una sentencia (juicio) de búsqueda utilizando palabras clave y el sistema debe localizar la información que mejor satisfaga la búsqueda a través del emparejamiento (matching) entre el/los términos de la sentencia, y el/los términos almacenados en la base de datos.

El propósito de todo sistema de representación y Recuperación de Información no es proporcionar mucha información, sino proporcionar información relevante. La autora define la relevancia como “la relación que existe entre una necesidad de información manifiesta y la información almacenada”. En torno al concepto de información almacenada que no se trata como almacenamiento tangible ni univoco, y por otro, en torno a la necesidad de información manifiesta, ya que en internet muchas veces, no existe tal necesidad concreta de información.

En los sistemas de información, la relevancia se ha medido a través del número de documento que satisface una necesidad de información de un usuario, y ha dado lugar a indicadores y parámetros de evaluación cuantitativa, del éxito de un sistema de recuperación de información a través del cálculo de la tasa de exhaustividad.

Para evaluar la relevancia es necesario tener en cuenta una doble perspectiva: por un lado, el punto de vista cognitivo sobre cómo opera y se comporta el usuario ante una necesidad de información, y por otro, el punto de vista algorítmico. Con lo anterior, se distingue la relevancia subjetiva y la relevancia objetiva o valorable.

Relevancia subjetiva: la relevancia es subjetiva en sí misma, el usuario siempre tiene una intención concreta (una necesidad manifiesta de información). Cuando un usuario realiza una consulta especifica, el es intencionalmente relevante, porque sabe lo que está pensando y lo que quiere encontrar y espera lo mismo del sistema de búsqueda que interroga.

Relevancia objetiva: se basa en el análisis del propio mecanismo de recuperación, esto es, de algoritmos que utiliza el search engine, que es transparente para el usuario. Lo que se evalúa es el sistema/software que realiza el cálculo de la relevancia, que puede ir desde el número de veces de los términos de la pregunta que aparecen en cada documento candidato para satisfacerla (exact matching), al cálculo más sofisticado utilizando algoritmos de asignación de pesos a los términos que ponderan con un valor más alto a los más específicos, y con un valor más bajo a los muy abundantes.

La asignación de metadatos a los objetos de la red permitiría una mayor relevancia en los sistemas de recuperación global, tanto desde el punto de vista objetivo como subjetivo. Esos metadatos de carácter general servirán, teniendo en cuenta en lo que se fija el usuario, para determinar la utilidad de los recursos recuperados como resultado a una consulta. De esta manera, la relevancia dependerá no solo de la función de comparación de la palabra clave introducida, invertido del buscador, dependerá en muchos casos, también, del tipo de documento encontrado, del autor, de la actualidad del recurso (fecha), del idioma en que está escrito, etc., y de la medida en que el resultado pueda anticipar al usuario el interés que tiene los documentos encontrados potencialmente para él.


Referencia

MENDEZ RODRIGEZ, Eva. Metadatos y recuperación de información. estándares, problemas y aplicación en bibliotecas digitales. Asturias: Ediciones Trea, S.L., 2002. p 237-240

viernes, 10 de septiembre de 2010

Recuperación de información

Recuperación de información

Según Calvins Mooers la Recuperación de Información es “el proceso el método por el cual un usuario es capaz de convertir su necesidad informativa en una lista de citas de documentos almacenados, que contienen la información útil para él”. La Recuperación de Información la autora la toma como el conjunto de técnicas autorizadas que permiten localizar y en muchos casos llegar a la información que buscamos.

La Recuperación de Información es el proceso por el cual, una vez preparado el documento e identificada la necesidad informativa, se produce una comparación entre ambas para producir unos resultados satisfactorios para el usuario y consta de 5 fases:

1. Preparación de la información: este tratamiento puede ser mínimo, consistiendo simplemente en un cambio de soporte, o más complejo, como puede ser un sistema de indización por las raíces de las palabras.

2. Identificación de la necesidad informativa: preparándola para que pueda interrogar a la base de daros. Este proceso será más o menos complejo en función del sistema de búsqueda que se emplee.

3. Comparación de la pregunta que expresa la necesidad del usuario: con el contenido de la base de datos. Los métodos de comparación varían en función del sistema con el que se trabaje.

4. Salida del resultado de la fase anterior.

5. Evaluación de los resultados: si no se evalúa no se puede conocer realmente si los resultados son satisfactorios y si el sistema es adecuado o no.


Referencia

GOMEZ DIAZ, Raquel. La lematización en español: una aplicación para la Recuperación de Información. Asturias: Ediciones Trea, S.L., 2005. p. 33-47.