BIENVENIDOS A NUESTRO BLOG

Este blog se crea gracias al espacio Academico Recuperación de Información que hace parte del programa de Sistemas de información y documentación de la Universidad de la Salle

Profesor Laureano Felipe Gomez



Recuperación de Información

Recuperación de Información
Este enlace te ayudara a consultar mas sobre recuperacion de información

sábado, 11 de septiembre de 2010

Recuperación de información MEMORIAS DE CLASE 5

viernes 27 de Agosto de 2010
Procesos de recuperación de Informapción 
INDIZACIÓN: es el proceso de describir o representar el contenido temático de un recurso de información. Acción de describir o identificar un documento en relación con su contenido. Genera otra colección igual a la primera. Representar un conjunto de documentos en base a esos términos.

Cada documento implica que un documento está en un sistema de información 2 veces. Son estructuras de datos organizados. Indizar es aplicar una técnica. Dependiendo del sistema de información se puede identificar si usa índices (depende del contenido del documento).

Durante la indización los conceptos se extraen del documento mediante análisis y luego de este proceso los conceptos se transforman en términos de indización. La indización consiste en :

1. Examen del documento y determinación de su contenido
2. Identificación y selección de los conceptos principales del contenido
3. Selección de los términos de indización
Opciones de búsqueda
a. Recorriendo el texto: busca algo que contenga la palabra, sirve para abrir y recorrer el texto. Si corresponde la búsqueda lo muestra. (ejemplo: windows)
b. Procesamiento del contenido del texto: se aplica teoría de indización para grandes colecciones y colecciones estáticas (el contenido siempre va a estar allí, que no se muevan del directorio)
Índices: los índices de estructura de datos de Un Sistema de Recuperación de Información permiten realizar búsquedas mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.
Estructura de índices

1. Archivos directos: se toma de cada documento

2. Archivo inverso: genera una matriz de términos; tipo de documento. Índice en cuya estructura se encuentra: palabra clave, ID documento, ID campo. Se compone de:

Vocabulario: conjunto de palabras que aparece en un texto.

Ocurrencias: lista de las apariciones de cada palabra en el texto, una por cada palabra.

Entramos y revisamos la LISTA WIP, que permite analizar la estructura semántica de la red para medir y comparar la popularidad de los personajes más importantes de todo el mundo. Ingresamos a la dirección http://www.elpais.com/graficos/tecnologia/Lista/WIP/elpeputec/20080215elpeputec_1/Ges/

Y los resultados fueron:

1. Búsqueda de nombres los robots buscan en la red nombres propios de personas que aparezcan en la web, a partir de la web semántica que analiza el contenido de cada sitio por palabra y el contexto en que se encuentra.

2. Documentación: si la palabra cumple los requisitos, el robot contextualiza datos respecto al personaje: profesión, fecha de nacimiento, lugar de trabajo, rol social, etc.

3. Relaciones entre personajes: el robot mediante un algoritmo comprueba otros personajes relacionados con el personaje de la búsqueda y evalúa el porcentaje de relación para determinar si es relevante o no.

4. Presencia en la red: el robot analiza el número de veces que el personaje aparece en internet contextualizando el tipo de perfil del mismo.

5. Índice de popularidad: cada día busca el número de veces que el personaje aparece en sitios de noticias, para poder comprar con fechas anteriores para obtener el índice de tendencia de su índice de popularidad.

6. La lista WIP: todo el contenido se envía a una base de datos que sirve de soporte para la elaboración de la lista WIP.
Se descargo el programa AntConc 3.2.1w se guardo en descargas luego se ejecuto file open dir se escoge el archivo que se va indexar Word list start (genera ranking, frecuencia y términos) se ingresa por collocate se ingresa por concordance se ingresa por concordande plot analizando opciones de la indización



1 comentario:

  1. Excelente espacio para conocer una herramienta tan importante como es la recuperación de la información.

    Es poder tener alternativas para tener segura la información, pues dicen por ahi: "Quien tiene la información tiene el poder".

    Felicito a los creadores de este blog.

    Excelente material, ojala se encuentren más blog de esta manera que contribuyen al conocimiento.

    ResponderEliminar