Recuperación de información: 12/9/10

sábado, 18 de septiembre de 2010

Recuperación de información Memorias de Clase 7

Lunes 13 de septiembre de 2010

Diferencia entre recuperación de información y recuperación de datos

• Recuperación de información trata de resolver una necesidad de información.

o No hay una sola forma de saber cómo preguntar
o A la pregunta formulada múltiples respuestas, relacionado con el % de relevancia
o Lenguaje natural (procesamiento de lenguaje natural) es cambiante
o Para cada persona hay resultados diferentes, para preguntas diversas (subjetividad)

• Recuperación de datos: es un proceso más sencillo, no resuelve el problema de la recuperación de información solo devuelve datos sobre un tema.

o Forma exacta para generar preguntas
o Inferencia (como puedo establecer la pregunta)
o 100% de satisfacción a la pregunta hecha
o Lenguaje SQL (artificial)
o Si hay error se vuelve a hacer la pregunta hasta que salga el resultado
o Es la misma respuesta para varias personas (objetividad)

Objetivos de la Recuperación de Información

1. Poder recuperar sobre cualquier tipo de documento (texto, video, imagen, etc.)

2. Poder entender cualquier pregunta

3. Encontrar el mejor mecanismo para calcular la relevancia (los mejores procesos de comparación y análisis, mostrar los resultados)

Proceso de recuperación de información

a. Necesidad de información (vacio conceptual)
b. Definición necesidad (preguntas
c. Selección de recursos de información
d. Consulta de recuperación de información
e. Evaluación de resultados
f. Presentación al usuario

Problema de los lenguajes de consulta y recuperación de información
Como yo pregunto y como el sistema interpreta la pregunta, transformación del lenguaje (estandarizar)

Tipos de representación de la información

1. Lenguaje humano: pregunta del lenguaje natural (manejo regional de expresiones, de forma cotidiana, es poco conciso, ambigüedades, es difícil de interpretar). No hay ningún sistema que interprete el lenguaje natural de forma exacta.

2. Lenguaje restringido: se cambia la expresión de las preguntas (la transforma), cambia a términos controlados. Transforma la pregunta para que sea más efectiva. Cambia la expresión de búsqueda con términos normalizados con la finalidad que el computador entienda. Es más efectivo con menos palabras.
Lenguaje controlado: haciendo un tesauro, relaciones semánticas.

3. Lenguaje artificial: según reglas de la maquina, utilizando operaciones, palabras (especificas), símbolos. Se tiene otra transformación de búsqueda y aplica reglas de la maquina. Se cambia de expresión a ecuación que siga modelos lógicos matemáticos. Ecuaciones de búsqueda.

Como preguntar?

Pregunta tomada como:

• Ecuación
• Conjunto de términos
• Expresión

Notas de clase:

* Como se había mencionado la extracción de información se toma como un subproceso de Recuperación de Información.
* Las bases de datos son diferentes a las bases documentales.
* Los sistemas de recuperación de información
* Expresiones de búsqueda: conjunto de términos en lenguaje natural
* Demanda documental: con ecuaciones de búsqueda
* Ecuaciones de búsqueda: expresión de búsqueda

jueves, 16 de septiembre de 2010

LA RECUPERACION DE INFORMACION Y LOS REGISTROS ELECTRONICOS FRENTE A LAS FUNCIONES DOCUMENTALES

Una buena gestión de documentos electrónicos se debe sustentar en la ejecución y aplicación de tres funciones documentales: declaración, clasificación y aplicación del ciclo vital del documento.
Declarar el documento, es decir, registrarlo para darle existencia dentro del sistema documental de la empresa, implica varias tareas tales como:
Marcar un registro como un documento, lo cual se puede realizar manualmente o a través de procesos de flujo auto9matizados. Se debe tener en cuenta que algunos datos de las aplicaciones pueden ser usados como un campo de valor para los metadatos.
Crear los metadatos del documento: como es único ID, asunto, para, de, etc. Para ser almacenado en servidor especifico.
Revisar privilegios de usuario: para editar, cambiar o borrar el registro, antes de ser declarado como documento.
Clasificar el documento, de acuerdo con una estructura archivística previamente aprobada. Implica tareas tales como:
Agrupar los documentos a partir del cuadro de clasificación de la entidad, ya sea bajo conceptos que reflejan las funciones generales, las actuaciones específicas de la entidad o siguiendo la estructura orgánico-funcional de la entidad.
El objetivo de este proceso es el de facilitar la localización conceptual de los documentos, así como su ubicación física en un repositorio electrónico.
Existe la opción automática de clasificación del documento para lo cual se deben definir reglas de almacenamiento de los documentos electrónicos con base en los metadatos, códigos de archivo, etc.
En el caso de la clasificación manual de los documentos se deben tener en cuenta pasoso como: desconocimiento del asunto de los documentos, listas de códigos de archivos para almacenar en servidor de documentos electrónicos, seleccionar los códigos de la lista de códigos de archivo y almacenar el código del archivo, como un metadato más y así su recuperación posterior.
Aplicar el concepto del ciclo vital del documento al proceso de gestión.
Se entiende por ciclo vital, las etapas sucesivas por las que atraviesan los documentos desde su producción o recepción en la oficina y su conservación temporal, hasta su eliminación o integración a un archivo permanente.

Archivo General de la Nacion. Los documentos y los archivos electronicos. Bogota. 2005. p94

miércoles, 15 de septiembre de 2010

RECUPERACIÓN DE INFORMACIÓN Y LAS FIRMAS ELECTRONICAS

El requisito que más nos preocupa a las personas que trabajamos con recuperación de la información, es la idea de tener siempre comprobantes en papel de cualquier transacción, independientemente de su cuantía, es el de la firma. En este sentido es importante advertir que la ley avala el uso de todo tipo de tecnologías de firma electrónica, lo cual no quiere decir que sean exclusivamente firmas digitales. La ley indica en su artículo 7º sobre requisitos para las firmas electrónicas, que son los mismos que se cumplen con firmas manuscritas y podrían ser los mismos en sistemas de tecnología basada en estándares biométricos como huellas digitales y plantares y estructura del iris del ojo, sino se tuviera clara una vinculación de la persona con al transacción, estos requisitos son: que se pueda identificar al iniciador del mensaje; que se pueda indicar que el iniciador del mensaje aprueba el mensaje y que el método sea tanto confiable como apropiado para le propósito de la transacción. Por eso es tan importante que la gestión documental se apoye en el concepto de abogados.

En este sentido, es claro que la ley no pretende obligar al uso de firmas digitales y certificados en todo tipo de transacciones, sino que si la tecnología cumple con el concepto de escritura, originalidad y firma, se entenderá equivalente al papel y a las firmas manuscritas.

En este caso la tecnología a nivel mundial tiene cada día mayor demanda, es muy segura y la preocupación que existe con la tecnología biométrica o basada en estándares biométricos es que supone intrusiones a la privacidad ya que en algunos casos permiten hacer lectura de ADN y a través de lectura del iris del ojo detectar enfermedades.

Los documentos y los Archivos Electrónicos. Archivo General de la Nacion.Bogota.2005.pag 71

martes, 14 de septiembre de 2010

EL REPORTE DELTA

La tecnología actual nos permite tener a disposición los datos que queramos. También nos permite con ella producir la información que se quiera y se desee para la toma de decisiones. No esperemos que con solo la tecnología se tomen las decisiones, se requiere la intervención de personas preparadas para ello. Este es el tema que manejamos en el artículo esta semana.

Acortar direcciones de la Web se ha vuelto requisito indispensable. En el Software esta semana reseñamos dos sitios que brindan este servicio en forma gratuita. La Joya en la Web presenta un espectacular sitio que recopila información estadística de muchos deportes con capacidad para analizar y filtrar y en las estadísticas presentamos la distribución de las líneas de banda ancha en América latina.

José Camilo Daccach T.http://www.deltaasesores.com/
Ver más en:
http://www.eltiempo.com/blogs/el_reporte_delta/2010/09/brujulas-y-gps-abreviador-de-d.php

lunes, 13 de septiembre de 2010

Metadatos. Curso básico de Joomla.mov

http://www.youtube.com/watch?v=r7cryqS3_o4

RECUPERACIÓN DE INFORMACIÓN, ASPECTOS RELATIVOS A LA PROTECCIÓN DE INFORMACIÓN

Desde el punto de vista de las nuevas tecnologías, es pertinente aclarar que la legislación no protege la información como tal, sino una forma de documentos que son los llamados mensajes de datos, en este sentido hay una ley rectora de protección de la información digital en Colombia o de protección de los documentos electrónicos.
Desde que se expidió la ley 527 de 1999, reglamentada por el decreto 1747 de 2000, se ha observado que no se aplica, dado que la carga de responsabilidad radica en cabeza de la entidad que gestiona la información y los documentos, vale la pena decir que esta ley no es mandatorio y busca proteger el patrimonio de las organizaciones, tanto en el sector público como en el privado.
Cuando se gestiona información o documentos, se están administrando riesgos, frente a lo cual la ley 527 lo que busca cada vez que se cree un documento como riesgo posible, es entregar un mensaje de cautela, tanto al Estado como al sector privado. La administración de estos riesgos, consiste en primer lugar, en proteger los atributos de la información y en segundo lugar, enfrentar la controversia que se puede presentar tanto en el sector público como en el sector privado.
Por otra parte, no hay que olvidar que información en el sector publico o en el privado, es valor en libros, patrimonial y económico, se calcula que en el mundo el 90 por ciento de los documentos nacen electrónicos, muchos se imprimen y se suscriben con firmas ológrafas o manuscritas, o sea que cada vez más la información tiene mas relevancia en las organizaciones y eso supone una carga de diligencia muy importante de todos los niveles.
Como antecedentes generales, se puede afirmar que hay una creciente e ilimitada capacidad de almacenamiento, así como facilidad para administrar la información electrónica y su localización.

Los documentos y los archivos electronicos. Archivo General de la Nacion.Bogota.2005.p65

domingo, 12 de septiembre de 2010

Recuperación de información Memorias de Clase 6

6 de septiembre de 2010

Recuperación de información

Necesidad de información: se toma cuando hay un proceso del conocimiento tácito en explicito, se transforma en información, en estructuras mentales, ese conocimiento llena un vacío cognitivo. Cuando no hay claridad suficiente para analizar una información, se crea una necesidad. El problema es que no se sabe cuales ni cuantos datos satisfacen la necesidad, depende de los conocimientos previos que tengan las personas.

Hay un vacio conceptual para generar una idea, y la Recuperación de Información es el cómo satisfacer los vacios conceptuales. Las necesidades de información crecen y cambian, son problemas de la gestión del conocimiento

Hay dos tipos de necesidades de información:

1. Necesidad de información concreta: es específica, fácil de solucionar, se puede intuir que información puede satisfacer estas necesidades, tiene un vacio conceptual definido, se pueden plantear preguntas concretas, da lugar a respuesta con un documento con un contenido completo. Utiliza palabras exactas, correspondientes con los límites temáticos. Con la necesidad de información específica hay preguntas definidas y tiene una respuesta concreta y facilita la recuperación de información y desaparece la necesidad de información. Influye en la recuperación de información ya que con necesidades específicas es más fácil la recuperación, permite expresiones de búsqueda más detalladas.

2. Necesidad de información orientada al problema: no hay temática definida, está mal formulada, no se especifica en las búsquedas. Para necesidades de información no definidas, se generan preguntas generales y hay millones de documentos. En general, la necesidad de información no es satisfecha, permanece durante un largo periodo de tiempo y dificulta la recuperación de información.

DEFINICIÓN DE LA RECUPERACIÓN DE INFORMACIÓN

Según Ingwersen, la recuperación de información es el proceso de gestión del conocimiento, proceso para satisfacer una necesidad de información. Con la recuperación de información se pasa de un estado actual del conocimiento a un estado necesario de conocimiento.

• Problema personal de espacio, disminuir los vacios conceptuales
• Problema de gestión del conocimiento

Según Belkin, la necesidad de información es el estado normal del conocimiento y la recuperación de información es el problema de normalización del conocimiento.

Recuperación de información es el proceso de comparar una pregunta contra un conjunto de índices. Permite comparar los términos de una pregunta contra un conjunto de términos de u índice de un conjunto de documentos mostrándolos, desplegándolos estableciendo un modelo de relevancia (ranking).

¿Cómo organizo los resultados?
¿Qué coloco primero?
¿A que le doy mayor valor?
¿Qué documentos son más relevantes ante una expresión de búsqueda?

SISTEMA DE RECUPERACIÓN DE INFORMACIÓN

El sistema de recuperación de información involucra procesos automatizados, hardware, software, información digital, que la información, los contenidos documentos están codificados digitalmente sin importar el formato.

• Software: algún mecanismo que compare
• Hardware: administra índices

El sistema de recuperación de información estudia la recuperación de información que pertenece a una colección de documentos para satisfacer una necesidad de información. El sistema de recuperación de información compara los contenidos de los contenidos de los documentos contra preguntas de necesidad de información (compara términos contra términos). Hace procesamiento de texto, de contenido y genera índice. Son sistemas que ofrecen al usuario mecanismos para acceder a fuentes de información.

Con la recuperación de información hay análisis de preguntas, indización, organización de resultados, análisis de contenidos, procesos de comparación.
La recuperación de información desde los sistemas de recuperación de información como conjunto de tareas, procesos y procedimientos automatizados mediante las cuales el usuario localiza y accede a los recursos de información. Ofrece documentos relevantes, relación semántica o procesamiento semántico de contenidos. La recuperación de información sin importar lo que yo busco ante una necesidad de información (orientada al problema) se analice y se transforme en una necesidad concreta.

• Relevancia: importancia según necesidad de búsqueda
• Pertinencia: útil, es subjetiva depende de cada persona

EXTRACCIÓN DE INFORMACIÓN

Es el proceso especializado de recuperación de información, destinado a necesidades de información concretas. Hacer una búsqueda basada en unos términos y criterios asociados, establecer unas reglas. Se toma como subproceso de recuperación de información.

Recuperación de información y sistemas expertos

Los sistemas expertos, con su capacidad para combinar información y reglas de actuación, han sido vistos como una de las posibles soluciones al tratamiento y recuperación de información, no sólo documental. La década de 1980 fue prolija en investigación y publicaciones sobre experimentos de este orden, interés que continua en la presente década. En resumen, un sistema experto es una aplicación capaz de realizar las tareas propias de un experto humano en un área restringida. Se compone de una base de datos, de una base de reglas y de un motor de inferencia (FROST, 1989). La base de datos almacena el conjunto de datos o documentos sobre los que se desea ejecutar una serie de acciones. La base de reglas contiene un compendio de reglas lógicas que el sistema debe utilizar para desarrollar razonamientos, así como las normas que permiten combinar las reglas, por último, el motor de inferencia es el encargado de ejecutar las órdenes del usuario, utilizando como criterios las reglas, y como material de partida el contenido de la base de datos, hasta alcanzar una conclusión simulando el razonamiento que seguiría el experto humano. El desarrollo posterior de estos sistemas ha traído un conjunto de nuevas aplicaciones a las que se identifica como Sistemas Basados en el Conocimiento (SBC), que incorporan técnicas más sofisticadas como la lógica difusa, razonamiento basado en modelos, etc., y lo que puede ser más interesante para el especialista en información, medios de recuperación de información deductiva (FROST, 1989: 6).

Lo que diferencia a estos sistemas de un sistema tradicional de recuperación de información es que estos últimos sólo son capaces de recuperar lo que existe explícitamente, mientras que un sistema experto debe ser capaz de generar información no explícita razonando con los elementos que se le dan (WORMELL, 1988). Pero la capacidad de los SE y de los SBC en el ámbito de la recuperación de la información no se limita a la recuperación. Pueden utilizarse en ayudas al usuario, en selección de recursos de información, en filtrado de respuestas... (ALBERICCO y MICCO, 1990) Un SE/SBC puede actuar como un intermediario inteligente que guía y apoya el trabajo del usuario final. Para desempeñar de forma adecuada esta tarea, los enfoques centrados en la creación de modelos de las estructuras cognitivas del usuario son los más prometedores (INGWERSEN, 1987).

Referencia:
TRAMULLAS, Jesús, KRONOS. Recuperación de información y sistemas expertos 1997, 2000. Disponible En: http://tramullas.com/documatica/3-8.html

Recuperación de información

BIENVENIDOS A NUESTRO BLOG