Recuperación de información: 22/8/10

sábado, 28 de agosto de 2010

recuperacion de informacion ULTIMAS NOTICIAS

Cofundador de Microsoft demandó compañías tecnológicas, entre ellas Facebook, Apple, Google y Yahoo

Paul Allen presentó una demanda en contra de once compañías de EE. UU.

Lo hizo por uso ilegal de varias patentes de comercio electrónico, que, según él, son propiedad de Microsoft.

Allen, creador del gigante informático Microsoft junto a Bill Gates, defiende en su demanda que esas firmas, además de YouTube, eBay, AOL, Netflix, Office Depot, Office Max y Staples, utilizan ilegalmente unas patentes que posee desde hace años la firma Interval Research, que también fundó él mismo en Silicon Valley.

"Interval Research fue una de las firmas pioneras en el desarrollo de la economía de internet. Esta demanda es necesaria para proteger nuestras inversiones en innovación", señaló en un comunicado David Postman, uno de los portavoces de Allen, un emprendedor habitual de las listas de multimillonarios de EE. UU.

Las firmas demandadas "han infringido y continúan infringiendo uno o más derechos" de las patentes 682, 652, 507 y 314, señala el documento presentado por Allen ante un tribunal de Seattle (Washington).

Entre todos esos grandes nombres del sector tecnológico estadounidense no están, sin embargo, ni Microsoft, firma de la que Allen sigue siendo uno de los principales inversores, ni Amazon.com. Ambas cuentan con sede en el estado de Washington.

"Las infracciones cometidas por los demandantes han causado daños a Interval y continuarán causando daños irreparables a esta firma. Interval tiene el derecho de considerar que esas infracciones fueron deliberadas y malintencionadas", explica la demanda, en la que no se señala la cuantía económica que Allen reclamara a esas compañías.

Allen, de 57 años y a quien el pasado noviembre se le diagnosticó un cáncer linfático, defiende que su empresa es la titular desde la década de los noventa de esas patentes, que serían componentes claves para el comercio electrónico y herramientas de búsqueda.

Según se desprende de la demanda, una de las patentes permite a las páginas web de esas firmas sugerir a los consumidores productos relacionados con los que consultan en ellas o bien, en el caso de las redes sociales, con distintas actividades que podrían ser de su interés.

Esas patentes también permiten que en las pantallas aparezcan anuncios, vídeos o fragmentos de texto sin que estos afecten a la principal actividad que realiza el internauta en ese momento.

"Esta demanda en contra de algunas de las compañías más innovadoras de Estados Unidos refleja una desafortunada tendencia entre personas que tratan de llevar la competencia a los tribunales en lugar de a los mercados", señaló un portavoz de Google al conocer la noticia.

La firma responsable del mayor buscador de internet expresó asimismo que "mediante la innovación, y no con litigios, es como llevamos al mercado el tipo de productos y servicios de los que se benefician millones de personas en el mundo".

Allen dejó Microsoft en 1983, cuando se le detectó un primer linfoma Hodgkin, que superó satisfactoriamente. Desde entonces, ha fundado numerosas empresas y ha dedicado su riqueza a distintos negocios, como el equipo de fútbol de los Seahawks de Seattle o el de baloncesto de los Trail Blazers de Portland.

Propietario de la firma inversora Vulcan Inc, el cofundador de Microsoft también financió el conocido museo Experience Music Project de Seattle, dedicado a la música y ubicado en un impresionante edificio diseñado por Frank Ghery.

NUEVA YORK

Efe

Cofundador de Microsoft demandó compañías tecnológicas, entre ellas Facebook, Apple, Google y Yahoo, [en línea] Revista enter 2.0. Sábado 28 de agosto de 2010.Disponible en: http://www.eltiempo.com/enter/actualidad_a/cofundador-de-microsoft-demando-companias-tecnologicas_7882535-1. Consulta: 28 de Agosto de 2010.

Google explora el futuro de las búsquedas

A juicio de Eric Schmidt, CEO de Google, las búsquedas de tipo serendipia, o hallazgo afortunado e inesperado, serán parte importante de las búsquedas del futuro donde, claro está, Google espera mantener su posición de líder.

El buscador Google ha sido parte importante de la relación que los usuarios de Internet han tenido con la web. Sin embargo, el presidente de la empresa, Eric Schmidt, prevé que llegará un día en que el concepto actual de búsquedas será superado y que la palabra “googlear" incluso desaparecerá. Esta realidad no implicará el ocaso de Google; más bien todo lo contrario.

En una entrevista con Wall Street Journal, Schmidt explica que Google se ha propuesto definir el futuro de las búsquedas. Al respecto, señala que un porcentaje considerable de las mismas serán hechas en nombre del usuario, sin que éste tenga que realizar la búsqueda por cuenta propia. “De hecho, creo que la mayoría de la gente no quiere que Google responda sus preguntas, sino más bien quieren que Google les diga qué hacer a continuación".

Para ilustrar lo anterior, comentó “Supongamos que caminas por una calle. Debido a que Google tiene información sobre ti – sabemos a grandes rasgos quién eres, tus intereses y quiénes son tus amigos. Google sabe, con un margen de error de pocos centímetros, donde te encuentras. Si necesitas, por ejemplo, leche y hay un lugar cercano donde hay leche, Google te recordará comprarla".
Schmidt indica que el desarrollo de terminales móviles cada vez más potentes permitirá sorprender al usuario con información que éste ni siquiera sabía le interesaba.
“Lo que hace a los periódicos tan fundamentalmente fascinantes – esta serendipia- ya puede ser calculada. De hecho, podemos producirla en formato electrónico", agregó Schmidt.

Fuente: WSJ online

Google explora el futuro de las búsquedas. Diario TI (Ago. 19 de 2010). Disponible en: http://www.diarioti.com/gate/n.php?id=27409. Consulta: 28 agosto de 2010.

Américas Administración del tráfico de redes móviles es fundamental

Documento de posicionamiento de 3G Américas ilustra la importancia de la administración de tráfico.

3G Américas anunció la publicación de un documento para educar a los interesados sobre la importancia de la administración del tráfico en las redes móviles de banda ancha con la finalidad de asegurar servicios de alta calidad para los consumidores brindando la confiabilidad general de la red. El informe, Traffic Management Techniques for Mobile Broadband Networks: Living in an Orthogonal World (Técnicas de administración de tráfico para redes móviles de banda ancha: vivir en un mundo ortogonal), se focaliza en las redes 3GPP y se ocupa específicamente de la administración del tráfico, incluso el manejo de flujos de tráfico en redes 3GPP en contraste con otras técnicas de administración de redes que pueden implantar los operadores (tales como compresión de descargas, optimización de redes y otros mecanismos de relevancia).

Teniendo presente al consumidor, es crítico contar con una visión de extremo a extremo (E2E) del servicio móvil para la administración de tráfico. Por ejemplo, para un consumidor que utiliza el teléfono celular para buscar listados de películas y adquirir boletos, el servicio E2E es la capacidad de ver qué película se está proyectando y ejecutar una transacción para adquirir boletos. El 3GPP buscó estandarizar técnicas de administración de tráfico (Calidad de Servicio, o QoS) cada vez más robustas para redes de banda ancha móvil con la visión que tiene el cliente sobre la QoS de E2E. Sin embargo, debe tenerse en cuenta que los operadores móviles típicamente no tienen un control total sobre el aprovisionamiento de servicios de E2E que dependen del acceso a Internet por banda ancha móvil.

Las organizaciones mundiales de estándares, como el 3GPP, desempeñan un papel importante en el desarrollo de la administración de tráfico a través de provisiones para abordar la QoS, en particular con respecto a la interoperabilidad con mecanismos de acceso distintos de los del 3GPP. Estas son innovaciones importantes, y el libro blanco de 3G Americas observa que los esfuerzos de las organizaciones que desarrollan estándares deben intensificarse.

Además, la configuración de dispositivos para el usuario final y los contenidos y aplicaciones no aprovisionados por el operador de la red no solo impactan en la experiencia de un usuario individual, sino también potencialmente en la de otros usuarios de una determinada celda. Los esfuerzos para impulsar aún más innovaciones QoS deben tomar en cuenta los impactos potencialmente adversos de estas fuentes y dar soporte y promover la interoperabilidad de aplicaciones de terceros con las plataformas de redes existentes.
Se necesitan más innovaciones a lo largo y ancho del ecosistema de la banda ancha móvil, en particular de parte de desarrolladores de aplicaciones, de modo de lograr la calidad de servicio E2E. Más aún, es importante la transparencia de las prácticas de administración de redes al promover la innovación, pero esto requiere un equilibrio cauteloso para asegurar la comprensión del consumidor al tiempo que se protege la confiabilidad de la red.

Fuente: 3G Américas.

Administración del trafico de redes móviles es fundamental. Diario TI (Ago. 18 de 2010). Disponible en: http://www.diarioti.com/gate/n.php?id=27396. Consulta: 28 agosto de 2010.

recuperación de Información MEMORIAS DE CLASE 4

Lunes 23 de Agosto de 2010

Contexto del documento: relacionado con meta-información, metadatos, relaciones ontológicas, vocabularios controlados.

Contenido de documentos digitales:

Naturaleza texto

Sonido

Video

Imágenes

Otros

Codificación digital: como se guarda la información texto o formato maquina.

Documento documental referencial semiestrcuturado (como metadatos)

Documental contenido completo (con sentido en sí mismo) y satisface necesidades de información.

El docente hizo un ejercicio de buscar en internet definiciones para los siguientes conceptos:

• Palabra clave: son palabras tomadas del lenguaje natural que representan un contenido, no necesariamente están inmersos en el documento.

• Descriptor: termino que representa un contenido con vocabulario controlado.

• Encabezamiento de materia: términos que contienen muchos descriptores.

• Indización: representación del contenido mediante un conjunto de términos.

• Termino: palabra extraída por una maquina que puede representar un documento. Los términos son extraídos por un proceso de indización y permite representar un contenido.

• Descriptor libre: es un tipo de término y palabra clave a la vez, que al hacer un proceso de indización puede encontrar ciertos conceptos que representan un contenido. Extrae o infiere de qué se trata el contenido del documento.

• Etiqueta: palabra clave que no pertenece a un lenguaje normalizado, son palabras de uso común.

• Palabra vacía: semánticamente no dice nada pero para la maquina es un término de búsqueda.

Notas de clase:

El proceso de análisis e indización lo hace la maquina, localiza las palabras normalizadas, con documentos estructurados (etiquetas).

Ejercicio de indización:

Se descargo del repositorio http://sisinfo.lasalle.edu.co/original/sri el software TENKA-TEXT se descargo se guardo en mis documentos o descargas se descomprime se ejecuta se escoge la opción TENTA.TEXT.WINDOWS.INTERFACE file choose text browse se busca carpeta descomprimida (según archivo que vayamos a indizar) se selecciona OK wordlister (aparece el listado de términos indizados del archivo seleccionado)

recuperacion de informacion MEMORIAS DE CLASE 3

viernes 20 de Agosto de 2010

se inicio la clase con la tutoría No. 1,

Ingresamos al sitio http://sisinfo.lasalle.edu.co/original/sri, se ingreso al repositorio para visualizar las colecciones allí publicadas por el profesor Felipe Gómez. Ingresamos por: colecciones 2010-II Básica Noticias (tamaño: 2.3 MB contiene 1.000 archivos y 11 carpetas, contiene noticias de Cee, ciencia, cultura, deportes, economía, partidos, política, sociedad, sucesos y tribunales) los archivos se encuentran en formato txt. para abrir cualquier archivo es necesario dar click derecho con el mouse y escoger la opción “Abrir con” y escoger la aplicación MFC WORDPAD para ver el contenido de los archivos. Con esta colección se hizo el primer acercamiento al trabajo del primer corte, fue la presentación que hizo el docente para encaminarnos hacia el trabajo del corte.

Buscar por titular de la noticia, ya que condensa el contenido de la noticia, para recuperar la información. Preguntarse ¿Es un documento estructurado? ¿Tiene un nivel de estructura? ¿Cómo esta codificada la información?

A partir de las siguientes colecciones debemos realizar el trabajo del primer corte, analizando las 4 colecciones:

1. Correos listas tamaño: 38.5 MB

2. Libros tamaño: 381 MB

3. Metadatos tamaño: 5.66 MB

4. Sitios web tamaño: 9.18 MB

Para el trabajo del primer corte consta de:

Parte 1: análisis de la colección, a partir de:

• Análisis de tamaños, organización y clasificación

• Análisis de formatos, codificación y extensiones

• Análisis de estructuras

• Análisis de contenidos

• Análisis de contextos

• Análisis de interfaces

• Conversión de formatos y estructuras

Parte 2: análisis del contenido, a partir de:

• Como se comporta el texto

• Análisis de cuerpos documentales

• Términos de búsqueda (ecuaciones)

• Análisis de contextos

Parte 3: análisis de las herramientas, creación de un manual de las herramientas Google Desktop Search y la escogida para realizar el proceso de comparación.

Parte 4: análisis de resultados, cuantos resultados, posiciones, características, cobertura, velocidad., entre otros. De las dos herramientas utilizadas para recuperación de información. ¿Cuál Sistema de Recuperación de Información es mejor?

Notas de clase:

Sistema de Recuperación de Información, herramienta que haga análisis sobre contenidos, que pueda buscar en cualquier formato.

Desktop Search: buscadores de escritorio, herramienta informática que busca documentos en un ordenador personal. Un motor de búsqueda de escritorio típico incluye un indexador que rastrea el disco duro en busca de archivos existentes. Cuando encuentra un archivo extrae la siguiente información y la guarda en un archivo de índice :

• La localización jerárquica al disco duro del archivo.

• Metadatos (el nombre, el tipo, la extensión, las palabras clave del archivo, etc.).

Categoría de herramientas para trabajar con colecciones de documentos, hace un proceso de indización y hace recuperación sobre cualquier término (localizar información).

Se hizo el ejercicio de instalar Google Desktop Search en clase, de la siguiente forma:

o Buscando en google “Google desktop”

o Haciendo click en “instalar google desktop”

o Guardando el archivo en mis documentos descargas

o Instalando la herramienta con doble click, luego se aceptan los términos y condiciones

o Eligiendo la única opción: búsqueda de archivos por nombre y ejecutar aplicaciones

o En el icono de “google desktop” se da click derecho opciones y lleva a una página de google en la cual permite configurar la herramienta para recuperación de información.

Recuperación de Información MEMORIAS DE CLASE 2

Dia viernes 13 de Agosto de 2010

se analizo acerca del documento estructurado y no estructurado.

Documento no estructurado: no tiene elementos constitutivos, no hay normatividad sobre el contenido del documento. Cuando se va a recuperar información, no tiene orden ni forma lógica, la maquina solo lee caracteres (no estructura).

Es importante saber en donde esta cada parte del documento sería más fácil recuperar información.

Las páginas web, son documentos no estructurados pero tienen elementos estructurados como la URL. Como un todo es un documento semi estructurado.

Ingresamos a la dirección http://cybertesis.upc.edu.pe para verificar la plantilla de tesis, que es un documento estructurado.

Cybertesis: proyecto para que todos los documentos estuvieran marcados (plantilla) que se puedan identificar los elementos constitutivos del documento. Es una plataforma que permite acceder en línea a los textos completos de las tesis o proyectos profesionales, mediante el uso de estándares internacionales de publicación digital y tecnologías que facilitan la consulta e intercambio de información. Cybertesis es el resultado de un programa de cooperación entre la Universidad de Montreal, la Universidad de Lyon y la Universidad de Chile con el apoyo del Fonds Francophone de Inforoutes y de la UNESCO. Tiene la opción de realizar búsquedas por autor, titulo, facultad y carrera, grado de magister y año de publicación.

La red peruana de tesis digitales tiene universidades como: Universidad Peruana de Ciencias Aplicadas, Universidad Nacional de Ingeniería, Universidad Nacional de Piura, Universidad Nacional Mayor de San Marcos y la Universidad Ricardo Palma. Disponible en: http://www.rptd.edu.pe/

Libro del Canon:

Cosmos. Carl Sagan, vimos un video llamado “Viaje Personal”, es una serie documental de divulgación científica cuyos objetivos fundamentales fueron: difundir la historia de la astronomía y de la ciencia, el origen de la vida, concienciar sobre el lugar que ocupa nuestra especie y nuestro planeta en el universo, las modernas visiones de la cosmología y las últimas noticias de la exploración espacial; en particular, las misiones Voyager.

Vimos el capitulo 1. En la orilla del océano cósmico, temas como :

• Años luz, galaxias, estrellas, planetas: números y distancias, donde nos encontramos.

• La Biblioteca de Alejandría.

• Eratóstenes y su cálculo de la circunferencia de la Tierra.

• Calendario Cósmico: desde los comienzos del universo hasta el destino de la humanidad.

Recuperación de Información MEMORIAS DE CLASE 1

El docente trato conceptos básicos a tener en cuenta cuando hablamos de Recuperación de Información. Los temas tratados fueron:

Sociedad de la información: donde las personas tienen las competencias necesarias que facilitan las acciones de creación, distribución y manipulación de la información jugando un papel importante en las actividades sociales, culturales y económicas.1 La sociedad de la información se relaciona con la sociedad del conocimiento basado en TIC’s (Tecnologías de Información y Comunicación). Se indica que una de las competencias mencionadas anteriormente está relacionada con la búsqueda de información.

Sociedad del conocimiento: “Aquel estadio de desarrollo en el que la sociedad detecta el valor estratégico del conocimiento, utiliza este como sustento de su competitividad y de su bienestar y, consecuentemente, dedica un esfuerzo significativo a la creación de nuevos conocimientos y a buscar las vías de utilizarlo de la forma más eficaz, para su provecho: es una sociedad que aprecia el conocimiento y lo trata como uno de sus activos más importantes”2

Infoxicación: termino relacionado con el manejo de la información y contenidos para los profesionales de la información; incapacidad que tiene el hombre para consumir información por mas mínimo o pequeño que sea el tema. La Infoxicación se expresa a través del exceso de información que se produce y esto hace que se cree una dificultad de ingerir tanto volumen de información en un periodo de tiempo reducido.3

Carácter: símbolo utilizado en la escritura y en el cálculo, perteneciente a un lenguaje. Es una unidad de información que se corresponde con un grafema o símbolo, como los de un alfabeto de la forma escrita de un lenguaje natural. Esta definición surge de la tipografía, donde un carácter es una letra, un número u otro símbolo.4

Dato: es la representación por medio de caracteres de algo del mundo real. Tiene alto valor sintáctico pero semánticamente un dato solo no aporta nada. Los datos con exactos. Son un el conjunto básico de hechos referentes a una persona, cosa o transacción. Incluyen cosas como: tamaño, cantidad, descripción, volumen, tasa, nombre o lugar. Según O'Brien, la data usualmente no es útil hasta que está sujeta a un proceso de valor añadido: 1) su forma es agregada, manipulada y organizada, 2) su contenido es analizado y evaluado, 3) Es puesta en un contexto para el usuario humano.5

Información: tomada como el conjunto de datos ordenados con sentido (semánticamente significa algo) útiles (tiene componente subjetivo: lo que es información para mí no lo es necesariamente para los demás) para algo (personas o maquinas) o alguien.

La información según el DRAE es: “Acción y efecto de informar”, “Comunicación o adquisición de conocimientos” y “Conocimientos así comunicados o adquiridos”. La información es un conjunto de mecanismos que permiten al individuo retomar los datos de su ambiente y estructurarlos de una manera determinada, de modo que le sirvan como guía de su acción.6

Web semántica: las maquinas pueden procesar la información (maquinas inteligentes). La web semántica es una web extendida, dotada de mayor significado, en la que cualquier usuario de internet podrá encontrar respuestas a sus preguntas de forma rápida y sencilla gracias a una información mejor definida. Al dotar la web de más significado, y por tanto, de mas semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información.7

Capta: relacionado con el problema de Infoxicación. Es la selección a priori luego de haber realizado una búsqueda, se toma la información relevante. Selección natural de información, proceso de selección de contenidos, determina mentalmente con conocimiento previo que información le sirve al usuario. Supervivencia informacional.

Conocimiento: conjunto de información, apropiación de la información en estructuras mentales, que sirven para realizar una tarea. Es un proceso netamente humano. Si la información es subjetiva el conocimiento también lo será. La apropiación del conocimiento es propia de cada persona de sus estructuras mentales.

Documento: memoria documental. Es información, cualquier cosa donde se registre información. Cualquier fuente de información usable. Es importante que la información este en un soporte y tenga un formato para que las máquinas procesen la información y así poderla usar.

Documento es toda aquella información contenida y registrada sobre cualquier soporte material y que es producido, recibido y conservado por las instituciones, organizaciones o personas, durante el desarrollo de sus actividades. Es, por tanto, un testimonio de la actividad humana.8

Cada persona extrae distinta información de un documento ya que las necesidades de información son diferentes.

Documento electrónico: necesita de una máquina para acceder a su contenido. Se almacena en un elemento electró-magnético-óptico para acceso al contenido. Requiere de un soporte material (dispositivo).

Un documento electrónico es aquel contenido en un soporte electrónico que, para su visualización requiere una pantalla textual, una pantalla gráfica, y/o unos dispositivos de emisión de audio, vídeo, etc., según el tipo de información que contenga. En algunos casos también se precisa la mediación de un ordenador (cuando la información está digitalizada), en otros no (si se trata de información analógica).9

Documento digital: se necesita de un dispositivo para acceso a la información esta se encuentra codificada en bits (1,0). Tiene contenido digital. Almacena grandes cantidades de contenido y los reproduce con facilidad. Es un caso específico de documento electrónico, no se degrada y permite la copia del contenido sin problemas.

Todo documento digital es un documento electrónico pero no ocurre lo mismo al revés, no todo documento electrónico es un documento digital. Un documento electrónico puede ser bien analógico, bien digital. Documentos electrónicos son, por ejemplo, una cinta de casete o una cinta de vídeo, que precisan de un dispositivo electrónico para su lectura, pero no son digitales. Lo que distingue un medio electrónico de un medio digital es, por una parte, la forma en que está codificada la información y, por otra, la necesaria mediación de un ordenador para decodificar esta información. En el caso de un documento digital, la información está codificada en bits, y para leer, visualizar o grabar la información se precisa de un dispositivo que transmita o grabe información codificada en bits. Al representarse digitalmente, los datos de entrada son convertidos en dígitos (0,1) inteligibles para la máquina y no para los sentidos humanos; y a la salida, otro dispositivo los convertirá en señales analógicas, inteligibles para los sentidos humanos.10

Documento virtual: es un tipo de documento digital, es un documento que no existe, existe solo en el momento que se necesita. Se construye de acuerdo a las necesidades particulares del usuario. No tiene un estado persistente.

Documento virtual es el documento que no es un documento real, pero que contiene los datos específicos necesarios para producirlo. Se trata de de una colección no organizada de bloques de información, junto con las especificaciones necesarias (herramientas y técnicas) que permiten la generación de un documento real. (Se entiende aquí por bloque de información un fragmento de documento, dado sobre un medio, caracterizado por un modelo conceptual e insertable en un documento real. Una vez que existe un conjunto de bloques de información, el edificio de un documento real toma forma al seleccionar los bloques pertinentes organizándolos y ensamblándolos).11

Componentes del documento:

Estructura: elementos constitutivos del documento, se diferencia cada parte del documento.

Contenido

Formato: como se visualiza, como representar el documento.

Contexto

Estructura

Documento estructurado: tiene claramente identificado cada parte que lo constituye (orden, contenidos, valores, normas). Tiene delimitadas las partes constitutivas del documento y permite procesarlas. Tiene un nivel de estructura, guarda documentos estructurales, marcos o elementos identificables. Permite que la Recuperación de Información sea óptima, permite búsquedas sobre elementos específicos de información a partir de su estructura. Ejemplo: formularios por internet, plantillas, etc.

Documento no estructurado: no tiene estructura. No tiene un modelo para manejar contenido. Dificulta la Recuperación de Información ya que son solo caracteres. Cada persona lo construye como quiere, no tiene criterios específicos. Ejemplo: cartas, e-mails, pagina web, entre otros.

Documento semi-estructurado: maneja elementos constitutivos que no son de obligatorio cumplimiento. Tiene campos predefinidos pero no son obligatorios. Ejemplo: registro bibliográfico, registro de archivo.

Notas de clase:

• La Recuperación de Información es un proceso de Gestión de Conocimiento.

• El profesional de la información será el encargado de que los procesos de información sean los más óptimos para relevancia en la Recuperación de Información. La tarea es permitir a las personas obtener información en el momento más oportuno. Los profesionales de información ayudan a encontrar los mejores mecanismos para encontrar la información, en actividades como: planear desde el manejo de la información, interpretar los contenidos de las maquinas, analizar el contenido global de la información, entre otras.

• Palabras clave a tener en cuenta cuando se habla de Recuperación de Información: Gestión del Conocimiento, Necesidad de Información, Relevancia.

• Ingresamos a las paginas:

Digital Universe EMC http://www.emc.com/leadership/digital-universe/expanding-digital-universe.htm y revisamos como crece la información en términos inmensurables, es decir, cada día la el volumen de información es superior. (Worlwide Information Growth Ticker)

Internet World Stats http://www.internetworldstats.com/ y observamos las estadísticas de los usuarios de Internet posicionándose Colombia en el tercer lugar con un 13.7 % en Sur América. Las estadísticas muestran que la totalidad de la población en Colombia es de 44,205,293 y el número de usuarios de Internet es de 21,529,415 por lo que casi la mitad de la población tiene acceso a internet.

Referencias

1 SOCIEDAD DE LA INFORMACIÓN. Wikipedia [en línea]. [Citado el 11 de Agosto de 2010]
2 RIVERO RODRIGO, Santiago. Claves y pautas para implantar la gestión del conocimiento: Un modelo de referencia. –Las Arenas (Vizcaya): SOCINTEC, 2002. p. 23.
3 VISUALIZACIÓN DE INFORMACIÓN. [en línea]. [Citado el 11 de Agosto de 2010]
4 DEFINICIÓN.DE. [en línea]. [Citado el 11 de Agosto de 2010]
5 Citado por Universidad Centroccidental Lisandro Alvarado. [en línea]. [Citado el 11 de Agosto de 2010]
6 Universidad de las Américas de Puebla. [en línea]. [Citado el 11 de Agosto de 2010]
7 ALBA, Julio. La Web Semántica. En: Bit. [Base de datos en línea] Junio – Julio (2007); 62-63. [Citado el 11 de Agosto de 2010] Disponible en E-LIS E-prints in Library and Information Science.
8 VALIENTE, Juan. Archivística. Manejo y organización de archivos. [en línea]. [Citado el 11 de Agosto de 2010]
9 Tomado de la clase de Gestión de Archivos Virtuales con el docente Pedro Delgadillo, semestre VII. Citado en: Hipertexto, el nuevo concepto de documento en la cultura de la imagen. [en línea]. [Citado el 11 de Agosto de 2010]
10 Ibid
11 Ibid

recuperación de Información (herramientas)

Recuperación de Información (herramientas)

•Bases de datos
•Internet
◦Revistas electrónicas
◦Buscadores. Los buscadores son herramientas que permiten localizar y recuperar la información almacenada en internet. El funcionamiento es parecido a las bases de datos, almacenan las páginas con determinadas características (metadatos) y que posteriormente tras utilizar unas palabras clave emiten un listado de las más relevantes.

■Buscadores generales

■Google (http://www.google.com/)
■Alltheweb (http://www.alltheweb.com/)
■AltaVista (http://www.altavista.com)
■Excite (http://www.excite.com/)
■Infoseek (http://www.infoseek.com/)
■Lycos (http://www.lycos.com/)
■Webcrawler (http://webcrawler.com/)
■Hotboot (http://www.hotbot.com/)

◦Directorios. Los directorios son listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica. Se clasifican en categorías y el usuario enlaza de lo más general a lo más específico

■Recomendados para las búsquedas en las que el usuario no sabe mucho sobre el tema en concreto Cerrar
■El directorio de Google (http://directory.google.com/)
■Ozú (http://categorias.ozu.es/)
■El índice (http://www.elindice.com/)
■Yahoo (http://www.yahoo.com)

■Directorio y motores especializados
■Humbul http://www.humbul.ac.uk
■Librarian Index to the Internet http://lii.org/
■Internet Public Library http://www.ipl.org/
■Scirus http://www.scirus.com/
■Search4Science http://www.search4science.com

◦Metabuscadores.
■Vivisimo (http://www.vivisimo.com)

■Dogpile (http://www.dogpile.com)

■Kartoo (http://www.kartoo.com)

■Qbsearch (http://www.qbsearch.com)

■Metacrawler: (http://www.metacrawler.com)
Son buscadores, con la cualidad de que no sólo buscan en una única base de datos, sino que al introducir los conceptos de búsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor.
◦Buscadores selectivos.
■Ask (http://www.ask.com/)
■Teoma (http://www.teoma.com/)
■Electric Library (http://www.elibrary.com/)
■Hieros Gamos http://www.hg.org/index.html
Utilizan una base de datos especializada en una materia.

◦Programa para buscar
■Copernic (http://www.copernic.com)

◦Agentes inteligentes
■BookWhere http://www.bookwhere.com

■BullsEye Pro http://www.intelliseek.com

■WebSeeker 5 http://www.bluesquirrel.com/

■WebFerret http://www.ferretsoft.com

Los agentes inteligentes son herramientas que permiten localizar información de forma automática, sólo necesita que se le definan un perfil de búsqueda y donde debe lanzarla (bases de datos, sitios web, etc.) y, automáticamente va presentando un informe sobre la nueva información que va surgiendo.

•Lenguajes de indización y control terminológico

◦Índices.

Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:
■Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
■Índice alfabético: listado de términos alfabéticamente
■Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
■Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

◦Palabras clave (Keywords).
Término significativo en lenguaje natural que representa el contenido del documento.

En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores. Por ejemplo si utilizamos la palabra flor en cualquier buscador podemos estar buscando, la floristería más cercana, una imagen de flores o un estudio sobre las flores en las distintas estaciones del año.
■Meta Keywords. La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada pagina web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.
◦Tesauros Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.
Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información
■Componentes:
◦Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación

◦Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)
■Relaciones:
◦Jerárquicas: indican cuando un término es más específico que otro
◦Asociativas: Indican que los términos guardan alguna relación
◦Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido

•Lenguajes de interrogación y ecuaciones de búsqueda
◦Lenguajes

Cada sistema de recuperación tiene su propio lenguaje de interrogación, que es el que le permite "hablar" en el mismo lenguaje que la base de datos. Este lenguaje como cualquier otro tiene sus propia sintaxis que especifica las características especiales de la búsqueda determinando en cada momento la relación que tienen los elementos de búsqueda. Las reglas gramaticales en el lenguaje de interrogación son los operadores.

◦Cómo plantear una estrategia de búsqueda

No existen pautas que nos indiquen como hacer con exactitud todas las búsqueda debido a que cada consulta es distinta. Por eso es conveniente definir un procedimiento básico de trabajo:

■Planteando el tema desde distintos puntos de vista

■Determinando que se sabe del tema

■Formulando nuestra búsqueda mediante:

◦La selección de palabras clave que representen lo que busco (utilizar diccionarios, sinónimos, tesauros, ontologías, etc.)

◦La traducción de las palabras importantes a otros idiomas (inglés)

■Seleccionando las herramientas de búsqueda (índices, motores, metabuscadores). Se recomienda usar distintas herramientas a la vez.

■Aplicando las palabras clave en las herramientas de búsqueda seleccionadas

bibliografia
Pinto Maria, busqueda y recuperación de información.actualizado el 13 de febrero de 2009.[en linea] citado el 28 de agosto 2010

Recuperación de Información un acercamiento mas....

En principio, la recuperación de información engloba las acciones encaminadas a identificar, seleccionar y acceder a los recursos de información útiles al usuario, sin perjuicio de otras acepciones del concepto, en las que puede profundizarse utilizando la bibliografía correspondiente (ROBERTSON, 1977). Como puede deducirse del capítulo anterior, el objeto documental se ha organizado y representado, utilizando una serie de normas y convenciones, en un soporte informático, mediante el diseño, creación y mantenimiento de bases de datos (RIJSBERGEN, 1979). La siguiente fase lógica es la recuperación del contenido de las mismas, siguiendo unos criterios de pertinencia. En el ámbito de la documentación automatizada, la recuperación de información adoptará la forma del acceso, selección y explotación de las bases de datos, utilizando diferentes técnicas.

El planteamiento de la recuperación de información (Information Retrieval, IR), en su moderno concepto y discusión, hay que buscarlo en la realización de los test de Cranfield (ELLIS, 1990: 1-17), y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada. Las propias características de las entidades del mundo real, así como del tratamiento al que son sometidas, proveen a la representación de las mismas de un cierto grado de indefinición. Es decir, que el proceso documental, por muy alto nivel de perfección que pueda alcanzar, siempre introduce un factor de distorsión en la representación del documento. Si se considera que el acceso al documento se realiza casi por completo utilizando esta representación como intermediario, puede deducirse que los mecanismos en los que se basa la IR no son perfectos, sino que se verán influenciados por ese factor, independientemente de su validez técnica.

Como se ha señalado anteriormente, el proceso de recuperación de información engloba numerosas tareas, de las que la consulta de recursos de información electrónica resulta ser una más de ellas (SARACEVIC et alii, 1988). No se van a analizar en este lugar los procesos relacionados con la definición de áreas de interés del usuario, ni con la utilización de los lenguajes documentales en la recuperación, aunque se haga referencia a estas funciones a lo largo de la exposición. Un proceso de recuperación, al que podríamos considerar "genérico" (BELKIN y CROFT, 1987) seguiría las siguientes fases:

1. Definición de las necesidades informativas del usuario.

2. Selección y ordenación de las fuentes a utilizar.

3. Traslación de las necesidades del usuario al lenguaje documental propio de la fuente a utilizar en cada caso. Es posible, además, encontrar fuentes en las que no se utilice ningún tipo de vocabulario controlado, en cuyo caso resultará necesario afinar el trabajo terminológico.

4. Traducción de la expresión de lenguaje documental al lenguaje de interrogación propio de cada sistema.

5. Ejecución de las expresiones del lenguaje de interrogación obtenidas.

6. Consulta de las respuestas obtenidas, para analizar su pertinencia o no a la cuestión planteada.

7. Replanteamiento, si procede, de las expresiones utilizadas, si los resultados obtenidos no son pertinentes.

8. Selección y obtención de los documentos que respondan a las necesidades manifestadas por el usuario.

9. Transmisión del resultado, preparado adecuadamente, al usuario.

JESUS TRAMULLAS,concepto de recuperación de información.http://tramullas.com.[en linea] citado el 28 de agosto de 2010

Recuperación de Información (concepto)

Cuando un usuario se plantea la necesidad de obtener nueva información sobre un asunto o materia de su interés, está manifestando una carencia, una situación irregular de sus estructuras mentales y cognitivas.

La respuesta a este tipo de situaciones es un conjunto de actividades que desarrolla el individuo para salir del estado anómalo, o para solucionar su problema de espacio, actividades que están íntimamente relacionadas con la adquisión de nueva información, y con el proceso comunicativo pertinente.

La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. (CROFT, 1987) Todos estos factores ya han sido tratados exhaustivamente por la bibliografía especializada, por lo que no resulta necesario insistir sobre ellos en este lugar. Sin embargo, si es necesario recordar, como se ha señalado en la introducción, que la informatización de estas tareas se engloba dentro del campo de la Documentación Automatizada o Informática Documental.

Información

es un conjunto de datos ordenados con los que se representan convencionalmente hechos, objetos e ideas

Conocimiento

aprobacion, procesamiento, depuracion, etc.. de la informacion hecho por un humano en estructuras mentales para realizar alguna tarea

Recuperación de información

BIENVENIDOS A NUESTRO BLOG