BIENVENIDOS A NUESTRO BLOG

Este blog se crea gracias al espacio Academico Recuperación de Información que hace parte del programa de Sistemas de información y documentación de la Universidad de la Salle

Profesor Laureano Felipe Gomez



Recuperación de Información

Recuperación de Información
Este enlace te ayudara a consultar mas sobre recuperacion de información

lunes, 1 de noviembre de 2010

El papel de los metadatos en el movimiento Open Access

Check out this SlideShare Presentation:

Referenciado por:
Andrea, Yeimmy y Tatihana, asistentes a la materia Recuperación de Información de septimo semestre del Programa de Sistemas de Información y Documentación de la Universidad de La Salle.

domingo, 24 de octubre de 2010

NUEVAS TECNOLOGÍAS Y EDUCACIÓN

Las telecomunicaciones y la informática, es claro que van juntas. hoy en día los grandes avances en telecomunicaciones se deben a dos tecnologías que están ahí, las fibras ópticas y los satélites , ustedes saben que hay una red mundial de fibra de cable óptico que enlaza los diferentes países y satélites, y que permiten a su vez acceder o llegar con la información a cualquier lugar del planeta. Hoy es perfectamente factible conectarse en cualquier sitio con cualquier persona del mundo, eso era prácticamente impensable hace veinte años o requería de grandes inversiones o grandes tecnologías, entonces las cosas han cambiado de una manera radical y eso tenemos que analizarlo. De ahí ha salido el internet , que para mí es un hecho es uno de los hechos más fundamentales que le está ocurriendo a la sociedad contemporánea, comparto el comentario de algún autor de un libro sobre internet que decía que para él, internet iba a ser más importante para la sociedad que el invento de la rueda, creo que lo que está naciendo es otra sociedad, estamos viviendo un cambio cultural de fondo y lo estamos viendo a nivel mundial porque el cuento no es solamente en los países industrializados. La globalización es un hecho concreto y nuevamente hay que apelar a los pensadores para que nos traten de explicar cuál es la sociedad que se está creando , cual es la sociedad en la cual estamos inmersos y cuál va a ser el papel de un país como Colombia en todo este proceso, como vamos a integrarnos a este proceso sin perder totalmente la identidad cultural, la riqueza y la diversidad que tenemos, indudablemente en todos los sectores
ARCHIVO GENERAL DE LA NACION. Los archivos y las nuevas tecnologias. editores graficos Colombia, ltda. Bogotá: 2002. p25

miércoles, 20 de octubre de 2010

Recuperación de Información. Sony anunció los primeros televisores con Google TV

También anunció un reproductor Blu-ray que permite a otras pantallas ofrecer Google TV.
La empresa japonesa es la primera en el mundo que integra Google TV con un televisor y además reveló un reproductor Blu-ray que puede llevar el producto de Mountain View a otros aparatos de alta definición.

La línea Sony Internet TV incluye la clase de 24 pulgadas NSX-24GT1 (599,99 dólares o 1'074.000 pesos), la clase de 32 pulgadas NSX-32GT1 (799,99 dólares o 1'431.000 pesos), la clase de 40 pulgadas NSX-40GT1 (999,99 dólares o 1'788.000 pesos) y la clase de 46 pulgadas NSX-46GT1 (1.399,99 dólares o 2'504.000 pesos). Todos modelos son LCD con resolución hasta 1080p.

De otro lado, el reproductor Blu-ray Sony Internet TV NSZ-GT1 costará 399,99 dólares o 715.500 pesos. Ésta es probablemente la mejor opción para aquellos que ya invirtieron en una pantalla de alta definición.

Sin embargo, en este aspecto Sony no es pionera, pues hace unos días fue presentado el Logitech Revue (inglés), un dispositivo que no reproduce Blu-ray pero sí permite disfrutar de Google TV en cualquier pantalla de alta definición.

Google TV llegará a Colombia y la región en 2011

ENTER.CO se puso en contacto con Sony Colombia para averiguar sobre la disponibilidad de su nuevo Internet TV en el país y Latinoamérica.

De acuerdo con Sony, "al mercado latinoamericano llegará el próximo año, aún sin fecha exacta. Los precios se definirán cuando tengamos fecha estimada".

Para aquellos que están interesados en importar un Internet TV o un Internet TV Blu-ray, las noticias son poco alentadoras.

Aunque es de esperarse que ciertas ventajas de Google TV funcionen (por ejemplo, no hay razón para que no se pueda navegar en Internet o usar Twitter), muchas de las cosas que hacen a la tecnología única "como las aplicaciones de HBO y Netflix" no se pueden disfrutar en nuestro país.

"Los servicios mencionados son para el mercado de Estados Unidos", aclaró Sony a ENTER.CO.

También es probable que el Android Market esté limitado en nuestro país, pero naciones como México, Argentina y Brasil sí pueden disfrutar de todo el contenido de esa tienda virtual.

Con estos nuevos pasos, Sony y Google se introducen en el campo de Apple TV, el producto de Cupertino que hace cosas similares a Google TV.


El Tiempo.com. 13 de Octubre de 2010.Disponible en http://www.eltiempo.com/tecnologia/actualidad/ARTICULO-WEB-NEW_NOTA_INTERIOR-8129558.html. Consultado el 20/10/2010.

martes, 12 de octubre de 2010

Latinoamérica: más redes sociales, menos correo electrónico

En la región se usan más las redes sociales que el correo electrónico.
El tiempo que se invierte en las redes sociales supera al que se pasa en el correo electrónico, al menos en América Latina.

Según el estudio "Digital Life" de la empresa británica TNS, en la región se consumen en promedio 5,2 horas en sitios como Facebook y sólo 4,2 horas respondiendo y escribiendo mensajes de correo electrónico.

Dicha situación es una de las principales características de Latinoamérica, pues en los mercados en desarrollo el e-mail es más popular que las redes sociales, excepto en los teléfonos celulares.

La investigación realizada a través de casi 50.000 entrevistas en 46 países del mundo encontró también que "los consumidores online de los mercados en rápido desarrollo superan a los de los mercados maduros en cuanto a su nivel de involucramiento con las actividades digitales".

Latinoamericanos, entre los más activos

Según el estudio, los internautas latinoamericanos y de otros países en vías de desarrollo participan en forma más activa en el mundo digital.

Internet es una parte muy importante de la vida digital en el siglo XXI, pero cómo afecta nuestra vida diaria varía dependiendo del lugar del mundo en donde vivimos.
Matthew Froggatt, TNS

Por ejemplo, en México el 40% de los entrevistados se involucra en actividades digitales, comparado con el 20% de Japón, el 26% de Dinamarca o el 26% de Finlandia.

El 63% de los mexicanos escribe su propio blog o participa en foros de discusión contra un 32% de estadounidenses.

"Internet es una parte muy importante de la vida digital en el siglo XXI, pero cómo afecta nuestra vida diaria varía dependiendo del lugar del mundo en donde vivimos", asegura Matthew Froggatt, jefe de la división de desarrollo de TNS.

"En los mercados en rápido desarrollo en los cuales la inversión en infraestructura es reciente y sostenida, los usuarios adoptan este canal de manera mucho más activa", asegura.

De acuerdo con el estudio el exponencial crecimiento de las redes sociales se ha visto impulsado por el cambio de conexión de computadoras de escritorio a teléfonos celulares.

Los usuarios móviles pasan más de 3 horas a la semana en estos sitios, en comparación con las 2,2 horas que invierten en redes sociales desde su computadora.

Manuel Castells, catedrático de la Universidad del Sur de California, dijo hace unos días en Londres que para el 2014 las conexiones a internet vía celular, superarán a las que se realizan en computadoras tradicionales.

En América Latina la investigación de TNS se llevó a cabo en México, Argentina y Brasil.

BBC MUNDO HOME. Latinoamérica: más redes sociales, menos correo electrónico. [En Línea]. Disponible en: http://www.bbc.co.uk/mundo/noticias/2010/10/101012_1133_internet_redes_sociales_vida_digital_dc.shtml. [Consultado el 12/10/2010]

sábado, 9 de octubre de 2010

Posicionamiento web en Google

Este artículo tiene como objetivo poner en práctica lo establecido en la clase de Recuperación de información, en la Universidad de la Salle.
Nos intereso ya que maneja un lenguaje sencillo y es por tener un contenido explícito se facilita su lectura.

"Aquí te presentamos un pequeño manual de posicionamiento web en Google. Con él podrás conseguir aparecer en las primeras posiciones de los resultados. Recuerda que solamente podrás ser la primera posición si te esfuerzas mucho.

El posicionamiento en buscadores se ha convertido en los últimos tiempos en una de las herramientas más cotizadas por los webmasters. En particular, aparecer en las primeras posiciones en Google es algo indispensable si quieres generar tráfico hacia tu sitio web, ya que Google responde a casi el 60% de las búsquedas de Internet.

El tutorial que te proponemos te ayudará a conseguir un buen posicionamiento web, pero no esperes resultados en unos días, ni en unas semanas, ni quizá en meses. Se trata de un trabajo constante generando contenidos, optimizando páginas web y buscando enlaces cuyos resultados son a largo plazo.

:: 1 :: Buenos contenidos.
Este es el punto principal, ya no solo para aparecer en los primeros puestos en Google, sino para que la gente visite tu sitio web.

:: 2 :: Tecnología web.
Éstate informado de las últimas novedades en cuanto a servidores o lenguajes de programación. Te harán la tarea de gestionar los contenidos mucho más amena, y puedes "gustar más a Google".

:: 3 :: Sencillez.
Al robot de Google no le gustan las páginas con excesivas decoraciones y simplemente busca textos legibles y contenidos claros.

:: 4 :: Alta en Google.
El primer paso para conseguir una buena posición en Google es aparecer en el buscador. Descubre cómo hacerlo.

:: 5 :: Conseguir enlaces.
Es el pilar fundamental para obtener un PageRank alto. Intenta aparecer en los principales directorios (Yahoo! y DMOZ) y que te enlacen desde otros sitios web.

:: 6 :: Evitar penalizaciones.
Google sabe que muchas personas le intentan engañar, y está empezando a tomar medidas contra páginas web que realizan prácticas poco éticas para mejorar su posicionamiento. Infórmate de cuáles son y cómo evitarlas.

:: 7 :: Conseguir ayuda.
El posicionamiento requiere estar informado constantemente. Sigue nuestro foro y la Google Dance.

:: 8 :: Términos SEO.
Algunos de los términos y palabras con los que podrás entender más fácilmente toda la documentación referente al posicionamiento en buscadores.


Esperamos les halla gustado y lo podamos poner en práctica.
Posicionamiento Web en Google. [En línea].[consultado el 09/10/2010]. disponible en: http://google.dirson.com/posicionamiento.net/.

jueves, 7 de octubre de 2010

Disponible servicio Backup & Recovery de Acronis

Entornos físicos y virtuales


La compañía desvelará en VMWorld su solución de copia de seguridad y recuperación basada en imágenes en el cloud para completar su catálogo de soluciones de recuperación de catástrofes para entornos físicos y virtuales.

Diario Ti: Acronis presentará Acronis Backup & Recovery 10 Online. Solución de copia de seguridad y recuperación online que ofrece las ventajas de un centro de datos remoto sin tener que realizar una importante inversión inicial.

Acronis Backup & Recovery 10 Online ha sido diseñado para las pymes que actualmente suelen guardar sus copias de seguridad en cintas o discos y las almacenan en un lugar remoto, o aquéllas que no tienen una estrategia de protección de datos en otro lugar. Con este servicio, los administradores de TI podrán recuperar archivos, carpetas e incluso imágenes completas de sistemas.

El servicio incluye asistencia para entornos informáticos mixtos, que combinan elementos físicos y virtuales, como los que se encuentran en muchas de las empresas de hoy. Con este anuncio, la familia Acronis Backup & Recovery 10 se convierte en una de las primeras soluciones de protección de datos que ofrece copias de seguridad online sin agentes para máquinas virtuales.

“La copia de seguridad y la recuperación se basan en la confianza y la fiabilidad. Estos valores fundamentales son aún más importantes cuando las empresas guardan datos esenciales en la cloud", afirmó Jason Donahue, Consejero Delegado de Acronis. “Este producto es una ampliación natural de nuestra solución para instalaciones in situ".


Acronis desarrolla software de gestión de almacenamiento, incluyendo software para la recuperación de fallos graves, restauración y backups de imágenes de discos, gestión de particiones, gestión de arranque y migraciones de datos de un ordenador a otro. También desarrolla software para la virtualización, migración y conversión con propósitos como migrar un servidor físico a servidor virtual VMware o lo que se conoce como Físico a virtual (P2V). (Wikipedia)

REFERENCIA

DiarioTi [en línea]. [consulta: 07 de octubre de 2010]. Disponible en: http://www.diarioti.com/gate/n.php?id=27765

miércoles, 6 de octubre de 2010

BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN

Búsqueda y Recuperación de información

El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado. Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental.

Sistema de recuperación de información: proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.

Componentes:

• Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.

• Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer qué tipo de ecuaciones serán permitidas.


Técnicas de recuperación de información

o Sistemas de recuperación de lógica difusa
Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento

o Técnicas de ponderación de términos
Es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

o Técnica de clustering
Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Algoritmos utilizados para realizar la categorización (cluster):

 Algoritmo K-means
 COBWEB
 Algoritmo EM

o Técnicas de retroalimentación por relevancia
Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Algoritmo Genético: es el que se ha utilizado para llevar a cabo este tipo de técnicas de recuperación

o Técnicas de stemming
Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Algoritmos utilizados para desechar prefijos y sufijos:

 Paice/Husk
 S-stemmer / n-gramas
 Técnicas lingüísticas

Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas.

REFERENCIA

PINTO MOLINA, María. Electronic Contents Management Skills. [en línea]. [consulta: 06 de octubre de 2010]. Disponible en: http://www.mariapinto.es/e-coms/recu_infor.htm

martes, 5 de octubre de 2010

EL DOCUMENTO ELECTRÓNICO

Si tengo información en papel, la digitalizo, la convierto en imágenes y con el software, administrador de imágenes, la puedo conservar y recuperar en el futuro; si por el contrario tengo correo electrónico, que sale o llega a mi organización, los productos existentes en el mercado, que administran el correo y no se hace referencia a la plataforma de correo electrónico porque esa la conocen todos, sino a cómo administrar el correo electrónico como un mensaje de datos y como una información que debe ser conservada dentro de la organización. Existen administradores de documentos, para manejar la información que manejamos directamente desde el computador, que es la tercera fuente del manejo de la información electrónica, entonces tenemos todo el software de ofimática y tenemos igual administradores de documentos que fácilmente me permiten indexar esta información almacenarla y poderla recuperar. Para la última fuente de información, que son todos aquellos datos que generan mis sistemas de información, mis aplicaciones corporativas, cartera, nomina de recursos humanos etc. Tenemos aplicaciones que me permiten por un lado tomar del spool de impresión esos grandes listados de información y guardarlos en medios electrónicos.

ARCHIVO GENERAL DE LA NACIÓN.Los Archivos y las Nuevas Tecnologías.editores graficos colombia Ltda. Bogotá. 2002. p62

ProQuest admite bibliotecarios e investigadores las herramientas necesarias para mejorar la experiencia de la investigación

Siempre estamos pensando en herramientas y servicios para ayudar a los bibliotecarios conectar sus comunidades de usuarios con los recursos de información profunda que impulsan la investigación.
Desde folletos para fomentar el conocimiento de valiosos recursos en línea a la investigación para guías de descubrimiento, ofrecemos herramientas para que los bibliotecarios más éxito.

Library Marketing Toolkits Biblioteca de Herramientas de Marketing
¿Cómo recordar a su comunidad de usuarios acerca de los grandes recursos en línea que ofrece, cuando piensan en todo lo que necesitan es la web? Las herramientas y las muestras en estos juegos libres será de ayuda.

Para Bibliotecas Universitarias
Para Bibliotecas Corporativo
Para Bibliotecas Públicas
Para los militares Bibliotecas Universitarias
Para las Bibliotecas Base Militar
Para K-12 Escuelas y Bibliotecas
Para todas las bibliotecas: Prensa Histórica Toolkit
RSS Feeds RSS Feeds

ProQuest ofrece actualizaciones artículo y el contenido para mejorar los servicios a sus usuarios mediante la integración de los últimos artículos en un campo determinado en la página correspondiente de recursos electrónicos en el sitio de la Biblioteca.

ProQuest LLC. La colección de herramientas. [En línea].2010. Disponible http://translate.google.com.co/translate?hl=es&sl=en&u=http://www.proquest.com/&ei=99-rTIv-L4n2swOHtOy0Aw&sa=X&oi=translate&ct=result&resnum=1&ved=0CBwQ7gEwAA&prev=/search%3Fq%3Dproquest%26hl%3Des%26prmd%3Dlen. [citado el 05 de Octube de 2010]

lunes, 4 de octubre de 2010

PROGRAMA DE GESTION DOCUMENTAL EN EL MARCO DE LAS NUEVAS TECNOLOGIAS

Los programas de gestión documental también abarcan las nuevas tecnologías y en eso es preciso que tengamos claridad, por cuanto se enmarcan como los procesos archivísticos sistemáticos que comprenden el conjunto de actividades administrativas y técnicas tendientes a lograr el eficiente y eficaz manejo en la organización de la documentación producida y recibida por una entidad, con el objeto de facilitar su producción, tramite, ordenación, clasificación, descripción, conservación, utilización y disposición final . Además estos procesos incluyen sistemas automatizados de organización de los documentos y en estos sistemas debemos tener en cuenta, por ejemplo que desde la misma unidad de correspondencia, se da el desarrollo a todo el trámite del manejo documental por ello la integralidad entre la unidad de correspondencia, los archivos de gestión. Los archivos centrales y los archivos históricos es fundamental para que se dé el adecuado proceso en este programa de gestión documental. Es importante también, que se dé la aplicación en cada una de las fases de este programa, lo cual es inherente a todos los documentos indistintamente del soporte. Uno de los problemas que más se trata hoy en día a nivel archivístico, es si se debe dar el mismo tratamiento al documentos electrónico que al documento de soporte tradicional; básicamente, es el enfoque que ha llevado a que el Consejo Internacional de Archivos también trabaje sobre esta temática
El sistema de información que soporta la gestión documental tiene que ver con aspectos de compatibilidad, como lo podemos observar entre el sistema de información y la integralidad en cada una de las herramientas y sus procesos. Es fundamental para que dentro del programa de gestión documental se tenga en cuenta todos los lineamientos que están en los manuales de procedimientos, porque estos deben ir de la mano para el desarrollo de cada una de las fases en el manejo del documento.

ARCHIVO GENERAL DE LA NACION. Los Archivos y las Nuevas Tecnologías. Editores gráficos Colombia. Ltda.Bogotá.2001.p49

domingo, 3 de octubre de 2010

MEMORIAS DE CLASE 8

20 de septiembre de 2010

El docente asesora acerca de la segunda tutoría, para lo cual se hace el proceso de instalación del software greenstone. El software puede crear y distribuir colecciones de biblioteca digital. Proporciona una nueva forma de organizar la información y publicarla en internet o en CD-ROOM.1

Greenstone es un conjunto de software para construir colecciones pertenecientes a una biblioteca digital. Proyecto apoyado por la UNESCO. Modelo para montar una colección digital en internet.

Se descargo el software se ingresa por programas a Greenstone: Library Interface, de donde se crea una nueva colección con datos como: titulo de la colección, descripción, etc. Luego se buscan las carpetas de la colección que se quiere ingresar al sistema, se arrastran con el mouse.

Se analizaron opciones del software como:

 Enriquecer: tiene la opción para colocar metadatos (describe el texto)
 Diseño: pluggins son los indizadores, índices (sobre cual elemento se quiere buscar), partición a índices
 Crear: toma la colección y la indiza, tiene vista previa, se pueden hacer búsquedas.

El docente confirma que la entrega de la segunda tutoría será el día 20 de octubre teneindo en cuenta:

1. Instalación y configuración de las herramientas (software Greenstone y escoger uno para archivos). Manuales

2. Búsquedas en los software anteriores y nuevos

3. Comparación de las 4 herramientas (Google Desktop, Copernic Desktop, Greenstone y Alfresco)

Se hace el proceso de instalación de Knowledge Tree en clase de recuperación de información, pero no es posible acceder a ninguna colección ya que no las toma ni comprimidas.

1. Greenstonte Digital Library. [en línea]. [consulta: 25 de septiembre de 2010]. Disponible en: http://www.greenstone.org/

HTML, y los documentos estructurados

En XML hablamos mucho acerca de los documentos estructurados. pero, ¿qué son?. Intuitivamente, pensamos en los documentos como contenedores de algo. Un archivo de Microsoft Word, un memorando, un mensaje de correo electrónico e, incluso, una página web, se suelen considerar documentos. Pero, ¿como se clasificaría una hoja de cálculo, un registro de base de datos o un mensaje middleware? En términos de XML, todos ellos también serían considerados documentos.
Especialmente en el caso de las páginas web estáticas, es fácil caer en la trampa de considerar los documentos orientados a la edición. Sin embargo, los datos de cualquier aplicación pueden describirse por medio del marcado XML.
Sin embargo, si nos preguntamos qué es un docuemento web, casi todos los desarrolladores web responderán intuitivamente que es una página HTML.

XML, tiene la opción que le permite formalizar la estructura por medio de una sitaxis especializada. De cualquier manera, una definición de la estructura se denomina esquema, y las reglas que rigen el uso de los elementos en función de ese esquema se denomina colectivamente definición del tipo de documento , o DTD.

FLOYD, Michael. Creación de sitios web con XML. Pearson Educación, s.a, Madrid, 2000.18p.

martes, 28 de septiembre de 2010

Intel se reinventa

Paul Otellini anunció una de las estrategias más ambiciosas de su compañía

A nadie le pueden quedar dudas del hecho que Intel sea una de las empresas más importantes del sector de la tecnología en el mundo. Debemos recordar que la mayoría de los computadores, sean de escritorio, servidores o portátiles y los Mac de Apple usan sus procesadores y su tecnología.

Pues bien, en el foro para desarrolladores de Intel –Intel Developer Forum (inglés)–, celebrado la semana pasada en San Francisco, Estados Unidos, su presidente o CEO, Paul Otellini (inglés), lanzó la más estratégica y ambiciosa iniciativa de esta compañía y es la de tener presencia en todos los aparatos del planeta, ofreciendo plataformas que led permitan construir soluciones completas a los fabricantes y vendedores de tecnología. “Estamos tratando de entregar plataformas completas de computación a nuestros clientes y desarrolladores en todo el mundo”, fue la frase dicha a los asistentes a su conferencia magistral con la que abrió este evento y en la que plasmó el tema central.

En el IDF se pudo apreciar la nueva línea de procesadores Intel, conocida como Sandy Bridge, que mantendrá la nomenclatura de Core i3, i5, i7 pero con el letrero ‘Segunda Generación’ escrito antes. Vale la pena mencionar que estos nuevos procesadores, que estarán en el mercado en el primer trimestre del 2011, se fabricarán con tecnología de 22 nanómetros. Para entender este término debo contar que un cabello tiene el grosor de 50.000 nanómetros y 1 nanómetro tiene el tamaño de unos pocos átomos. Gracias a esto, Intel ya puede incluir en el mismo tamaño de chips una mayor funcionalidad, sea de procesamiento, gráfica o para otra cosa. En su fabricación Intel usará una tecnología que denomina ‘microarquitectura visiblemente inteligente‘ (inglés).

En resumen, lo que esta empresa se propone en el futuro es estar en todos los aparatos disponibles para los usuarios, sean computadores, portátiles, tablets o celulares. Esta movida estratégica tiene su sustento en los 1.400 millones de computadores actualmente en uso, cantidad que subirá a 2.240 millones para el 2014 (Gartner, inglés).

Por otro lado, Ericsson sostiene que ya hay 5.000 millones de usuarios de celulares, de los cuales 2.800 son de teléfonos móviles inteligentes o ‘smartphones’ (TechCrunch, inglés), y eso que aún no ha despegado la fiebre de los computadores tablet, como el Apple iPad , el Samsung Galaxy (inglés)o el Touch Smart de la firma PC Smart, elaborado en Colombia.

Estas cifras demuestran la importancia que tendría el poder ofrecer plataformas de tecnología que permitan construir computadores, celulares u otros dispositivos, que ofrezcan menor consumo de energía, tema muy importante para Intel, así como buena capacidad de procesamiento y múltiples funciones.

No va a ser una tarea muy fácil, pero Intel ha demostrado que siempre está liderando la innovación en tecnología y que ha estado dispuesta a afrontar exitosamente retos, como el expuesto por Otellini la semana pasada. 

SANTOS,Guillermo. Intel se reinventa.25 de Septiembre de 2010. Consultado en: http://www.enter.co/hardware/intel-se-reinventa. [ Consultado el 28 de Septiembre de 2010]

domingo, 26 de septiembre de 2010

LOS DESAFIOS QUE ENFRENTAN LOS ARCHIVOS Y LAS TECNOLOGÍAS

Según Thomaz (2005), que estudio los factores condicionantes, los problemas fundamentales de la preservación digital fueron divididos en siete categorías:
• Carencia de políticas de evaluación: las implicaciones para la definición de prioridades y criterios de selección son muy graves en el ambiente informático. La fuente digital no seleccionada para tratamiento activo de preservación en las fases iniciales tiene gran posibilidad de perderse o no tener uso en el futuro.
• Carencia de políticas de descripción: la naturaleza compleja de la tecnología exige que se aborde la descripción mas detallada de los objetos digitales para su manutención, la integración, tanto interna como externa, se hace esencial.
• Vulnerabilidad física: el hardware y los medios de comunicación en los que los objetos digitales se almacenan son inherentemente inestables. Sin ambientación y manutención adecuadas, pueden deteriorarse rápidamente, aunque no parezcan afectados externamente.
• Vulnerabilidad lógica: el ambiente informático es propicio para los cambios algunos de los cuales resultan de necesidades del propio gerenciamiento del ambiente , lo que puede comprometer la integridad, la autenticidad y la historia de los objetos digitales.
• Alta obsolescencia tecnológica: la velocidad de los cambios tecnológicos en el ambiente tecnológico reduce el tiempo para la necesaria reacción, el ciclo de renovación es corto de tres a cinco años, al contrario de décadas o siglos asociados a las preservación de objetos físicos, la obsolescencia tecnológica es generalmente vista como la principal amenaza técnica para garantizar el acceso continuado al objeto físico.
• Alta dependencia tecnológica: todos los objetos digitales requieren hardware y software específicos para poder tener acceso a ellos. Esa tecnología amplia y la mayoría de las veces, propietaria requiere ajustes contractuales adecuados a para que no se puedan negociar con facilidad.
• Dificultad de obtención de experticia: la tecnología envuelta en el acceso a objetos digitales requiere gran diversidad de mano de obra especializada y actualizada para su funcionamiento y manutención.

Archivo General de la Nación.los documentos y los archivos electrónicos.Bgotá.2005. pag 29

sábado, 18 de septiembre de 2010

Recuperación de información Memorias de Clase 7

Lunes 13 de septiembre de 2010

Diferencia entre recuperación de información y recuperación de datos

• Recuperación de información trata de resolver una necesidad de información.

o No hay una sola forma de saber cómo preguntar
o A la pregunta formulada múltiples respuestas, relacionado con el % de relevancia
o Lenguaje natural (procesamiento de lenguaje natural) es cambiante
o Para cada persona hay resultados diferentes, para preguntas diversas (subjetividad)

• Recuperación de datos: es un proceso más sencillo, no resuelve el problema de la recuperación de información solo devuelve datos sobre un tema.

o Forma exacta para generar preguntas
o Inferencia (como puedo establecer la pregunta)
o 100% de satisfacción a la pregunta hecha
o Lenguaje SQL (artificial)
o Si hay error se vuelve a hacer la pregunta hasta que salga el resultado
o Es la misma respuesta para varias personas (objetividad)

Objetivos de la Recuperación de Información

1. Poder recuperar sobre cualquier tipo de documento (texto, video, imagen, etc.)

2. Poder entender cualquier pregunta

3. Encontrar el mejor mecanismo para calcular la relevancia (los mejores procesos de comparación y análisis, mostrar los resultados)


Proceso de recuperación de información

a. Necesidad de información (vacio conceptual)
b. Definición necesidad (preguntas
c. Selección de recursos de información
d. Consulta de recuperación de información
e. Evaluación de resultados
f. Presentación al usuario

Problema de los lenguajes de consulta y recuperación de información
Como yo pregunto y como el sistema interpreta la pregunta, transformación del lenguaje (estandarizar)

Tipos de representación de la información

1. Lenguaje humano: pregunta del lenguaje natural (manejo regional de expresiones, de forma cotidiana, es poco conciso, ambigüedades, es difícil de interpretar). No hay ningún sistema que interprete el lenguaje natural de forma exacta.

2. Lenguaje restringido: se cambia la expresión de las preguntas (la transforma), cambia a términos controlados. Transforma la pregunta para que sea más efectiva. Cambia la expresión de búsqueda con términos normalizados con la finalidad que el computador entienda. Es más efectivo con menos palabras.
Lenguaje controlado: haciendo un tesauro, relaciones semánticas.

3. Lenguaje artificial: según reglas de la maquina, utilizando operaciones, palabras (especificas), símbolos. Se tiene otra transformación de búsqueda y aplica reglas de la maquina. Se cambia de expresión a ecuación que siga modelos lógicos matemáticos. Ecuaciones de búsqueda.

Como preguntar?

Pregunta tomada como:

• Ecuación
• Conjunto de términos
• Expresión


Notas de clase:


* Como se había mencionado la extracción de información se toma como un subproceso de Recuperación de Información.
* Las bases de datos son diferentes a las bases documentales.
* Los sistemas de recuperación de información
* Expresiones de búsqueda: conjunto de términos en lenguaje natural
* Demanda documental: con ecuaciones de búsqueda
* Ecuaciones de búsqueda: expresión de búsqueda

jueves, 16 de septiembre de 2010

LA RECUPERACION DE INFORMACION Y LOS REGISTROS ELECTRONICOS FRENTE A LAS FUNCIONES DOCUMENTALES

Una buena gestión de documentos electrónicos se debe sustentar en la ejecución y aplicación de tres funciones documentales: declaración, clasificación y aplicación del ciclo vital del documento.
Declarar el documento, es decir, registrarlo para darle existencia dentro del sistema documental de la empresa, implica varias tareas tales como:
Marcar un registro como un documento, lo cual se puede realizar manualmente o a través de procesos de flujo auto9matizados. Se debe tener en cuenta que algunos datos de las aplicaciones pueden ser usados como un campo de valor para los metadatos.
Crear los metadatos del documento: como es único ID, asunto, para, de, etc. Para ser almacenado en servidor especifico.
Revisar privilegios de usuario: para editar, cambiar o borrar el registro, antes de ser declarado como documento.
Clasificar el documento, de acuerdo con una estructura archivística previamente aprobada. Implica tareas tales como:
Agrupar los documentos a partir del cuadro de clasificación de la entidad, ya sea bajo conceptos que reflejan las funciones generales, las actuaciones específicas de la entidad o siguiendo la estructura orgánico-funcional de la entidad.
El objetivo de este proceso es el de facilitar la localización conceptual de los documentos, así como su ubicación física en un repositorio electrónico.
Existe la opción automática de clasificación del documento para lo cual se deben definir reglas de almacenamiento de los documentos electrónicos con base en los metadatos, códigos de archivo, etc.
En el caso de la clasificación manual de los documentos se deben tener en cuenta pasoso como: desconocimiento del asunto de los documentos, listas de códigos de archivos para almacenar en servidor de documentos electrónicos, seleccionar los códigos de la lista de códigos de archivo y almacenar el código del archivo, como un metadato más y así su recuperación posterior.
Aplicar el concepto del ciclo vital del documento al proceso de gestión.
Se entiende por ciclo vital, las etapas sucesivas por las que atraviesan los documentos desde su producción o recepción en la oficina y su conservación temporal, hasta su eliminación o integración a un archivo permanente.

Archivo General de la Nacion. Los documentos y los archivos electronicos. Bogota. 2005. p94

miércoles, 15 de septiembre de 2010

RECUPERACIÓN DE INFORMACIÓN Y LAS FIRMAS ELECTRONICAS

El requisito que más nos preocupa a las personas que trabajamos con recuperación de la información, es la idea de tener siempre comprobantes en papel de cualquier transacción, independientemente de su cuantía, es el de la firma. En este sentido es importante advertir  que la ley avala el uso de todo  tipo de tecnologías de firma electrónica, lo cual no quiere decir que sean exclusivamente firmas digitales. La ley indica en su artículo 7º sobre requisitos para las firmas electrónicas, que son los mismos que se cumplen con firmas manuscritas y podrían ser los mismos en sistemas de tecnología basada en estándares biométricos como huellas digitales y plantares y estructura del iris del ojo, sino se tuviera clara una vinculación de la persona con al transacción, estos requisitos son: que se pueda identificar al iniciador del mensaje; que se pueda indicar que el iniciador del  mensaje aprueba el mensaje y que el método sea  tanto confiable como apropiado  para le propósito de la transacción. Por eso es tan importante que la gestión documental se apoye en el concepto de abogados.
En este sentido, es claro que la ley no pretende obligar al uso de firmas digitales y certificados en todo tipo de transacciones, sino que si la tecnología cumple con el concepto de escritura, originalidad y firma, se entenderá equivalente al papel y a las firmas manuscritas.
En este caso la tecnología a nivel mundial tiene cada día mayor demanda, es muy segura y la preocupación que existe con la tecnología biométrica o basada en estándares biométricos es que supone intrusiones a la privacidad ya que en algunos casos permiten hacer lectura de ADN y a través de lectura del iris del ojo detectar enfermedades.
Los documentos y los Archivos Electrónicos. Archivo General de la Nacion.Bogota.2005.pag 71

martes, 14 de septiembre de 2010

EL REPORTE DELTA

La tecnología actual nos permite tener a disposición los datos que queramos. También nos permite con ella producir la información que se quiera y se desee para la toma de decisiones. No esperemos que con solo la tecnología se tomen las decisiones, se requiere la intervención de personas preparadas para ello. Este es el tema que manejamos en el artículo esta semana.

Acortar direcciones de la Web se ha vuelto requisito indispensable. En el Software esta semana reseñamos dos sitios que brindan este servicio en forma gratuita. La Joya en la Web presenta un espectacular sitio que recopila información estadística de muchos deportes con capacidad para analizar y filtrar y en las estadísticas presentamos la distribución de las líneas de banda ancha en América latina.


José Camilo Daccach T.http://www.deltaasesores.com/
Ver más en:
http://www.eltiempo.com/blogs/el_reporte_delta/2010/09/brujulas-y-gps-abreviador-de-d.php

lunes, 13 de septiembre de 2010

Metadatos. Curso básico de Joomla.mov

http://www.youtube.com/watch?v=r7cryqS3_o4

RECUPERACIÓN DE INFORMACIÓN, ASPECTOS RELATIVOS A LA PROTECCIÓN DE INFORMACIÓN

Desde el punto de vista de las nuevas tecnologías, es pertinente aclarar que la legislación no protege la información como tal, sino una forma de documentos que son los llamados mensajes de datos, en este sentido hay una ley rectora de protección de la información digital en Colombia o de protección de los documentos electrónicos.
Desde que se expidió la ley 527 de 1999, reglamentada por el decreto 1747 de 2000, se ha observado que no se aplica, dado que la carga de responsabilidad radica en cabeza de la entidad que gestiona la información y los documentos, vale la pena decir que esta ley no es mandatorio y busca proteger el patrimonio de las organizaciones, tanto en el sector público como en el privado.
Cuando se gestiona información o documentos, se están administrando riesgos, frente a lo cual la ley 527 lo que busca cada vez que se cree un documento como riesgo posible, es entregar un mensaje de cautela, tanto al Estado como al sector privado. La administración de estos riesgos, consiste en primer lugar, en proteger los atributos de la información y en segundo lugar, enfrentar la controversia que se puede presentar tanto en el sector público como en el sector privado.
Por otra parte, no hay que olvidar que información en el sector publico o en el privado, es valor en libros, patrimonial y económico, se calcula que en el mundo el 90 por ciento de los documentos nacen electrónicos, muchos se imprimen y se suscriben con firmas ológrafas o manuscritas, o sea que cada vez más la información tiene mas relevancia en las organizaciones y eso supone una carga de diligencia muy importante de todos los niveles.
Como antecedentes generales, se puede afirmar que hay una creciente e ilimitada capacidad de almacenamiento, así como facilidad para administrar la información electrónica y su localización.

Los documentos y los archivos electronicos. Archivo General de la Nacion.Bogota.2005.p65

domingo, 12 de septiembre de 2010

Recuperación de información Memorias de Clase 6

6 de septiembre de 2010

Recuperación de información

Necesidad de información: se toma cuando hay un proceso del conocimiento tácito en explicito, se transforma en información, en estructuras mentales, ese conocimiento llena un vacío cognitivo. Cuando no hay claridad suficiente para analizar una información, se crea una necesidad. El problema es que no se sabe cuales ni cuantos datos satisfacen la necesidad, depende de los conocimientos previos que tengan las personas.

Hay un vacio conceptual para generar una idea, y la Recuperación de Información es el cómo satisfacer los vacios conceptuales. Las necesidades de información crecen y cambian, son problemas de la gestión del conocimiento

Hay dos tipos de necesidades de información:

1. Necesidad de información concreta: es específica, fácil de solucionar, se puede intuir que información puede satisfacer estas necesidades, tiene un vacio conceptual definido, se pueden plantear preguntas concretas, da lugar a respuesta con un documento con un contenido completo. Utiliza palabras exactas, correspondientes con los límites temáticos. Con la necesidad de información específica hay preguntas definidas y tiene una respuesta concreta y facilita la recuperación de información y desaparece la necesidad de información. Influye en la recuperación de información ya que con necesidades específicas es más fácil la recuperación, permite expresiones de búsqueda más detalladas.


2. Necesidad de información orientada al problema: no hay temática definida, está mal formulada, no se especifica en las búsquedas. Para necesidades de información no definidas, se generan preguntas generales y hay millones de documentos. En general, la necesidad de información no es satisfecha, permanece durante un largo periodo de tiempo y dificulta la recuperación de información.


DEFINICIÓN DE LA RECUPERACIÓN DE INFORMACIÓN

Según Ingwersen, la recuperación de información es el proceso de gestión del conocimiento, proceso para satisfacer una necesidad de información. Con la recuperación de información se pasa de un estado actual del conocimiento a un estado necesario de conocimiento.

• Problema personal de espacio, disminuir los vacios conceptuales
• Problema de gestión del conocimiento

Según Belkin, la necesidad de información es el estado normal del conocimiento y la recuperación de información es el problema de normalización del conocimiento.

Recuperación de información es el proceso de comparar una pregunta contra un conjunto de índices. Permite comparar los términos de una pregunta contra un conjunto de términos de u índice de un conjunto de documentos mostrándolos, desplegándolos estableciendo un modelo de relevancia (ranking).

¿Cómo organizo los resultados?
¿Qué coloco primero?
¿A que le doy mayor valor?
¿Qué documentos son más relevantes ante una expresión de búsqueda?

SISTEMA DE RECUPERACIÓN DE INFORMACIÓN

El sistema de recuperación de información involucra procesos automatizados, hardware, software, información digital, que la información, los contenidos documentos están codificados digitalmente sin importar el formato.

• Software: algún mecanismo que compare
• Hardware: administra índices

El sistema de recuperación de información estudia la recuperación de información que pertenece a una colección de documentos para satisfacer una necesidad de información. El sistema de recuperación de información compara los contenidos de los contenidos de los documentos contra preguntas de necesidad de información (compara términos contra términos). Hace procesamiento de texto, de contenido y genera índice. Son sistemas que ofrecen al usuario mecanismos para acceder a fuentes de información.

Con la recuperación de información hay análisis de preguntas, indización, organización de resultados, análisis de contenidos, procesos de comparación.
La recuperación de información desde los sistemas de recuperación de información como conjunto de tareas, procesos y procedimientos automatizados mediante las cuales el usuario localiza y accede a los recursos de información. Ofrece documentos relevantes, relación semántica o procesamiento semántico de contenidos. La recuperación de información sin importar lo que yo busco ante una necesidad de información (orientada al problema) se analice y se transforme en una necesidad concreta.

• Relevancia: importancia según necesidad de búsqueda
• Pertinencia: útil, es subjetiva depende de cada persona


EXTRACCIÓN DE INFORMACIÓN

Es el proceso especializado de recuperación de información, destinado a necesidades de información concretas. Hacer una búsqueda basada en unos términos y criterios asociados, establecer unas reglas. Se toma como subproceso de recuperación de información.

Recuperación de información y sistemas expertos

Los sistemas expertos, con su capacidad para combinar información y reglas de actuación, han sido vistos como una de las posibles soluciones al tratamiento y recuperación de información, no sólo documental. La década de 1980 fue prolija en investigación y publicaciones sobre experimentos de este orden, interés que continua en la presente década. En resumen, un sistema experto es una aplicación capaz de realizar las tareas propias de un experto humano en un área restringida. Se compone de una base de datos, de una base de reglas y de un motor de inferencia (FROST, 1989). La base de datos almacena el conjunto de datos o documentos sobre los que se desea ejecutar una serie de acciones. La base de reglas contiene un compendio de reglas lógicas que el sistema debe utilizar para desarrollar razonamientos, así como las normas que permiten combinar las reglas, por último, el motor de inferencia es el encargado de ejecutar las órdenes del usuario, utilizando como criterios las reglas, y como material de partida el contenido de la base de datos, hasta alcanzar una conclusión simulando el razonamiento que seguiría el experto humano. El desarrollo posterior de estos sistemas ha traído un conjunto de nuevas aplicaciones a las que se identifica como Sistemas Basados en el Conocimiento (SBC), que incorporan técnicas más sofisticadas como la lógica difusa, razonamiento basado en modelos, etc., y lo que puede ser más interesante para el especialista en información, medios de recuperación de información deductiva (FROST, 1989: 6).

Lo que diferencia a estos sistemas de un sistema tradicional de recuperación de información es que estos últimos sólo son capaces de recuperar lo que existe explícitamente, mientras que un sistema experto debe ser capaz de generar información no explícita razonando con los elementos que se le dan (WORMELL, 1988). Pero la capacidad de los SE y de los SBC en el ámbito de la recuperación de la información no se limita a la recuperación. Pueden utilizarse en ayudas al usuario, en selección de recursos de información, en filtrado de respuestas... (ALBERICCO y MICCO, 1990) Un SE/SBC puede actuar como un intermediario inteligente que guía y apoya el trabajo del usuario final. Para desempeñar de forma adecuada esta tarea, los enfoques centrados en la creación de modelos de las estructuras cognitivas del usuario son los más prometedores (INGWERSEN, 1987).

Referencia:
TRAMULLAS, Jesús, KRONOS. Recuperación de información y sistemas expertos 1997, 2000. Disponible En: http://tramullas.com/documatica/3-8.html

sábado, 11 de septiembre de 2010

Recuperación de información MEMORIAS DE CLASE 5

viernes 27 de Agosto de 2010
Procesos de recuperación de Informapción 
INDIZACIÓN: es el proceso de describir o representar el contenido temático de un recurso de información. Acción de describir o identificar un documento en relación con su contenido. Genera otra colección igual a la primera. Representar un conjunto de documentos en base a esos términos.

Cada documento implica que un documento está en un sistema de información 2 veces. Son estructuras de datos organizados. Indizar es aplicar una técnica. Dependiendo del sistema de información se puede identificar si usa índices (depende del contenido del documento).

Durante la indización los conceptos se extraen del documento mediante análisis y luego de este proceso los conceptos se transforman en términos de indización. La indización consiste en :

1. Examen del documento y determinación de su contenido
2. Identificación y selección de los conceptos principales del contenido
3. Selección de los términos de indización
Opciones de búsqueda
a. Recorriendo el texto: busca algo que contenga la palabra, sirve para abrir y recorrer el texto. Si corresponde la búsqueda lo muestra. (ejemplo: windows)
b. Procesamiento del contenido del texto: se aplica teoría de indización para grandes colecciones y colecciones estáticas (el contenido siempre va a estar allí, que no se muevan del directorio)
Índices: los índices de estructura de datos de Un Sistema de Recuperación de Información permiten realizar búsquedas mediante técnicas que comparan o equiparan los enunciados que han utilizado los usuarios con los términos almacenados en los índices del sistema.
Estructura de índices

1. Archivos directos: se toma de cada documento

2. Archivo inverso: genera una matriz de términos; tipo de documento. Índice en cuya estructura se encuentra: palabra clave, ID documento, ID campo. Se compone de:

Vocabulario: conjunto de palabras que aparece en un texto.

Ocurrencias: lista de las apariciones de cada palabra en el texto, una por cada palabra.

Entramos y revisamos la LISTA WIP, que permite analizar la estructura semántica de la red para medir y comparar la popularidad de los personajes más importantes de todo el mundo. Ingresamos a la dirección http://www.elpais.com/graficos/tecnologia/Lista/WIP/elpeputec/20080215elpeputec_1/Ges/

Y los resultados fueron:

1. Búsqueda de nombres los robots buscan en la red nombres propios de personas que aparezcan en la web, a partir de la web semántica que analiza el contenido de cada sitio por palabra y el contexto en que se encuentra.

2. Documentación: si la palabra cumple los requisitos, el robot contextualiza datos respecto al personaje: profesión, fecha de nacimiento, lugar de trabajo, rol social, etc.

3. Relaciones entre personajes: el robot mediante un algoritmo comprueba otros personajes relacionados con el personaje de la búsqueda y evalúa el porcentaje de relación para determinar si es relevante o no.

4. Presencia en la red: el robot analiza el número de veces que el personaje aparece en internet contextualizando el tipo de perfil del mismo.

5. Índice de popularidad: cada día busca el número de veces que el personaje aparece en sitios de noticias, para poder comprar con fechas anteriores para obtener el índice de tendencia de su índice de popularidad.

6. La lista WIP: todo el contenido se envía a una base de datos que sirve de soporte para la elaboración de la lista WIP.
Se descargo el programa AntConc 3.2.1w se guardo en descargas luego se ejecuto file open dir se escoge el archivo que se va indexar Word list start (genera ranking, frecuencia y términos) se ingresa por collocate se ingresa por concordance se ingresa por concordande plot analizando opciones de la indización



La exploración como mecanismo de recuperación

Las limitaciones inherentes al proceso de recuperación mediante ecuaciones han conducido a experimentar otras aproximaciones. Una de las más utilizadas es aquella que utiliza la exploración, es decir, el acceso a los documentos mediante técnicas de visualización de parte de su contenido que puede ser relevante, y la posterior asociación con otros documentos de perfil similar. Para Doyle (ELLIS, 1990: 22-23), esta capacidad de exploración debería ser fundamental en los sistemas. El usuario accede a un listado o enumeración de elementos descriptivos, y mediante un proceso de selección de elementos, va centrando el objetivo de su búsqueda. Los criterios utilizados por el usuario se basan en la deducción y la asociación de conceptos (aproximación ésta similar a la que utiliza un sistema hipertextual -ver infra el capítulo pertinente-) frente a la lógica de conjuntos que se plantea en un sistema de ecuaciones. Este tipo de representación es más adecuada para reflejar la polirepresentación que un concepto puede tener para un usuario individual. En cambio, la utilización de la exploración suele realizarse en entornos en los cuales el usuario no posee una idea clara de cual debería ser la mejor táctica para aproximarse a la información que precisa. Por lo tanto, la cuestión clave a considerar en un sistema de exploración es combinar las ideas y esquemas del usuario con el esquema de organización de la información que ofrece el sistema (INGWERSEN, 1992: 135-140). Esta es la aproximación que pretenden desarrollar los enfoques cognitivos, poniendo su énfasis en el intermediario que debe existir entre el modelo del usuario y el modelo del sistema.
Referencia
TRAMULLAS,Jesús, KRONOS.La exploración como mecanismo de recuperación 1997, 2000. Consultado En: http://tramullas.com/documatica/3-6.html

Paradigma de interrogación: el problema de la relevancia en la Recuperación de Información

La interrogación se puede caracterizar como un proceso en el que el usuario lanza a una base de datos una sentencia (juicio) de búsqueda utilizando palabras clave y el sistema debe localizar la información que mejor satisfaga la búsqueda a través del emparejamiento (matching) entre el/los términos de la sentencia, y el/los términos almacenados en la base de datos.

El propósito de todo sistema de representación y Recuperación de Información no es proporcionar mucha información, sino proporcionar información relevante. La autora define la relevancia como “la relación que existe entre una necesidad de información manifiesta y la información almacenada”. En torno al concepto de información almacenada que no se trata como almacenamiento tangible ni univoco, y por otro, en torno a la necesidad de información manifiesta, ya que en internet muchas veces, no existe tal necesidad concreta de información.

En los sistemas de información, la relevancia se ha medido a través del número de documento que satisface una necesidad de información de un usuario, y ha dado lugar a indicadores y parámetros de evaluación cuantitativa, del éxito de un sistema de recuperación de información a través del cálculo de la tasa de exhaustividad.

Para evaluar la relevancia es necesario tener en cuenta una doble perspectiva: por un lado, el punto de vista cognitivo sobre cómo opera y se comporta el usuario ante una necesidad de información, y por otro, el punto de vista algorítmico. Con lo anterior, se distingue la relevancia subjetiva y la relevancia objetiva o valorable.

Relevancia subjetiva: la relevancia es subjetiva en sí misma, el usuario siempre tiene una intención concreta (una necesidad manifiesta de información). Cuando un usuario realiza una consulta especifica, el es intencionalmente relevante, porque sabe lo que está pensando y lo que quiere encontrar y espera lo mismo del sistema de búsqueda que interroga.

Relevancia objetiva: se basa en el análisis del propio mecanismo de recuperación, esto es, de algoritmos que utiliza el search engine, que es transparente para el usuario. Lo que se evalúa es el sistema/software que realiza el cálculo de la relevancia, que puede ir desde el número de veces de los términos de la pregunta que aparecen en cada documento candidato para satisfacerla (exact matching), al cálculo más sofisticado utilizando algoritmos de asignación de pesos a los términos que ponderan con un valor más alto a los más específicos, y con un valor más bajo a los muy abundantes.

La asignación de metadatos a los objetos de la red permitiría una mayor relevancia en los sistemas de recuperación global, tanto desde el punto de vista objetivo como subjetivo. Esos metadatos de carácter general servirán, teniendo en cuenta en lo que se fija el usuario, para determinar la utilidad de los recursos recuperados como resultado a una consulta. De esta manera, la relevancia dependerá no solo de la función de comparación de la palabra clave introducida, invertido del buscador, dependerá en muchos casos, también, del tipo de documento encontrado, del autor, de la actualidad del recurso (fecha), del idioma en que está escrito, etc., y de la medida en que el resultado pueda anticipar al usuario el interés que tiene los documentos encontrados potencialmente para él.


Referencia

MENDEZ RODRIGEZ, Eva. Metadatos y recuperación de información. estándares, problemas y aplicación en bibliotecas digitales. Asturias: Ediciones Trea, S.L., 2002. p 237-240

viernes, 10 de septiembre de 2010

Recuperación de información

Recuperación de información

Según Calvins Mooers la Recuperación de Información es “el proceso el método por el cual un usuario es capaz de convertir su necesidad informativa en una lista de citas de documentos almacenados, que contienen la información útil para él”. La Recuperación de Información la autora la toma como el conjunto de técnicas autorizadas que permiten localizar y en muchos casos llegar a la información que buscamos.

La Recuperación de Información es el proceso por el cual, una vez preparado el documento e identificada la necesidad informativa, se produce una comparación entre ambas para producir unos resultados satisfactorios para el usuario y consta de 5 fases:

1. Preparación de la información: este tratamiento puede ser mínimo, consistiendo simplemente en un cambio de soporte, o más complejo, como puede ser un sistema de indización por las raíces de las palabras.

2. Identificación de la necesidad informativa: preparándola para que pueda interrogar a la base de daros. Este proceso será más o menos complejo en función del sistema de búsqueda que se emplee.

3. Comparación de la pregunta que expresa la necesidad del usuario: con el contenido de la base de datos. Los métodos de comparación varían en función del sistema con el que se trabaje.

4. Salida del resultado de la fase anterior.

5. Evaluación de los resultados: si no se evalúa no se puede conocer realmente si los resultados son satisfactorios y si el sistema es adecuado o no.


Referencia

GOMEZ DIAZ, Raquel. La lematización en español: una aplicación para la Recuperación de Información. Asturias: Ediciones Trea, S.L., 2005. p. 33-47.

sábado, 4 de septiembre de 2010

METADATOS Y RECUPERACIÓN DE INFORMACIÓN EN INTERNET


Recuperación de información en la red: la recuperación de información en internet es diferente a la que se proyecta y realiza en los servicios de información tradicionales (bibliotecas y archivos, fundamentalmente), ya que la información no se almacena de forma centralizada y por que los recursos de internet tienen las siguientes características:
  • No son fijos y estables, como los documentos impresos y otros materiales en soporte físico
  • No están seleccionados y recopilados, como ocurre en las bibliotecas tradicionales y digitales
  • No están organizados de una forma centralizada para el acceso, ni se catalogan e indizan, como los recursos de las bibliotecas
El mundo de la Web se caracteriza además por ser dinámico y vertiginosamente cambiante, heterogéneo en cuanto a la variedad y la poca uniformidad de la información que alberga, y disperso, porque esa información se encuentra repartida por miles de servidores en distintas partes del mundo y de distintos sectores de actividad; donde cualquiera puede ser autor/editor digital.  Es preciso reconocer que la generalización del uso de internet, el aumento constante de usuarios, así como la importancia que han cobrado los servicios de información Web, hacen que los profesionales de la información se enfrenten a un mundo informativo prodigo, y en muchos casos, confuso.  Los bibliotecólogos no pueden ser ajenos a los diversos problemas que plantea la recuperación en un universo de información cambiante día a día teniendo en cuenta volumen, variedad y volatilidad.  
Internet es un mundo creciente de diseminación de información que combina muchas de las tareas tradicionales realizadas en bibliotecas y archivos, sin embargo su arquitectura es diferente a las unidades de información. Las bibliotecas han sido y son, en primera instancia, sistemas de almacenamiento y recuperación de información, y en segundo lugar, un medio de comunicación. A la inversa, internet es un medio de comunicación y solo de forma secundaria es un medio de almacenamiento y recuperación de información. esta visión de internet queda patente en la importancia que están cobrando los portales horizontales en la Web, donde la recuperación de información lato sensu es una parte mínima de los servicios de información que ofrecen.     
Tendencias de los sistemas de búsquedas web: las herramientas de búsqueda y recuperación de información en al red SRII se fundamentan en la automatización de las tareas tradicionales de organización del conocimiento (clasificación e indización). De forma elemental, podemos decir que un software clasifica y/o indiza automáticamente los datos de internet, organizando de alguna manera la miríada de información digital existente.   
El tratamiento automático a la información evita los altos costos, los retrasos y la imposibilidad de realización que supondría una indización humana de todos los recursos distribuidos en la Web. Sin embargo, y a diferencia de los indizadores humanos, estas aplicaciones, en general, no identifican características de un documento como la materia de la que trata, la fecha de publicación, el tipo de documento o las condiciones de acceso. Todo esto se debe a que la mayor parte de los engines que indizan la red no registran metadatos, y el caso de que si están preparados para reconocerlos, los autores/editores de las páginas Web no utilizan un modelo de metadatos de forma generalizada que permita insertar en la cabecera del documento esta información, determinante para el usuario, tanto a la hora de realizar sus consultas, como a la hora de comprobar si los resultados son relevantes según sus expectativas, sin necesidad de seguir el enlace y acceder al documento completo.   
El autor plantea un acercamiento a todas las formas y tendencias de recuperación de información en la red: 
1. Por una lado, una aproximación practico-tecnológica que se realiza gracias a una estrategia que usa la potencia del cálculo y la capacidad de transmisión de las redes para la recuperación de un volumen enorme de datos e información, lo que los investigadores de la Alexandria Digital Library denominan “método de fuerza bruta”.
2. Por otro, una aproximación teórico-semántica, de aspecto bibliotecario, según el cual el acceso a los recursos mejora imponiendo a los datos una estructura. La estructuración de la información a través de metadatos es una tendencia en esa línea teórico-semántica.

REFERENCIA

MENDEZ RODRIGEZ, Eva. Metadatos y recuperación de información. estándares, problemas y aplicación en bibliotecas digitales. Asturias: Ediciones Trea, S.L., 2002. p 229-240.

martes, 31 de agosto de 2010

Recuperación de información: Un voráz huracán digital

Recuperación de información: Un voráz huracán digital
La humanidad está hambrienta de datos. Entre más digitales somos, más información generamos.
Cuando inicié en el mundo de la computación había dos formas de guardar la información para llevarla conmigo. Una era utilizando un disquete de 3,5" y otra un disco flexible de 5, 25". Al primero le cabían 1,44 MB, al segundo 1,2 MB. Hoy en día ninguno de los dos podría alojar una canción MP3 de más de dos minutos.
Hoy en día existen las memorias USB que almacenan hasta 256 GB de datos. Han pasado poco más de 20 años y ahora podemos transportar 182.000 de esos extintos disquetes de 3,5" en un pequeño USB de cuatro centímetros de largo.
¿Se quieren seguir mareando? Expertos afirman que la humanidad en su conjunto acaba de alcanzar el gran total de 1 Zettabyte (ZB) de almacenamiento digital. Eso quiere decir que hemos producido 1.125.899.906.842.624 de esos disquetes de antaño.
¿Por qué ha crecido tanto nuestro apetito digital? Se debe a una combinación de factores. En primer lugar hay que apuntar a la masificación de la tecnología que hoy permite que múltiples gadgets (teléfonos inteligentes, laptops, tabletas, etc) estén al alcance de más personas.
usbdrives226.jpgEl otro factor es la socialización de internet. Entre más redes sociales, más información se comparte. Millones de fotos, videos y correos electrónicos se intercambian en el mundo cada día.
En un periodo de 24 horas en YouTube -que existe desde 2005- se suben más de 200.000 videos. Cada mes los usuarios de Facebook suben a la red social tres mil millones de fotos, lo que equivale a más de 1.000 fotos por segundo.
El correo electrónico es otra gran fuente de almacenamiento digital. Las personas envían diariamente millones de correos electrónicos y no es extraño ver a amigos, familiares o colegas que en sus buzones tienen miles de mensajes sin leer.
Y ¿qué tanto cabe en un dispositivo de última generación? Un iPod de 10 GB puede almacenar cinco películas de dos horas. Una computadora personal con un disco duro de 1 Terabyte (1 TB) puede alojar unas 250 películas. Un Petabyte (PB) almacenaría todos los libros y grabaciones digitales que se encuentran en la Biblioteca del Congreso, la más grande del mundo.
numerosbinarios.jpgEn un ZB -esa medida que acabamos de alcanzar- permitiría alojar un millon de PB o unas 250 mil millones de películas. Se estima que para el 2020 el almacén digital de la humanidad llegará a 35 ZB.
Por supuesto todo esto requiere de una gran cantidad de electricidad para funcionar y por ello hay quienes dicen que la tecnología es una de las grandes responsables de las emisiones de carbono en el planeta.
Pero otros argumentan que es gracias al mundo cibernético que se todos los días es posible salvar árboles al lograr que el papel se convierta cada vez más en un producto innecesario.
Con tanta información digital y con tanto conocimiento acumulado en el ciberespacio, en la nube, y en los bits y los pixeles, no falta quien sugiera que la humanidad dará vida pronto a una nueva especie: la inteligencia artificial. Pero esa es otra historia de la que habremos de hablar en una futura entrada.http://www.bbc.co.uk/blogs/mundo/un_mundo_feliz/2010/08/un_voraz_huracan_digital.html#more

Un voráz huracán digital

sábado, 28 de agosto de 2010

recuperacion de informacion ULTIMAS NOTICIAS

Cofundador de Microsoft demandó compañías tecnológicas, entre ellas Facebook, Apple, Google y Yahoo


Paul Allen presentó una demanda en contra de once compañías de EE. UU.

Lo hizo por uso ilegal de varias patentes de comercio electrónico, que, según él, son propiedad de Microsoft.

Allen, creador del gigante informático Microsoft junto a Bill Gates, defiende en su demanda que esas firmas, además de YouTube, eBay, AOL, Netflix, Office Depot, Office Max y Staples, utilizan ilegalmente unas patentes que posee desde hace años la firma Interval Research, que también fundó él mismo en Silicon Valley.

"Interval Research fue una de las firmas pioneras en el desarrollo de la economía de internet. Esta demanda es necesaria para proteger nuestras inversiones en innovación", señaló en un comunicado David Postman, uno de los portavoces de Allen, un emprendedor habitual de las listas de multimillonarios de EE. UU.

Las firmas demandadas "han infringido y continúan infringiendo uno o más derechos" de las patentes 682, 652, 507 y 314, señala el documento presentado por Allen ante un tribunal de Seattle (Washington).

Entre todos esos grandes nombres del sector tecnológico estadounidense no están, sin embargo, ni Microsoft, firma de la que Allen sigue siendo uno de los principales inversores, ni Amazon.com. Ambas cuentan con sede en el estado de Washington.

"Las infracciones cometidas por los demandantes han causado daños a Interval y continuarán causando daños irreparables a esta firma. Interval tiene el derecho de considerar que esas infracciones fueron deliberadas y malintencionadas", explica la demanda, en la que no se señala la cuantía económica que Allen reclamara a esas compañías.

Allen, de 57 años y a quien el pasado noviembre se le diagnosticó un cáncer linfático, defiende que su empresa es la titular desde la década de los noventa de esas patentes, que serían componentes claves para el comercio electrónico y herramientas de búsqueda.

Según se desprende de la demanda, una de las patentes permite a las páginas web de esas firmas sugerir a los consumidores productos relacionados con los que consultan en ellas o bien, en el caso de las redes sociales, con distintas actividades que podrían ser de su interés.

Esas patentes también permiten que en las pantallas aparezcan anuncios, vídeos o fragmentos de texto sin que estos afecten a la principal actividad que realiza el internauta en ese momento.

"Esta demanda en contra de algunas de las compañías más innovadoras de Estados Unidos refleja una desafortunada tendencia entre personas que tratan de llevar la competencia a los tribunales en lugar de a los mercados", señaló un portavoz de Google al conocer la noticia.

La firma responsable del mayor buscador de internet expresó asimismo que "mediante la innovación, y no con litigios, es como llevamos al mercado el tipo de productos y servicios de los que se benefician millones de personas en el mundo".

Allen dejó Microsoft en 1983, cuando se le detectó un primer linfoma Hodgkin, que superó satisfactoriamente. Desde entonces, ha fundado numerosas empresas y ha dedicado su riqueza a distintos negocios, como el equipo de fútbol de los Seahawks de Seattle o el de baloncesto de los Trail Blazers de Portland.

Propietario de la firma inversora Vulcan Inc, el cofundador de Microsoft también financió el conocido museo Experience Music Project de Seattle, dedicado a la música y ubicado en un impresionante edificio diseñado por Frank Ghery.

NUEVA YORK

Efe

Cofundador de Microsoft demandó compañías tecnológicas, entre ellas Facebook, Apple, Google y Yahoo, [en línea] Revista enter 2.0. Sábado 28 de agosto de 2010.Disponible en: http://www.eltiempo.com/enter/actualidad_a/cofundador-de-microsoft-demando-companias-tecnologicas_7882535-1. Consulta: 28 de Agosto de 2010.

Google explora el futuro de las búsquedas 

A juicio de Eric Schmidt, CEO de Google, las búsquedas de tipo serendipia, o hallazgo afortunado e inesperado, serán parte importante de las búsquedas del futuro donde, claro está, Google espera mantener su posición de líder.

El buscador Google ha sido parte importante de la relación que los usuarios de Internet han tenido con la web. Sin embargo, el presidente de la empresa, Eric Schmidt, prevé que llegará un día en que el concepto actual de búsquedas será superado y que la palabra “googlear" incluso desaparecerá. Esta realidad no implicará el ocaso de Google; más bien todo lo contrario.

En una entrevista con Wall Street Journal, Schmidt explica que Google se ha propuesto definir el futuro de las búsquedas. Al respecto, señala que un porcentaje considerable de las mismas serán hechas en nombre del usuario, sin que éste tenga que realizar la búsqueda por cuenta propia. “De hecho, creo que la mayoría de la gente no quiere que Google responda sus preguntas, sino más bien quieren que Google les diga qué hacer a continuación".

Para ilustrar lo anterior, comentó “Supongamos que caminas por una calle. Debido a que Google tiene información sobre ti – sabemos a grandes rasgos quién eres, tus intereses y quiénes son tus amigos. Google sabe, con un margen de error de pocos centímetros, donde te encuentras. Si necesitas, por ejemplo, leche y hay un lugar cercano donde hay leche, Google te recordará comprarla".
Schmidt indica que el desarrollo de terminales móviles cada vez más potentes permitirá sorprender al usuario con información que éste ni siquiera sabía le interesaba.
“Lo que hace a los periódicos tan fundamentalmente fascinantes – esta serendipia- ya puede ser calculada. De hecho, podemos producirla en formato electrónico", agregó Schmidt.

Fuente: WSJ online

Google explora el futuro de las búsquedas. Diario TI (Ago. 19 de 2010). Disponible en: http://www.diarioti.com/gate/n.php?id=27409. Consulta: 28 agosto de 2010. 


Américas Administración del tráfico de redes móviles es fundamental

Documento de posicionamiento de 3G Américas ilustra la importancia de la administración de tráfico.

3G Américas anunció la publicación de un documento para educar a los interesados sobre la importancia de la administración del tráfico en las redes móviles de banda ancha con la finalidad de asegurar servicios de alta calidad para los consumidores brindando la confiabilidad general de la red. El informe, Traffic Management Techniques for Mobile Broadband Networks: Living in an Orthogonal World (Técnicas de administración de tráfico para redes móviles de banda ancha: vivir en un mundo ortogonal), se focaliza en las redes 3GPP y se ocupa específicamente de la administración del tráfico, incluso el manejo de flujos de tráfico en redes 3GPP en contraste con otras técnicas de administración de redes que pueden implantar los operadores (tales como compresión de descargas, optimización de redes y otros mecanismos de relevancia).

Teniendo presente al consumidor, es crítico contar con una visión de extremo a extremo (E2E) del servicio móvil para la administración de tráfico. Por ejemplo, para un consumidor que utiliza el teléfono celular para buscar listados de películas y adquirir boletos, el servicio E2E es la capacidad de ver qué película se está proyectando y ejecutar una transacción para adquirir boletos. El 3GPP buscó estandarizar técnicas de administración de tráfico (Calidad de Servicio, o QoS) cada vez más robustas para redes de banda ancha móvil con la visión que tiene el cliente sobre la QoS de E2E. Sin embargo, debe tenerse en cuenta que los operadores móviles típicamente no tienen un control total sobre el aprovisionamiento de servicios de E2E que dependen del acceso a Internet por banda ancha móvil.

Las organizaciones mundiales de estándares, como el 3GPP, desempeñan un papel importante en el desarrollo de la administración de tráfico a través de provisiones para abordar la QoS, en particular con respecto a la interoperabilidad con mecanismos de acceso distintos de los del 3GPP. Estas son innovaciones importantes, y el libro blanco de 3G Americas observa que los esfuerzos de las organizaciones que desarrollan estándares deben intensificarse.

Además, la configuración de dispositivos para el usuario final y los contenidos y aplicaciones no aprovisionados por el operador de la red no solo impactan en la experiencia de un usuario individual, sino también potencialmente en la de otros usuarios de una determinada celda. Los esfuerzos para impulsar aún más innovaciones QoS deben tomar en cuenta los impactos potencialmente adversos de estas fuentes y dar soporte y promover la interoperabilidad de aplicaciones de terceros con las plataformas de redes existentes.
Se necesitan más innovaciones a lo largo y ancho del ecosistema de la banda ancha móvil, en particular de parte de desarrolladores de aplicaciones, de modo de lograr la calidad de servicio E2E. Más aún, es importante la transparencia de las prácticas de administración de redes al promover la innovación, pero esto requiere un equilibrio cauteloso para asegurar la comprensión del consumidor al tiempo que se protege la confiabilidad de la red.

Fuente: 3G Américas.

Administración del trafico de redes móviles es fundamental. Diario TI (Ago. 18 de 2010). Disponible en: http://www.diarioti.com/gate/n.php?id=27396. Consulta: 28 agosto de 2010. 

recuperación de Información MEMORIAS DE CLASE 4

Lunes 23 de Agosto de 2010
Contexto del documento: relacionado con meta-información, metadatos, relaciones ontológicas, vocabularios controlados.
Contenido de documentos digitales:
Naturaleza texto
Sonido
Video
Imágenes
Otros

Codificación digital: como se guarda la información texto o formato maquina.
Documento documental referencial semiestrcuturado (como metadatos)
Documental contenido completo (con sentido en sí mismo) y satisface necesidades de información.
El docente hizo un ejercicio de buscar en internet definiciones para los siguientes conceptos:

• Palabra clave: son palabras tomadas del lenguaje natural que representan un contenido, no necesariamente están inmersos en el documento.

• Descriptor: termino que representa un contenido con vocabulario controlado.

• Encabezamiento de materia: términos que contienen muchos descriptores.

• Indización: representación del contenido mediante un conjunto de términos.

• Termino: palabra extraída por una maquina que puede representar un documento. Los términos son extraídos por un proceso de indización y permite representar un contenido.

• Descriptor libre: es un tipo de término y palabra clave a la vez, que al hacer un proceso de indización puede encontrar ciertos conceptos que representan un contenido. Extrae o infiere de qué se trata el contenido del documento.

• Etiqueta: palabra clave que no pertenece a un lenguaje normalizado, son palabras de uso común.

• Palabra vacía: semánticamente no dice nada pero para la maquina es un término de búsqueda.
Notas de clase:

El proceso de análisis e indización lo hace la maquina, localiza las palabras normalizadas, con documentos estructurados (etiquetas).
Ejercicio de indización:

Se descargo del repositorio http://sisinfo.lasalle.edu.co/original/sri el software TENKA-TEXT se descargo se guardo en mis documentos o descargas se descomprime se ejecuta se escoge la opción TENTA.TEXT.WINDOWS.INTERFACE file choose text browse se busca carpeta descomprimida (según archivo que vayamos a indizar) se selecciona OK wordlister (aparece el listado de términos indizados del archivo seleccionado)