Vistas de página en total

sábado, 29 de noviembre de 2014

Tema 5

Recuperación de la información

Cuando realizamos una consulta en Internet el reto principal es conseguir que la pregunta recupere los documentos que se consideran realmente relevantes. Para conseguir esto entramos en un proceso en el cual lo principal que el navegador tiene que lograr es a acceder a una base de datos. Para filtrar los datos que a nosotros nos interesan, ordenarlos por la relevancia que tienen para el usuario y después poder ofrecernos una selección de los datos que son más adecuados para nosotros.




















Modelos de búsqueda y recuperación de la información

En muy pocos año el numero de usuarios en la red ha aumentado mucho. Esto ha provocado que el número de documentos disponible en la red haya sufrido un gran aumento. A juzgar por el crecimiento en la cantidad de servidores en funcionamiento en la red. En consecuencia, la Recuperación de información se ha ido convirtiendo en un campo de conocimiento cada vez más necesario al que acudir en busca de soluciones. Y tenemos tres modelos principales de búsqueda y recuperación de la información:



  • Booleano: Este modelo está basado en la teoría de conjuntos y en el álgebra de Boole.Los documentos están representados por un sistema binario [ 0, 1 ] . El "0" indica que el término no figura en el documento, mientras que el "1" refleja que si está, aunque desconocemos si una o varias veces. La búsqueda se realiza a partir de la ecuación introducida por el usuario en el sistema de recuperación.El booleano es el más utilizado en los sistemas de recuperación de la información tanto por su sencillez como por su carácter intuitivo. Pero tiene algunos problemas en relación a la relevancia de los documentos recuperados. [1]


  • Probabilístico: Este modelo también esta basado como el booleano en un sistema binario mediante el cual establecemos la existencia o no de un término en un documento. La mayor aportación de este modelo viene dada por la forma en que el sistema trata la consulta efectuada. Así, a través de cálculos probabilísticos y la aplicación del teorema de Bayes, el sistema procede con la ponderación de los términos y así da forma a la consulta, recuperando los documentos. [1]


  • Modelo vectorial:  Este modelo está basado en que los documentos pueden ser expresados en una matriz en la que figuran los términos y la presencia de los mismos en los documentos. En el instante en que el un usuario realiza su búsqueda de información, el sistema reduce el contenido de la búsqueda a un vector. Y después compara ambos vectores para establecer semejanzas existentes entre ellos. En función de la semejanza de los vectores el sistema procede a devolver al usuario una serie de documentos que se consideran relevantes.  A diferencia del modelo booleano que solo tiene dos únicas posibilidades [0=no figura,1=sí figura], este puede asignar a cada término un peso específico [0,5 - 0,7 - 0,9...], diferente en cada caso y en función de la importancia o frecuencia que posea en cada uno de los documentos. Es un aspecto muy relevante ya que se consigue salvar la limitación relacionada con la frecuencia y la relevancia que suponía uno de los grandes inconvenientes del modelo booleano. Porque a partir de este modelo es posible devolver una relación ordenada de documentos en función de la relevancia, algo que el modelo booleano no es capaz de ofrecer. [1]


Actualmente la recuperación de información ha cobrado una gran importancia debido al crecimiento de Internet. Tratando de facilitar la tarea de distinguir de los escasos documentos relevantes que puedan existir en la red frente a los millones de 
documentos irrelevantes en relación a cada consulta que un usuario realiza.
Como hemos podido observar anteriormente, lo más destacado actualmente en estos sistemas de recuperación de información consiste en el empleo simultáneo de 
características y algoritmos propios de cada uno de estos modelos. Así, lo más frecuente es que los buscadores de Internet se basen en el modelo booleano, pero efectúen la ordenación de los documentos de las respuestas empleando criterios del modelo vectorial. En consecuencia, con la popularización de Internet han cobrado importancia los modelos clásicos de recuperación de información.

La búsqueda y recuperación de la información va mucho más allá de meter un palabra en un buscador y que nos den algunos datos con la información que hemos solicitado. Todo esto tiene un funcionamiento más especifico que la mayoría de la gente no conoce porque con saber que funciona les vale a nivel de usuario. En cambio si alguien tiene el interés en el tema siempre necesita saber el porque de lo que hay detrás de una cosa tan simple como dar a una tecla y que nos aparezca información sobre lo que hemos solicitado. Estaría bien que todos supiéramos como funcionan las cosas que utilizamos porque Internet es un mundo muy amplio y novedoso del que hay mucho que conocer, ya que es muy complejo y el usuario eso no lo percibe.  Anteriormente hemos visto un poquito sobre la recuperación de la información y sobre los modelos principales que se usan para este fin y así intentar comprender mejor la recuperación de la información.


Referencias:

[1] http://modelosbusqueda.webcindario.com/indexmodelos.html

[T] http://ict.udlap.mx/people/carlos/is346/admon08.html
[T] http://slideplayer.es/slide/1856908/

No hay comentarios:

Publicar un comentario