martes, 13 de mayo de 2008

Sistemas de Gestión de contenidos arraigados al potencial de las búsquedas Inteligentes de una web semántica

descargar version pdf en LAteX

Los sistemas web actuales aunque impresionantemente permiten una interacción social a través de la tecnología para gestionar un conocimiento colaborativo, carecen de mecanismos semánticos que posibiliten la clasificación de la información, por lo que el conocimiento se mantiene disperso y en muchos casos difícil de encontrar. Aunque los sistemas de recuperación actual hagan uso de algoritmos de similitud o búsquedas de patrones (palabras clave), no se comparan con el potencial de las búsquedas que pueden realizarse sobre una web semántica, es mas, Tim Berners Lee afirma que si la empresa mas grande en búsquedas sobre la web (Google) no incorpora mecanismos semánticos en sus sistemas podría ser suplantada por otra que aproveche las ventajas de una web semántica.

Los sistemas de recuperación de información juegan un papel importante en la gestión de un conocimiento colaborativo, sin embargo, su posicionamiento actual en la web se logra a través de algoritmos que no clasifican la semántica de la información, sino que establecen los resultados a través de búsqueda basadas en mediciones como: mas visitado, mas comentado, mas enlaces, etc, (la lógica sobre la semántica). Existen diferentes modelos de recuperación de la información aunque el mas utilizado actualmente se basa en la popularidad de los sitios web, la principal clasificación para los modelos de recuperación de información es la siguiente:

  • Modelos clásicos: Entre los que se encuentran los modelos probabilístico, booleano y vectorial.
  • Modelos estructurales: Entre los que destacan listas no sobrepuestas y el método de los nodos proximales.

Haciendo un análisis de los mas grandes buscadores en la web (Google, Yahoo, MSN) para la recuperación de la información podemos darnos cuenta que su implementación no se establece actualmente mediante una semántica estricta, por lo tanto, aunque la Web social albergue una gran cantidad de información, su acceso y mejoramiento continuo depende de su popularidad y no de su calidad (estrategias ilegales de posicionamiento).

o Buscador Google: Utiliza el algoritmo PageRank, se basa en calcular el ranking de una pagina, estima numéricamente la calidad o importancia del sitio basada en su popularidad. La filosofía subyacente es que si muchos enlaces apuntan a un sitio, éste tiende a ser bueno y por lo tanto es un resultado apto para satisfacer la demanda de la consulta. Según afirman los expertos, el valor de PageRank es inversamente proporcional a lo concreto de la consulta[49]

o Buscador Yahoo: Utiliza el algoritmo WebRank, este algoritmo también basa sus resultados en la popularidad del sitio, pero no lo hace a través del calculo de enlace, sino que utiliza el hecho de antigüedad del sitio para realizar las mediciones.

o Buscador MSN: analiza factores como el contenido de la página web, el número y la calidad de los sitios web que enlazan con sus páginas, y la pertinencia de su sitio web el contenido de palabras clave, según expertos este buscador no puede ser engañado con estrategias para aumentar el ranking de un sitio, mediante colocar enlaces masivos y engañar con metadatos que no se adaptan a lo que representa verdaderamente el sitio.

Herramientas que incorporen estrategias semánticas para la manipulación de formatos RDF, XML y ontologías tendrán una ventaja competitiva estableciendo un mayor posicionamiento en la web, debido a que mejora la comunicación en la reducción de confusión terminologica y conceptual, sin mencionar la incorporación de tecnologías web inteligente que posibiliten la interoperabilidad y el análisis semántico muestra de esto lo son los agentes inteligentes, analizador de imágenes, analizadores de voz, convertidores de voz a texto, etc. La interoperabilidad de los sistemas es la particularidad integradora de la web semántica que posibilitara extender las dimensiones de la web social. Los sistemas de información deben cumplir tres tipos de interoperabilidad [47]:

  1. Interoperabilidad sintáctica: Se refiere a la capacidad de los sistemas de información para leer datos procedentes de otros similares y obtener una representación que pueda ser compatible.
  1. Interoperabilidad semántica: Es la capacidad de los sistemas de información para intercambiar información basándose en un común significado de los términos y expresiones que se usan.

  1. Interoperabilidad estructural: Es la capacidad de los sistemas de información de interactuar en ambientes no solo cerrados, sino distribuidos, soportados por protocolos de intercambio y acceso comunes a redes de datos tales como TCP/IP.

La recuperación de la información en sistemas donde existe propiedades de interoperabilidad, posibilita un análisis mas extenso para encontrar aquello que se busca con una mayor exactitud y probabilidad, esta afirmación unida con una aptitud colaborativa construyen el ecosistema ideal para la unificación de los conocimientos individuales para crear un pensamiento compartido. La naturaleza de los sistemas de gestión de contenidos se definen en espacios distribuidos por lo tanto, son herramientas vitales en la institución de una inteligencia colectiva.

Diferentes propuestas para la implementación de sistemas de búsquedas han sido planteados en diferentes proyectos, algunos proponen mezclas entre los sistemas actuales y los sistemas semánticos, otros se enfocan puramente en lo semántico y en la institución de lenguajes mas potentes para el uso de ontologías, entre estos proyectos para la elaboración de sistemas de recuperación de información tenemos:

Sistema Swoogle (SWDs, Semantic Web Documents):

Esta herramienta permite descubrir, de forma automática, tanto documentos anotados mediante RDF u OWL, como ontologías completas, a partir de un conjunto de palabras claves especificadas por el usuario[14], Swoogle es un proyecto desarrollado por la Universidad de Maryland, el sistema permite indexar los metadatos de los archivos RDF y OWL desplegando solo aquellos que se adaptan a las requisiciones hechas en la consulta, permite buscar en los términos de cada vocabulario / esquema/ ontología y analizar hasta 850K documentos web semánticos recolectados de la web

Swoogle emplea un mecanismo para clasificar los documentos recuperados, inspirado en el algoritmo PageRank propuesto en Google. PageRank se basa en medir la probabilidad de visitar un documento elegido de forma aleatoria, alcanzado directamente o bien a través de los enlaces incluidos en otros documentos que lo apuntan.[14] Su versión aun no esta disponible para usuarios finales, sin embargo es utilizado como un motor de búsquedas para buscadores, es decir, a nivel de interoperabilidad de sistemas.

Sistema Score (Semantic Content Organization and Retrieval Engine)

En un motor de recuperación de información que resuelve consultas basadas en palabras clave que se especifican en la entrada por el usuario, entre una de sus principales particularidades es la posibilidad no de inferir sino de resolver consultas en diferentes dominios Para identificar el contexto concreto de cada consulta, esta herramienta emplea tecnologías que ofrecen facilidades de clasificación automática y extracción de información[14], recorriendo automáticamente los atributos e instancias de la ontología para recolectar los metadatos mas adecuados que se ajustan a la consulta.

Sistema Semantic Search

Es un sistema de búsquedas que utiliza la infraestructura de la web semántica, infiere a partir de datos ingresados por el usuario los resultados de la consulta. Este sistema extrae los metadatos de la ontología que mas se ajustan a las exigencias de la consulta, valida restricciones y reglas de los formatos RDF y OWL.

Sistema QuizRDF

Aunque posee un tipo de razonamiento para realizar las consultas, no es un razonamiento automático puramente semántico, debido a que hace un uso combinado de los sistemas tradicionales de búsqueda sintáctico y lo integra a un sistema de búsqueda semántico. Entre sus limitaciones se reflejan en el tipo de consultas que ofrece, tal como apuntan sus autores[48] dichas consultas giran únicamente en torno a las clases de la ontología RDF, de forma que es imposible formular consultas encadenadas en las que se incluyan clases e instancias de éstas junto con propiedades que permiten relacionarlas con otras entidades de la ontología.[14]

La búsqueda de información en una web semántica representan un sistema inteligente que posee un razonamiento automático que nos proporciona lo que estamos buscando, alcanzando de esta forma el entendimiento con la tecnología (analogía persona - persona). las capacidades de las ontologías son evidentes y su aprovechamiento en cualquier ámbito (no solo el educacional) posibilitara la contextualizacion digital del individuo para su desempeño en el mundo real.

Bibliografía:

[14]: Propuesta metodologica para el razonamiento semántico en sistemas de recomendación personalizada y automática. Aplicación al caso de contenidos audiovisuales”, Tesis doctoral por: Yolanda Blanco Fernández

[47] :“Web Semántica: un nuevo enfoque hacia la Organización de Información en los Sistemas de Gestión de Contenidos.” Autor: Lic. Keilyn Rodríguez Perojo.

[48] : Davies J.,Weeks R. y Krohn U. QuizRDF: Search Technology for the Semantic Web. En 11th International World Wide Web Conference (WWW-02), págs. 24.32, 2002.

Lecturas Recomendadas:

El Libro de posicionamiento de los buscadores de D.David de Ugarte.


No hay comentarios: