martes, 23 de noviembre de 2010

Nueva era: La era del Linked Data

Para que veas mas, aqui estan unos video de Tim Berners Lee donde él mismo nos lo cuenta.

Parte 1



Parte 2



Uso de los datos enlazados


La cantidad de datos enlazados publicados en la Web de Datos ha experimentado un enorme crecimiento en los últimos años. La lista de recursos ya disponibles en Linked Data crece día a día. El mayor auge hasta ahora se ha producido en el contexto de la publicación de datos del sector público. Sin embargo, el fenómeno de Linked Data se está extendiendo a otros sectores, entre los que destacan los medios de comunicación, infraestructuras y logística, el ámbito universitario y científico y el de los datos geográficos.

Sector público
El uso de los datos enlazados en el Sector Público tiene un doble fin. El primero es proporcionar datos públicos más accesibles a la ciudadanía en un formato reutilizable y, el segundo, proporcionar un punto de acceso único a la información gubernamental en el que los datos están conectados y en el que es posible utilizarlos de forma automatizada por sistemas software. La apertura y disponibilidad de estos datos creará nuevas oportunidades de negocio al permitir a terceros crear nuevos servicios de valor añadido utilizando los datos públicos de forma integrada.
Los primeros pasos en esta dirección se dieron en el año 2003, con una directiva de la Unión Europea sobre la reutilización de información del Sector Público. Esta directiva introduce un marco legislativo que regula cómo debe el Sector Público proporcionar los datos públicos producidos y recogidos por instituciones u organismos oficiales. El portal temático Europeo sobre el Sector Público tiene como finalidad monitorizar estos aspectos. 

Los primeros gobiernos que han abierto sus datos y los han enlazado con otros han sido el Reino Unido
 y los Estados Unidos de América. El gobierno británico ha apostado por la investigación e innovación en esta temática al financiar con 30 millones de libras un nuevo Instituto de Investigación liderado por Sir Tim Berners Lee con el fin de posicionar al Reino Unido en primera línea en esta nueva Web de Datos. En la actualidad, esta iniciativa ya ha publicado numerosos catálogos de datos gubernamentales abiertos. 

En España han habido iniciativas dentro del sector público que han comenzado a publicar sus datos: el portal de acceso Open Data Euskadi
 publica en RDF los datos públicos del Gobierno Vasco, la plataforma RISP publica los datos públicos del Principado de Asturias, el Ayuntamiento de Zaragoza publica datos sobre la ciudad, trámites, gestiones, ofertas de empleo y servicios, así como sobre el funcionamiento y organigrama del propio Ayuntamiento, e igualmente se han transformado los horarios de los servicios de trenes en Cataluña. 

Sector geográfico
GeoLinked Data.es es una iniciativa abierta destinada al enriquecimiento de la Web de Datos con datos geoespaciales del territorio nacional español. Esta iniciativa se ha puesto en marcha con la publicación de diversas fuentes de información procedentes del Instituto Geográfico Nacional (IGN) y el Centro Nacional de Información Geográfica (CNIG). Además, estos datos se interrelacionan con otras bases de conocimiento existentes en la Web de Datos Enlazados. El IGN y el CNIG se suman así a las iniciativas de Ordnance Survey en el Reino Unido o de GeoLinkedData en Alemania. 

Sector de los medios de comunicación
El mundo de los medios de comunicación ha reaccionado también con gran rapidez, y compañías como la BBC en el Reino Unido o el New York Times en Estados Unidos están trabajando para hacer que su información esté disponible en la Web de Datos.

Sector de la I+D+i
Servicios de Información Comunitarios sobre Investigación y Desarrollo, como CORDIS (en Europa) o la National Science Foundation (de los Estados Unidos de América) han transformado a este nuevo formato sus bases de datos. Entre las Universidades Públicas españolas, la Universidad Politécnica de Madrid se ha sumado a este reto y publicará en breve datos procedentes del observatorio de I+D+i. 

Sector de las bibliotecas digitales
Los museos, archivos y bibliotecas también se suman a este esfuerzo. Como ejemplos más significativos está la iniciativa Europeana, que ha transformado catálogos multimedia de museos y librerías europeas, así como la biblioteca nacional alemana que recientemente ha comenzado a migrar sus datos.

Sector científico
En este ámbito, los datos enlazados actualmente publicados son casi la mitad, en volumen, de los disponibles globalmente, con especial atención a dominios como la Biología computacional. Todos estos datos han sido producidos en el contexto de las iniciativas de e-Ciencia que han sido lideradas por el Reino Unido en la última década.

AELID, la Asociación Española de Linked Data, es una asociación sin ánimo de lucro que tiene como finalidad avanzar en el conocimiento en la investigación e innovación sobre
 Linked Data en España y Europa, contribuir en la creación de un ecosistema de investigadores y emprendedores que favorezca el intercambio de conocimiento y experiencias, funcionar como una plataforma de información y formación, y promover la presencia del idioma español en la Web de Datos. 

No cabe duda de que la generación y utilización de tal cantidad de datos enlazados procedentes de fuentes heterogéneas creará nuevas oportunidades de investigación y de negocio. El hecho de que países de habla inglesa sean los que han tomado la iniciativa en la investigación y en la transformación de los datos incide, como ha sido habitual, en que la gran mayoría de los datos disponibles en
 Linked Data estén en inglés. España se encuentra ante el reto de comenzar a transformar, enlazar y publicar de forma masiva datos del Sector Público y privados al mismo tiempo que otros países de nuestro entorno. Asimismo es necesario reforzar en el Plan Nacional de I+D+i aquellas actuaciones que incrementen no sólo la presencia de resultados de investigadores y empresas españolas, sino también el volumen datos enlazados en español y del resto de lenguas oficiales del Estado. 

Generación de nuevos datos enlazados en la web de datos




La primera fase para cualquier institución u organismo consiste en identificar estratégicamente qué información van publicar de forma abierta como datos enlazados. De la misma manera que, en un momento dado, para lograr una mayor visibilidad o un mejor acceso a los datos de la institución o a los servicios, se requería crear una página Web, los avances logrados en la actualidad en la Web de Datos prevén el carácter estratégico que supone transformar, enlazar y publicar los datos con otros ya presentes en la Web de Datos utilizando vocabularios ya consensuados con el fin de que éstos puedan ser explotados automáticamente por sistemas software.

En la segunda fase, los datos seleccionados se abren y publican en un formato reutilizable por todos, migrando la información almacenada en bases de datos, ficheros, hojas de cálculo, etc. al lenguaje RDF. 


Actualmente existe un amplio elenco de tecnologías que se pueden utilizar para transformar fuentes de datos, editarlas, validarlas, visualizarlas y publicarlas. En este momento se deberá decidir bajo qué licencia se publican los datos, siendo normalmente bajo licencias abiertas que permiten la redistribución, reutilización y aprovechamiento de los datos con fines comerciales. 


En la tercera fase, los datos transformados se enlazan con otros datos ya disponibles en la Web de Datos. Esta actividad es fundamental para incrementar la conectividad de los datos generados, permitiendo la recuperación y la agregación de información relacionada.

cómo importar datos vinculados de DBpedia

En este ejemplo, vamos a importar los datos, es decir, la Wikipedia en abstracto y la población de Berlín, desde DBpedia. En primer lugar tendremos que crear un Wiki Web Service Definition y entonces seremos capaces de mostrar los datos DBpedia en un artículo.
En este artículo se describe cómo puede utilizar las funciones de datos vinculados de la extensión de importación de datos para importar datos en el Wiki.
Ejemplo

Paso 1) En primer lugar tenemos que crear el Wiki Web Service Definition (WWSD) antes de que podamos acceder a los recursos DBpedia.

1. Abrir Especial: DefineWebService.

2. Elija el protocolo "Linked Data".

3. Entrada " http://dbpedia.org/resource/ ' en el campo de entrada URI y haga clic en "Siguiente".

4. Agregue dos partes resultado. Uno tiene el alias de "abstracto" y el valor de la propiedad 'búho dbpedia: abstracto ". El otro tiene "población" y el alias de la propiedad 'búho dbpedia: populationTotal. El valor del campo de entrada deberá efectuarse a la URI de una propiedad, que el recurso al que desea acceder, proporciona. Por lo tanto, es bastante fácil de añadir más piezas resultado: Sólo tiene que abrir un recurso DBpedia en su navegador, por ejemplo, la búsqueda en Google para 'berlin dbpedia. Echa un vistazo a las propiedades en las que usted está interesado. A continuación, añada otra parte resultado de la URI y entrar en la propiedad y un alias arbitraria para la parte de resultados.

5. Agregue dos prefijos de espacio de nombres. Uno con el prefijo 'dbpedia-búho' y URI "lahttp://dbpedia.org/ontology/ ' . El otro dbpedia con el prefijo 'y URI "lahttp://dbpedia.org/resource/ ' . La primera definición prefijo de espacio nos permite la parte superior para su uso "dbpedia-owl: abstracto" en el campo de entrada de la propiedad en lugar de la URI completa. El prefijo de espacio de nombres de segundo será útil, cuando más tarde llamar a este servicio web.

6. Haga clic en el botón "Siguiente".

7. No necesitamos una política de actualización, por favor haga clic en tanto en "Siguiente" de nuevo. como "DBpedia 'Elige nombre para el WWSD y' Siguiente 'para salvar el WWSD











Paso 2)

  1. Ahora tenemos que confirmar la WWSD, para que podamos utilizarlo para la importación de datos realmente. Usted debe estar conectado y usted necesita tener derechos de usuario administrativos.

2. Abrir Especial: DataImportRepository "que enumera todos los servicios Web que han sido definidos en el Wiki. Haga clic en el botón 'Confirmar'.





Paso 3) Ahora podemos usar el servicio web en un artículo.

1. Abrir un nuevo artículo en el modo de edición y haga clic en "Añadir web, llamada de servicio" en la barra de herramientas del editor WYSIWYG o la barra de herramientas semánticas. Elija el 'DBpedia Web de Servicio y' Siguiente '.

2. Escriba 'Berlin' valor 'url-sufijo "y" dbpedia: Berlín "como el valor de" sujeto ". Esto es necesario debido a que algunos recursos de datos enlazados en la web, proporcionar datos para varios temas. Tenga en cuenta que podemos usar prefijos de espacio, que hemos definido en el WWSD en el campo de entrada del "sujeto".

3. Escriba 'en' como valor para el campo de entrada el 'lenguaje', ya que sólo estamos interesados en los resúmenes en el idioma Inglés. No olvides hacer clic en las casillas de verificación de la «utilización» de los tres campos de entrada y, a continuación, haga clic en "Siguiente".

4. Haga clic en "Siguiente" ya que todo está bien en "Paso 3 '.

5. Ahora usted puede elegir el formato a utilizar para el número de servicios Web. 'Tabla' parece ser apropiado. Haga clic en "Siguiente".

  1. Ahora usted puede obtener una vista previa del resultado de servicio Web o puede agregar la llamada de servicio Web para su artículo y guardarlo.

lunes, 22 de noviembre de 2010

Principios y componentes

Tim Berners-Lee definió cuatro principios que caracterizan los datos vinculados en su ponencia de presentación para el W3C. Estos principios se pueden parafrasear de la siguiente forma:

Utilizar URIs para identificar los recursos publicados en la Web Aprovechar el HTTP de la URI para que la gente pueda localizar y consultar (es decir, desreferenciar) estos recursos.

Proporcionar información útil acerca del recurso cuando la URI haya sido desreferenciada.

Incluir enlaces a otras URI relacionadas con los datos contenidos en el recurso, de forma que se potencie el descubrimiento de información en la Web.

Componentes

URIs

HTTP

Resource Description Framework (RDF)

Formatos de serialización como (RDFa, RDF/XML, N3, Turtle y otros)

URI consta de las siguientes partes:

1. Esquema: nombre que se refiere a una especificación para asignar los identificadores, e.g. urn:, tag:, cid:. En algunos casos también identifica el protocolo de acceso al recurso, por ejemplo http:, mailto:, ftp:.

2. Autoridad: elemento jerárquico que identifica la autoridad de nombres (por ejemplo //es.wikipedia.org).

3. Ruta: Información usualmente organizada en forma jerárquica, que identifica al recurso en el ámbito del esquema URI y la autoridad de nombres (e.g. /wiki/Uniform_Resource_Identifier).

4. Consulta: Información con estructura no jerárquica (usualmente pares "clave=valor") que identifica al recurso en el ámbito del esquema URI y la autoridad de nombres. El comienzo de este componente se indica mediante el carácter '?'.

5. Fragmento: Permite identificar una parte del recurso principal, o vista de una representación del mismo. El comienzo de este componente se indica mediante el carácter '#'.

Hypertext Transfer Protocol o HTTP

Es un protocolo sin estado, es decir, que no guarda ninguna información sobre conexiones anteriores. El desarrollo de aplicaciones web necesita frecuentemente mantener estado. Para esto se usan las cookies, que es información que un servidor puede almacenar en el sistema cliente. Esto le permite a las aplicaciones web instituir la noción de "sesión", y también permite rastrear usuarios ya que las cookies pueden guardarse en el cliente por tiempo indeterminado.

Ejemplo de un diálogo HTTP

Para obtener un recurso con el URL http://www.example.com/index.html

Se abre una conexión al host www.example.com, puerto 80 que es el puerto por defecto para HTTP.

Se envía un mensaje en el estilo siguiente:

GET /index.html HTTP/1.1

Host: www.example.com

User-Agent: nombre-cliente

[Línea en blanco]

La respuesta del servidor está formada por encabezados seguidos del recurso solicitado, en el caso de una página web:

HTTP/1.1 200 OK

Date: Fri, 31 Dec 2003 23:59:59 GMT

Content-Type: text/html

Content-Length: 1221

Página principal de tuHost

(Contenido)

.

.

.

Marco de Descripción de Recursos

Este modelo se basa en la idea de convertir las declaraciones de los recursos en expresiones con la forma sujeto-predicado-objeto (conocidas en términos RDF como tripletes). El sujeto es el recurso, es decir aquello que se está describiendo. El predicado es la propiedad o relación que se desea establecer acerca del recurso. Por último, el objeto es el valor de la propiedad o el otro recurso con el que se establece la relación. La combinación de RDF con otras herramientas como RDF Schema y OWL permite añadir significado a las páginas, y es una de las tecnologías esenciales de la Web semántica

Ejemplos de RDF



Linked Data o como compartir datos para todos

Una de las características más importantes en la Web ha sido la capacidad de linkear información que puede estar relacionada. Esto permite que podamos crear hypertexto. Más importante aún es el hecho de poder linkear a otra información que no ha sido creada por nosotros, tal como el link anterior que apunta a la definición de Wikipedia sobre hypertexto. Así, no necesitamos reinventar la rueda, pero por sobre todo, las conexiones le agregan un valor a la información que antes de estar conectada no tenía. Esto no es sólo cierto en la Web actual, sino que juega un rol fundamental en el futuro (y presente) de la Web Semántica.

El proyecto Linked Data es una iniciativa que invita a todo el mundo a abrir sus datos, y conectarlos con los de otra gente (utilizando ciertas buenas prácticas), de forma que podamos utilizarlos de maneras no imaginadas anteriormente. Similarmente como en la Web tradicional, donde en mi página puedo escribir lo que quiera y puedo establecer links a otras páginas relacionadas, Linked Data es una iniciativa para hacer lo mismo pero con datos puros, que sean entendibles tanto por humanos como por computadores (hay que recordar que los computadores no entienden las páginas web, sólo las muestran).

Existen muchos dominios del conocimiento humano donde se trabaja con ciertos datos muy específicos, por ejemplo: WordNet trabaja con palabras, PubMed con artículos biomédicos, y MusicBrainz con todo lo relacionado con la industria musical. Sin embargo, como mucho en esta vida, buena parte del conocimiento está conectado, haciendo que estos grupos de datos -datasets- también lo estén (o debiesen estar). Por ejemplo, Geonames, es un sitio que describe posiciones geográficas, mientras DBPedia extrae información de Wikipedia. Si buscamos información sobre, digamos, el templo Bulguksa ¿No es natural el poder conectar los datos geográficos con la entrada a Wikipedia?

Uno podría pensar que esto es sólo para científicos, ya que muchos de los datasets son relacionados con ciencias (principalmente biológicas), tales como Gene Ontology, UniProt entre otros. Sin embargo, cada vez hay más personas y organizaciones uniéndose a esta tendencia de abrir y compartir los datos, de manera que otras personas los puedan usar de formas impensadas: Basta decir que hace algunos meses el periódico inglés The Guardian ha abierto una API para consultar sus noticias, en RDF. Hace unas semanas, el New York Times ha hecho algo similar.

¿Qué debo hacer para publicar mis datos?
Existen una serie de buenas prácticas, algunas más técnicas que otras, sin embargo, como líneas generales se puede decir que:

1.Representar los datos como URI desreferenciables: Esto es que cada cosa sobre la que digo algo sea representada como una dirección del tipo "http://..." Así, si hablo sobre mi auto puedo definirlo como http://alvaro.com/miauto. Más aún que una URI sea desreferenciable significa que yo puedo ponerla en un browser y encontrar más información relacionada a esta, lo que me lleva al siguiente punto...
2.Linkear a otros datos: El proyecto Linked Data, como su nombre lo dice adquiere valor cuando es capaz de relacionar datos que antes no lo estaban: Así, tu información es más útil para los demás a que si estuviese sola, ya que les permite navegar desde/hacia ésta a través de otros datasets creados por otras personas: Es ideal tratar de usar las URI que otra gente usa cuando hablamos de lo mismo (por ejemplo, mucha gente usa las entradas de dbpedia sobre personas cuando se refieren a éstas).
3.Dejar disponible los datos tanto para máquinas como humanos: Esto es, haciendo tus datos disponibles en RDF y HTML. Como alternativa puedes "incrustar" RDFa en HTML, de manera que una sola fuente de información sea legible por ambos
4.Especificar la licencia: Cuando diversos grupos publican datos de manera tan abierta como se plantea acá, la intención es que estos datos puedan ser compartidos y que la gente los pueda usar abiertamente. Sin embargo, ya que en cada país existen diferentes legislaciones relacionadas con el copyright, derechos de autor, etcétera, lo más fácil es especificar qué derechos estás cediendo. Para ello, y de manera equivalente a las licencias Creative Commons de las que tanto hemos hablado aquí en MM, existen también las licencias OpenData Commons, las cuales están diseñadas para datos más que para obras (aunque hay gente que utiliza CC0 para estos casos también).
5.¡No esperes a que la ontología esté lista! Contrario al caso de bases de datos tradicionales, puede pasar mucho tiempo antes de que el schema para tus datos esté 100% terminado. Sin embargo, siguiendo el Principio de Pareto la gran mayoría de los datos van a ser fáciles de modelar y sin mayores cambios. Publica esos al menos, no esperes llegar al schema final (que en muchos casos, no existe tampoco)
Finalmente, quiero dejarlos con una charla que hizo Sir Tim Berners-Lee para TED sobre Linked Data que realizó en febrero de este año explicando porqué esto es importante tanto para los creadores y quienes publican, como para quienes consumen datos (o sea todos nosotros).

Complementando lo que significa Linked Data

Linked Data permite construir la Web de los datos, una gran base de datos interconectados y distribuidos en la Web. Los datos se vinculan y se exploran de una forma similar a la utilizada para vincular los documentos HTML.






Este grafo representa a distintos conjuntos de datos de diversos tipos, organizados mediante colores por dominios. Estos conjuntos de datos están conectados entre sí de forma que componen la “Nube de Linked Data” o “Nube de Datos Enlazados