lunes, 22 de noviembre de 2010

Linked Data o como compartir datos para todos

Una de las características más importantes en la Web ha sido la capacidad de linkear información que puede estar relacionada. Esto permite que podamos crear hypertexto. Más importante aún es el hecho de poder linkear a otra información que no ha sido creada por nosotros, tal como el link anterior que apunta a la definición de Wikipedia sobre hypertexto. Así, no necesitamos reinventar la rueda, pero por sobre todo, las conexiones le agregan un valor a la información que antes de estar conectada no tenía. Esto no es sólo cierto en la Web actual, sino que juega un rol fundamental en el futuro (y presente) de la Web Semántica.

El proyecto Linked Data es una iniciativa que invita a todo el mundo a abrir sus datos, y conectarlos con los de otra gente (utilizando ciertas buenas prácticas), de forma que podamos utilizarlos de maneras no imaginadas anteriormente. Similarmente como en la Web tradicional, donde en mi página puedo escribir lo que quiera y puedo establecer links a otras páginas relacionadas, Linked Data es una iniciativa para hacer lo mismo pero con datos puros, que sean entendibles tanto por humanos como por computadores (hay que recordar que los computadores no entienden las páginas web, sólo las muestran).

Existen muchos dominios del conocimiento humano donde se trabaja con ciertos datos muy específicos, por ejemplo: WordNet trabaja con palabras, PubMed con artículos biomédicos, y MusicBrainz con todo lo relacionado con la industria musical. Sin embargo, como mucho en esta vida, buena parte del conocimiento está conectado, haciendo que estos grupos de datos -datasets- también lo estén (o debiesen estar). Por ejemplo, Geonames, es un sitio que describe posiciones geográficas, mientras DBPedia extrae información de Wikipedia. Si buscamos información sobre, digamos, el templo Bulguksa ¿No es natural el poder conectar los datos geográficos con la entrada a Wikipedia?

Uno podría pensar que esto es sólo para científicos, ya que muchos de los datasets son relacionados con ciencias (principalmente biológicas), tales como Gene Ontology, UniProt entre otros. Sin embargo, cada vez hay más personas y organizaciones uniéndose a esta tendencia de abrir y compartir los datos, de manera que otras personas los puedan usar de formas impensadas: Basta decir que hace algunos meses el periódico inglés The Guardian ha abierto una API para consultar sus noticias, en RDF. Hace unas semanas, el New York Times ha hecho algo similar.

¿Qué debo hacer para publicar mis datos?
Existen una serie de buenas prácticas, algunas más técnicas que otras, sin embargo, como líneas generales se puede decir que:

1.Representar los datos como URI desreferenciables: Esto es que cada cosa sobre la que digo algo sea representada como una dirección del tipo "http://..." Así, si hablo sobre mi auto puedo definirlo como http://alvaro.com/miauto. Más aún que una URI sea desreferenciable significa que yo puedo ponerla en un browser y encontrar más información relacionada a esta, lo que me lleva al siguiente punto...
2.Linkear a otros datos: El proyecto Linked Data, como su nombre lo dice adquiere valor cuando es capaz de relacionar datos que antes no lo estaban: Así, tu información es más útil para los demás a que si estuviese sola, ya que les permite navegar desde/hacia ésta a través de otros datasets creados por otras personas: Es ideal tratar de usar las URI que otra gente usa cuando hablamos de lo mismo (por ejemplo, mucha gente usa las entradas de dbpedia sobre personas cuando se refieren a éstas).
3.Dejar disponible los datos tanto para máquinas como humanos: Esto es, haciendo tus datos disponibles en RDF y HTML. Como alternativa puedes "incrustar" RDFa en HTML, de manera que una sola fuente de información sea legible por ambos
4.Especificar la licencia: Cuando diversos grupos publican datos de manera tan abierta como se plantea acá, la intención es que estos datos puedan ser compartidos y que la gente los pueda usar abiertamente. Sin embargo, ya que en cada país existen diferentes legislaciones relacionadas con el copyright, derechos de autor, etcétera, lo más fácil es especificar qué derechos estás cediendo. Para ello, y de manera equivalente a las licencias Creative Commons de las que tanto hemos hablado aquí en MM, existen también las licencias OpenData Commons, las cuales están diseñadas para datos más que para obras (aunque hay gente que utiliza CC0 para estos casos también).
5.¡No esperes a que la ontología esté lista! Contrario al caso de bases de datos tradicionales, puede pasar mucho tiempo antes de que el schema para tus datos esté 100% terminado. Sin embargo, siguiendo el Principio de Pareto la gran mayoría de los datos van a ser fáciles de modelar y sin mayores cambios. Publica esos al menos, no esperes llegar al schema final (que en muchos casos, no existe tampoco)
Finalmente, quiero dejarlos con una charla que hizo Sir Tim Berners-Lee para TED sobre Linked Data que realizó en febrero de este año explicando porqué esto es importante tanto para los creadores y quienes publican, como para quienes consumen datos (o sea todos nosotros).

No hay comentarios:

Publicar un comentario