Publishing and Consuming
Linked Data
Optimizing for the Unknown
Laurens Rietveld
"Albert Einstein"
↓
http://dbpedia.org/resource/Albert_Einstein
"Heeft geboorteplaats"
↓
http://dbpedia.org/ontology/birthPlace
"Ulm"
↓
http://dbpedia.org/resource/ulm
Probleem 1: Ongeldige Linked Data
Goed:
〈http://Einstein〉 〈http://birthPlace〉 〈http://Ulm〉 .
Fout:
http://Einstein〉 〈http://birthPlace〉 〈http://Ulm〉 .
Probleem 1: Ongeldige Linked Data
LOD Laundromat
36 miljard feiten, 650.000 datasets
Probleem 2: Vinden van Linked Open Data
- In welke datasets komt Einstein voor?
- In welke datasets staat geografische informatie?
- Wat voor netwerk structuur hebben de datasets?
Probleem 2: Vinden van Linked Open Data
LOD Laundromat Meta-Dataset
Probleem 3: Linked Open Data Onderzoek op grote schaal
Probleem 4: Bevragen van Linked Data
Probleem 4: Bevragen van Linked Data
Probleem 5: Linked Data Hosting
546 SPARQL Endpoints
Probleem 5: Linked Data Hosting
+
|
Gzip |
|
Header - Dictionary - Triples |
|
Linked Data Fragments |
Probleem 5: Linked Data Hosting
SampLD
- Datasets kleiner maken (sampling)
- Relevantie van triples meten d.m.v. netwerk analyse
- Je kunt soms tot 95% van de dataset weggooien
In het kort
Een web van data ...
- die makkelijker te bevragen is
- op grotere schaal te hosten is
- beter doorzoekbaar is.
Publishing and Consuming
Linked Data
Optimizing for the Unknown
Laurens Rietveld