Linked Data sind Daten, die nicht im klassischen Tabellenformat, sondern als Knowledge Graph vorliegen. Grundlage sind Tripel, bestehend aus jeweils eindeutig per URI identifiziertem Subjekt, Prädikat und Objekt - also zwei Quellen, die zueinander in Relation stellen. Der große Vorteil: Linked Data sind sowohl menschen- als auch maschinenlesbar. Per SPARQL lassen sich auf diese Weise verschiedene Datensätze abrufen und verknüpfen.
Das macht Linked Data auch für statistische Daten interessant. Mehr Infos dazu gibt es beispielsweise bei der Stadt Zürich, die ein Linked Open Statistical Data Portal betreibt. Wir haben als ersten Schritt hin zu einem Knowledge Graph für Bielefeld begonnen, die Datensätze über die Bevölkerungsentwicklung in Bielefeld in Linked Data zu transformieren.
Grundlage ist der W3C-Standard RDF (Resource Description Framwework). Für den Anwendungsfall statistische Daten haben wir das RDF Data Cube Vocabulary genutzt.
Für Interessierte an Linked Data ist dieser Kurs vom Hasso-Plattner-Institut zu empfehlen. Außerdem freuen wir uns natürlich über Fragen, Anregungen und neue Mitglieder.
Derzeit können nur die rohen RDF-Daten im Turtle-Format über dieses Repo (output
-Ordner) zugegriffen werden.
- Bevölkerungsstruktur
- Anzahl Personen je Haushalt
- Anzahl der Kinder je Haushalt
- Wohngemeinschaft je Haushalt
Die RDF Data Cube Datenstruktur-Definitionen der Datasets ist in losdb-vocab.ttl
zu finden.
Anforderung: eine installierte Elixir-Umgebung.
Installation der abhängigen Pakete mit:
$ mix deps.get
Damit können die Datasets mit dem folgenden Kommando in den output
-Ordner generiert werden:
$ mix generate