Konvertierung bibliographischer Daten in RDF-Tripel

Am 27. Oktober 2010 hielten Adrian Pohl und ich einen Vortrag zu den Linked-Data-Aktivitäten im hbz. Hier folgt nun der Text meines Teils des Vortrags.

Das hbz hat in den letzten Monaten an einer Veröffentlichung von bibliographischen Daten als Linked Open Data gearbeitet. Über diese Arbeiten möchte ich nun berichten.

Wenn man bibliographische Daten als Linked Data veröffentlichen möchte, steht man vor vielen Herausforderungen und Fragen.Man kann sich zwar von den Kollegen in Schweden und Ungarn inspirieren lassen, aber auch sie können einem nicht die Antworten auf alles geben. Unsere Situation ist eine andere als in Stockholm und Budapest: so sind unsere Daten in der Verbunddatenbank, einem Aleph-System, im MAB2-Format und nicht in MARC21 gespeichert.

Ein zweiter Grund, warum man nicht einfach die Arbeit der Pioniere kopieren kann ist, dass weltweit immer noch Entwicklungen stattfinden, die bereits bestehende Vorgänge revolutionieren oder zumindest evolutionär anpassen. So haben wir auf die DNB gewartet, bis diese ihre Normdaten als Linked Data veröffentlicht hat.

Der Dreh- und Angelpunkt in der Formulierung von RDF-Tripel aus bibliographischen Daten ist die Frage nach dem geeigneten Vokabular. Entweder entwickelt man sein eigenes Vokabular als RDFSchema oder OWL-Ontologie oder man nutzt ein bereits bestehendes Vokabular nach. Um die Interoperabilität der Daten untereinander zu unterstützen ist es immer sinnvoll erstmal zu schauen, welche Vokabularien bereits bestehen. Im bibliographischen Bereich sind es eine ganze Menge:

–    Simple Dublin Core und Qualified Dublin Core
–    Bibliographic Ontology (BiBO)
–    MARC Ontology (MarcOnt)
–    MODS Ontology
–    RDA Vocabulary
–    FRBR
–    ISBD

Welches Vokabular wählt man nun? Die MARC- und MODS-Ontologien haben wir erstmal als Kandidaten verworfen. ISBD ist noch zu früh in der Entwicklung.

Andere Fragen, die uns beschäftigten waren:

–    Muss jedes einzelne obskure MAB-Feld als Linked Data veröffentlicht werden?
–    MAB-Daten beschreiben nicht nur bestimmte Titel, sondern es gibt auch Felder, die den Datensatz selbst beschreiben. Ein Beispiel ist Feld 001: es gibt die Nummer des Datensatzes wieder. Wollen wir den MAB-Datensätze oder die  bibliothekarische Ressourcen beschreiben? Wir entschieden uns Information über bibliothekarische Ressourcen veröffentlichen zu wollen.
–    Inwieweit spielt FRBR eine Rolle? Kann man MAB-Daten auf die verschiedenen FRBR-Entitäten wie Work, Expression, Manifestation und Item mappen?

Folgende Schritte wurden unternommen:

1. Wir haben uns aus den Daten, die als Open Data veröffentlicht werden können einfach zehn Datensätze genommen.

2. Wir analysierten, mit welchen MAB-Feldern wir es zu tun haben würden. Unsere zehn Datensätze haben die wichtigsten Felder getroffen. Unsere MAB-Expertinnen haben nur wenige Felder hinzugefügt, die sie als unabdingbar sahen.

3. Bei jedem der MAB-Felder auf der Liste entschieden wir, ob es die Ressource oder den MAB-Datensatz selbst beschreibt. In den folgenden Schritten kümmerten wir uns nur um die Felder, die mit der Ressource selbst zu tun haben.

4. Wir mappten die Felder auf Qualified Dublin Core (dcterms) und BiBO und stellten dabei fest, was wir ohnehin bereits wussten: Wenn man diese Vokabulare einsetzt, geht sehr viel Semantik verloren. Hier sehen Sie ein Beispiel.

5. Wir entschieden uns, auch ein Mapping zum RDA Vokabular vorzunehmen. Das RDA Vokabular ist sehr differenziert und berücksichtigt auch FRBR. Man wird zuerst förmlich erschlagen von den hunderten von Properties, aber wenn man erstmal einen Überblick hat, kann man es benutzen. In diesem Zusammenhang kämpften wir vor allem mit FRBR.

6. Wir konnten ein erstes RDA-Mapping abschließen, aber leider die Daten nicht mit dem RDA-Vokabular als Linked Data veröffentlichen, da der dafür zuständige Kollege für ein paar Wochen nicht verfügbar ist.

7. Wir haben allerdings Ende August die Daten hauptsächlich im BiBO-Format als Linked Data veröffentlichen können. Andere Vokabulare, die eingesetzt wurden sind: FRBR, DCTerms, FOAF, Geo, Geonames, RDF, OWL, und die Provenance Ontology. Wir wissen, dass dies nicht der Weisheit letzer Schluss ist, aber es ist ein Anfang und bietet eine Grundlage unsere aus MAB2 gemappten Daten mit denen der Schweden und Ungarn zu vergleichen.

(Eine ausführliche Beschreibung findet sich hier)

So wurden 4.896.515 Datensätze in 82.471.813 RDF-Tripel überführt.

Bei der Veröffentlichung unserer Daten legten wir vor allem sehr viel Wert auf die Verlinkung zu anderen Daten. So haben wir z.B. zu den Normdaten der Deutschen Nationalbibliothek und der DDC verlinkt. Natürlich wurden auch Über- und Unterordnungen miteinander verknüpft. Außerdem können wir einen Bezug zwischen den bibliografischen Daten und den besitzenden Bibliotheken feststellen. Dafür verlinken wir zu den Organisationsdaten, die das hbz als Linked Data veröffentlicht hat.

Mit einer anderen wichtigen Verlinkung sind wir immer noch konfrontiert:

Verlinkungen zu anderen Daten, die dieselbe Ressource beschreiben. Wenn jeder Verbund bzw. viele Bibliotheken das tun, was wir tun, werden für dieselbe Ressource viele verschiedene URIs geprägt. Das ist an sich nicht schlimm, so lange man Verknüpfungen zwischen den verschiedenen URIs herstellt.

Ein solcher Weg ist ein Projekt der DNB, bei dem das hbz als Projektpartner auftritt: culturegraph.org. Ziel des Projekts ist es verschiedene Identifikatoren, die dieselbe  Ressourcen beschreiben miteinander zu verknüpfen. Dazu gehören die http-URIs, mit denen Linked Data-Ressourcen identifiziert werden, aber auch andere Identifikatoren wie EKI, ISBN, Verbunds-IDs, Amazon ASIN, LCCN, OCLC-Identifier usw. usf. Nicht nur Identifier aus Bibliotheken sollen hier aufgenommen und miteinander verknüpft werden, sondern auch die aus anderen Gedächnisinstitutionen.

Resultat dieses Dienstes ist, dass alle bibliographischen Daten zu einer Ressource aus verschiedenen Quellen miteinander verlinkt werden können. Nur zwei mögliche Anwendungsgebiete seien hierfür genannt: Kataloganreicherung und Dublettenidentifizierung. Das sind die Anwendungsgebiete, die mir aufgrund meines Arbeitsbereiches am nächsten liegen, aber weitaus mehr, nicht nur im bibliothekarischen Bereich, ist so möglich.

Semantic Web in Bibliotheken – SWIB10

Es ist nun möglich, sich für die Tagung „Semantic Web in Bibliotheken 2010“, kurz „SWIB10“ anzumelden. Auf der Website (http://swib.org/swib10/) steht:

Nach dem großen Erfolg der SWIB09-Tagung wollen das Hochschulbibliothekszentrum NRW und die Zentralbibliothek für Wirtschaftswissenschaften – Leibniz-Informationszentrum Wirtschaft eine weitere Tagung zum Thema „Semantic Web in Bibliotheken“ ausrichten.

Die Vorträge des ersten Tages handeln von der strategischen und politischen Bedeutung des Semantic Web für Bibliotheken. Es wird auch auf Open Data und auf die juristischen Fragestellungen, die bei der Veröffentlichung und Nachnutzung von Daten im Semantic Web entstehen, eingegangen. Am zweiten Tag soll, nach einem Keynote-Vortrag von Karen Coyle, auf aktive Projekte in unterschiedlichen Bibliotheken und bibliothekarischen Institutionen eingegangen werden. Diesmal liegt der Fokus eher auf dem „Wie?“ als auf dem „Warum?“

Das Programm für den 29. November 2010

Das Programm für den 30. November 2010

Referenten

Italienisch lernen mit einem Android-Smartphone

Auch für das Vokabellernen möchte ich den Computertechnologie einsetzen. Wichtig ist mir dabei Flexibilität: ich möchte selbst bestimmen wieviele Vokabeln ich wann wie lernen möchte, d.h. ich möchte mir meine Vokabellisten selbst erstellen können.

Auf meinem Rechner (Notebook mit Windows 7) benutze ich Teachmaster. Das Programm gefällt mir. Man kann Vokabellisten direkt im Editor erstellen oder als einfache CSV-Dateien importieren. Ich kann meine Listen schneller mit einer Tabellenkalkulation erstellen und lese dann die Datei als CSV-Datei ein.

Aber dann suchte ich noch ein App, womit ich die Vokabeln auf dem Android-Smartphone lernen kann. Hier war mir wichtig, dass ich die Vokabeln nicht eintippen muss, sondern einfach sagen kann, dass ich richtig oder falsch gelegen habe – also eher Flash Cards als voller Vokabeltrainer. Und ein zweites Kriterium ist halt, dass ich wieder meine eigenen Vokabellisten in eigener Formatierung benutzen kann. Dabei bin ich auf iFlashcards gestoßen. Man sollte sich nicht über „iPhone/iPod“ in der Überschrift irritieren. Das App gibt es auch für Android.

Im Gegensatz zu Teachmaster, bei dem man viele Lektionen in einer CSV-Datei importieren kann, muss man bei iFlashcard jede Lektion einzeln importieren. Die Lektion ist in einem XML-ähnlichen Format, z.B.:

<meta>
 author "Anette Seiler"
 tags "Italienisch Aussehen Accessoires "
 description "19 - Aussehen - Accessoires"
 fileName "de-it19.txt"
 inOrder 0
 questionSize 2
 answerSize 2
 answersFirst 0
 testMode 0
</meta>

<question>die Tasche</question>
<answer>la borsa</answer>

<question>die Handtasche</question>
<answer>la borsetta</answer>

<question>das Portemonnaie
 - der Geldbeutel, die Brieftasche - </question>
<answer>il portafoglio</answer>

<question>der Hut</question>
<answer>il cappello</answer>

<question>die Mütze</question>
<answer>il berretto</answer>

<question>der Handschuh</question>
<answer>il guanto</answer>

<question>der Regenschirm</question>
<answer>l'ombrello</answer>

<question>der Ring</question>
<answer>l'anello</answer>

<question>die Uhr</question>
<answer>l'orologio</answer>

<question>die Halskette</question>
<answer>la collana</answer>

Es geht auch noch einfacher:

die Tasche
la borsa

die Handtasche
la borsetta

das Portemonnaie - der Geldbeutel, die Brieftasche
il portafoglio

der Hut
il cappello

die Mütze
il berretto

...

funktioniert auch, aber dann ist die Eingangskarte ziemlich leer und man kann seine Fragen oder Antworten nicht über mehrere Zeilen hinweg formatieren.

Diese Lektionen erstelle ich, indem ich aus der CSV-Datei mit einem kleinen Perlskript die Dateien schreibe. Dann werden sie auf die SD-Karte des Smartphones geladen und schließlich in iFlashcards importiert. Alternativ kann man die Lektionen auch über die Website des Anbieters erstellen und dann auf sein Smartphone einspielen. Ich benutze lieber meine handgeklöppelte Variante.

Und jetzt kann ich mich mal mit Italienisch beschäftigen, und werde nicht mehr von Technik abgelenkt.

Buona sera!

Upgrading Android

Ich bin stolze Besitzerin eines T-Mobile G2 Touch (HTC Hero) Smartphones, ein Gerät, dass ich sehr gern habe. Schon seit einigen Monaten ist bei T-Mobile ein Update des Android-Betriebssystems (Version 2.73.111.26) verfügbar. Im Augenblick habe ich die Version 1.7… installiert. Nun wollte ich mein Smartphone auf die aktuellste Version upgraden. Grund dafür ist, dass dann die Google-Navigation möglich ist.

Um es kurz zu machen: es ist mir nicht gelungen, mein Handy zu upgraden.

Es fing schon damit an, dass ich die neuste Version von HTC Sync aufspielen wollte. Die alte Version funktioniert nämlich nicht mit meinem 64-bit Windows Betriebssystem. Das Problem ist, dass der Windows-Treiber für das Smartphone nicht voll funktionsfähig ist. Es gibt zwar Workarounds, aber die neuste Version sollte Windows-7-fähig sein. Mit der neuen Software funktionierte das Synchronisieren dann auch.

Wichtig vor dem Aufspielen der neuen Android-Version: BACKUP. Meine Kontakte und deren Geburtstage verwalte ich über Google Mail, meinen Kalender über Google Calendar und es ist alles eine Sache des Synchronisierens, aber es gibt auch Apps, die die Daten nicht im Web speichern, z.B. meine verschlüsselten Passwörter. Davon sollte man ein Backup haben. Die Daten auf der SD-Karte bleiben erhalten.

Ich startete den Upgrade. Das Programm fand auch mein Smartphone über den USB-Anschluss und begann dann mit dem Upgrade. Auf dem Handy war das Bild mehrerer skateboard-fahrenden Androids zu sehen, die kurz vor dem Fallen waren – es sollte mir wohl sagen, dass das sich das Smartphone in einer instabilen Lage befinden würde. Außerdem gab es ein paar Informationen zu dem, was gerade stattfand. Mittendrin dann das Problem: Das Upgradeprogramm auf meinem Rechner fand das Smartphone nicht mehr und forderte mich auf, die USB-Verbindung zu überprüfen. Die funktionierte einwandfrei. Auf dem Bildschirm des Smartphones konnte ich die entsprechende Information sehen und auch das Windows-Betriebssystem merkte, wenn die Verbindung unterbrochen bzw. wiederhergestellt wurde. Allein das Upgradeprogramm gab mir immer wieder dieselbe Fehlermeldung.

Ich nehme an, dass es etwas mit dem Windows-7-Treiber zu tun hat. Nicht nur ich hatte das Problem, andere auch, wie hier zu lesen ist. Windows 7 gibt Probleme, Windows XP wohl nicht. Natürlich habe ich versucht, das Programm als XP-auszuführen (Rechtsklick auf die exe-Datei, Eigenschaften, Reiter „Kompabilität“, Knopf „Einstellungen für alle Benutzer ändern“), aber es fand einfach nicht mehr mein Smartphone über USB.

Ich gab auf. Sobald ich Zugriff auf einen Windows-XP-Rechner habe, versuche ich es nochmal. Nun blieb nur noch ein Problem: mein Handy war irgendwie mitten im Upgrade-Prozess mit den skateboardfahrenden Androids steckengeblieben. Wie kann man es wieder in einem funktionsfähigen Zustand bringen? Die Antwort fand ich hier, aber gebe sie nochmal in Deutsch wieder:

  1. Schalte das Handy aus indem du die „Power“-Taste ein paar Sekunden gedrückt hältst oder das Akku rausnimmst. (Das mit dem Power-Taste funktionierte bei mir nicht; ich musste das Akku herausnehmen).
  2. Während das Smartphone ausgeschaltet ist, drücke gleichzeitg auf die „Home“- (mit dem Häuschen) und die „Zurück“-Taste (Pfeil rechts unten)
  3. Während die beiden Tasten gehalten werden, drücke schnell auf die „Anruf-Beenden“/“Power“-Taste.
  4. Lasse die „Home“- und „Zurück“-Taste los. Ein weißer Bildschirm mit technischer Information erscheint. Du wirst aufgefordert auf die Menü-Taste zu drücken.
  5. Drücke die Menü-Taste. Das Handy wird auf Werkseinstellungen zurückgesetzt.

Das Telefon ist nun wieder funktionsfähig, aber alle Apps sind weg. Adressen und Kalender muss neu synchronisiert werden, Apps müssen neu geladen werden.

Update: Mit einem Windows XP-Rechner funktionierte das Update völlig problemlos. (12. Juli 2010)

Update 2: Der Update hat zwar eine aktuelle Build-Nummer (2.73.111.91), aber die Firmware wurde nicht upgegradet. Google war noch nicht sehr hilfreich in dieser Hinsicht. (13. Juli 2010)

Update 3: Die Telekom hat gestern, am 2. August 2010, ein neues Update zur Verfügung gestellt, das auf mein Smartphone die Android-Version 2.1 geladen hat. Der Update war fast 80 MB – es macht also Sinn, ihn über WLAN abzurufen. Jetzt bin ich hoffentlich auch in der Lage, das Google Navi zu benutzen. (3. August 2010)

Afrikaans vir beginners

Beim Pfingstbraai 2010 des Namibia-Forums (www.namibia-forum.ch) habe ich einen kurzen Workshop „Afrikaans vir beginners“ gehalten. Ziel war es, grundlegende Kenntnisse der Sprache zu vermitteln. Ich habe mich hauptsächlich auf die Aussprache konzentriert, aber ein bißchen Wortschatz und Grammatik war auch drin. Hier die Folien:

Catalogue Enrichment im hbz

Heute habe ich im hbz eine Präsentation zu Catalog Enrichment gegeben. Dabei habe ich das Angebot von Amazon mit denen des Verbundkatalogs verglichen und versucht die Fragen „Warum ist Kataloganreicherung wichtig?“ sowie „Wie reichern wir beim hbz den Verbundkatalog (und somit die Lokalsysteme) an?“ zu beantworten.

Hier meine Präsentation auf Slideshare: