Metadatenmanagement: KNIME & Catmandu

Aktualisiert am:21/03/2025

Dokumentinformationen

Autor	Fiona Zurek
Schule	HdM (Hochschule der Medien)
Fachrichtung	Bibliotheks- und Informationsmanagement
Dokumenttyp	Bachelorarbeit

Sprache	German
Format	\| PDF
Größe	0.95 MB

Zusammenfassung

I. Metadatenmanagement in Bibliotheken Ein Vergleich von KNIME und Catmandu

Diese Arbeit untersucht die Eignung von KNIME und Catmandu für das Metadatenmanagement in Bibliotheken. Beide Programme werden theoretisch analysiert und praktisch anhand typischer Szenarien getestet, darunter Filtern, Analyse, Ergänzen von Inhalten und Anreicherung von Daten. Die Studie beleuchtet die Stärken und Schwächen beider Tools im Umgang mit verschiedenen Datenformaten (z.B. MARC, XML, JSON) und Metadatenstandards (z.B. Dublin Core, RDA) sowie Schnittstellen wie OAI-PMH und REST. Ein Fokus liegt auf der Benutzerfreundlichkeit für Bibliothekar*innen ohne umfassende Informatikkenntnisse. Die Universität Konstanz wird im Zusammenhang mit der Entwicklung von KNIME erwähnt. Das Bibliotheksservice-Zentrum Baden-Württemberg (BSZ) lieferte praxisrelevante Szenarien.

1. Einleitung Metadatenmanagement in Bibliotheken

Die Arbeit untersucht die Eignung von KNIME und Catmandu für das Metadatenmanagement in Bibliotheken. Die zunehmende Komplexität im Bereich Metadaten, bedingt durch die Vielzahl an Formaten, Schnittstellen und Anwendungen, erfordert effiziente Tools. Die Studie analysiert und vergleicht daher die beiden Programme sowohl theoretisch als auch durch praktische Tests. Es werden verschiedene Szenarien aus den Bereichen Filtern, Analyse, Ergänzen von Inhalten und Anreicherung von Daten getestet, um die Stärken und Schwächen beider Programme im Hinblick auf typische Aufgaben des Metadatenmanagements in Bibliotheken aufzuzeigen. Die Arbeit von Pfeffer (2016) wird zitiert, um die finanzielle Situation von Bibliotheken und den Bedarf an kostengünstigen Lösungen im Bereich Lehre zu verdeutlichen. Die Arbeit betont die Verknüpfung von Metadaten mit wichtigen Entwicklungen im Bibliotheksbereich wie Linked (Open) Data und dem Semantic Web, sowie die zunehmende Internationalisierung von Metadaten durch gemeinsame Standards wie RDA. Die Interoperabilität verschiedener Datenformate und die Offenheit der Daten als Ziel für Bibliotheken werden als entscheidende Faktoren für eine neue Existenzgrundlage genannt (Mittelbach, 2015). Harlow (2015) unterstreicht die wachsende Bedeutung von Metadaten in den letzten Jahren aufgrund der zunehmenden Komplexität des Themenfelds durch technische Entwicklungen. Der Bedarf an geeigneten Tools, die sowohl schnelle als auch komplexe Aufgaben lösen können, wird hervorgehoben. Die Arbeit soll einen Einblick geben, wie eine Person mit bibliothekarischem Hintergrund, aber ohne Informatik-Erfahrung, mit den Programmen umgehen kann.

2. Methodik Kriterienbasierter Vergleich von KNIME und Catmandu

Die Forschungsfrage wird durch einen kriterienbasierten Vergleich von KNIME und Catmandu beantwortet. Die Untersuchung unterscheidet zwischen Untersuchungskriterien (spezifische Eigenschaften und Möglichkeiten der Software, z.B. unterstützte Datenformate, Umgang mit großen Datenmengen, Dokumentation) und Szenarien (typische Arbeitsprozesse des Metadatenmanagements, die in beiden Programmen getestet werden). Die Untersuchungskriterien und Szenarien wurden durch Literaturrecherche und Gespräche mit dem Bibliotheksservice-Zentrum Baden-Württemberg (BSZ) ermittelt und entwickelt. Der Mangel an umfassenden Einführungen in das Metadatenmanagement in der Literatur wird kritisiert. Während es viel Literatur zu Formaten, Schemata und Qualitätssicherung gibt (Chen et al., 2011; Mitchell, 2015; Zeng & Qin, 2016), fehlt es an klaren Definitionen des Begriffs Metadatenmanagement und an Überblicken über die verschiedenen Aufgabengebiete mit konkreten Beispielen. Die Definitionen von Haynes (2018) und Westbrooks (2005) werden erwähnt, wobei die Anerkennung und Anwendbarkeit dieser Definitionen auf Bibliothekskontexte unklar bleibt. Der REST-Standard (REpresentational State Transfer) wird kurz erklärt, seine Charakteristika (Trennung von Server und Client, Zustandslosigkeit) werden beschrieben, und seine Verwendung von HTTP-Methoden (GET, POST, PUT, DELETE) wird erwähnt.

3. Untersuchungskriterien und Szenarien

Die Untersuchungskriterien umfassen objektiv bewertbare Kriterien, die sich mit den Rahmenbedingungen und Funktionen der Programme befassen. Diese werden nicht praktisch getestet, sondern nur auf ihr Vorhandensein geprüft, um die Nutzbarkeit der Software faktenbasiert zu untersuchen. Die Szenarien hingegen sind typische Vorgänge im Metadatenmanagement, die zur praktischen Erprobung der Software dienen. Sie zeigen, wie an ein Problem herangegangen wird, welche Probleme auftreten und wie diese gelöst werden können. Die Entwicklung der Szenarien erfolgte durch Literaturrecherche und Kontakt zum BSZ, wodurch konkrete Beispiele aus dem Umgang mit E-Book-Daten und der Einspielung von Fremddaten gewonnen wurden. Die Szenarien wurden auf vier Gruppen eingegrenzt: Filtern, Analyse, Ergänzen von Inhalten und Anreicherung von Daten. Die Beschreibung der Lösungswege in der Arbeit soll Informationen über die Lösbarkeit des Problems, die benötigte Zeit, die Anzahl der Schritte (Nodes in KNIME, Fixes in Catmandu), die Verfügbarkeit und Qualität von Beispielen in der Dokumentation und die aufgetretenen Probleme enthalten. Nicht erfolgreiche Lösungswege und deren Gründe werden ebenfalls dokumentiert. Screenshots und Programmcode werden zur Veranschaulichung verwendet. Bei Catmandu wird verglichen, ob die Ergebnisse mit denen von KNIME übereinstimmen. Die Konfiguration der Nodes in KNIME wird im Anhang dokumentiert.

II.KNIME Analyse und Ergebnisse

Die Analyse von KNIME (Konstanz Information Miner) konzentriert sich auf seine Funktionalität im Metadatenmanagement. Die aktuelle Version (4.0.2) ist für Windows, Linux und macOS verfügbar. Die Studie bewertet die Dokumentation, den Support (KNIME Hub, Cheat Sheets), den Umgang mit verschiedenen Datenformaten und die Effizienz bei der Lösung verschiedener Metadatenmanagement-Aufgaben. Probleme mit der Linux-Version unter GNOME werden erwähnt. Die Ergebnisse zeigen, dass KNIME nach einer gewissen Einarbeitungszeit komplexe Aufgaben effizient lösen kann, jedoch der Einstieg steiler ist als bei Catmandu.

1. KNIME Systemüberblick und Funktionalität

Die Analyse von KNIME (Konstanz Information Miner) beginnt mit einem Überblick über das System. KNIME, ursprünglich an der Universität Konstanz entwickelt, ist ein Open-Source-Tool mit kommerziellen Erweiterungen, das von der KNIME AG vertrieben wird. Die erste Version erschien 2006. Das Programm zielt auf Kollaboration, Forschung und die Verarbeitung großer, heterogener Datenmengen ab. Es wird von großen Unternehmen aus verschiedenen Branchen genutzt. Die aktuelle Version der KNIME Analytics Platform ist 4.0.2 und verfügbar für Windows (32- und 64-bit, mit drei Installationsmöglichkeiten: Installer, selbstextrahierendes Archiv und ZIP-Archiv), Linux (64-bit) und macOS (ab Version 10.11, 64-bit). Die Studie stellt fest, dass die Linux-Version unter Ubuntu 18.04 mit GNOME Darstellungsprobleme aufwies. Die Verfügbarkeit für alle drei großen Betriebssysteme wird positiv bewertet, die Nicht-Funktionalität der Linux-Version mit GNOME hingegen negativ. Die FAQ-Sektion auf der KNIME-Webseite zeigt eine Häufung von Problemen unter Linux, was möglicherweise auf die Heterogenität der Linux-Welt zurückzuführen ist. Die Abwesenheit von Virtualisierungsalternativen durch KNIME selbst wird als potentieller Nachteil angesprochen, obwohl dies theoretisch nicht zwingend notwendig wäre, da Versionen für alle drei großen Systeme existieren. Die Ergebnisse der Untersuchung basieren zum Teil auf subjektiven Empfindungen, da die Szenarien und Kriterien nur von einer Person getestet wurden. Die Vorkenntnisse und Erfahrungen dieser Person beeinflussen die Ergebnisse. Die Studie gibt jedoch einen Einblick, wie eine Person mit bibliothekarischem Hintergrund, aber ohne Informatik-Erfahrung, KNIME für Metadatenmanagement einsetzen kann. Vorerfahrungen mit der Kommandozeile und dem Umgang mit Softwareproblemen werden als relevant genannt.

2. KNIME Dokumentation und Support

Ein wichtiger Aspekt der KNIME-Analyse ist die Bewertung der Dokumentation und des Supports. Der KNIME Hub ermöglicht die Recherche nach Workflows, Erweiterungen und Nodes. Die einzelnen Elemente werden dort beschrieben und mit Benutzungshinweisen versehen. Die Beispiele werden teilweise als zu einfach kritisiert, insbesondere im Bereich der XML-Nodes, wobei die Fallstricke bei der Ansprache nicht ausreichend erklärt werden. Die Node-Beschreibungen sind oft unzureichend. Es wird auf die Notwendigkeit weiterer Ressourcen ausserhalb von KNIME hingewiesen. Die Beispiele auf dem Example-Server von KNIME sind meist mit einer kurzen Beschreibung ausgestattet, jedoch mangelt es oft an detaillierten Erklärungen zu den einzelnen Nodes und deren Konfiguration. Cheat Sheets sind auf der Webseite verfügbar. Die aktive Weiterentwicklung von KNIME wird durch die regelmässigen Releases (etwa alle ein bis zwei Monate, mit grösseren Versionsnummern etwa halbjährlich) belegt. Die Entwicklungsaktivitäten sind auf GitHub (knime/knime-core) einsehbar. Im Zeitraum vom 01.09.2019 bis 31.10.2019 wurden an 28 Tagen Commits hinzugefügt; das letzte Release (KNIME 4.0.2) erfolgte am 30.09.2019. Diese aktive Weiterentwicklung wird positiv hervorgehoben.

3. KNIME Praktische Anwendung und Ergebnisse

Der praktische Teil der KNIME-Analyse umfasst die Bearbeitung verschiedener Szenarien im Metadatenmanagement. Die Untersuchung bewertet die Effizienz und Lösbarkeit von Aufgaben wie das Filtern englischsprachiger Ressourcen (Szenario 1), das Filtern von Ressourcen einer bestimmten Person aus einem bestimmten Jahr (Szenario 2), die Überprüfung auf fehlende Pflichtfelder (Szenario 3), die Überprüfung auf korrekt belegte normierte Felder (Szenario 4), das Ergänzen von IMD-Typen (Szenario 5) und das Hinzufügen von Hinweisen zu elektronischen Ressourcen (Szenario 6). Bei der Lösung der Szenarien wird auf die Anzahl der benötigten Nodes, die benötigte Zeit und die Qualität der Dokumentation eingegangen. Die Studie beschreibt auch Lösungswege, die nicht zum Erfolg führten, und erklärt deren Gründe. Die Ergebnisse zeigen, dass KNIME nach einer gewissen Einarbeitungsphase komplexe Aufgaben lösen kann, der Einstieg jedoch als vergleichsweise steiler bewertet wird als bei Catmandu. Die Verwendung von XPath und verschiedenen Nodes (XML Reader, XPath, Rule-based Row Filter, Column Filter, CSV Writer, Extract Table Dimension, String Replacer, XML Column Combiner) wird im Detail beschrieben. Die Probleme beim Umgang mit Datenstrukturen werden als Hauptursache für Schwierigkeiten identifiziert. XML wird als ein Format identifiziert, mit dem in KNIME vergleichsweise wenig gearbeitet wird.

III.Catmandu Analyse und Ergebnisse

Die Untersuchung von Catmandu bewertet dessen Eignung für das Metadatenmanagement in Bibliotheken. Catmandu, ein Perl-basiertes Tool, bietet einen einfacheren Einstieg, besonders durch den Adventskalender-Tutorial. Die Studie bewertet die Dokumentation (inkl. des LibreCat Projekts und metacpan), den Support, die Handhabung verschiedener Datenformate (inkl. MARC, RDF) und die Effizienz bei der Bearbeitung verschiedener Szenarien. Die fehlende native Windows-Unterstützung wird thematisiert. Catmandu zeichnet sich durch vielfältige Optionen zur Nutzung bibliothekarischer Datenformate und Schnittstellen aus.

1. Catmandu Systemarchitektur und Installation

Die Analyse von Catmandu beginnt mit einem Überblick über seine Systemarchitektur und Installationsmöglichkeiten. Im Gegensatz zu KNIME gibt es keine plattformspezifischen Versionen von Catmandu, was auf seine UNIX-Basis zurückzuführen ist und die Portierung zu Windows erschwert. Für macOS und verschiedene Linux-Distributionen existieren spezifische Installationshinweise. Für Windows werden Docker, Strawberry Perl und VirtualBox als Optionen genannt. Die Dokumentation wird als verwirrend beschrieben, da mehrere Installationswege ohne klare Empfehlung der Vor- und Nachteile präsentiert werden. Der initiale Installationsweg via CPAN wird als unzureichend erklärt, da keine Hinweise für den jeweiligen Anwendungsfall gegeben werden. Die fehlende native Windows-Unterstützung wird zwar als Nachteil für Windows-Benutzer erwähnt, aber aufgrund der Systemunterschiede als verständlich dargestellt. Der Einsatz von Catmandu unter macOS und Linux ist ohne zusätzliche Schicht möglich. Die aktive Weiterentwicklung von Catmandu wird angedeutet; es gibt Anleitungen zur Einrichtung einer Entwicklungsumgebung und Hinweise zur Zusammenarbeit auf GitHub. Eine Liste namens „missing modules“ zur Sammlung von Ideen und Ressourcen für neue Module existiert, wird aber als veraltet und schlecht gepflegt bezeichnet, was an der Verknüpfung der Dokumentation auf der Webseite und auf GitHub liegt; der Link funktioniert nur von der GitHub-Dokumentation. Trotz der Kritik an der Wartung wird die Existenz dieser Liste positiv erwähnt.

2. Catmandu Dokumentation und Support

Die Bewertung der Catmandu-Dokumentation und des Supports spielt eine zentrale Rolle in der Analyse. Ein Adventskalender-Tutorial wird als besonders hilfreich hervorgehoben, da es Schritt für Schritt aufgebaut ist und Screenshots zur Überprüfung des Programmausgaben beinhaltet. Der Einstieg mit dem Adventskalender wird als deutlich einfacher als mit der allgemeinen Dokumentation bewertet; dieser erklärt die einzelnen Schritte und einige UNIX-Grundlagen. Die allgemeine Dokumentation wird als unzureichend bewertet. Links zu GitHub und metacpan werden vermisst. Metacpan bietet zwar Beschreibungen für jedes Modul und die Erweiterungen, die allgemeine Dokumentation ist jedoch unvollständig. Ein MARC-Tutorial auf metacpan wird erwähnt, aber die Beispiele werden als zu knapp und unklar beschrieben, was die Syntax und Feldnamen betrifft. Die einheitliche Verwendung von Begriffen fehlt, und es wird nur bei der Dokumentation für Anfänger auf Grundlagen verwiesen. Oft werden nur Teile der benötigten Befehle angegeben; der Rest muss aus verschiedenen Quellen zusammengesucht werden. Die Dokumentation wird bezüglich ihrer Auffindbarkeit und Bündelung an einem Ort kritisiert; es wird angemerkt, dass sich die Dokumentation wiederholt und nicht alle Elemente des Programms (Importer, Fixes etc.) ausreichend beschrieben sind.

3. Catmandu Praktische Anwendung und Ergebnisse

Der praktische Teil der Catmandu-Analyse beinhaltet die Bearbeitung der gleichen Metadaten-Szenarien wie bei KNIME. Catmandu zeigt sich besonders bei einfacheren Aufgaben effizient. Der Umgang mit Listen und komplexen Datenstrukturen wird als herausfordernd beschrieben. Die Studie hebt die Bedeutung der Reihenfolge von Fixes in der Datei hervor und betont die Notwendigkeit, die Notation zum Ansprechen von MARC-Feldern zu verstehen, da diese nur mit MARC-Fixes funktioniert. Häufig müssen Felder mit marc_map kopiert werden, um sie verarbeiten zu können. Ein Beispiel für eine längere Bearbeitungszeit ist das Ergänzen von IMD-Typen, welches durch fehlende Anführungszeichen erschwert wurde. Das Fehlen von Hinweisen in der Dokumentation zur korrekten Verwendung von Anführungszeichen wird kritisiert. Die Verwendung von Kommandozeilen-Tools wie wc (word count) und less wird als lehrreich beschrieben. Die Ergebnisse zeigen, dass bis auf das Szenario der Datenanreicherung alle Szenarien zufriedenstellend gelöst werden konnten. Die Bearbeitungszeit variierte stark. Probleme mit Datenstrukturen werden als Hauptursache für Schwierigkeiten genannt. Die aktive Weiterentwicklung und der Support durch die Entwickler (Forum, Mailingliste) werden positiv bewertet.

IV. Catmandu für das Metadatenmanagement

Der Vergleich von KNIME und Catmandu zeigt, dass beide Tools unterschiedliche Stärken und Schwächen für das Metadatenmanagement in Bibliotheken besitzen. Catmandu punktet mit einem leichteren Einstieg und der umfassenden Unterstützung bibliothekarischer Datenformate, während KNIME nach einer Einarbeitungsphase eine höhere Effizienz bei der Lösung komplexer Probleme bietet. Die Studie betont die Bedeutung von guter Dokumentation und Support für die Benutzerfreundlichkeit. Die Ergebnisse zeigen, dass beide Tools Bibliotheken bei typischen Aufgaben des Metadatenmanagements unterstützen können, die Wahl des optimalen Tools hängt jedoch von den spezifischen Anforderungen und den Vorkenntnissen der Benutzer*innen ab. Die Datensätze von der Deutschen Nationalbibliothek (DNB) und Beispiel-Daten der Bodleian Library wurden verwendet.

1. Vergleich der Stärken und Schwächen von KNIME und Catmandu

Der Vergleich von KNIME und Catmandu zeigt deutlich deren unterschiedliche Stärken und Schwächen im Kontext des Metadatenmanagements. Catmandu überzeugt durch einen einfacheren Einstieg und die vielfältigen Möglichkeiten, bibliothekarische Datenformate und Schnittstellen zu nutzen. Dies macht es besonders für Bibliotheken mit beschränkten Ressourcen und für den Einsatz in der Lehre attraktiv (vgl. Pfeffer, 2016, S. 8). KNIME hingegen zeichnet sich nach einer initialen Einarbeitungszeit durch eine höhere Effizienz bei der Lösung komplexer Probleme aus. Die Verfügbarkeit spezifischer Funktionen für zahlreiche Fälle ist ein entscheidender Vorteil. Die Studie unterstreicht, dass die Wahl des geeigneten Tools stark von den individuellen Anforderungen und den Vorkenntnissen der Benutzer abhängt. Beide Systeme wurden anhand praxisrelevanter Szenarien (Filtern, Analyse, Ergänzen von Inhalten, Anreicherung) getestet, die in Zusammenarbeit mit dem Bibliotheksservice-Zentrum Baden-Württemberg (BSZ) entwickelt wurden. Die unterschiedlichen Bearbeitungszeiten für die Szenarien zeigen, dass die Komplexität der Aufgabe einen erheblichen Einfluss auf die benötigte Zeit hat. Es wird deutlich, dass der Umgang mit Datenstrukturen in beiden Systemen eine Herausforderung darstellt, die jedoch in unterschiedlicher Weise angegangen werden muss.

2. Dokumentation und Support im Vergleich

Ein wichtiger Vergleichspunkt bildet die Qualität der Dokumentation und des Supports beider Systeme. KNIME bietet den KNIME Hub mit Suchfunktionen für Workflows, Erweiterungen und Nodes. Obwohl die Dokumentation vorhanden ist, werden die Beispiele teilweise als zu einfach kritisiert, und es fehlt oft an detaillierten Erklärungen zur Konfiguration der Nodes. Cheat Sheets stehen zur Verfügung. Catmandu punktet mit seinem Adventskalender-Tutorial, welches einen deutlich einfacheren Einstieg ermöglicht. Die allgemeine Dokumentation wird jedoch als verwirrend und unvollständig kritisiert, insbesondere bezüglich der Syntax und des Umgangs mit komplexeren Datenstrukturen. Metacpan wird als zusätzliche Informationsquelle genannt, bietet aber ebenfalls keine umfassende und konsistente Dokumentation. Beide Systeme zeichnen sich durch eine aktive Weiterentwicklung und den Support durch die Entwickler aus (Foren, Mailinglisten), was positiv hervorgehoben wird. Der Unterschied in der Benutzerfreundlichkeit resultiert jedoch aus der Qualität und Struktur der jeweiligen Dokumentation und dem damit verbundenen Einstieg ins jeweilige System.

3. Fazit und Ausblick KNIME und Catmandu im Bibliothekskontext

Zusammenfassend lässt sich sagen, dass sowohl KNIME als auch Catmandu Bibliotheken bei verschiedenen Aufgaben des Metadatenmanagements unterstützen können. KNIME eignet sich besonders für komplexe Aufgaben und bietet nach einer Einarbeitungsphase eine hohe Effizienz. Catmandu punktet mit einem einfacheren Einstieg und der breiten Unterstützung bibliothekarischer Datenformate und Schnittstellen. Die Wahl des optimalen Tools hängt stark von den spezifischen Anforderungen und den Vorkenntnissen der Nutzer ab. Die Studie zeigt, dass die Qualität der Dokumentation und der Support entscheidend für die Benutzerfreundlichkeit sind. Die Untersuchung hebt die Bedeutung einer klaren und umfassenden Dokumentation hervor, insbesondere bezüglich des Umgangs mit Datenstrukturen. Die erfolgreiche Lösung der meisten Szenarien in beiden Systemen belegt die grundsätzliche Eignung, jedoch zeigt der hohe Zeitaufwand bei manchen Szenarien den Bedarf an verbesserter Dokumentation und intuitiveren Workflows. Die Verwendung von verschiedenen Datenquellen (z.B. Daten der Deutschen Nationalbibliothek, Bodleian Library) unterstreicht die praktische Relevanz der Untersuchung.