
Text-Mining: Patentklassifizierung evaluiert
Dokumentinformationen
Autor | Petra Klamer |
instructor | Prof. Dr. Wolf-Fritz Riekert |
Schule | Fachhochschule Stuttgart - Hochschule der Medien |
Fachrichtung | Informationswirtschaft |
Dokumenttyp | Diplomarbeit |
Sprache | German |
Format | |
Größe | 4.91 MB |
Zusammenfassung
I.Effizientes Text Mining für die Patentinformation bei DaimlerChrysler
Diese Diplomarbeit evaluiert die Einsatzfähigkeit des Text-Mining-Systems "What's Related" (WR-System) zur Verbesserung der Patentklassifizierung und -recherche bei der DaimlerChrysler AG. Das System, entwickelt am DaimlerChrysler-Forschungszentrum Ulm, zielt darauf ab, die Effizienz der Wettbewerbsanalyse und des Wissensmanagements durch automatisierte Analyse von Patentdaten zu steigern. Die Arbeit konzentriert sich auf die Evaluierung der Funktionalität des WR-Systems im Kontext der bestehenden ePortfolio-Anwendung und der Internationalen Patentklassifikation (IPC). Ein zentrales Problem ist die Bewältigung der enormen Menge an weltweit jährlich neu hinzukommenden Patentdokumenten (über eine Million). Die Arbeit untersucht die Leistungsfähigkeit des Systems anhand verschiedener Metriken, insbesondere Recall und Precision, und analysiert den Einfluss verschiedener Parameter wie des Schwellwerts auf die Ergebnisqualität. Schließlich werden Empfehlungen für die optimale Anwendung des WR-Systems gegeben.
1. Die Herausforderung der Patentinformationsflut
Der rasant wachsende Umfang an Patentdokumenten (jährlich über eine Million weltweit) stellt Unternehmen vor immense Herausforderungen bei der Recherche und Analyse. Traditionelle, manuell durchgeführte Verfahren sind aufgrund der Datenmenge ineffizient und zeitaufwendig. Die Notwendigkeit effizienterer Methoden zur Informationsbeschaffung und -verarbeitung wird deutlich hervorgehoben. Die Arbeit betont die Bedeutung von Patentinformationen für die unternehmerische Entscheidungsfindung, den Aufbau von Wissensvorsprüngen und Wettbewerbsvorteilen. Da in Patentanmeldungen 85 bis 90 Prozent des gesamten veröffentlichten technischen Wissens gespeichert sind, ist eine effiziente Analyse essentiell. Die Autorin beschreibt die Notwendigkeit neuer intelligenter Verfahren, nicht nur für die Suche in unstrukturierten Daten (ca. 90% in Unternehmen), sondern auch für die Aufbereitung und Strukturierung unternehmenseigener Patente und die Durchführung von Wettbewerbsanalysen. Die unzureichende Trefferquote bestehender Suchmaschinen, insbesondere im Kontext der DaimlerChrysler Forschung, wird als Motivation für die Entwicklung und den Einsatz neuer Technologien wie Text-Mining genannt.
2. Text Mining als Lösung für effizientes Patentmanagement
Text-Mining wird als Sammlung von Methoden, Technologien und Produkten definiert, die eine automatische, schnelle und domänenübergreifende Indexierung von Dokumenten ermöglichen. Dies führt zu einer effizienteren Verwaltung und ermöglicht die Extraktion von Wissen aus unstrukturierten Daten. Die Arbeit beschreibt die Möglichkeiten, Datenbestände auf thematische Ähnlichkeiten zu untersuchen und Potenziale für Anwendungen zu identifizieren. Die Vorteile einer automatisierten Indexierung werden betont: schnellere und effizientere Prozesse im Vergleich zu manuellen Verfahren. Die Integration der Internationalen Patentklassifikation (IPC) wird als wichtiges Element für die Verbesserung der Rechercheeffizienz genannt, da sie die Abhängigkeit von Stichworten reduziert und die Erfassung von Synonymen und fehlerhaften Einträgen ermöglicht. Der Prozess der Patentanmeldung, von der Erfindung bis zur Offenlegungsschrift und der Bildung von Patentfamilien, wird kurz erläutert, um den Kontext der großen Datenmenge zu verdeutlichen. Die Notwendigkeit einer effizienten Recherche zum Stand der Technik vor einer Patentanmeldung, um Kosten und Doppelentwicklungen zu vermeiden, wird hervorgehoben.
3. Die Rolle von Patentinformationen und der Internationale Patentklassifikation IPC
Der Begriff "Patentinformation" umfasst sowohl die Unterrichtung über neueste Forschungsergebnisse als auch über bestehende Patentschutzrechte. Die Bedeutung von Patentinformationen für die unternehmerische Entscheidungsfindung und die realistischere Einschätzung des eigenen Marktplatzes wird hervorgehoben. Die Vermeidung von Doppel- und Fehlinvestitionen durch den Zugriff auf Patentinformationen wird als entscheidender Faktor für den Unternehmenserfolg genannt (mit der Angabe von ca. 12,5 Milliarden Euro jährlichen Verlusten durch Doppelforschung in Deutschland). Die zwei Funktionen von Patenten – Schutzrechts- und Informationsfunktion – werden erläutert. Patente dienen als messbare und vergleichbare Größen für Forschung und Entwicklung und fungieren als Frühindikatoren für zukünftige technische Entwicklungen. Die Analyse von Patentanmeldungen ermöglicht die Einschätzung der eigenen Marktposition und die Identifizierung von erfolgsträchtigen Bereichen. Die Beobachtung von Beziehungsmustern zwischen Patenten (z.B. Basiserfindungen und Folgeerfindungen) wird als wichtiger Aspekt genannt. Die Internationale Patentklassifikation (IPC) wird als international vereinheitlichtes Ordnungssystem für Patentinformationen vorgestellt, das die Suche nach ähnlichen Patenten innerhalb eines Fachgebiets erheblich erleichtert. Mit über 60.000 Sachgebieten (Ausnahme: USA mit USPOC) bildet die IPC das standardisierte Klassifizierungssystem in den meisten Ländern. Ein Beispiel für die IPC-Klassifizierung wird gegeben.
4. Das DaimlerChrysler ePortfolio System und seine Herausforderungen
Das DaimlerChrysler ePortfolio-System wird als eine flexible Web-Applikation beschrieben, die den Zugriff auf den Berichtsbestand des Unternehmens ermöglicht. Das System greift auf eine Projektdatenbank zu, die bereits klassifizierte Patente (DaimlerChrysler und Fremdschutzrechte) mit Technologieschlüsseln verknüpft. Dies ermöglicht die Erstellung von Statistiken über Wettbewerber und das Unternehmensverhalten. Probleme bei der Konkordanz zwischen mechanischen und nicht-mechanischen Technologien werden aufgezeigt. Die IPC-Klassifizierung weist teilweise Inkonsistenzen und Unklarheiten auf, die die Zuordnung erschweren. Die Schwierigkeiten nehmen mit zunehmender Verzweigung der IPC-Ebene zu. Die unterschiedlichen Ergebnisse manueller und automatischer Zuordnungen von Patentdokumenten zu Technologieschlüsseln werden anhand von Beispielen erläutert, wobei die Diskrepanzen insbesondere auf tieferen Ebenen zunehmen. Die Verbesserung der Effizienz der Patentklassifizierung und der Effektivität der Recherche werden als Ziele genannt. Die Evaluierung fokussiert sich auf die Funktionalität des Text-Mining-Tools, da zunächst die Sinnhaftigkeit einer größeren Investition geprüft werden soll. Weitere Kriterien könnten in einer nachfolgenden Evaluierungsphase berücksichtigt werden.
II.Herausforderungen der traditionellen Patent Recherche und die Rolle des Text Mining
Die zunehmende Flut an digitalen Informationen, insbesondere Patentdokumenten, macht leistungsfähige Such- und Sortierverfahren unerlässlich. Traditionelle Methoden stoßen an ihre Grenzen. Text-Mining bietet hier innovative Lösungen, indem es die automatische Indexierung von Dokumenten ermöglicht und die Extraktion von Wissen aus unstrukturierten Daten (Text, Bilder, Audio) erlaubt. Die Arbeit untersucht, wie Text-Mining die effiziente Verwaltung und Analyse von Patentinformationen unterstützt, um Wettbewerbsvorteile zu generieren und Doppelforschung zu vermeiden. Die Analyse von Patentanmeldungen, in denen 85-90% des technischen Wissens gespeichert sind, steht im Mittelpunkt.
1. Grenzen traditioneller Patent Recherche
Die zunehmende Anzahl von Patentdokumenten (über eine Million jährlich weltweit) führt zu einer Informationsflut, die traditionelle Recherchemethoden an ihre Grenzen bringt. Die manuelle Analyse dieser riesigen Datenmenge ist ineffizient und zeitaufwendig. Die Arbeit argumentiert, dass die Identifizierung relevanter Informationen und die Gruppierung ähnlicher Dokumente zu einem entscheidenden Engpass geworden ist. Obwohl bereits Suchmaschinen für Intranets und das Internet existieren, wird deren Trefferquote, insbesondere für die Forschungsabteilung von DaimlerChrysler, als unbefriedigend beschrieben. Die Bedeutung von Patentinformationen für forschungsintensive Unternehmen wie DaimlerChrysler wird hervorgehoben; sie dienen als Instrumentarium für Wissenszugang, den Aufbau von Wissensvorsprüngen und Wettbewerbsvorteilen. Der enorme Umfang an Patentdokumenten und die damit verbundenen Herausforderungen an die traditionellen, benutzergeführten Analysen machen den Bedarf nach neuen, effizienteren Lösungen deutlich. Die Autorin betont die Notwendigkeit neuer Wege, um die Informationsflut zu kanalisieren und einen bedarfsgerechten Zugriff zu ermöglichen. Dies beinhaltet nicht nur die Entwicklung intelligenter Suchverfahren für unstrukturierte Daten (Text, Bilder, Audio), sondern auch neue Ansätze zur Aufbereitung und Strukturierung der Patente sowie zur Wettbewerbsanalyse und Analyse technischer Entwicklungen.
2. Text Mining als innovative Lösung
Als Antwort auf die beschriebenen Herausforderungen wird Text-Mining als eine vielversprechende Technologie vorgestellt. Text-Mining wird definiert als eine Sammlung von Methoden, Technologien und Produkten, die in verschiedenen Kontexten eingesetzt werden können. Die Kernfunktionen von Text-Mining werden erläutert: automatische, schnelle und domänenübergreifende Indexierung von Dokumenten, was zu einer effizienteren Verwaltung führt. Ein weiterer wichtiger Aspekt ist die Extraktion von Wissen aus (teilweise) unstrukturierten Daten und die Nutzbarmachung der darin enthaltenen Potentiale. Text-Mining ermöglicht die Untersuchung von Datenbeständen auf gleiche oder verwandte Themen. Die Arbeit beschreibt detailliert verschiedene Ebenen der Textanalyse, von der lexikalischen Ebene (Untersuchung einzelner Wörter und deren Häufigkeit – Term-Frequenz) bis hin zu komplexeren Verfahren. Die Herausforderungen bei der Patentklassifizierung werden angesprochen, wobei die Notwendigkeit effizienterer Methoden betont wird, um die Kosten und den Aufwand für die Analyse zu reduzieren und gleichzeitig die Genauigkeit zu verbessern. Der Fokus liegt darauf, wie Text-Mining die bestehende Informationsflut bewältigen und die Effizienz von Patent-Recherche und -Analyse signifikant steigern kann.
III.Evaluierung des WR Systems Methoden und Ergebnisse
Die Evaluierung des WR-Systems erfolgte mittels einer Known-Item-Analyse, wobei die Relevanz der Suchergebnisse anhand bekannter Patente bewertet wurde. Untersucht wurde der Einfluss verschiedener Faktoren, darunter der Schwellwert, die Eingabemethode (T-Schlüssel, Beispieldokumente), und die Berücksichtigung der IPC. Die Ergebnisse zeigen, dass das WR-System eine halbautomatische Patentklassifizierung ermöglicht und den manuellen Aufwand reduziert. Obwohl die Fehlerquote im Vergleich zur bestehenden Klassifizierung nicht signifikant reduziert werden konnte, bietet das System eine einfachere und schnellere Arbeitsweise, insbesondere für unerfahrene Benutzer. Die Bestimmung des optimalen Schwellwerts erwies sich als themenabhängig und nicht automatisierbar.
1. Methodik der Evaluierung Known Item Analyse
Die Evaluierung des "What's Related" (WR)-Systems erfolgte primär mittels einer Known-Item-Analyse. Diese Methode umgeht das Problem der subjektiven Relevanzbeurteilung, indem ausschließlich bereits bekannte Patentdokumente als Grundlage dienen. Das Ziel bestand darin, in mehreren Recherchen möglichst alle gesuchten Patentdokumente zu finden. Die Trefferquote dient als Maß für die Suchfunktionalität, das Lernvermögen des WR-Systems und die Qualität der Klassifizierung. Die Verfügbarkeit der Daten im Datenbankbestand und die Trefferqualität lassen sich so direkt bestimmen. Der initiale Schwellwert des Text-Mining-Verfahrens wurde auf 10 Prozent gesetzt, was der Anforderung von IPM/C entspricht, diesen Wert so gering wie möglich zu halten, um eine umfassende Analyse der Verfügbarkeit zu ermöglichen. Eine MS Access Datenbank diente als Grundlage für die Auswertung der Known-Item-Analyse. Weitere Suchanfragen an das WR-System wurden über den Export-Link in die Datenbank importiert, um einen Abgleich mit den Originaldaten zu ermöglichen und Übereinstimmungen festzustellen. Die Darstellung der Ergebnisse erfolgte über Diagramme, die die Ähnlichkeit der Treffer zur Suchanfrage visualisierten, wobei die Treffer nach ihrer Ähnlichkeit absteigend sortiert wurden.
2. Einfluss des Schwellwerts und der Eingabemethoden
Die Evaluierung untersuchte den Einfluss des Schwellwerts auf die Ergebnisqualität. Es wurde festgestellt, dass ein Schwellwert unter 10 Prozent zu viel unnötigem Ballast führt. Für verschiedene Testszenarien (z.B. Touchpad-Profil, Fußgängerschutz-Profil, Laserschweißen-Profil) wurden optimale Schwellwerte ermittelt, die sich als stark themenabhängig erwiesen. Die Eingabemethode (T-Schlüssel, Beispieldokumente) beeinflusste ebenfalls die Ergebnisse. Bei der Eingabe von T-Schlüsseln konnten für Touchpad und Fußgängerschutz Profile optimale Schwellwerte von ca. 29% gefunden werden. Die Verwendung von fünf Beispieldokumenten führte im Fall des Touchpad-Profils zu einem verbesserten Ergebnis (Schwellwert 24%). Für das Fußgängerschutz-Profil wurde ein Schwellwert von 30% als optimal identifiziert. Die Untersuchung des Einflusses des höchsten Precision-Werts zeigte unterschiedliche Ergebnisse: Während beim Touchpad-Profil (Suchbegriffe "input instruction" und "touch") die Ergebnisse schlecht waren, lieferte das Fußgängerschutz-Profil ("pedestrian detection") mit einem Schwellwert von 17% die beste Klassifizierungsrate. Die Analyse zeigte, dass zu allgemeine Suchbegriffe zu vielen irrelevanten Treffern führen, während präzise Suchbegriffe die Trefferquote und die Relevanz steigern. Der Schwellwert musste in jedem Fall manuell ermittelt und angepasst werden, eine Automatisierung erwies sich als nicht möglich.
3. Einfluss der Internationalen Patentklassifikation IPC
Die Evaluierung untersuchte den Einfluss der Internationalen Patentklassifikation (IPC) auf die Ergebnisse. Es zeigte sich, dass die IPC überraschenderweise keinen großen Einfluss auf die Ergebnisse hat. Vergleichende Analysen mit und ohne Berücksichtigung der IPC-Merkmale zeigten keine signifikanten Abweichungen in der Trefferquote. Allerdings war die Trefferzahl bei Recherchen ohne Berücksichtigung der IPC höher, und die ersten Fehltreffer erschienen weiter hinten in der Ergebnisliste. Dies wird damit erklärt, dass in der ersten Testversion (mit IPC) sowohl die IPC-Klasse als auch die Schlagworte als Stoppwörter fungierten, während in der zweiten Version (ohne IPC) nur die Schlagworte als Stoppwörter betrachtet wurden. Für das Laserschweißen-Profil war es nicht möglich, einen optimalen Schwellwert zu bestimmen, da relevante und irrelevante Treffer regelmäßig wechselten. Dies deutet darauf hin, dass bestimmte "matching words" aufgrund ihrer hohen oder niedrigen Häufigkeit weniger gewichtet wurden, was zu einer unregelmäßigen Verteilung der Treffer führte. Die Empfehlung lautet daher, die Patentklassifizierung vorwiegend über die Eingabe von T-Schlüsseln oder Beispieldokumenten vorzunehmen und den Schwellwert jeweils pro Technologieschlüssel-Profil individuell festzulegen.
IV.Schlussfolgerungen und Empfehlungen zur Anwendung von Text Mining
Die Evaluierung zeigt, dass das WR-System den Klassifizierungsprozess durch halbautomatische Verfahren deutlich vereinfacht und Kosten sowie Zeit spart. Die Qualität der Patentklassifizierung ist vergleichbar mit dem bestehenden System, löst aber das Problem der nicht zuordnungsfähigen Patente (10-20%) nicht vollständig. Die wichtigste Erkenntnis ist die vereinfachte und schnellere Arbeitsweise. Es wird empfohlen, die Patentklassifizierung mittels T-Schlüssel oder Beispieldokumenten vorzunehmen und den Schwellwert themenabhängig (pro Profil) festzulegen. Die Internationale Patentklassifikation (IPC) hat einen geringeren Einfluss auf die Ergebnisqualität als zunächst angenommen.
1. Hauptbefunde der Evaluierung
Die Evaluierung des What's Related (WR)-Systems zeigt, dass es den Patentklassifizierungsprozess durch halbautomatische Verfahren deutlich vereinfacht. Die bisherigen manuellen Zuordnungsstufen werden ersetzt, was zu Kosten- und Zeitersparnissen führt. Das WR-System erreicht zwar nicht unbedingt eine höhere Genauigkeit als die bestehenden Verfahren, bietet aber eine vergleichbare Qualität. Das initiale Ziel, die Problematik der nicht zuordnungsfähigen 10-20% der Patentdokumente zu lösen, konnte jedoch nicht erreicht werden; die Fehlerraten der ePortfolio-Statistiken bleiben unverändert. Der entscheidende Vorteil des WR-Systems liegt in der vereinfachten Klassifizierung. Mit nur fünf Beispieldokumenten lassen sich mehr relevante Patentdokumente finden als mit anderen Systemen. Der geringere Aufwand und die benutzerfreundliche Oberfläche ermöglichen eine schnellere Informationsaufnahme, auch für unerfahrene Benutzer. Die Ergebnisse werden durch Diagramme visualisiert, die die Trefferanzahl und die Position der ersten Fehltreffer zeigen.
2. Detaillierte Ergebnisse der Tests
Die Evaluierung umfasste Tests mit verschiedenen Profilen (Touchpad, Fußgängerschutz, Laserschweißen) und Eingabemethoden (T-Schlüssel, Beispieldokumente). Der Einfluss des Schwellwerts wurde untersucht, wobei sich zeigte, dass der optimale Wert stark themenabhängig ist und manuell bestimmt werden muss. Beim Touchpad-Profil lieferte die Eingabe von fünf Beispieldokumenten mit einem Schwellwert von 24% die beste Klassifizierungsrate (284 neu klassifizierte Patente). Für das Fußgängerschutz-Profil erwies sich ein Schwellwert von 30% als optimal (51 klassifizierte Patente). Die Verwendung der Suchbegriffe mit dem höchsten Precision-Wert führte zu unterschiedlichen Ergebnissen. Während beim Touchpad-Profil (Suchbegriffe "input instruction" und "touch") nur 16 neue Patente zugeordnet werden konnten (mit einer hohen Fehlklassifikationsrate), erreichte das Fußgängerschutz-Profil ("pedestrian detection") mit einem Schwellwert von 17% die höchste Klassifizierungsrate (150 Patente). Die Analyse zeigte, dass die Güte der Suchbegriffe entscheidend ist: Präzise Suchbegriffe führen zu besseren Ergebnissen, während zu allgemeine Begriffe zu vielen irrelevanten Treffern führen. Der Einfluss der Internationalen Patentklassifikation (IPC) auf die Ergebnisse erwies sich als gering. Die Berücksichtigung der IPC-Merkmale führte zu einer geringeren Trefferzahl, da die IPC-Klassen als Stoppwörter fungierten.
3. Empfehlungen für die praktische Anwendung
Zusammenfassend empfiehlt die Arbeit, die Patentklassifizierung vorzugsweise mittels T-Schlüssel oder Beispieldokumenten durchzuführen. Der Schwellwert sollte für jeden Technologieschlüssel individuell festgelegt werden, um ein Optimum an zugeordneten Patentdokumenten zu erreichen. Eine Automatisierung der Schwellwertbestimmung ist aufgrund der Themenabhängigkeit nicht möglich. Das WR-System ermöglicht eine deutlich vereinfachte Klassifizierung, spart Kosten und Zeit und erleichtert die Informationsaufnahme, auch für unerfahrene Benutzer. Obwohl die Fehlerraten der ePortfolio-Statistiken sich nicht verändern, stellt die verbesserte Benutzerfreundlichkeit und Effizienz des WR-Systems einen bedeutenden Fortschritt dar. Die Arbeit betont die Vorteile des WR-Systems als Komplettsystem, im Gegensatz zur Betrachtung einzelner Funktionen.