Integritätsbedingungen für Geodaten

Geodaten-Integrität: Modellierung & Test

Dokumentinformationen

Autor

Stefan Werder

Schule

Gottfried Wilhelm Leibniz Universität Hannover

Fachrichtung Bauingenieurwesen und Geodäsie
Ort München
Dokumenttyp Dissertation
Sprache German
Format | PDF
Größe 15.54 MB

Zusammenfassung

I.Integritätsbedingungen in Geodaten Definition Modellierung und Prüfung

Die Arbeit untersucht die Integritätsbedingungen in Geodaten und identifiziert Defizite in deren Definition, Modellierung und Prüfung. Gültige Objekte werden durch Integritätsbedingungen definiert, die auch mögliche Nutzungseinschränkungen aufzeigen. Fehlende Definitionen führen zu Problemen bei der Datenverarbeitung. Defizite in der Modellierung entstehen durch ungenügende Formalisierung und mangelnde Systemübertragbarkeit. Die vollständige Prüfung umfangreicher Datensätze ist oft zu aufwendig. Nur die logische Konsistenz wird als relevantes Element der Datenqualität (gemäß ISO 19114) betrachtet, da andere Aspekte Referenzdaten benötigen, die oft fehlen.

1. Bedeutung und Defizite von Integritätsbedingungen

Integritätsbedingungen in Geodaten sind von großer Bedeutung, erhalten aber oft zu wenig Beachtung bei der Produktion und Nutzung. Die Arbeit identifiziert Defizite in drei Schlüsselbereichen: der Definition, der Modellierung und der Prüfung dieser Bedingungen. Eine klare Definition von Integritätsbedingungen ist für jeden Datensatz unerlässlich. Sie legen nicht nur die Gültigkeit von Objekten fest, sondern zeigen auch Nutzungseinschränkungen auf. Ein Beispiel: Nicht exakt überlappungsfreie Gebäude in einem Datensatz verhindern die Verwendung für Katasterzwecke, erlauben aber möglicherweise die Erstellung kleinmaßstäbiger Karten. Die Überführung von Anwendungsanforderungen in Integritätsbedingungen ermöglicht die systematische Untersuchung der Dateneignung. Häufig fehlt jedoch die Definition von Integritätsbedingungen sowohl beim Produzenten als auch beim Nutzer, was zu nachträglichen Fehlerbehebungen führt. Die unzureichende Definition führt zu Problemen bei der Datenverarbeitung und -nutzung, da die Integrität der Daten nicht gewährleistet ist. Die mangelnde Beachtung von Integritätsbedingungen ist ein Problem, das sowohl bei der Erstellung als auch der Anwendung von Geodaten zu finden ist.

2. Modellierungsprobleme bei Integritätsbedingungen

Selbst wenn Integritätsbedingungen definiert werden, zeigen sich oft Defizite in ihrer Modellierung. Häufig werden Bedingungen nur im Fließtext einer Datenspezifikation erwähnt oder sind in einzelne Software- oder Datenhaltungskomponenten integriert. Dadurch ist die Übertragbarkeit auf andere Systeme stark eingeschränkt. Eine konsistente und formale Modellierung ist also essenziell, um die Integritätsbedingungen über verschiedene Anwendungen hinweg wiederverwendbar zu machen und die Datenqualität zu verbessern. Die mangelnde Formalisierung und die Inkompatibilität zwischen verschiedenen Systemen behindern den effizienten Einsatz und die Wiederverwendung der Daten. Eine standardisierte, übertragbare Modellierung von Integritätsbedingungen ist daher dringend notwendig, um die Interoperabilität und die Datenqualität zu erhöhen. Das Fehlen einer solchen Standardisierung führt zu erheblichen Ineffizienzen und verhindert den optimalen Nutzen der Geodaten.

3. Herausforderungen bei der Prüfung von Integritätsbedingungen

Ein weiteres Problem liegt in der Prüfung der Integritätsbedingungen. Die vollständige Analyse aller Objekte in umfangreichen Datensätzen kann sehr zeitaufwendig sein, sodass die Prüfung oft unterbleibt. Dies führt dazu, dass Fehler in den Geodaten unentdeckt bleiben und zu falschen Ergebnissen oder Entscheidungen führen können. Die aufwendige Prüfung großer Datensätze ist eine signifikante Hürde für die praktische Anwendung von Integritätsbedingungen. Die Entwicklung effizienter Prüfmethoden und -werkzeuge ist daher ein wichtiger Forschungsbereich. Ohne eine zuverlässige und effiziente Prüfmethode bleiben die Vorteile von definierten Integritätsbedingungen ungenutzt, und die Datenqualität leidet unter unentdeckten Fehlern. Der zeitliche Aufwand für die Prüfung ist ein wichtiger Faktor bei der Akzeptanz und Implementierung von Integritätsbedingungen in der Praxis.

4. Datenqualität und Logische Konsistenz

Von den fünf Elementen der Datenqualität gemäß ISO 19114 (2003) ist in dieser Arbeit nur die logische Konsistenz relevant. Diese Fokussierung ergibt sich aus der Verfügbarkeit von Referenzdaten. Indirekte Evaluationsmethoden nutzen externes Wissen (z.B. Übersichts-elemente der Datenqualität oder Qualitätsberichte), während direkte Methoden interne oder externe Referenzinformationen verwenden. Externe Referenzinformationen erfordern einen zweiten Datensatz höherer Qualität zum Vergleich. Die Vollständigkeit eines Datensatzes kann beispielsweise durch Vergleich der Objektzahlen mit einem Referenzdatensatz bestimmt werden. Da in dieser Arbeit von der Nichtverfügbarkeit eines Referenzdatensatzes höherer Qualität ausgegangen wird, werden nur Methoden betrachtet die ohne diesen auskommen. Außer der logischen Konsistenz benötigen alle anderen Datenqualitäts-elemente einen Referenzdatensatz und werden daher nicht weiter berücksichtigt. Die Fokussierung auf logische Konsistenz ist eine pragmatische Entscheidung aufgrund der oft limitierten Datenverfügbarkeit in der Praxis.

II.Datenmodellierung und Geometrietypen

Das Dokument beschreibt verschiedene Geometrietypen (Point, LineString, LinearRing, Surface, Polygon, Triangle, PolyhedralSurface, TIN) und deren Eigenschaften. UML-Klassendiagramme werden zur Darstellung der Datenstrukturen verwendet. Attribute werden mit Sichtbarkeit, Datentyp und Multiplizität definiert. Operationen beschreiben das Verhalten der Klassen. Die Modellierung unterstützt die Definition von Integritätsbedingungen.

1. UML Klassendiagramme und Attributdefinitionen

Die Datenmodellierung erfolgt unter Verwendung von UML-Klassendiagrammen. Diese Diagramme visualisieren die Klassen und deren Attribute, wobei die Attributnamen die Sichtbarkeit (z.B. +, -, #) anzeigen. Zusätzlich können Attribute als abgeleitet gekennzeichnet sein, was bedeutet, dass ihr Wert aus anderen Attributwerten der Klasse berechnet werden kann. Der Datentyp jedes Attributs wird durch einen Doppelpunkt vom Namen getrennt angegeben. Die Multiplizität, die die minimale und maximale Anzahl von Werten für ein Attribut festlegt, wird in eckigen Klammern angegeben. Fehlt eine explizite Multiplizitätsangabe, nimmt das Attribut exakt einen Wert an. Im unteren Teil des Klassendiagramms sind die Operationen der Klasse aufgeführt. Diese Operationen werden mit Sichtbarkeit, Namen und Parametern (inklusive Datentyp und 'in'/'out'/'inout'-Kennzeichnung) beschrieben. Diese detaillierte Beschreibung der Attribute und Operationen innerhalb der UML-Klassendiagramme ermöglicht eine präzise Modellierung der Geodaten und deren Beziehungen.

2. Beschreibung Geometrietypen

Der Text beschreibt verschiedene Geometrietypen, die für die Modellierung von Geodaten verwendet werden. Diese umfassen Punktgeometrien (Point), Liniengeometrien (LineString, LinearRing), Flächengeometrien (Surface, Polygon, Triangle) und komplexe 3D-Geometrien (PolyhedralSurface, TIN). Die Beschreibungen enthalten die wesentlichen Eigenschaften jeder Geometrie. Ein LinearRing ist ein geschlossener und einfacher LineString. Eine Surface wird durch einen äußeren LinearRing und optional mehrere innere Ringe (zur Darstellung von Löchern) definiert. Polygone repräsentieren ebene Flächen mit abfragbaren Ringen, während ein Triangle ein Dreieck aus drei nicht-kollinearen Punkten ohne innere Ringe darstellt. PolyhedralSurfaces modellieren 3D-Körper durch miteinander verbundene Polygone (Patches), und TINs repräsentieren Dreiecksvermaschungen. Die genaue Definition dieser Geometrietypen ist wichtig für die korrekte Modellierung und die Definition von Integritätsbedingungen.

III.Explorative Datenanalyse und Streuungsmaße

Die Arbeit erläutert Streuungsmaße wie Spannweite, Quartilsabstand, Varianz und Standardabweichung zur Beschreibung der Datenverteilung. Der Variationskoeffizient wird zum Vergleich verschiedener Attribute verwendet. Box-Plots und Histogramme dienen der visuellen Datenanalyse und der Identifikation von Ausreißern. Robustere Maße wie Median und Quartilsabstand werden gegenüber arithmetischem Mittel und Spannweite bevorzugt.

1. Streuungsmaße zur Beschreibung von Datenverteilungen

Der Abschnitt beschreibt verschiedene Streuungsmaße, die die Abweichung der Attributwerte vom Zentrum einer Häufigkeitsverteilung quantifizieren. Die Spannweite (Range) berechnet sich aus der Differenz zwischen größtem und kleinstem Attributwert (Extremwerte). Ausreißer an den Rändern des Wertebereichs beeinflussen die Spannweite stark. Ein robusteres Maß ist der Quartilsabstand (Interquartilsabstand), der die Differenz zwischen oberem und unterem Quartil darstellt. Die Varianz (s²) beschreibt den mittleren quadratischen Abstand der Attributwerte zum arithmetischen Mittel, und die Standardabweichung (s) ist die Wurzel der Varianz, mit der gleichen Einheit wie die Attributwerte. Der Variationskoeffizient (v = s/x) eignet sich zum Vergleich der Streuung verschiedener Attribute oder Datensätze, ist aber nur sinnvoll, wenn alle Attributwerte positiv sind. Ungleich verteilte Daten führen zu großen Spannweiten und Standardabweichungen, während der Median und der Quartilsabstand robuster gegenüber Ausreißern sind. Diese robusten Maße berücksichtigen nur die mittleren Attributwerte und sind daher weniger anfällig für extreme Werte. Ein Beispiel für den linearen Zusammenhang zwischen zwei Attributen (Fläche und Bevölkerung) mit einem Korrelationskoeffizienten von 0.71 wird angeführt.

2. Box Plots zur Visualisierung von Datenverteilungen und Ausreißererkennung

Box-Plots dienen der Visualisierung von Datenverteilungen und der Identifikation von Ausreißern. Ein einfacher Box-Plot zeigt den Median, die Quartile und die Extremwerte. Die erweiterte Variante (schematischer Plot nach Tukey, 1977) beinhaltet zusätzliche Maße zur Ausreißererkennung. Der entscheidende Abstand ist der 'Schritt', der das anderthalbfache des Interquartilsabstands entspricht. Dieser definiert innere und äußere Zäune. Werte innerhalb des inneren Zauns werden als Ausreißer, Werte außerhalb des äußeren Zauns als krasse Ausreißer klassifiziert. Die erweiterte Box-Plot-Variante verwendet gestrichelte Linien zu den Werten innerhalb des inneren Zauns, die wiederum mit Querstrichen markiert werden. Diese Visualisierungstechnik ermöglicht eine übersichtliche Darstellung der Datenverteilung und erleichtert die Identifizierung von ungewöhnlichen Werten, die auf Datenfehler hinweisen könnten. Die genaue Definition der Zäune und die Unterscheidung zwischen Ausreißern und krassen Ausreißern ist wichtig für eine korrekte Interpretation der Daten.

IV.Statistische Tests und Modellselektion

Es werden Signifikanztests und die k-fache Kreuzvalidierung zur Modellselektion und zum Vergleich verschiedener Klassifikatoren (z.B. Entscheidungsbäume) beschrieben. Fehler erster und zweiter Art werden erklärt. Die stratifizierte k-fache Kreuzvalidierung wird erwähnt. Entscheidungsbäume werden als Klassifikationsmethode vorgestellt, wobei das Problem der Überanpassung und die Methode des Pruning zur Komplexitätsreduktion angesprochen werden.

1. Signifikanztests und Fehlertypen

Der Abschnitt beschreibt Signifikanztests, ein statistisches Verfahren zur Überprüfung von Hypothesen. Dabei wird zwischen einer Nullhypothese (H0) und einer Alternativhypothese (H1) unterschieden. Ein Fehler erster Art liegt vor, wenn die Nullhypothese irrtümlich verworfen wird, obwohl sie zutrifft. Ein Fehler zweiter Art tritt auf, wenn die Nullhypothese irrtümlich angenommen wird, obwohl sie falsch ist. Die Wahrscheinlichkeit für einen Fehler erster Art wird durch das Signifikanzniveau (α) festgelegt; z.B. bedeutet α = 0,05 eine fünfprozentige Wahrscheinlichkeit für einen Fehler erster Art. Die Durchführung eines Signifikanztests umfasst mehrere Schritte: Aufstellung der Null- und Alternativhypothese, Festlegung des Signifikanzniveaus, Bestimmung einer Prüfgröße (Testfunktion), Ermittlung des Ablehnungsbereichs basierend auf dem Signifikanzniveau und der Verteilung der Prüfgröße, und schließlich die Bestimmung des tatsächlichen Werts der Prüfgröße für eine Zufallsstichprobe. Liegt der tatsächliche Wert im Ablehnungsbereich, wird H0 verworfen und H1 angenommen; andernfalls wird H0 angenommen. Die korrekte Anwendung und Interpretation von Signifikanztests ist entscheidend für die Validität statistischer Schlussfolgerungen.

2. Modellselektion mit k facher Kreuzvalidierung

Zur Bewertung und zum Vergleich verschiedener Modelle und Klassifikatoren wird die k-fache Kreuzvalidierung (k-fold cross validation) verwendet. Hierbei wird der Datensatz zufällig in k Teilmengen (von annähernd gleichem Umfang) aufgeteilt. Training und Test werden k-mal durchgeführt, wobei jeweils eine Teilmenge als Testmenge und die restlichen k-1 Teilmengen als Trainingsmenge dienen. Die Klassifikationsgüte wird über die Anzahl korrekt klassifizierter Objekte ermittelt. Jedes Objekt wird dabei nur einmal klassifiziert. Das Ziel ist nicht die Selektion des besten Modells aus den k Modellinstanzen, sondern der Vergleich der Genauigkeit verschiedener Modelle, um das am besten geeignete auszuwählen. Die stratifizierte k-fache Kreuzvalidierung sorgt für eine ähnliche Verteilung der Klassen in allen Teilmengen, was insbesondere bei unausgewogenen Datensätzen von Vorteil ist. Diese Methode ermöglicht eine robuste und unverzerrte Abschätzung der Modellleistung und ist somit ein wichtiges Werkzeug bei der Modellselektion.

3. Entscheidungsbäume und Pruning

Entscheidungsbäume werden als Klassifikationsmethode vorgestellt. Sie repräsentieren aufeinanderfolgende Entscheidungen in Form eines gerichteten Baumes mit Wurzelknoten, inneren Knoten und Blattknoten. An jedem inneren Knoten wird der Wert eines Objektattributs getestet, und die möglichen Entscheidungen bilden die Äste des Baumes. Die Blattknoten enthalten die zugeordneten Klassen. Ein Beispiel zeigt die Zuordnung von Vermessungspunkten (Grenzpunkt, Trigonometrischer Punkt, Höhenfestpunkt) basierend auf Attributwerten wie Material und Ausrichtung. Entscheidungsbäume neigen wie andere Zuordnungsfunktionen zur Überanpassung an die Trainingsdaten. Um dem entgegenzuwirken, können Entscheidungsbäume durch Pruning (Zürückschneiden) vereinfacht werden, indem statistisch instabile Äste entfernt werden. Ziel ist das Abwägen von Komplexität und Klassifikationsgüte: Komplexe Entscheidungsfolgen werden verworfen, wenn sie nur zu einem marginalen Gütegewinn führen. Zwei grundlegende Ansätze zum Pruning werden erwähnt, wobei der erste die Ersetzung eines Unterbaums beinhaltet.

V.Softwarearchitekturen und MapReduce

Drei Softwarearchitekturen (monolithisch, Plug-in, Modularisierung) werden verglichen. Die Modularisierung wird als vorteilhaft für die Wiederverwendung und den Austausch von Modulen dargestellt. Die Arbeit beschreibt den Einsatz von MapReduce in verteilten Systemen und betont die Kommunikation zwischen Master und Slaves, sowie effiziente Datenreplikation.

1. Vergleich verschiedener Softwarearchitekturen

Der Abschnitt vergleicht drei Softwarearchitekturen: monolithisch, Plug-in und Modularisierung. Eine monolithische Architektur konzentriert die gesamte Programmlogik in einem einzigen Programm. Änderungen erfordern den Zugriff auf den Quellcode. Eine Plug-in-Architektur ermöglicht die Integration kleiner Programme (Plug-ins) in ein größeres Programm, wobei die Plug-ins meist nur in einem einzigen Programm einsetzbar sind. Die Modularisierung hingegen unterteilt die Programmlogik in kleine, wiederverwendbare Module. Der Programm- und Datenfluss werden von einer leichtgewichtigen Workflow-Komponente gesteuert. Die Modularisierung bietet zwei Hauptvorteile: Erstens die Wiederverwendbarkeit der Module in anderen Programmen, sogar in verschiedenen Anwendungsbereichen, sofern diese generisch genug gestaltet sind. Zweitens die einfache Austauschbarkeit der Module bei kompatiblem Ein- und Ausgabeformat, z.B. durch verbesserte Programmversionen oder Versionen anderer Organisationen. Diese Vergleichsanalyse dient der Auswahl einer geeigneten Architektur für die Implementierung von Systemen zur Verarbeitung und Analyse von Geodaten.

2. MapReduce Architektur und Kommunikation

Der Abschnitt beschreibt die Architektur und Kommunikationsmechanismen von MapReduce, einem Framework für die verteilte Datenverarbeitung. In MapReduce erfolgt die Kommunikation hauptsächlich zwischen dem Master und den Slaves (Worker-Nodes). Die einzelnen MapReduce-Tasks auf einem Slave benötigen während ihrer Laufzeit keine Synchronisation mit anderen Slaves. Der Master überwacht den Abschluss von Tasks und steuert die nachfolgenden Prozesse. Im Kontext des verteilten Dateisystems findet zwar auch Kommunikation zwischen den Slaves statt, diese basiert jedoch auf Informationen, die der Master bereitstellt. Die Datenreplikation erfolgt linear in einer Kette von Slaves, was die Netzwerkbandbreite effizient nutzt. Die Daten müssen nicht über den Master transportiert werden, da dieser nur das Dateisystem verwaltet, aber selbst keine Dateien besitzt. Diese Beschreibung der Architektur und des Kommunikationsflusses in MapReduce ist wichtig, um das Verständnis für die parallele Verarbeitung von Geodaten zu verbessern und die Effizienz der Verarbeitung zu beurteilen.

VI.Interoperabilität und Serialisierung mit Avro

Das Problem der mangelnden Interoperabilität zwischen verschiedenen Programmiersprachen wird angesprochen. Avro als Serialisierungsframework wird als Lösung präsentiert, da es plattformunabhängige Datentypen (definiert mittels IDL) ermöglicht und speziell für Hadoop geeignet ist. Es erlaubt die Speicherung von Objekten in selbstbeschreibenden, teilbaren Avro-Dateien und vereinfacht die Datenverarbeitung in MapReduce-Funktionen.

1. Problem der Interoperabilität und Lösungsansätze

Der Abschnitt thematisiert die Herausforderung der Interoperabilität von Daten zwischen verschiedenen Programmiersprachen. Die mangelnde Interoperabilität erschwert den Datenaustausch und die Wiederverwendung von Ergebnissen. Ein Beispiel: Messdaten, die als Objekte in einer Sprache serialisiert werden, können nicht direkt von Programmen in anderen Sprachen verarbeitet werden. Ein einfacher, aber nicht optimaler Lösungsansatz ist die Reduktion der Ausgabe auf einen kleinsten gemeinsamen Nenner, z.B. eine textuelle Repräsentation. Diese ist zwar von allen Sprachen verarbeitbar, aber weder kompakt noch typsicher. Als elegantere Lösung werden Serialisierungsframeworks vorgeschlagen, die programmiersprachenunabhängige Datentypen ermöglichen. Diese Frameworks definieren Datentypen mittels einer Interface Description Language (IDL), aus der automatisch Datentypen für verschiedene Sprachen generiert werden können. Dadurch können Daten, z.B. eine Messung, in einer Sprache erstellt und serialisiert, und dann in einer anderen Sprache deserialisiert und weiterverarbeitet werden. Das Problem der Interoperabilität wird hier als zentrale Herausforderung für den effizienten Datenaustausch und die Wiederverwendung von Analyseergebnissen identifiziert.

2. Avro als Serialisierungsframework für Hadoop

Das Framework Avro wird als Lösung für das Interoperabilitätsproblem vorgestellt, insbesondere im Kontext von Hadoop. Avro bietet drei wesentliche Vorteile: Erstens spezifiziert Avro ein selbstbeschreibendes Container-Format für Sequenzen von Objekten als einzelne Dateien. Dieses Format beinhaltet das Datenschema in den Metadaten und ermöglicht Teilbarkeit sowie Kompression. Hadoop kann diese teilbaren Avro-Dateien in Splits unterteilen und diese einzelnen Map-Tasks zuweisen. Zweitens stellt Avro spezielle Ein- und Ausgabetypen für die MapReduce-Funktionen von Hadoop bereit. Dies vereinfacht die Verarbeitung der serialisierten Daten, da explizite Typumwandlungen entfallen. Drittens ist die Erzeugung von spezifischen Datentypen aus einem Avro-Schema optional. Es ist nicht zwingend erforderlich, Quellcode zu generieren, um Avro-Objekte zu verarbeiten. Diese Eigenschaften machen Avro besonders für die Zusammenarbeit mit Hadoop geeignet und bieten Vorteile hinsichtlich Effizienz und Flexibilität bei der Datenverarbeitung. Ein Beispiel für die Anwendung von Avro zur Serialisierung von Messdaten wird im Text anhand eines Umweltmessbeispiels detailliert erklärt, welches die Einschränkungen bei der Verwendung von anderen Sprachen als Java aufzeigt.

VII.Resiliente MapReduce Partitionen

Die Arbeit beschreibt zwei Verfahren zur Erstellung robuster MapReduce-Partitionen: einfache räumliche Partitionierung und das in Zhang et al. (2009) vorgestellte Verfahren mit extrem feingranularer räumlicher Partitionierung und Z-Kurve Round-Robin-Zuweisung. Ziel ist eine gleichmäßige Datenverteilung auf die Partitionen.

1. Verfahren zur Erstellung resistenter MapReduce Partitionen

Der Abschnitt beschreibt Verfahren zur Erstellung von robusten MapReduce-Partitionen, um eine gleichmäßige Verteilung von Objekten in einem Datensatz über die Partitionen zu gewährleisten. Dies ist wichtig für eine effiziente und fehlertolerante verteilte Datenverarbeitung. Ein erstes, einfaches Verfahren verwendet eine räumliche Partitionierung. Ein zweites, in Zhang et al. (2009) beschriebenes Verfahren, setzt auf eine extrem feingranulare räumliche Partitionierung. Die Anzahl der räumlichen Partitionen ist dabei deutlich größer als die Anzahl der MapReduce-Partitionen (z.B. 16384 vs. 8). Die räumlichen Partitionen werden mittels einer Z-Kurve durchnummeriert und nach dem Round-Robin-Verfahren den Reduce-Partitionen zugewiesen (Z-Kurve Round-Robin). Jedes Objekt wird den MapReduce-Partitionen zugeordnet, deren räumliche Partitionen das minimal umschließende Rechteck des Objekts überlappen. Diese Partitionierung, die mit einem einzelnen Map-Task erzeugt werden kann, führt zu einer gleichmäßigeren Verteilung der Objekte im Vergleich zur einfachen räumlichen Partitionierung. Die Wahl des geeigneten Partitionierungsverfahrens hat erheblichen Einfluss auf die Effizienz und Robustheit des MapReduce-Prozesses.

VIII.Anwendungsbeispiele und Integritätsbedingungen in amtlichen Geobasisdaten

Die Bedeutung von Integritätsbedingungen in amtlichen Geobasisdaten wird hervorgehoben. Anwendungsbeispiele aus verschiedenen Ländern (Brasilien, Dänemark, Frankreich, Italien, Niederlande) und deren unterschiedliche Datenmodelle werden erwähnt, inklusive des Land Administration Domain Model (LADM) (ISO 19152 Standard). Es werden verschiedene Arten von Integritätsbedingungen (Wertebereich, Schlüssel, Entitätsintegrität, referentielle Integrität) erläutert.

1. Bedeutung von Integritätsbedingungen in amtlichen Geobasisdaten

Die Integrität amtlicher Geobasisdaten ist von besonderer Bedeutung, da diese Daten die Grundlage vieler politischer und wirtschaftlicher Entscheidungen bilden. Der Abschnitt unterstreicht die hohe Relevanz von Integritätsbedingungen für die Qualität und Zuverlässigkeit dieser Daten. Anhand von Anwendungsbeispielen aus verschiedenen Ländern (Brasilien, Dänemark, Frankreich, Italien, Niederlande) wird die weltweite Bedeutung von Integritätsbedingungen für Geobasisdaten verdeutlicht. Die Beispiele zeigen die Diversität der Anwendungen, die von Stadtgebieten bis hin zur nationalen Geodateninfrastruktur reichen, und umfassen sowohl Katasterdaten als auch topografische Daten. Jeder Staat verwendet in der Regel ein speziell entwickeltes Datenmodell, mit Ausnahme des international standardisierten Land Administration Domain Model (LADM, ISO 19152), welches als Beispiel für ein übergreifendes Modell für Daten der Landesvermessung und des Katasters dient. Die hohe Bedeutung und die unterschiedlichen nationalen Implementierungen unterstreichen die Notwendigkeit von robusten und interoperablen Methoden zur Definition und Prüfung von Integritätsbedingungen.

2. Arten von Integritätsbedingungen

Der Abschnitt beschreibt verschiedene Arten von Integritätsbedingungen. Bedingungen an den Wertebereich (Domain) spezifizieren Datentyp und Format der möglichen Werte eines Attributs (z.B. Alter eines Mitarbeiters zwischen 16 und 67 Jahren). Die NULL-Bedingung legt fest, ob ein Attribut den Wert NULL annehmen darf. Integritätsbedingungen an den Schlüssel (Key) definieren die Eindeutigkeit von Attributwerten in einer Relation. Ein Primärschlüssel identifiziert jedes Tupel eindeutig, und die Entitätsintegrität (Entity Integrity) stellt sicher, dass Primärschlüsselwerte nicht NULL sind. Die referentielle Integrität (Referential Integrity) stellt sicher, dass bei Verweisen zwischen Tupeln in verschiedenen Relationen (z.B. durch Fremdschlüssel) die referenzierten Tupel existieren. Diese verschiedenen Arten von Integritätsbedingungen sind essentiell für die Datenqualität und die Konsistenz von Geobasisdaten. Die korrekte Definition und Durchsetzung dieser Bedingungen ist entscheidend für die Zuverlässigkeit und den Nutzen der Daten in verschiedenen Anwendungen.

IX.Klassifizierung von Integritätsbedingungen und 3D Modellierung

Eine Klassifizierung von Integritätsbedingungen nach Steiniger und Weibel (2005) und Steiniger (2007) wird vorgestellt (geometrisch, topologisch, statistisch, semantisch, strukturell). Die Erweiterung topologischer Relationen auf die dritte Dimension und die Herausforderungen bei der Verwendung von CityGML (OGC CityGML, 2012) mit verschiedenen Level of Detail (LoD) werden diskutiert. Der Begriff 'strong touch' (Xu, 2011) wird als Beispiel für eine 3D-topologische Relation genannt.

1. Klassifizierung von Integritätsbedingungen nach Steiniger und Weibel 2005 und Steiniger 2007

Der Abschnitt stellt eine Klassifizierung von Integritätsbedingungen nach Steiniger und Weibel (2005) und Steiniger (2007) vor. Integritätsbedingungen werden in fünf Hauptklassen unterteilt, die jeweils mehrere Unterklassen enthalten. Geometrische Bedingungen beschränken Größe, Position, Form und Orientierung von Objektgeometrien. Topologische Bedingungen beziehen sich auf die binäre topologische Relation von Objektgeometrien, aber auch auf Struktur, Nachbarschaftsordnung und Ringkonfigurationen (z.B. Unterscheidung zwischen Inselpolygonen und Landschaftsmosaiken). Statistische und dichtebasierte Bedingungen umfassen statistische Kennzahlen, Wahrscheinlichkeiten, Verteilungen und Diversitätsmetriken. Semantische Bedingungen betreffen Ähnlichkeiten von Objektklassen, Prioritäten, Abstoßung und Anziehung von Objekten sowie Abhängigkeiten zwischen Klassen. Schließlich umfassen strukturelle Bedingungen Aspekte der Wahrnehmung, des Entstehungsprozesses, Orientierungsmuster und Strukturen auf verschiedenen Maßstabsebenen. Diese Klassifizierung bietet ein strukturiertes Verständnis der verschiedenen Arten von Integritätsbedingungen und ihrer Anwendung in der Geodatenmodellierung.

2. Herausforderungen der 3D Modellierung und Integritätsprüfung

Der Abschnitt diskutiert die Herausforderungen bei der Erweiterung geometrischer und topologischer Beziehungen auf die dritte Dimension im Kontext der 3D-Modellierung. Beispiele hierfür sind die Abstandsberechnung oder die Ermittlung binärer topologischer Relationen zwischen Objekten. Xu (2011) definiert die topologische Relation 'strong touch', die ausdrückt, dass sich zwei Objekte nur an ihren Außenflächen berühren. Die Bedeutung topologischer Relationen hängt stark von der Semantik und Modellierung der Objekte ab (z.B. dürfen sich Gebäude nicht überlappen, Baumkronen aber schon). Eine zusätzliche Komplexität ergibt sich durch die Verwendung von CityGML (OGC CityGML, 2012), einem Standard zur Erstellung von 3D-Stadtmodellen. CityGML erlaubt die Modellierung von Objekten in fünf verschiedenen Level of Detail (LoD), was zu unterschiedlichen Ergebnissen bei der Integritätsprüfung führen kann. Die Überprüfung, ob beispielsweise eine Freileitung das Dach eines Gebäudes schneidet, kann je nach LoD unterschiedliche Ergebnisse liefern. Die Berücksichtigung von 3D-Aspekten und verschiedenen Detaillierungsgraden stellt eine besondere Herausforderung bei der Definition und Prüfung von Integritätsbedingungen dar.

X.Unscharfe Flächen und Kardinalitäten

Integritätsbedingungen für unschärfe Flächen (Bejaoui, 2009; Bejaoui et al., 2010), basierend auf der Egg-Yolk-Theorie (Cohn und Gotts, 1996), werden vorgestellt. Die Bedeutung von Kardinalitäten (Multiplizität) in UML-Klassendiagrammen für die Definition von Integritätsbedingungen wird hervorgehoben (Fahrner et al., 1997; Borges et al., 2002; Friis-Christensen et al., 2001; Kang et al., 2004; Mäs et al., 2005; van Bennekom-Minnema, 2008; Mäs, 2010). Mathematische Relationen als spezielle Kardinalitäten werden erwähnt.

1. Integritätsbedingungen für unscharfe Flächen

Dieser Abschnitt behandelt Integritätsbedingungen für sogenannte 'unschärfe Flächen' (regions with broad boundaries), wie sie in Bejaoui (2009) und Bejaoui et al. (2010) beschrieben werden. Die Unschärfe resultiert aus der Schwierigkeit, ein Objekt von seinen Nachbarn klar abzugrenzen. Dieses Konzept ist prinzipiell auf alle Geometrietypen anwendbar, der Fokus liegt hier jedoch auf Flächen. Beispiele für unscharfe Flächen sind Waldbestände, Gewässer mit Überflutungsbereichen und Flächen mit Umweltverschmutzung. Das zugrundeliegende Konzept basiert auf der Egg-Yolk-Theorie nach Cohn und Gotts (1996), die eine unscharfe Fläche durch mehrere konzentrische, exakte Teilflächen repräsentiert. Der Grad der Zugehörigkeit zum Objekt wird durch diese Teilflächen modelliert. Im einfachsten Fall (zwei Teilflächen) wird die minimale Fläche als 'Eigelb' (egg yolk) und die maximale Fläche als 'Eiweiß' (egg white) definiert, zusammen bildend das 'Ei' (egg). Eigelb und Eiweiß repräsentieren minimale und maximale geometrische Ausdehnung. Ein Beispiel ist die normale Ausdehnung eines Gewässers im Vergleich zur Ausdehnung bei Hochwasser. Die Modellierung unscharfer Flächen erfordert spezielle Integritätsbedingungen, die die Unschärfe berücksichtigen.

2. Kardinalitäten und Multiplizitäten in der Definition von Integritätsbedingungen

Der Abschnitt befasst sich mit der Bedeutung von Kardinalitäten (bzw. Multiplizitäten) in UML-Klassendiagrammen für die Definition von Integritätsbedingungen. Nach Hitz et al. (2005) werden Kardinalitäten verwendet, um die Anzahl der Werte eines Attributs und die Anzahl beteiligter Objekte in Assoziationen oder Aggregationen anzugeben. Die Verwendung von Kardinalitäten zur Definition von Integritätsbedingungen wird von verschiedenen Autoren (Fahrner et al., 1997; Borges et al., 2002; Friis-Christensen et al., 2001; Kang et al., 2004; Mäs et al., 2005; van Bennekom-Minnema, 2008) beschrieben. Servigne et al. (2000) und Christensen (2007) vereinfachen die Angabe der Kardinalität durch die Festlegung eines einzelnen Schwellwerts (minimal, maximal oder exakt). Mäs (2010) verwendet spezielle Kardinalitäten ('mathematische Relationen') zum logischen Schließen zwischen Beziehungen, mit insgesamt 17 möglichen Kombinationen für die Beziehung zwischen zwei Klassen, wobei sieben Kombinationen zusätzliche Anforderungen an die Anzahl der Elemente der Klassen stellen (z.B. |A| < |B| oder |A| > |B| + 1). Die korrekte Verwendung von Kardinalitäten ist für die präzise Formulierung von Integritätsbedingungen unerlässlich.

XI.Anforderungskatalog und Topologische Transformationen

Ein Anforderungskatalog für die Definition von Integritätsbedingungen wird vorgestellt. Dieser soll als Referenz für Experten dienen und den aktuellen Forschungsstand zusammenfassen. Der Katalog beinhaltet 27 Anforderungen. Topologische Transformationen (kontinuierlich und sukzessiv) und die konzeptuelle Nachbarschaft von topologischen Relationen (Egenhofer und Al-Taha, 1992) werden erklärt. Die Bedeutung der Schnittmatrix (Hadzilacos und Tryfona, 1992; Egenhofer und Herring, 1990) wird im Kontext von binären topologischen Relationen erläutert.

1. Anforderungskatalog für die Definition von Integritätsbedingungen

Der Abschnitt präsentiert einen Anforderungskatalog für die Definition und Überprüfung von Integritätsbedingungen in Geodaten. Dieser Katalog dient als strukturierte Referenz für Experten. Es werden 27 Anforderungen detailliert beschrieben und diskutiert, wobei nicht alle Anforderungen für jede Anwendung relevant sein werden. Der Katalog zielt auf drei Hauptziele ab: Erstens soll er Experten als strukturierte Referenz für die Erstellung und Prüfung von Integritätsbedingungen für spezifische Datenmodelle dienen. Zweitens soll er den aktuellen Forschungsstand strukturiert zusammenfassen, gegenüberstellen und diskutieren, um einen Vergleich verschiedener Arbeiten zu ermöglichen und offene Forschungsfragen zu identifizieren. Drittens soll er die Zusammenhänge zwischen den Anforderungen verdeutlichen, um ein besseres Verständnis von Integritätsbedingungen zu fördern. Der Katalog bildet die Grundlage für die Entwicklung einer formalen Sprache zur Definition von Integritätsbedingungen (Kapitel 5). Die detaillierte Ausarbeitung der Anforderungen unterstützt fundierte Entscheidungen über die für eine konkrete Anwendung notwendigen Bedingungen.

2. Topologische Transformationen und konzeptuelle Nachbarschaft

Der Abschnitt behandelt topologische Transformationen und die konzeptuelle Nachbarschaft von topologischen Relationen. Kontinuierliche topologische Transformationen erhalten die topologische Relation zweier Objekte, da die Transformation auf beide Objekte angewendet wird. Sukzessive Änderungen (gradual changes) oder Deformationen hingegen verändern die Relation, da die Transformation nur auf ein Objekt angewendet wird. Die Nähe zweier topologischer Relationen wird durch die Summe der sich unterscheidenden Elemente ihrer Schnittmatrizen definiert (Egenhofer und Al-Taha, 1992). Die Übergänge zwischen topologischen Relationen können durch Deformationen (Skalierung, Rotation, Transformation) erreicht werden. Aus der konzeptuellen Nachbarschaft von Relationen zu zwei Zeitpunkten kann auf die Art der Deformation geschlossen werden; manchmal lässt sich sogar die nächste Änderung aufgrund der Deformation vorhersagen (z.B. folgt 'disjoint' immer 'meet'). Hadzilacos und Tryfona (1992) erweitern binäre topologische Relationen von Egenhofer und Herring (1990) auf alle geometrischen Basistypen und identifizieren 16 mögliche Relationen mit ihren Schnittmatrizen. Mäs (2010) referenziert weitere Arbeiten zur konzeptuellen Nachbarschaft zwischen Flächen-Linien und Linien-Linien-Kombinationen.

XII.Korrektur von Geodaten und interaktive Objektmodifikation

Die Komplexität der Korrektur von fehlerhaften Geodaten wird diskutiert. Die Abhängigkeit von Korrekturen und die Auswahl von Optimierungskriterien (z.B. minimale Änderung der Geometrie, Erhalt topologischer Beziehungen (Ubeda, 1997)) werden angesprochen. Die interaktive Modifikation von Objekten unter Berücksichtigung von Integritätsbedingungen (Brenner, 2005) wird am Beispiel der Verschiebung eines Rechteck-Stützpunktes erläutert.

1. Komplexität der Korrektur von Geodaten

Die Korrektur von fehlerhaften Geodaten unter Berücksichtigung von Integritätsbedingungen wird als komplexes Problem dargestellt. Die Korrekturen sind oft voneinander abhängig: Ändert man ein Objekt, so beeinflussen dies auch die damit verbundenen Objekte. Die möglichen Korrekturentscheidungen lassen sich als Baum darstellen, wobei die Auswahl des zu ändernden Objekts und die möglichen Korrekturen für dieses Objekt jeweils eine Ebene von Ästen bilden. Dies führt zu hoher Komplexität, sowohl bei iterativen als auch bei simultanen Lösungsansätzen. Die Auswahl geeigneter Optimierungskriterien (z.B. minimale Änderung von Form oder Fläche, Erhalt topologischer Beziehungen) und die Suche nach der optimalen Korrektur sind ebenfalls komplex. Ubeda (1997) wird als Referenz für weitere Informationen zu Optimierungskriterien genannt. Die hohe Komplexität der Korrektur unterstreicht die Bedeutung präziser Integritätsbedingungen und effizienter Algorithmen zur Fehlerbehebung.

2. Interaktive Objektmodifikation und Optimierungskriterien

Brenner (2005) diskutiert die interaktive Modifikation von Objekten unter Berücksichtigung von Integritätsbedingungen. Am Beispiel der Verschiebung eines Stützpunktes eines Rechtecks werden vier Möglichkeiten zur Änderung der Geometrie beschrieben: Änderung der Koordinaten des verschobenen Stützpunkts, Anpassung von Breite und Länge bei festem gegenüberliegenden Stützpunkt, Änderung bei unverändertem Mittelpunkt und gleichzeitige Rotation und Skalierung. Bei mehreren, über Bedingungen verbundenen Objekten stellt sich die Frage nach geeigneten Optimierungskriterien. Die Methode der kleinsten Quadrate führt zu vielen kleinen Korrekturen an vielen Objekten. Alternativen wie die Minimierung der Anzahl modifizierter Objekte führen jedoch zu nicht eindeutigen Lösungen. Die Auswahl eines geeigneten Optimierungskriteriums ist essentiell für eine effiziente und konsistente Korrektur von Geodaten, insbesondere wenn mehrere Objekte über Bedingungen miteinander verknüpft sind.

XIII.Formale Sprache zur Definition von Integritätsbedingungen mit GeoOCL

Die Arbeit beschreibt den Einsatz von GeoOCL als formale Sprache zur Definition von Integritätsbedingungen. Beispiele für Integritätsbedingungen in GeoOCL werden gegeben (z.B. Prüfung auf Selbstüberschneidungen, minimale Anzahl von Stützpunkten). Zusätzliche GeoOCL-Operationen zur Prüfung geometrischer und topologischer Relationen werden vorgestellt. Die Erweiterung des Geometriemodells um die Klasse Rectangle wird erwähnt.

1. GeoOCL zur Formulierung von Integritätsbedingungen

Dieser Abschnitt präsentiert GeoOCL als formale Sprache zur Definition von Integritätsbedingungen. Ein UML-Klassendiagramm (Abbildung 5.2) veranschaulicht die Struktur der exemplarischen Integritätsbedingungen. Es werden Beispiele in GeoOCL für verschiedene Klassen gegeben (Programm 5.1). Die Invariante 'Einfach' verhindert Selbstüberschneidungen von Geometrien (Gebäude, Straßen) mittels der Operation isSimple der Oberklasse Geometry. 'MinQuadrat' fordert mindestens vier Stützpunkte im Umring jeder Gebäudegeometrie, indem sie die Operationen exteriorRing und numPoints verkettet. 'MinFlaeche' und 'MinLaenge' nutzen entsprechende Operationen der Geometrietypen für Flächen- und Längenbedingungen. 'Freistehend' (für Bäume) ist die komplexeste Bedingung: Für freistehende Bäume muss der Mindestabstand zu anderen Objekten eingehalten werden. GeoOCL bietet somit eine präzise und formale Methode zur Spezifikation von Integritätsbedingungen.

2. Erweiterung von GeoOCL um geometrische und topologische Operationen

Der Abschnitt beschreibt die Erweiterung von GeoOCL um zusätzliche Operationen zur Definition geometrischer und topologischer Integritätsbedingungen (Tabelle 5.1). Der Typ Geometry wird um Operationen zur Ermittlung und zum Testen der Schnittmatrix erweitert, wobei die Schnittmatrix als String angegeben wird. Zusätzlich können das minimal umschließende Rechteck ('minimum enclosing rectangle'), das minimal umschließende angepasste Rechteck ('minimum enclosing adapted rectangle') und das achsenparallele umschließende Rechteck ('bounding box') einer Geometrie ermittelt werden. Als neue Unterklasse von Polygon wird die Klasse Rectangle eingeführt (Abbildung 5.3), die die gleichen Operationen wie Polygon besitzt, erweitert um width, length (Länge und Breite, wobei Länge >= Breite) und elongation (Verhältnis von Länge zu Breite). Diese Erweiterungen ermöglichen eine umfassendere und präzisere Formulierung geometrischer und topologischer Integritätsbedingungen in GeoOCL.

XIV.Konzeptuelle Generalisierung und Datenbereinigung

Die konzeptuelle Generalisierung von Objekten wird anhand des Beispiels 'Fluss' diskutiert. Die Datenbereinigung und die Definition von Integritätsbedingungen für das Gebiet Hildesheim werden anhand von Beispielen erläutert. Fehlerhafte Objekte werden in Gruppen eingeteilt und deren charakteristische Merkmale beschrieben (z.B. kleine Flächen, hohe Kompaktheit).

1. Konzeptuelle Generalisierung von Objekten

Der Abschnitt diskutiert die konzeptuelle Generalisierung räumlicher Objekte. Borges et al. (2002) modellieren dies, indem ein Objekt durch eine Oberklasse ohne expliziten Raumbezug und mehrere Unterklassen repräsentiert wird. Als Beispiel wird die Klasse 'Fluss' gezeigt, die durch Linie (Achse, Ränder), Fläche und Netzwerk (Segment) repräsentiert wird. Der Text argumentiert jedoch, dass eine Modellierung des Objekts als Klasse mit mehreren Raumbezügen sinnvoller ist. Dieser Ansatz ermöglicht direkte Beziehungen zwischen den Repräsentationen, im Gegensatz zum Ansatz von Borges et al. (2002), der Beziehungen zwischen einzelnen Objektinstanzen benötigt. Eine alternative Modellierung der Klasse 'Fluss' mit mehreren Raumbezügen (Abbildung 5.5) wird vorgeschlagen. Diese enthält neben nicht-räumlichen Attributen mehrere Geometrien und eine Topologie als Attribute. Dieser Ansatz vereinfacht die Definition von Integritätsbedingungen zwischen den einzelnen Repräsentationen (Programm 5.9), wie am Beispiel der Invarianten 'AchseSegment' und 'RandFlaeche' gezeigt wird. Die verbesserte Modellierung erleichtert die Definition von Integritätsbedingungen und verbessert die Übersichtlichkeit des Datenmodells.

2. Datenbereinigung und Identifikation fehlerhafter Objekte

Der Abschnitt beschreibt die Datenbereinigung und die Identifikation fehlerhafter Objekte. Ein Beispiel ist die Analyse von Flächen in Geodaten. Im konkreten Fall werden Objekte aufgrund von Inkonsistenzen in der Flächenangabe aus dem Datensatz entfernt oder korrigiert. Die Identifizierung fehlerhafter Objekte erfolgt anhand von Kriterien, die vom Geometrietyp abhängen. Anhand von Beispielen aus dem Gebiet Hildesheim werden 19 fehlerhafte Objekte in vier Gruppen eingeteilt. Die erste Gruppe (12 Objekte) zeichnet sich durch kleine Flächen mit großen Nachbarobjekten der Art 'Ackerland' und hohen Werten für Kompaktheit, fraktale Dimension und Elongation aus. Die zweite Gruppe (2 Objekte) umfasst Objekte mit kleinen Flächen, die zwischen Objekten anderer Objektarten liegen. Die dritte Gruppe (2 Objekte) zeigt hohe Kompaktheit und direkte Nachbarn der Art 'Ackerland', möglicherweise ehemalige Feldwege. Die vierte Gruppe (3 Objekte) hat zwar große Flächen (>500 m²), aber einen geringen Durchmesser (<20 m), was untypisch für Ackerflächen ist. Die Analyse dient als Grundlage für die Definition von Integritätsbedingungen zur Verbesserung der Datenqualität.

XV.Klassifikationsgüte und Parallelisierung der Integritätsprüfung

Die Klassifikationsgüte von Entscheidungsbäumen und OneRule-Algorithmen wird anhand einer Konfusionsmatrix bewertet (Genauigkeit, Sensitivität, F-Maß). Die Parallelisierung der Integritätsprüfung von Geodaten wird mit Fokus auf Hadoop und Gebäudeplan-Daten diskutiert. Methoden der Datenparallelität und Task-Parallelität werden erläutert. Die Verwendung räumlicher Partitionierung und Pufferzonen zur Parallelisierung wird beschrieben.

XVI.Räumliche Partitionierung und Hadoop Cluster

Verschiedene Strategien zur räumlichen Partitionierung von Geodaten werden vorgestellt (Geometrie, Bounding Box, Schwerpunkt, erster/letzter Punkt, Schnitt). Der Aufbau des Hadoop-Clusters am ikg wird mit Angaben zur Hardware (Server, Gigabit Switch) beschrieben. Redundanz und Fehlerkorrektur werden angesprochen. Die Datensätze OSM-FR, OSM-CZ und Chicago werden im Kontext der Analyse der Anzahl von Stützpunkten und der Flächen von Gebäuden verwendet.

XVII.Analyse von Gebäudeplan Daten und Integritätsbedingungen

Die Analyse der Gebäudeplan-Daten (OSM-FR, OSM-CZ, Chicago) konzentriert sich auf die Anzahl der Stützpunkte und die Fläche. Pentagramme und Histogramme werden zur Visualisierung der Daten verwendet. Die Diskretisierung der Attributwerte und deren Auswirkungen auf die Analyse werden angesprochen. Es werden Integritätsbedingungen für die minimale Fläche und den minimalen Winkel zwischen Liniensegmenten in GeoOCL formuliert.