Hierarchical and Spatial Structures for Interpreting Images of Man-made Scenes Using Graphical Models

Bildinterpretation: Graphische Modelle

Dokumentinformationen

Autor

Michael Ying Yang

instructor Prof. Dr.-Ing. Dr. h.c. mult. Wolfgang Förstner
Schule

Hohe Landwirtschaftliche Fakultät der Rheinischen Friedrich-Wilhelms-Universität zu Bonn

Fachrichtung Geodäsie und Geoinformation
Ort München
Dokumenttyp Inaugural-Dissertation
Sprache German
Format | PDF
Größe 17.74 MB

Zusammenfassung

I.Zielsetzung und Beitrag der Dissertation

Diese Dissertation befasst sich mit der semantischen Szeneninterpretation, speziell der Klassifizierung von Bildregionen in anthropogenen Szenen, z.B. Fassadenaufnahmen. Das Hauptziel ist die Entwicklung eines generischen, probabilistischen graphischen Modells zur Verbesserung der Bildinterpretation. Dieses Modell integriert räumliche und hierarchische Strukturen aus einer multiskaligen Bildsegmentierung, vereint die Vorteile von Bayesschen Netzen (BNs) und Conditional Random Fields (CRFs) und ermöglicht eine effiziente Inferenz mittels Methoden wie Loopy Belief Propagation oder Graph Cut. Der Ansatz bietet eine klare statistische Interpretation als Maximum-a-posteriori (MAP)-Schätzung für ein Multiklassen-Klassifizierungsproblem.

1. Ausgangssituation der semantischen Bildinterpretation

Die Dissertation adressiert die zentrale Herausforderung der semantischen Bildinterpretation: die automatische Klassifizierung von Bildregionen und deren Beziehungen in sinnvolle Kategorien. Dies ist eine Schlüsselkomponente in vielen Bereichen des maschinellen Sehens wie Objekterkennung, 3D-Rekonstruktion und Robotik. Besonders Bilder anthropogener Szenen, beispielsweise Fassadenaufnahmen, zeichnen sich durch ausgeprägte räumliche und hierarchische Strukturen aus. Die Modellierung dieser Strukturen ist essentiell für die Interpretation. Graphische Modelle, wie Bayessche Netze und Zufallsfelder, bieten sich als Werkzeug für die statistische Modellierung dieser komplexen Zusammenhänge an. Die vorliegende Arbeit verfolgt die übergeordnete These, dass eine generische Formulierung der Bildinterpretation mit klarer semantischer Bedeutung gefunden werden kann, welche die Vorteile von Bayesschen Netzen und Zufallsfeldern kombiniert. Diese Formulierung soll eine umfassendere und präzisere Analyse von Bildinhalten ermöglichen, insbesondere in komplexen, von Menschen gestalteten Umgebungen.

2. Hauptbeitrag der Dissertation Ein generisches graphisches Modell

Der Kernbeitrag der Dissertation ist die Entwicklung eines generischen, statistischen graphischen Modells für die Szeneninterpretation. Dieses Modell integriert nahtlos verschiedene Arten von Bildmerkmalen, räumliche und hierarchische Strukturinformationen, die auf einer multiskaligen Bildsegmentierung basieren. Es vereint Konzepte bestehender Ansätze wie Conditional Random Fields (CRFs) und Bayessche Netze (BNs). Das Modell bietet eine klare statistische Interpretation als Maximum-a-posteriori (MAP)-Schätzung eines Multiklassen-Kennzeichnungsproblems. Ausgehend von der Struktur des graphischen Modells wird die Wahrscheinlichkeitsverteilung des Modells auf der Grundlage der im Modell implizierten Faktorisierungseigenschaft abgeleitet. Das statistische Modell führt zu einer Energiefunktion, die näherungsweise entweder durch Loopy Belief Propagation oder durch einen Graph-Cut-basierten Move-Making-Algorithmus optimiert werden kann. Die spezifische Art der Merkmale, die räumliche Struktur und die hierarchische Struktur sind dabei nicht vorgegeben, sondern flexibel anpassbar. Diese Flexibilität ist besonders wichtig angesichts der inhärenten Mehrdeutigkeiten von Bilddaten, insbesondere in anthropogenen Szenen.

3. Herausforderungen und Motivation

Die Interpretation von Bildern anthropogener Szenen, z.B. Fassaden, stellt aufgrund der starken kontextuellen Abhängigkeiten in Form von räumlichen und hierarchischen Strukturen eine besondere Herausforderung dar. Die Modellierung dieser Strukturen ist entscheidend für die erfolgreiche Interpretation. Graphische Modelle bieten einen konsistenten Rahmen für die statistische Modellierung. Bayessche Netze und Zufallsfelder sind zwei weit verbreitete Arten von graphischen Modellen, die häufig zum Erfassen solcher kontextabhängiger Informationen verwendet werden. Die Motivation dieser Arbeit basiert auf der Überzeugung, dass eine generische Formulierung der Szeneninterpretation gefunden werden kann, welche die Vorteile von Zufallsfeldern und Bayesschen Netzen vereint und gleichzeitig eine klare semantische Interpretierbarkeit aufweist. Das Ziel ist ein Modell, welches sowohl die Kausalitäten zwischen Objekten (wie in Bayesschen Netzen) als auch die räumlichen Korrelationen (wie in Zufallsfeldern) effizient und präzise modelliert.

II.Vorherige Arbeiten und Herausforderungen

Die Arbeit baut auf bestehenden Ansätzen zur Bildinterpretation auf, die entweder auf Bayesschen Netzen (z.B. zur Modellierung kausaler Beziehungen) oder Random Fields (MRFs, CRFs) (zur Modellierung räumlicher Abhängigkeiten) basieren. Bisherige Methoden zeigen jedoch Einschränkungen in der Integration räumlicher und hierarchischer Informationen. Die Dissertation adressiert diese Herausforderung, indem sie ein neues Modell präsentiert, welches die Stärken beider Ansätze kombiniert. Ein wichtiger Aspekt ist die Bewältigung der hohen Variabilität von man-gemachten Strukturen und der daraus resultierenden Komplexität der Bilddaten.

1. Bestehende Ansätze zur Bildinterpretation Bayessche Netze und Random Fields

Vor der Entwicklung des neuen Modells werden bestehende Ansätze zur Bildinterpretation mittels graphischer Modelle beleuchtet. Bayessche Netze (BNs) und Random Fields (RFs), darunter Markov Random Fields (MRFs) und Conditional Random Fields (CRFs), werden als etablierte Methoden zur Modellierung räumlicher und kontextueller Abhängigkeiten in Bildern hervorgehoben. Bayessche Netze eignen sich besonders zur Darstellung kausaler Beziehungen zwischen Variablen, während Random Fields symmetrische Beziehungen und räumliche Korrelationen effektiv modellieren. Allerdings weisen beide Ansätze Limitationen auf: Bayessche Netze sind weniger geeignet für die Darstellung symmetrischer Beziehungen, während Random Fields kausale oder 'Teil-von'-Beziehungen nur unzureichend abbilden. Die Arbeit von Sarkar & Boyer (1993) mit Perceptual Inference Networks, basierend auf Bayesschen Netzen, und die Arbeiten von Kumar & Hebert (2003a, 2003b) mit CRFs und multiskaligen Random Fields werden als Beispiele für den Stand der Forschung genannt. Diese bisherigen Ansätze bilden die Grundlage für die Entwicklung des in der Dissertation vorgeschlagenen, verbesserten Modells, welches die Vorteile beider Methoden vereinen soll. Die genannten Arbeiten dienen als Referenzpunkt und zeigen die Notwendigkeit einer umfassenderen Modellierung räumlicher und hierarchischer Strukturen auf, um die Herausforderungen der Bildinterpretation zu bewältigen.

2. Herausforderungen der Bildinterpretation und die Notwendigkeit eines neuen Ansatzes

Die Interpretation von Bildern, insbesondere von künstlich geschaffenen Szenen wie Fassaden, bleibt eine anspruchsvolle Aufgabe im Computer Vision. Obwohl seit den 90er Jahren zahlreiche Fortschritte erzielt wurden (z.B. Modestino & Zhang, 1992; Dick et al., 2004), ist das Problem aufgrund der hohen Variabilität von Strukturen und Erscheinungsbildern sowie der Komplexität der Daten noch nicht vollständig gelöst. Im Gegensatz zur menschlichen Fähigkeit, Objekte in verschiedenen Kontexten und unter unterschiedlichen Bedingungen zu erkennen, stoßen Maschinen an ihre Grenzen. Die Dissertation hebt die Schwierigkeiten bei der Modellierung räumlicher und hierarchischer Strukturen hervor. Diese Strukturen, die in anthropogenen Szenen stark ausgeprägt sind, sind essentiell für eine korrekte Interpretation. Die Arbeit argumentiert, dass die bisherigen Ansätze, die sich auf entweder Bayessche Netze oder Random Fields konzentrieren, nicht ausreichend sind, um sowohl räumliche als auch hierarchische Informationen effektiv zu integrieren. Die Kombination der Stärken beider Modellierungsansätze wird als vielversprechender Weg betrachtet, um die Genauigkeit und Robustheit der Bildinterpretation zu verbessern und so die Lücke zwischen menschlicher und maschineller Bildinterpretation zu schließen. Die Arbeit zielt darauf ab, diese Lücke zu schließen, indem ein neues Modell entwickelt wird, welches sowohl semantisch interpretierbar als auch effizient in der Inferenz ist.

III.Das vorgeschlagene graphische Modell

Das entwickelte Modell ist ein generisches probabilistisches graphisches Modell für die semantische Szeneninterpretation. Es verwendet ein hierarchisches Design, um sowohl die räumlichen Beziehungen zwischen benachbarten Regionen als auch die hierarchischen Beziehungen zwischen Regionen auf verschiedenen Skalierungen zu modellieren. Die Inferenz erfolgt durch die Minimierung einer Energiefunktion, die aus der Faktorisierung der Wahrscheinlichkeitsverteilung abgeleitet wird. Das Modell ist flexibel und erlaubt die Integration verschiedener Bildmerkmale.

1. Architektur des vorgeschlagenen graphischen Modells

Das Herzstück der Dissertation ist ein neuartiges generisches probabilistisches graphisches Modell für die Szeneninterpretation. Dieses Modell integriert verschiedene Bildmerkmale, räumliche und hierarchische Strukturinformationen aus einer multiskaligen Bildsegmentierung. Es vereint die Vorteile von Bayesschen Netzen (BNs) und Conditional Random Fields (CRFs), indem es sowohl kausale als auch korrelative Beziehungen zwischen Bildregionen modelliert. Die hierarchische Struktur wird durch die multiskalige Segmentierung repräsentiert, wobei Regionen verschiedener Skalierungen über gerichtete oder ungerichtete Kanten miteinander verbunden sind. Die räumlichen Beziehungen werden durch ungerichtete Kanten und entsprechende Potentialfunktionen modelliert, welche die Ähnlichkeit zwischen benachbarten Regionen erfassen. Die hierarchischen Beziehungen (z.B. Teil-Ganzes-Beziehungen) können sowohl durch gerichtete als auch ungerichtete Kanten repräsentiert werden. Die Wahl der Kantenart beeinflusst die Art der modellierten Beziehungen und ermöglicht eine flexible Anpassung an die jeweilige Problemstellung. Die resultierende Wahrscheinlichkeitsverteilung des Modells basiert auf der Faktorisierungseigenschaft der graphischen Struktur und führt zu einer Energiefunktion, die mit approximativen Inferenzmethoden wie Loopy Belief Propagation oder Graph Cut optimiert werden kann.

2. Modellierung räumlicher und hierarchischer Strukturen

Ein besonderes Augenmerk liegt auf der Modellierung der räumlichen und hierarchischen Strukturen in den Bildern. Die räumlichen Strukturen werden durch die Nachbarschaftsbeziehungen zwischen den Bildregionen auf einer bestimmten Skala erfasst. Die hierarchischen Strukturen werden durch die Beziehungen zwischen Regionen auf verschiedenen Skalierungen modelliert, welche durch die multiskalige Segmentierung erzeugt werden. Diese multiskalige Segmentierung liefert eine Hierarchie von Regionen, die von groben zu feinen Details reichen. Die Verbindungen zwischen den Regionen auf verschiedenen Skalierungen repräsentieren hierarchische Beziehungen, z.B. Teil-Ganzes-Beziehungen oder parent-child-Beziehungen. Die Integration dieser räumlichen und hierarchischen Informationen in den Klassifizierungsprozess erfolgt durch die Konstruktion des graphischen Modells über die multiskaligen Bildregionen. Die Kombination der niedrigstufigen Regionenklassenwahrscheinlichkeiten mit den Strukturinformationen erlaubt eine verbesserte und konsistente Szeneninterpretation. Das Modell ist so konzipiert, dass verschiedene Arten von Merkmalen, räumlichen und hierarchischen Strukturen flexibel integriert werden können, was es zu einem generischen und anpassungsfähigen Werkzeug macht.

3. Inferenz und Optimierung des Modells

Das Modell führt zu einer Energiefunktion, die mittels approximativer Inferenzmethoden optimiert wird. Die Dissertation nennt explizit zwei Methoden: Loopy Belief Propagation und Graph Cut-basierte Move-Making-Algorithmen. Diese Methoden werden eingesetzt, um die wahrscheinlichste Konfiguration der Klassenzuordnungen (Maximum-a-posteriori-Schätzung) zu finden. Die Wahl der Inferenzmethode hängt von der Komplexität des graphischen Modells und den Anforderungen an die Rechenzeit ab. Der Vorteil des Modells liegt in seiner Flexibilität: die spezifischen Typen von Merkmalen, räumlichen Strukturen und der hierarchischen Struktur sind nicht festgelegt, sondern können an die jeweilige Anwendung angepasst werden. Dies ermöglicht eine breite Anwendbarkeit des Modells auf verschiedene Szeneninterpretationsprobleme. Die statistische Fundierung des Modells gewährleistet eine konsistente und interpretierbare Modellierung der komplexen Beziehungen zwischen Bildregionen und ihren Merkmalen.

IV.Experimentelle Auswertung und Ergebnisse

Die Leistungsfähigkeit des Modells wurde anhand des eTRIMS Datensatzes (Korč & Förstner, 2009), einer Sammlung annotierter Bilder von Straßenszenen aus verschiedenen europäischen Städten (Basel, Berlin, Bonn, Heidelberg), evaluiert. Die Segmentierung erfolgte mittels Watershed und Mean Shift Algorithmen, sowohl einstufig als auch multiskalig. Verglichen mit einem Baseline-Klassifikator zeigte das hierarchische Modell eine signifikante Verbesserung der Klassifikationsgenauigkeit für die Bildregionen. Die Ergebnisse unterstreichen den Nutzen der Integration von räumlichen und hierarchischen Strukturen für die semantische Szeneninterpretation.

1. Datensatz und Segmentierungsmethoden

Die Evaluierung des vorgeschlagenen Modells erfolgte anhand des öffentlich verfügbaren eTRIMS-Datensatzes (Korč & Förstner, 2009). Dieser Datensatz enthält annotierte Bilder von Straßenszenen aus verschiedenen europäischen Städten (Basel, Berlin, Bonn, Heidelberg). Die Annotation erfolgt auf Pixel-Ebene, wobei die Klassenzuordnung approximativ ist und Überlappungen zwischen Vordergrund und Hintergrund vorkommen können. Zur Segmentierung der Bilder wurden zwei Methoden verwendet: der Watershed-Algorithmus (Vincent & Soille, 1991) und der Mean-Shift-Algorithmus (Comaniciu & Meer, 2002). Beide wurden sowohl in einer einstufigen als auch in einer multiskaligen Variante eingesetzt. Die multiskalige Segmentierung, basierend auf der Arbeit von Drauschke (2009), lieferte eine Hierarchie von Regionen auf verschiedenen Detaillierungsstufen, die für die Modellierung der hierarchischen Strukturen im graphischen Modell genutzt wurde. Die Anzahl der extrahierten Regionen variierte je nach Methode und Skalierung, wobei die multiskaligen Verfahren deutlich mehr Regionen erzeugten (ca. 60.000-62.000 im Vergleich zu ca. 56.000 beim einstufigen Watershed). Die statistische Verteilung der Klassen innerhalb der segmentierten Regionen wurde analysiert und dokumentiert, wobei beispielsweise für den Watershed-Algorithmus 34% der Regionen der Klasse 'Gebäude' und 28% der Klasse 'Fenster' zugeordnet wurden, was die Dominanz dieser Klassen in Fassadenaufnahmen widerspiegelt.

2. Klassifikationsergebnisse und Vergleich mit Baseline Methoden

Das entwickelte hierarchische CRF-Modell wurde auf den segmentierten Regionen des eTRIMS-Datensatzes evaluiert. Zum Vergleich diente ein Baseline-Klassifikator (RDF-Klassifikator), der nur lokale Merkmale verwendet, sowie ein flaches CRF-Modell (ohne hierarchische Potentiale). Die Ergebnisse zeigen eine deutliche Verbesserung der Klassifikationsgenauigkeit durch das hierarchische Modell. Mit dem hierarchischen CRF wurde eine Gesamtgenauigkeit von 69,0% erreicht, im Vergleich zu 58,8% beim Baseline-RDF-Klassifikator und 65,8% beim flachen CRF (Yang & Förstner, 2011c). Die Verbesserung durch das hierarchische Potential beträgt 3,2%, was als bedeutender Fortschritt angesehen wird. Die Gewichtungs-Parameter α und β des Modells wurden durch Kreuzvalidierung auf den Trainingsdaten optimiert (α = 0,1, β = 0,65). Die Analyse der Konfusionsmatrix zeigt die Leistung des Modells für die einzelnen Klassen. Trotz der Verbesserung blieben einige Herausforderungen bestehen, insbesondere die Unterscheidung bestimmter Klassenpaare wie 'Auto' und 'Tür', was auf die Notwendigkeit weiterer Verbesserungen der Potentialfunktionen hindeutet. Der Vergleich unterstreicht den Vorteil der Integration räumlicher und hierarchischer Informationen in das Modell für die Verbesserung der Bildinterpretationsgenauigkeit.

V.Zukünftige Forschungsrichtungen

Zukünftige Arbeiten könnten die Erweiterung des Modells auf komplexere Graphstrukturen, die Berücksichtigung von Oklusionen und die Integration mit höherstufigen Modellen (z.B. Attributgrammatiken) umfassen. Die Anwendung des Modells auf andere Bereiche der Photogrammetrie und des Computer Vision (z.B. Bildretrieval, Objekterkennung) ist ebenfalls vielversprechend. Das Ziel ist eine robustere und umfassendere semantische Szeneninterpretation.

1. Evaluierung des Modells mit dem eTRIMS Datensatz

Die Leistungsfähigkeit des entwickelten graphischen Modells wurde anhand des eTRIMS-Datensatzes (Korč & Förstner, 2009) evaluiert. Dieser Datensatz besteht aus 60 annotierten Bildern von Straßenszenen aus verschiedenen europäischen Städten (Basel, Berlin, Bonn, Heidelberg), wobei die Annotation auf Pixel-Ebene erfolgt. Die Bilder wurden mit unterschiedlichen Segmentierungsmethoden bearbeitet: einmal mit dem Watershed-Algorithmus (ein- und mehrstufig) und einmal mit dem Mean-Shift-Algorithmus (ebenfalls ein- und mehrstufig). Die mehrstufige Segmentierung lieferte eine hierarchische Repräsentation der Bildregionen, die im entwickelten Modell berücksichtigt wurde. Die Klassenverteilung innerhalb der segmentierten Regionen wurde analysiert, wobei 'Gebäude' und 'Fenster' in den Fassadenbildern die größten Anteile einnahmen. Die so gewonnenen Regionen wurden dann zur Evaluierung des Modells verwendet. Der Vergleich der Ergebnisse mit einem Baseline-Klassifikator und einem flachen CRF-Modell zeigt die Überlegenheit des neuen Ansatzes.

2. Vergleich der Ergebnisse und Analyse der Genauigkeit

Die Klassifikationsgenauigkeit des vorgeschlagenen hierarchischen CRF-Modells wurde mit der des Baseline-RDF-Klassifikators und eines flachen CRF-Modells verglichen. Das hierarchische CRF erzielte eine Gesamtgenauigkeit von 69,0%, während der Baseline-Klassifikator nur 58,8% und das flache CRF 65,8% erreichte. Die Verbesserung durch die Integration hierarchischer Potentiale beträgt somit 3,2%. Obwohl numerisch gering, stellt diese Verbesserung einen signifikanten Fortschritt dar, was durch visuelle Vergleiche der Ergebnisse bestätigt wurde. Die Gewichtungs-Parameter des hierarchischen CRF (α = 0,1, β = 0,65) wurden durch Kreuzvalidierung ermittelt. Die Analyse der Konfusionsmatrix zeigte, dass die Klassifikationsgenauigkeit für einige Klassenpaare (z.B. 'Auto' und 'Tür') noch verbesserungswürdig ist. Dies deutet auf die Notwendigkeit weiterer Forschung zur Optimierung der Potentialfunktionen hin. Insgesamt unterstreichen die Ergebnisse den positiven Einfluss der Integration räumlicher und hierarchischer Strukturinformationen auf die Genauigkeit der semantischen Szeneninterpretation.