
Personentrajektorien aus Luftbildern
Dokumentinformationen
Autor | Florian Schmidt |
instructor | Prof. Dr.-Ing. Stefan Hinz |
Schule | Karlsruher Institut für Technologie (KIT) |
Fachrichtung | Bauingenieurwesen, Geo- und Umweltwissenschaften |
Dokumenttyp | Dissertation |
Ort | München |
Sprache | German |
Format | |
Größe | 3.01 MB |
Zusammenfassung
I.Automatische Personen Detektion und Verfolgung in Luftbildsequenzen mittels Multi Hypothesen Tracking MHT
Diese Arbeit präsentiert eine neuartige Strategie zur automatischen Extraktion von Personenbewegungen aus Luftbildsequenzen. Das Hauptaugenmerk liegt auf der zuverlässigen Detektion einzelner Personen, selbst bei ungünstigen Bedingungen wie geringer Bodenauflösung (ca. 10-20 cm/Pixel) und schwacher Erkennbarkeit. Hierfür wird ein aussehensbasierter Ansatz mit implizitem Modell und Haar-Merkmalen verwendet, der auch den Personenschatten miteinbezieht. Die Objektverfolgung erfolgt mittels eines verbesserten MHT-Ansatzes, der die Vorteile hypothesen- und trajektorienorientierter Varianten kombiniert und eine effiziente Clusterung ermöglicht. Das System zielt auf die Generierung möglichst vollständiger Trajektorien aller im Bild sichtbaren Personen ab und leistet einen wichtigen Beitrag zur Luftbildauswertung.
1. Einleitung Zielsetzung der Personenverfolgung in Luftbildsequenzen
Die Arbeit befasst sich mit der Entwicklung und Evaluierung einer Strategie zur automatischen Erkennung und Verfolgung einzelner Personen in Luftbildsequenzen. Das Ziel ist die Gewinnung von Informationen über das Bewegungsverhalten von Personen und die Ausgabe möglichst vollständiger Trajektorien. Die Methode unterscheidet sich von flächenhaften, makroskopischen Auswertungen, die lediglich Angaben über Objektdichte und generelles Bewegungsverhalten liefern, ohne einzelne Personen zu identifizieren. Die Arbeit schließt eine Forschungslücke, da existierende Methoden zur Auswertung terrestrischer Videoaufnahmen nicht ohne Weiteres auf die besonderen Herausforderungen der Fernerkundung, insbesondere das ungünstige Verhältnis von Objektgröße zu Bildauflösung und die hohe Komplexität der Bildinhalte, übertragbar sind. Die automatische Extraktion von Personenbewegungen aus Luftbildsequenzen ist der zentrale Beitrag dieser Dissertation.
2. Aussehensbasierte Detektion und Integration in das MHT Verfahren
Die Arbeit verwendet einen aussehensbasierten Ansatz mit implizitem Modell zur Detektion potentieller Personenstandorte in jedem Bild der Sequenz. Dieser Ansatz integriert weiterentwickelte Bildmerkmale und optional den Personenschatten direkt in das visuelle Objektmodell. Aufgrund der geringen Sichtbarkeit von Personen in Luftbildern mit einer Bodenauflösung von etwa 15 cm, wird die Detektionsmethode in den Multi-Hypothesen-Tracking (MHT) Ansatz integriert. Die Ergebnisse der Objekterkennung werden stochastisch modelliert, und der MHT-Formalismus entsprechend erweitert. Dadurch findet die Personen-Detektion während des Trackings statt, wenn mehr Informationen verfügbar sind und zuverlässigere Entscheidungen getroffen werden können. Der MHT-Ansatz selbst wird verbessert, indem die Vorteile der hypothesen- und trajektorienorientierten Varianten kombiniert und eine neue Methode zur automatischen Bestimmung der Wahrscheinlichkeit von Fehlalarmen und neuen Objekten integriert wird. Das Clusterverfahren wird durch eine verbesserte Datenstruktur deutlich vereinfacht.
3. Herausforderungen des Trackings und Vergleich mit alternativen Ansätzen
Das Tracking von Objekten in Bildsequenzen stellt ein schlecht gestelltes Problem dar, da visuell ähnliche Objekte nicht immer in der Realität korrespondieren müssen und umgekehrt. Die Arbeit diskutiert die Schwierigkeiten beim Tracking, insbesondere das Korrespondenzproblem, das NP-schwer wird, wenn mehr als zwei Zeitpunkte betrachtet werden. Alternativen wie Tracklet-Verfahren und rasterbasierte Verfahren werden betrachtet, jedoch als weniger geeignet für die vorliegende Aufgabe eingestuft aufgrund ihrer sequentiellen Arbeitsweise und hohen Rechenzeit. Im Gegensatz dazu bietet der MHT-Ansatz eine sequentielle Verarbeitung und ermöglicht eine präzise Steuerung der Komplexität durch die Begrenzung der Anzahl alternativer Lösungen. Der Vergleich mit anderen Ansätzen, wie der Verwendung von Harris-Merkmalen oder der Detektion von Farbdiskontinuitäten, zeigt die Überlegenheit des gewählten Ansatzes.
4. Zusammenfassung der entwickelten Methode und deren Vorteile
Die Arbeit verfolgt Personen mittels eines Tracking-by-Detection-Ansatzes, wobei das leistungsfähige MHT-Verfahren im Mittelpunkt steht. MHT verfolgt parallel mehrere alternative Erklärungen für den Ursprung von Detektionen und Objektbewegungen, bis sich die wahrscheinlichste durchsetzt. Verbesserungen am MHT-Verfahren beinhalten die Vereinigung der Vorteile hypothesen- und trajektorienorientierter Varianten, die Entwicklung einer Methode zur adaptiven und automatischen Bestimmung der Wahrscheinlichkeit von Falschalarmen und neuen Objekten und die Vereinfachung des Clusterverfahrens durch eine neue Datenstruktur. Die Vorteile des MHT-Ansatzes liegen in der Fähigkeit, schwierige Zuordnungsentscheidungen in mehrdeutigen Situationen hinauszuzögern und eine nahezu optimale Lösung in Echtzeit zu finden, trotz des hohen Rechenaufwands.
II.Verbesserter Detektor für Personen in Luftbildern
Der entwickelte Detektor basiert auf einem impliziten, visuellen Objektmodell und nutzt neben der Form auch Farbe und Texturinformationen. Das Training des Detektors wurde optimiert durch ein robusteres Verfahren zur automatischen Auswahl von Hintergrundbeispielen, unter Berücksichtigung der Nähe zu Objekten und des Kondenzwertes vom AdaBoost-Klassifikator. Die Verwendung von Rechteckmerkmalen und der i1i2i3-Farbraum verbessert die Robustheit gegenüber Beleuchtungsänderungen. Die Merkmalsreduktion durch AdaBoost erhöht die Effizienz des Systems.
1. Implizites Objektmodell und Merkmalsextraktion
Der Kern des verbesserten Detektors ist ein implizites, visuelles Objektmodell, welches die charakteristische Form von Personen in Luftbildern nutzt. Zusätzlich zu der Form werden Farbe und Textur als komplementäre Informationen einbezogen. Zur Merkmalsextraktion werden Rechteckmerkmale eingeführt, deren Werte (Mittelwert und Varianz) aus allen Pixeln innerhalb eines beliebig geformten Rechtecks im Detektor berechnet werden. Diese Merkmale sind weniger anfällig für Rauschen als einzelne Pixelwerte und lassen sich effizient mit Hilfe von Integralbildern berechnen. Um die Invarianz gegenüber Beleuchtungsänderungen zu erhöhen, wird der i1i2i3-Farbraum verwendet. Die Form des Detektors selbst ist in der Regel rechteckig, kann aber prinzipiell beliebig gestaltet werden. Die Auswahl der tatsächlich für die Detektion genutzten Merkmale erfolgt im Klassifikator-Training durch eine Merkmalsreduktion.
2. AdaBoost Klassifikator und Merkmalsreduktion
Der Detektor verwendet einen AdaBoost-Klassifikator, um Objekte und Hintergrund zu trennen. AdaBoost bietet Vorteile wie einfache Verständlichkeit, Kompatibilität mit verschiedenen Merkmalstypen, Robustheit gegenüber Überanpassung und eine integrierte Merkmalsreduktion. Die Merkmalsreduktion ist besonders wichtig, da sie die Rechenzeit während der Objekterkennung deutlich reduziert. In dieser Arbeit wird die Anzahl der Merkmale von 21.000 auf die 100 nützlichsten reduziert. Der AdaBoost-Klassifikator liefert zudem einen Kondenzwert, der die Sicherheit der Klassifizierung angibt und im weiteren Trainingsprozess genutzt wird.
3. Robuste Hintergrundbeispielauswahl
Eine Herausforderung bei der Objekterkennung ist die Modellierung der unendlich vielfältigen Hintergrundklasse. Die Arbeit verwendet ein iteratives Verfahren zur automatischen Bestimmung der benötigten Hintergrundbeispiele. Zunächst wird der Klassifikator mit Objektbeispielen und wenigen manuell ausgewählten Hintergrundbeispielen trainiert. Anschließend werden Fehldetektionen in Bildern ohne Objekte als zusätzliche Hintergrundbeispiele verwendet, wobei der Kondenzwert die Auswahl steuert. Fehldetektionen mit positiven Werten nahe Null werden bevorzugt ausgewählt, um die Einbeziehung von personenähnlichen Objekten in die Hintergrundklasse zu minimieren. Dies verbessert die Klassentrennbarkeit und die Leistung des Klassifikators, besonders relevant bei der Detektion von Personen in Luftbildern mit vielen personenähnlichen Objekten im Hintergrund.
4. Beschleunigung der Detektion
Die vollständige Suche mit einem gleitenden Detektor ist rechenintensiv. Um die Suchzeit zu reduzieren, werden verschiedene Ansätze diskutiert: Einschränkung des Suchbereichs durch Vorgabe einer Region oder Ausschluss unwahrscheinlicher Orte; Nutzung des vorhergehenden Kondenzbildes als Hinweis; Suche in einem groben Raster, gefolgt von detaillierterer Untersuchung auffälliger Stellen; schnelle Ermittlung eindeutiger Hintergrundbereiche mit einfachen Segmentierungsverfahren; Einsatz einer Kaskade von Klassifikatoren und die Parallelisierung der Suchaufgabe auf mehrere Prozessoren. Diese Strategien verbessern die Effizienz der Personen-Detektion erheblich.
III.Verfeinerter MHT Ansatz für die Objektverfolgung
Der Multi-Hypothesen-Tracking (MHT)-Ansatz wurde erweitert, um die Herausforderungen der Personenverfolgung in Luftbildern zu bewältigen. Die Kombination hypothesen- und trajektorienorientierter Varianten ermöglicht eine präzise Steuerung der Komplexität und eine verbesserte Bewertung der Trajektorien. Eine neue Methode zur adaptiven Bestimmung der Falschalarm- und Objektauftrittswahrscheinlichkeit sowie eine effizientere Clusterung mittels verbesserter Datenstrukturen erhöhen die Genauigkeit und Geschwindigkeit des Verfahrens. Die Echtzeitfähigkeit des Systems wird demonstriert.
1. Verbesserung des Multi Hypothesen Tracking MHT Ansatzes
Die Arbeit konzentriert sich auf die Verbesserung des Multi-Hypothesen-Tracking (MHT) Verfahrens zur Personenverfolgung in Luftbildsequenzen. Im Gegensatz zu hierarchischen Tracklet-Ansätzen oder Tracking-by-Model-Evolution Methoden, die sich aufgrund der geringen Objektgröße und hohen Fehlerrate in den Luftbildern als ungeeignet erweisen, bietet der MHT-Ansatz eine robuste Lösung. Der verbesserte MHT-Ansatz kombiniert die Vorteile der hypothesen- und trajektorienorientierten Varianten. Dies ermöglicht eine präzise Steuerung der Anzahl verfolgter Hypothesen und eine verbesserte Bewertung der Trajektorien mithilfe des Quotiententests. Die sequentielle Formulierung des MHT-Ansatzes in Kombination mit effektiven Methoden zur Komplexitätsreduktion erlaubt die Ermittlung einer nahezu optimalen Lösung in Echtzeit.
2. Adaptive Bestimmung von Falschalarmen und neuen Objekten
Ein wichtiger Beitrag der Arbeit ist die Entwicklung einer neuen Methode zur integrierten, adaptiven Bestimmung der Auftrittswahrscheinlichkeit von Falschalarmen und neuen Objekten. Diese Methode berücksichtigt alle aktuellen Hypothesen und automatisiert den Prozess, wodurch die manuelle Festlegung von Wahrscheinlichkeitsverteilungen entfällt. Dies ist ein entscheidender Vorteil, da die benötigten Wahrscheinlichkeiten in traditionellen MHT-Ansätzen oft schwierig zu bestimmen sind und einen signifikanten Einfluss auf die Ergebnisqualität haben. Die automatisierte und adaptive Bestimmung dieser Wahrscheinlichkeiten trägt maßgeblich zur Robustheit und Genauigkeit des Systems bei, besonders in Szenarien mit vielen Fehldetektionen.
3. Vereinfachung des Clusterverfahrens
Das Clusterverfahren spielt eine entscheidende Rolle im MHT-Ansatz zur Reduktion der Komplexität. Die Arbeit präsentiert eine signifikante Vereinfachung des Clusterverfahrens durch die Einführung einer neuen Datenstruktur zur Verwaltung der verschiedenen Hypothesen. Diese Optimierung ermöglicht es, deutlich mehr Hypothesen gleichzeitig zu verfolgen, ohne die Rechenzeit unnötig zu erhöhen. Die parallele Verarbeitung der Cluster trägt zur Echtzeitfähigkeit des Systems bei und erlaubt es, der global optimalen Lösung des Zuordnungsproblems deutlich näher zu kommen. Die effiziente Clusterung ist besonders wichtig, da die Anzahl der Hypothesen im MHT-Verfahren exponentiell mit der Zeit wachsen kann.
4. Echtzeitfähigkeit und Limitationen des MHT Ansatzes
Die Arbeit demonstriert die Echtzeitfähigkeit des verbesserten MHT-Ansatzes, selbst bei einer großen Anzahl von Objekten und Detektionen. Die Laufzeit des Algorithmus lässt sich präzise über die Anzahl der gewünschten Hypothesen steuern, was eine adaptive Anpassung an verschiedene Bedingungen ermöglicht. Trotzdem wird festgestellt, dass die Detektion im Gesamtsystem deutlich mehr Zeit benötigt als das Tracking. Für eine vollständige Echtzeitverarbeitung ist daher eine Einschränkung des Beobachtungsbereichs oder eine Beschleunigung der Detektion notwendig. Die Arbeit diskutiert die Notwendigkeit weiterer Optimierungen und die Grenzen des Systems, insbesondere in Szenarien hoher Personendichte, wo die Detektion von Einzelpersonen schwierig ist.
IV.Ergebnisse und Ausblick
Die Ergebnisse zeigen eine teilweise erfolgreiche Personenverfolgung in realistischen Szenarien (25-40% Vollständigkeit). Die Genauigkeit wird stark von der Personendichte beeinflusst. Geringe Dichte ermöglicht bessere Ergebnisse. Zukünftige Arbeiten konzentrieren sich auf die Erweiterung des Systems um Module zur Analyse von Personengruppen und Menschenmassen (Crowd Analysis), die Integration von Kontextinformationen und die Verbesserung des Bewegungsmodells zur Steigerung der Vollständigkeit der Trajektorien. Weitere Optimierungspotential liegt in der Verbesserung der Detektionsleistung durch innovative Ansätze und die Nutzung von Kontextinformationen.
1. Ergebnisse der Personenverfolgung
Die Ergebnisse zeigen, dass die Zielsetzung der Arbeit – die möglichst vollständige Ermittlung der Trajektorien aller abgebildeten Personen – nur teilweise erreicht wurde. In realistischen Szenarien konnten zwischen 25% und 40% aller Personen zum größten Teil korrekt verfolgt werden. Die Vollständigkeit der Trajektorien hängt stark von der Personendichte ab; bei niedriger Dichte sind deutlich bessere Ergebnisse erzielbar. In Szenarien mit hoher Personendichte oder Gruppenbildung stoßen die aussehensbasierten Detektionsmethoden an ihre Grenzen, da einzelne Personen visuell nicht mehr unterscheidbar sind. Die geringe Vollständigkeit der Detektion ist die Hauptursache für unvollständige Trajektorien. Detaillierte, personenbezogene Verhaltensanalysen sind daher aktuell nur eingeschränkt möglich; makroskopische Auswertungen zum allgemeinen Bewegungsverhalten und der Verteilung von Personen sind jedoch bereits durchführbar. Der Vergleich mit einem Single-Hypothesis-Tracking (SHT) Ansatz zeigt die Vorteile des MHT-Ansatzes hinsichtlich der Vollständigkeit der Trajektorien, wenngleich auch ein leichter Anstieg der Falschalarme zu beobachten ist.
2. Auswertung der MHT Laufzeit
Die Analyse der MHT-Laufzeit zeigt, dass das Verfahren auch bei einer großen Anzahl von Objekten und Detektionen in Echtzeit ausgeführt werden kann. Die Generierung neuer Hypothesen stellt den zeitaufwendigsten Schritt dar. Durch Optimierungen des Verfahrens zur Bestimmung der n wahrscheinlichsten Hypothesen konnte die Laufzeit reduziert werden. Weitere Laufzeitverbesserungen sind durch Parallelisierung auf mehreren Prozessorkernen möglich. Für die vollständige Verarbeitung einer Luftbildsequenz ist die Detektion jedoch deutlich zeitaufwendiger als das Tracking. Um das Gesamtsystem in Echtzeit zu betreiben, muss der Beobachtungsbereich eingeschränkt oder die Detektionsgeschwindigkeit erhöht werden. Die Ergebnisse zeigen eine adaptive Anpassungsmöglichkeit des Algorithmus an wechselnde Gegebenheiten und Anforderungen durch die Steuerung der Laufzeit über die Anzahl der Hypothesen.
3. Analyse der Detektions und Tracking Genauigkeit
Die Gegenüberstellung von Detektions- und Tracking-Ergebnissen zeigt, dass das Tracking in einigen Sequenzen zu einer Steigerung der Korrektheit und Vollständigkeit der erkannten Objektpositionen führt. Die Sequenzanalyse liefert zusätzliche Informationen, die bei einer rein bildweisen Betrachtung fehlen. Die PR-Kurven zeigen, dass die Detektion den größten Einfluss auf die Ergebnisse hat, während das Tracking den Anteil an Falschalarmen und Schlupf nur begrenzt verringern kann. Die stochastische Modellierung des Detektionswertes im MHT-Ansatz reduziert den Einfluss schlechter Beobachtungen. Die Ergebnisse verdeutlichen die Notwendigkeit, die Leistungsfähigkeit der Objekterkennung zu steigern, um deutlich bessere Ergebnisse zu erzielen. Konsistente Falschalarme und die Nicht-Erkennung von Personen in Gruppen bleiben als Herausforderungen bestehen.
4. Ausblick und zukünftige Forschungsarbeiten
Zukünftige Arbeiten konzentrieren sich auf die Erweiterung des Systems um Module zur meso- und makroskopischen Bildauswertung, um Phänomene wie Personengruppen und Menschenmassen (Crowd Analysis) zu berücksichtigen. Die Integration von Kontextinformationen, z.B. über benachbarte Personen oder markante Objekte, soll das Korrespondenzproblem vereinfachen. Eine Verbesserung des Bewegungsmodells, welches das Verhalten der Personen realistischer beschreibt, könnte die Qualität der Trajektorien erhöhen. Die Steigerung der Detektionsleistung durch neuartige Ansätze, die Hinzunahme von Kontextinformationen und die Verwendung von Online-Learning-Methoden im Klassifikator-Training sind vielversprechende Ansätze. Auch die robuste Gewinnung von Hintergrundbeispielen kann weiter optimiert werden, z.B. durch den Einsatz einer adaptiv berechneten Wahrscheinlichkeit als Auswahlkriterium.