Vehicle Tracking and Motion Estimation Based on Stereo Vision Sequences

Visual SLAM: Drohnenbildauswertung

Dokumentinformationen

Autor

Alexander Barth

instructor/editor Prof. Dr.-Ing. Wolfgang Förstner
Schule

Rheinische Friedrich-Wilhelms-Universität Bonn

subject/major Geodäsie und Geoinformation
Dokumenttyp Inaugural-Dissertation (doctoral thesis)
Ort München
Sprache German
Format | PDF
Größe 7.80 MB

Zusammenfassung

I.Fahrerassistenzsysteme und Autonomes Fahren

Die Arbeit befasst sich mit der Entwicklung von Fahrerassistenzsystemen und deren Anwendung im autonomen Fahren. Im Fokus stehen insbesondere Kollisionsvermeidungssysteme wie der Mercedes-Benz Bremsassistent, die die Umgebung des Fahrzeugs (Ego-Fahrzeug) überwachen und potenzielle Kollisionen mit Hindernissen im Fahrkorridor vorhersagen. Weitere Systeme, die Umgebungserkennung benötigen, sind beispielsweise Verkehrsschilderkennung, intelligente Scheinwerfer und Parksysteme. Das PROMETHEUS-Projekt (1986-1995) und die DARPA Grand Challenges (2004-2007) markieren wichtige Meilensteine in der Forschung zum autonomen Fahren. Die Arbeit zielt auf die Entwicklung eines generischen Systems ab, das für verschiedene Verkehrssituationen (Stadtverkehr, Landstraßen, Autobahnen) einsetzbar ist.

1. Kollisionsvermeidungssysteme und Fahrerassistenz

Der Abschnitt beginnt mit einer Beschreibung von Kollisionsvermeidungssystemen, wobei der Mercedes-Benz Bremsassistent als Beispiel genannt wird. Diese Systeme überwachen die Umgebung des Fahrzeugs (Ego-Fahrzeug) und prognostizieren potenzielle Kollisionen mit Hindernissen. Blind Spot Monitoring Systeme zur Unterstützung beim Spurwechsel werden ebenfalls erwähnt. Bei erkannter Kollisionsgefahr warnt das System den Fahrer oder unterstützt beim Bremsen; vollständig autonomes Bremsen ist ebenfalls möglich (z.B. Volvo City Safety). Die Komplexität von Verkehrssituationen stellt hohe Anforderungen an die Umgebungserkennung. Falsche Interpretationen können im autonomen Modus zu Unfällen führen, die ohne das System nicht passiert wären. Zusätzlich zu den Kollisionsvermeidungssystemen werden weitere Komfortfunktionen beschrieben, die die Umgebungserkennung benötigen: Verkehrszeichenerkennung mit Geschwindigkeitswarnung, intelligente Scheinwerfer, Parkassistenten und Nachtsicht. Färber (2004) bietet einen umfassenden Überblick über Fahrerassistenzsysteme. Die Entwicklung solcher Systeme zielt auf das ultimative Ziel eines autonomen Fahrzeugs ab.

2. Autonomes Fahren Meilensteine und Forschungsansätze

Der Text hebt die Bedeutung des PROMETHEUS-Projekts (1986-1995) hervor, einer europäischen Kooperation von Automobilherstellern und Universitäten, die Pionierarbeit im Bereich des autonomen Fahrens geleistet hat. Die vielversprechenden Ergebnisse haben die Forschung der letzten 15 Jahre beeinflusst. Ein wichtiger Beitrag war der Einsatz von Videokameras und maschinellem Sehen zur Fahrspur- und Hinderniserkennung. Die DARPA Grand Challenges (2004, 2005) und der Urban Challenge (2007) dienten als Anreiz für die Weiterentwicklung autonomer Fahrzeuge. Diese sollten Aufgaben wie Spurhaltung, Hindernisvermeidung, Priorisierung an Kreuzungen und Einparken ohne menschlichen Fahrer bewältigen (z.B. MIT-Team 2007, Kammel et al. 2007). Der Abschnitt betont, dass die Entwicklung autonomer Fahrzeuge auf komplexen Algorithmen und zuverlässiger Umgebungserkennung basiert und kontinuierliche Weiterentwicklung erfordert, um die Sicherheit im Straßenverkehr zu gewährleisten.

3. Herausforderungen und Forschungslücke

Der Abschnitt beschreibt die Herausforderungen bei der Entwicklung von robusten Systemen zur Fahrzeugerkennung und -verfolgung. Die Komplexität von Verkehrssituationen, insbesondere in städtischen Gebieten, wird betont. Die Notwendigkeit eines generischen Ansatzes, der nicht auf spezifische Szenarien oder Fahrzeugtypen beschränkt ist, wird hervorgehoben. Der Umgang mit Gegenverkehr stellt aufgrund hoher Relativgeschwindigkeiten und zunehmender Unsicherheit der Stereo-Messungen mit der Distanz eine besondere Herausforderung dar. Der Bedarf an einem System, das ohne situationsabhängige Parameteranpassung funktioniert, wird als wichtiges Kriterium genannt. Die Arbeit adressiert die Notwendigkeit eines Systems, das robust, allgemein einsetzbar und in Echtzeit fähig ist. Dies steht im Gegensatz zu vielen bestehenden Ansätzen, die auf spezifische Aufgaben wie das Verfolgen des vorausfahrenden Fahrzeugs auf Autobahnen beschränkt sind.

II.Fahrzeugerkennung und verfolgung Tracking mit Stereovision

Ein zentraler Aspekt der Arbeit ist die Entwicklung eines robusten Systems zur Fahrzeugerkennung und -verfolgung in Echtzeit. Hierbei wird Stereovision eingesetzt, um die dreidimensionale Position und Bewegung von Fahrzeugen zu bestimmen. Die Umgebungserkennung basiert auf der Analyse von Disparitätskarten, die mit Algorithmen wie dem Semi-Global Matching (SGM) berechnet werden. Zur Schätzung der Fahrzeugbewegung (Motion Estimation) und -pose (3D Pose Estimation) wird der Kalman-Filter (inkl. Erweiterungen wie IMM) eingesetzt. Der Ansatz soll sich durch Generalität und Robustheit auszeichnen und auch bei schwierigen Bedingungen (z.B. Gegenverkehr, starke Helligkeitsschwankungen) zuverlässig funktionieren.

1. Stereovision basierte Fahrzeugerkennung und verfolgung

Der Kern dieses Abschnitts liegt in der Beschreibung eines Echtzeit-Systems zur Fahrzeugverfolgung mit Hilfe von Stereovision. Ziel ist die simultane Schätzung von Pose, Bewegung und Form eines Fahrzeugs in 3D. Dies geschieht durch die Nutzung von Stereobildern, aus denen Disparitätskarten generiert werden. Diese Karten liefern Tiefeninformationen, die essentiell für die dreidimensionale Rekonstruktion der Fahrzeugposition und -bewegung sind. Der Semi-Global Matching (SGM) Algorithmus wird als Beispiel für die Berechnung dichter Disparitätskarten genannt. Die Genauigkeit der Tiefeninformation ist entscheidend, insbesondere bei weiter entfernten Objekten, wo die Unsicherheit zunimmt. Die Herausforderung besteht in der Entwicklung eines robusten und generischen Systems, das unabhängig von der Fahrrichtung, dem Fahrzeugtyp und den Umgebungsbedingungen (z.B. Stadtverkehr, Autobahn) zuverlässig funktioniert.

2. Kalman Filter und Bewegungsmodelle

Zur Schätzung der Fahrzeugbewegung und -pose wird der Kalman-Filter eingesetzt. Dieser Filter eignet sich besonders für die Verarbeitung von zeitlich aufeinanderfolgenden Messungen und die Vorhersage zukünftiger Zustände. Der Text erwähnt explizit die Verwendung eines 3D-Fahrzeugbewegungsmodells. Die State-Parameter beinhalten die Pose (Position und Orientierung) sowie die translatorische und rotatorische Geschwindigkeit. Alternativ zum Kalman-Filter wird auch der Particle Filter als Möglichkeit zur Modellierung komplexerer Wahrscheinlichkeitsverteilungen erwähnt. Die Wahl des geeigneten Bewegungsmodells ist entscheidend für die Genauigkeit der Verfolgung, besonders bei dynamischen Manövern. Der Abschnitt diskutiert die Notwendigkeit robuster Bewegungsmodelle, die auch komplexe Fahrmanöver berücksichtigen können, wobei die Limitationen vereinfachter Modelle explizit angesprochen werden.

3. Datenassoziation und Herausforderungen

Ein wichtiger Aspekt ist die Datenassoziation, also die Zuordnung neuer Messungen zu bereits bestehenden Fahrzeugspuren. Diese Aufgabe wird komplexer, wenn Fahrzeugspuren aufgrund von wechselnden Lichtverhältnissen, teilweisen Verdeckungen (Occlusion) oder Selbstverdeckungen verloren gehen. Der Text beschreibt Mechanismen, um verlorene Spuren durch neue Messungen zu kompensieren und neue Messpunkte bestehenden Objekten zuzuordnen. Die Robustheit des Systems wird durch die Berücksichtigung der Bewegung und Wahrscheinlichkeit des zugehörigen Objekts verstärkt. Der Abschnitt betont die Bedeutung einer zuverlässigen Datenassoziation für die Genauigkeit und Robustheit des gesamten Fahrzeugverfolgungssystems. Die Korrelation zwischen Messunsicherheiten wird diskutiert, wobei die Vereinfachung der Annahme unkorrelierter Messungen für die praktische Umsetzung genannt wird.

III.Bewegungsmodelle und Datenassoziation

Verschiedene Bewegungsmodelle werden untersucht, um die Dynamik von Fahrzeugen realistisch abzubilden. Hierbei wird die Herausforderung betrachtet, sowohl geradlinige Bewegungen als auch dynamische Manöver (z.B. Kurvenfahrten) präzise zu verfolgen. Die Datenassoziation spielt eine wichtige Rolle, um neue Messungen korrekt zu existierenden Fahrzeugen zuzuordnen und verlorene Messungen zu kompensieren. Die Zuverlässigkeit der Objekterkennung wird durch die Kombination von Tiefen- und Bewegungsinformationen verbessert. Die Verwendung von Wahrscheinlichkeitsmethoden (z.B. Particle Filter) ermöglicht eine robustere Schätzung der Fahrzeugbewegung.

1. Bewegungsmodelle für die Fahrzeugverfolgung

Dieser Abschnitt befasst sich mit der Modellierung der Fahrzeugbewegung für die Zwecke der präzisen Verfolgung. Es wird hervorgehoben, dass die meisten Tracking-Ansätze im Bildbereich davon ausgehen, dass die Verschiebung eines Objekts zwischen zwei aufeinanderfolgenden Bildern gering ist, wenn das Zeitintervall kurz ist. Sie versuchen, die Translation einer Bildregion, einschließlich eines erkannten Objekts, innerhalb einer lokalen Nachbarschaft des vorherigen Standorts zu ermitteln. Beispiele für solche suchbasierten Ansätze werden zitiert (Rajagopalan und Chellappa 2000; Zeng und Ma 2002; Li et al. 2004; Narayana und Haverkamp 2007; Zhi-fang und Zhisheng 2007). Nur wenige Ansätze modellieren explizit die Translation und Skalierung eines Objekts in der Bildebene (z.B. Koller et al. 1994; Chateau und Lapreste 2004) oder Translation, Skalierung und Rotation (Chateau und Lapreste 2004). Alle diese Ansätze betrachten die Verfolgung eines vorausfahrenden Fahrzeugs mit relativ geringen Veränderungen zwischen zwei Bildern. Affine Bewegungsmodelle werden häufig im Bereich der MPEG-Kodierung von Bildsequenzen verwendet (Gahlot et al. 2003). Die Komplexität realer Fahrzeugdynamik mit Parametern wie Beschleunigung, Federung und Reifenverhalten übersteigt die Möglichkeiten vereinfachter Modelle, die in dieser Arbeit verwendet werden.

2. Datenassoziation für robuste Objekterkennung

Ein wesentlicher Aspekt der Fahrzeugverfolgung ist die Datenassoziation, also die Zuordnung von Messdaten zu den jeweiligen Fahrzeugen. Die Zuverlässigkeit der Zustandsabschätzung hängt stark von der Anzahl der zur Verfügung stehenden Messpunkte ab. Die Arbeit thematisiert das Problem, dass Merkmalspuren während der Laufzeit aufgrund von sich ändernden Bedingungen in der Szene (z.B. Beleuchtungswechsel, Verdeckungen) verloren gehen können. Es wird erläutert, wie verlorene Merkmalspuren durch neue, im Bild neu initialisierte Spuren kompensiert werden, um die Robustheit zu gewährleisten. Die Zuordnung dieser neuen Spuren zu bestehenden Objekten ist entscheidend. Die Methode zur Zuordnung neuer Punkte zu existierenden Objekten wird als analog zu der in Abschnitt 3.9 vorgeschlagenen Methode beschrieben. Dabei werden die Punkte nicht mit gleichem Gewicht, sondern gewichtet proportional zu ihrer Objekt-Wahrscheinlichkeit zu den Histogrammen hinzugefügt. Theoretisch sind die Unsicherheiten der Messungen korreliert, was aber in der Praxis oft vernachlässigt wird, da zuverlässige Quantifizierung der Kovarianzen fehlt.

3. Herausforderungen bei der Datenassoziation und Lösungsansätze

Der Abschnitt beschreibt die Herausforderungen bei der Datenassoziation, insbesondere in dynamischen Szenarien. Wenn zu viele Merkmalspuren gleichzeitig verloren gehen und durch neue, unsichere Punkte ersetzt werden, kann dies die Schätzung negativ beeinflussen. Dieses Problem wird besonders bei verrauschten 3D-Punktmessungen deutlich, wie die Ergebnisse mit SGM-Stereo zeigen. Es wird eine Methode vorgestellt, die die Wahrscheinlichkeit berechnet, dass ein gegebener Punkt zu einem verfolgten Objekt oder dem statischen Hintergrund gehört. Hierbei werden auch Bewegungsinformationen verwendet, um beispielsweise das verfolgte Objekt von nahegelegenen stationären Hindernissen zu trennen. Die Methode ähnelt der probabilistischen Datenzuordnung in Abschnitt 3.9. Zusätzlich zu der Punkteanzahl werden schnelle Plausibilitätsprüfungen der Schätzung durchgeführt, um falsche positive Objekte schnell auszusortieren. Tests umfassen Größenprüfung, Bewegungsprüfung, Abstandsprüfung und Höhenprüfung. Scheitert ein Test, wird das Objekt als verloren markiert. Schließlich wird die Methode der maximalen Wahrscheinlichkeit zur Pose-Schätzung beschrieben.

IV.Auswertung und Ergebnisse

Die Leistungsfähigkeit des entwickelten Systems zur Fahrzeugverfolgung wird anhand von synthetischen und realen Daten evaluiert. Die Ergebnisse zeigen eine hohe Genauigkeit bei der Schätzung von Position, Bewegung und Form der Fahrzeuge, sowohl für den Gegenverkehr als auch für vorausfahrende Fahrzeuge. Der Vergleich verschiedener Filtermethoden (EKF, UKF, IMM) zeigt, dass der IMM-Ansatz einen guten Kompromiss zwischen Genauigkeit und Rechenzeit bietet. Herausforderungen wie teilweise verdeckte Objekte (Occlusion) und schwierige Lichtverhältnisse werden adressiert. Die Objekterkennung und Datenassoziation werden als kritische Punkte für die Systemleistung hervorgehoben.

1. Evaluierung mit synthetischen und realen Daten

Die Leistungsfähigkeit des entwickelten Fahrzeugverfolgungssystems wird sowohl mit synthetischen als auch mit realen Daten evaluiert. Für die synthetischen Daten wird eine realistische Simulationsumgebung mit Raytracing-Techniken (POV-Ray) verwendet. Die Fahrzeugbewegungen basieren auf einer realistischen Physik-Engine, die Informationen über Masse, Rad-Eigenschaften, Lenkwinkel, Gaspedal etc. berücksichtigt. Der Vorteil dieser Simulation liegt in der Verfügbarkeit von Ground-Truth-Daten für Pose, Bewegung und Tiefeninformationen. Diese Daten ermöglichen einen quantitativen Vergleich zwischen den geschätzten und den tatsächlichen Werten. Die Auswertung umfasst verschiedene Metriken wie RMSE für Geschwindigkeit und Gierrate sowie RMSCE für den Positionsfehler. Die Ergebnisse zeigen, dass der Interacting Multiple Models (IMM)-Filter einen guten Kompromiss zwischen Genauigkeit und Rechenzeit darstellt. Der Vergleich verschiedener Filteransätze (EKF, UKF, IMM) unter verschiedenen Rauschbedingungen wird detailliert beschrieben.

2. Analyse von Fahrszenarien und Manövern

Die Evaluierung umfasst drei realistische Fahrszenarien an Kreuzungen, die auf realen Straßengeometrien basieren. Das erste Szenario ähnelt einem Linksabbiegemanöver, das zweite beinhaltet das aneinander Vorbeifahren von zwei Fahrzeugen mit hoher Relativgeschwindigkeit, und das dritte zeigt ein schnelles Linksabbiegemanöver des Ego-Fahrzeugs vor einem anhaltenden Gegenverkehr. Die Ergebnisse zeigen die Fähigkeit des Systems, sowohl vorausfahrende als auch entgegenkommende Fahrzeuge und Querverkehr präzise zu verfolgen. Besonders herausfordernd sind dynamische Manöver wie Kurvenfahrten und plötzliche Bremsmanöver. Die Auswertung konzentriert sich auf die Genauigkeit der Schätzung von Geschwindigkeit, Gierrate und Pose, sowohl für den gesamten Sequenzverlauf als auch für spezifische Abschnitte der Manöver. Die Ergebnisse werden sowohl quantitativ (RMSE-Werte) als auch qualitativ (Visualisierung der Trajektorien) dargestellt.

3. Robustheit gegenüber Herausforderungen

Die Robustheit des Systems gegenüber verschiedenen Herausforderungen wird untersucht. Die Ergebnisse zeigen, dass die Punktwolkenrepräsentation robust gegenüber fehlerhaften Spuren, teilweisen oder Selbstverdeckungen ist, solange genügend zuverlässige Spuren vorhanden sind. Der Datenassoziationsmechanismus kompensiert erfolgreich verlorene Merkmalspuren zur Laufzeit, indem neue Punkte zum Modell hinzugefügt werden. Auch in schwierigen Szenarien, wie z.B. bei Nachtfahrten oder bei starkem Regen, liefert das System vielversprechende Ergebnisse. Der Einfluss von Reflexionen, schlechten Lichtverhältnissen und Verdeckungen auf die Genauigkeit der Fahrzeugverfolgung wird diskutiert. Die Ergebnisse belegen die Fähigkeit des Systems, auch unter schwierigen Bedingungen präzise Ergebnisse zu liefern. Der Vergleich der Ergebnisse mit und ohne SGM-Disparitätsmessungen zeigt die Vorteile des entwickelten Systems.

V.Zukünftige Arbeiten

Zukünftige Forschungsarbeiten konzentrieren sich auf die Integration von Szenenflussdaten zur Verbesserung der Objekterkennung und -verfolgung. Die Entwicklung von Methoden zur Langzeit-Trajektorienvorhersage, z.B. mit Particle Filtern, wird ebenfalls angestrebt. Der Einsatz von Conditional Random Fields (CRFs) zur Segmentierung des Szenenflusses soll die Robustheit des Systems weiter steigern.

1. Integration von Szenenflussdaten

Ein zentrales Thema für zukünftige Forschungsarbeiten ist die Integration von Szenenflussdaten, um die Genauigkeit der Objektpose- und Bewegungsschätzung zu verbessern. Derzeit werden in dem beschriebenen System dichte Disparitätskarten für die Tiefeninformation verwendet. Die Berechnung des dichten Szenenflusses ist jedoch rechenintensiv und belastet die verfügbare Rechenleistung stark. Daher wird in diesem Ansatz mit verteilten Szenenflussapproximationen gearbeitet. Die Integration der vollständigen, dichten Szenenflussdaten ist für zukünftige Arbeiten vorgesehen. Die Kombination von Tiefen- und Bewegungsinformationen aus dem Szenenfluss soll insbesondere die Robustheit gegenüber schwierigen Bedingungen wie zum Beispiel Occlusion verbessern. Durch die Kombination von Tiefeninformationen, optischem Fluss und Eigenbewegung des Fahrzeugs lassen sich Mehrdeutigkeiten im Flussfeld beseitigen, wie am Beispiel eines Fußgängers hinter einem parkenden Auto erläutert wird.

2. Langzeit Trajektorienvorhersage

Für die Vorhersage von Fahrtrajektorien über einen Zeitraum von 2-3 Sekunden ist die alleinige Betrachtung des aktuellen Bewegungszustands nicht ausreichend. Kreuzungsmanöver bestehen aus verschiedenen Phasen (Beschleunigung, Verzögerung, Gierratenänderung). Die Chronologie dieser Phasen ist in vielen Fahrsituationen jedoch ähnlich und vorhersehbar, wenn eine Sequenz von Zuständen aus vorherigen Zeitschritten bekannt ist. Ein partikel-filterbasierter Ansatz zur Langzeitvorhersage wird erwähnt (Hermes et al. 2009b). Dieser Ansatz verwendet eine Referenztrajektorien-Datenbank, die im Trainingsschritt erstellt wird und verschiedene Kreuzungstrajektorien enthält, die mit dem entwickelten Fahrzeugverfolgungsansatz berechnet wurden. Zur Laufzeit wird ein Trajektorienabschnitt basierend auf vorherigen Schätzungen definiert und mit ähnlichen Trajektorien in der Datenbank verglichen. Die Unsicherheit der Vorhersage wird durch die Partikelpopulation repräsentiert, wobei jedes Partikel einer bestimmten Trajektorienhypothese entspricht.

3. Verbesserung der Objekterkennung und Segmentierung

Weitere Verbesserungen der Objekterkennung und -segmentierung sind angestrebt. Hierzu wird der Einsatz von Conditional Random Fields (CRFs) vorgeschlagen. Das Segmentierungsproblem wird als Conditional Random Field (CRF) formuliert (Bishop 2006). Die Pixelpotentiale werden rein basierend auf den verfügbaren Tiefen- und Bewegungsinformationen aus dem Szenenfluss, den entsprechenden Unsicherheiten sowie Vorwissen über verfolgte Objekte in der Szene abgeleitet. Die Grundkonzepte ähneln der probabilistischen Datenzuordnung, wie in Abschnitt 3.9 vorgeschlagen. Der Ansatz unterscheidet sich dadurch, dass eine zusätzliche Klasse für die Bodenoberfläche integriert ist und die Szenenflussdaten an fast jedem Pixel in der Szene verfügbar sind. Lokale Glättungs- und globale Ordnungsbeschränkungen werden durch Berücksichtigung benachbarter Pixel im CRF lokal integriert. Die Inferenz wird über loopy belief propagation gelöst (MacKay 2003). Erste Segmentierungsergebnisse sind vielversprechend, wie exemplarisch in Abbildung 5.1 zu sehen ist. Diese Ergebnisse beinhalten keine Appearance-Features.