
Automatisiertes Kamera-Tracking für Vorlesungen
Dokumentinformationen
Autor | Philipp Lang |
Schule | Hochschule der Medien Stuttgart |
Fachrichtung | Audiovisuelle Medien |
Dokumenttyp | Bachelorarbeit |
Sprache | German |
Format | |
Größe | 3.01 MB |
Zusammenfassung
I.Automatisiertes Kamera Tracking zur Verbesserung der Vorlesungsaufzeichnung an der Universität Stuttgart
Diese Bachelorarbeit beschreibt die Implementierung und den Test eines automatischen Kamera-Tracking-Systems zur Verbesserung der Lesbarkeit von Tafelanschrieben in Vorlesungsaufzeichnungen an der Universität Stuttgart. Das Projekt nutzt die im Rahmen des Programms "Hörsäle 2020" installierte neue Medientechnik. Kernkomponenten sind die Software LectureSight, die PTZ-Kameras (Sony SRG-300H) und das VISCA over IP Protokoll zur Kamerasteuerung. Die Arbeit evaluiert die Effektivität des Systems, analysiert auftretende Probleme (z.B. Netzwerklatenz, Artefakte im Videostream) und deren Lösungen. Die Ergebnisse zeigen eine drastische Verbesserung der Lesbarkeit von Tafelanschrieben durch höhere Zoomstufen und bewegte Kameraführung. Die Videoanalyse in LectureSight nutzt Bewegungserkennung und Objekt-Erkennung zur automatischen Kameraführung.
1. Einleitung und Problemstellung
Die Arbeit untersucht die Verbesserung der Vorlesungsaufzeichnung an der Universität Stuttgart durch ein automatisiertes Kamera-Tracking-System. Das Hauptproblem besteht in der schlechten Lesbarkeit von Tafelanschreiben in bisherigen Aufzeichnungen. Die bestehenden Vorlesungsaufzeichnungen, oft nur aus Folien und Audios bestehend (Lecturnity), bieten nur eine eingeschränkte Lernleistung. Der Fokus liegt auf der Integration eines automatisierten Systems, um die Lesbarkeit von Tafelanschrieben in Vorlesungen, insbesondere in stark vertretenen Studiengängen wie Mathematik, Physik und Ingenieurwissenschaften, deutlich zu verbessern. Die Studie von Wulff et al. (2014, S. 185) unterstreicht die Notwendigkeit einer Lösung, da selbst mit der Einstellung "Tafel" in herkömmlichen Systemen die Lesbarkeit in großen Hörsälen unzureichend ist. Die Arbeit zielt darauf ab, ein System zu entwickeln und zu testen, das diese Einschränkungen überwindet und eine umfassendere und qualitativ hochwertigere Vorlesungsaufzeichnung ermöglicht. Dabei werden die bestehenden Voreinstellungen der Kamera (Totale, Tafel, Redner) berücksichtigt und ein automatisiertes System soll die Vorteile aller drei Perspektiven kombinieren.
2. Das Vorlesungsaufzeichnungssystem der Universität Stuttgart und das Projekt Hörsäle 2020
Die Universität Stuttgart verfügt über ein bestehendes Vorlesungsaufzeichnungssystem, bestehend aus Aufzeichnung, Videoserver und Lernplattform. Das Projekt "Hörsäle 2020" modernisierte die Hörsaal-Infrastruktur mit neuer Medientechnik, was die Implementierung des Kamera-Tracking-Systems ermöglichte. Die Hörsäle wurden in vier Größenklassen (S, M, L, XL) unterteilt, die sich in Sitzplatzanzahl, Videoprojektoren, Sprachbeschallung und der Ausstattung mit einer fest installierten IPTV-Übertragungs- und -aufzeichnungseinheit (Wireworx GmbH, 2015a) unterscheiden. Eine Crestron Mediensteuerung erlaubt die freie Auswahl des Sendesignals und den Start der Aufzeichnung. Datenschutzbestimmungen bedingen den physikalischen Schutz der Kameras: Die PTZ-Kameras sind in einem einseitig geöffneten Kasten verbaut und drehen sich bei Nichtgebrauch nach innen. Ein eigens entwickeltes Protokoll des TIK (Technische Informationsdienste der Universität Stuttgart) steuert die Kommunikation zwischen Mediensteuerung und Aufzeichnung, mit Statusmeldungen (Idle, Starting, Recording, etc.) per UDP an ein Touchpanel, welches den Dozenten über den Aufnahmeverlauf informiert. Zusätzliche Leuchten signalisieren den Aufzeichnungszustand.
3. VISCA und VISCA over IP Kamerasteuerung und Protokollanalyse
Die Arbeit beschreibt die Kamerasteuerung mittels des Sony VISCA Protokolls, ein Bussystem (RS-232/RS-422) zur seriellen Ansteuerung von bis zu sieben Kameras in Daisy-Chain-Topologie. VISCA over IP erweitert dies auf die Netzwerkkommunikation. Ein wichtiger Aspekt ist die Behandlung von Timeouts: Der Controller muss selbst die Timeout-Dauer festlegen, da das Protokoll dies nicht spezifiziert. Tests mit einem Python-Skript (Zurek & Pérez Vázquez, 2016) bestimmten die durchschnittliche Antwortzeit der Kamera (33ms, maximal 47ms). Die Sony SRG-300H Kamera zeigt jedoch Verzögerungen bei laufenden Aktionen. Die LectureSight Implementierung wurde angepasst, indem ein Timeout von 50ms implementiert wurde, um Fehler zu reduzieren. Die Arbeit diskutiert auch die Ausnutzung von 4K-Auflösung, wobei Statista (2016) und HbbTV (2016) einen geringen 4K-Fernseher-Marktanteil im Jahr 2015 (13,5%) aufzeigen. Alternativen zur Verbesserung der Lesbarkeit werden diskutiert, darunter die Erhöhung der absoluten Auflösung mit einer 4K-Kamera oder die Post-Processing-basierte Personenerkennung.
4. Softwarearchitektur und Implementierung mit LectureSight Maven und OSGi
Die Software LectureSight wurde mit Java, Maven und OSGi (Open Services Gateway initiative) entwickelt. Maven automatisiert den Build-Prozess und verwaltet die Abhängigkeiten. OSGi ermöglicht die modulare Softwarearchitektur mit Bundles (Module), die zur Laufzeit installiert und deinstalliert werden können (Bundle Life Cycle, Schmidt-Casdorff & Vogel, 2009). Die Arbeit beschreibt die Architektur von LectureSight, inklusive des "Video Analysis Template", welches Bewegungserkennung, Blob- und Objekt-Erkennung verwendet, und Templates einsetzt, um das Tracking zu verbessern. Der Steering Worker steuert die Kamerabewegung, indem er die aktuelle und Zielposition vergleicht und die Kamerarichtung und -geschwindigkeit bestimmt. Für den Testaufbau wurde eine GeForce 750 Ti Grafikkarte verwendet (5 CUs, 2048 MB), obwohl LectureSight mindestens 6 CUs und 512 MB empfiehlt (Wulff & Marquard, 2016a). Die Arbeit beschreibt auch die Verwendung von Git und die Konfiguration des Build-Prozesses mit Maven und die Auswahl der benötigten Bundles (z.B. lecturesight-framesource-gst anstatt lecturesight-framesource-v4l).
5. Test und Optimierung des Kamera Trackings
Der Testaufbau verwendete eine reduzierte Videoauflösung (640x480 Pixel bei 30 Hz) wegen der begrenzten Rechenleistung. Die Umstellung des Videostreams von MJPEG auf H.264 reduzierte Artefakte. Ein Gaußscher Weichzeichner wurde zur Rauschreduktion eingesetzt. Die Arbeit beschreibt die Steuerung der Kameras (Tracking und Übersichtskamera), wobei die Übersichtskamera nur eine Weboberfläche besitzt und Basic Authentication (Base64-Codierung) verwendet. Der Scene Profile Editor ermöglicht die Definition von "ignore"-Bereichen, um den Tracking-Prozess zu optimieren (z.B. Projektionsbereich, Sitzplätze). Der "LectureSight pan-only Camera Operator" steuert nur horizontale Kamerabewegungen aus Datenschutzgründen. Der "Scripted Camera Operator" bietet erweiterte Möglichkeiten, wurde aber nicht getestet. Ausführliche Tests bestimmten die optimalen Parameter für das Tracking, z.B. die maximale Blob-Größe und die maximale Geschwindigkeit. Fehlerbehebung umfasste die Korrektur von Byte-Offsets in der Paketanalyse und die Implementierung fehlender Message Types im VISCA over IP Modul. Die Kommunikation mit LectureSight nutzt zwei UDP/IP-Verbindungen (Ports 52379 und 52380). Die Steuerung von Presets in der Crestron Mediensteuerung zur Auswahl der Kameraeinstellungen wurde ebenfalls angepasst.
6. Ergebnisse und Verbesserung des Trackings
Die Ergebnisse zeigen eine deutliche Verbesserung der Lesbarkeit von Tafelanschreiben durch das automatisierte Kamera-Tracking. Messungen der Tafelhöhe in den drei Kameraeinstellungen ("Totale", "Tafel", "Tracking") zeigen eine ca. 5,4-fache Vergrößerung im Vergleich zur "Totalen" Einstellung und eine ca. 2,8-fache im Vergleich zur "Tafel" Einstellung. Eine 4K-Kamera würde nur eine Verdoppelung der Höhe ermöglichen. Die Arbeit beschreibt die Erweiterung des virtuellen Kameraoperators, um bogenförmige Schwenks bei großen Abständen und starker Neigung zu vermeiden. Ein ISO-Testbild wurde zur objektiven Beurteilung der Bildqualität und der Anwendung des Nyquist-Shannon-Abtasttheorems verwendet. Probleme mit der falsch implementierten Netzwerkschnittstelle der SRG-300H Kamera (Gateway-Verwendung) wurden festgestellt und durch die Aktivierung des Slow Mode und Anpassung der maximalen Geschwindigkeit verbessert, um einen ruhigeren Bremsvorgang zu erreichen. Die Arbeit beschreibt die notwendige Kommunikation zwischen LectureSight Server und den Kameras über die Mediensteuerung aufgrund der Subnetz-Aufteilung der Hörsäle.
II.Das Vorlesungsaufzeichnungssystem und die Hörsaal Infrastruktur
Die Universität Stuttgart verfügt über ein bestehendes System zur Vorlesungsaufzeichnung, bestehend aus Aufzeichnungshardware, einem Videoserver und einer Lernplattform. Die Arbeit integrierte das Kamera-Tracking in dieses System. Die Hörsäle wurden im Projekt "Hörsäle 2020" mit neuer Medientechnik ausgestattet und in vier Größenklassen (S, M, L, XL) eingeteilt, die sich in Ausstattung (z.B. Anzahl der Sitzplätze, Videoprojektoren, Sprachbeschallung, IPTV) unterscheiden. Eine Crestron Mediensteuerung ermöglicht die Auswahl des Sendesignals und die Steuerung der Aufzeichnung. Die Kameras sind aus Datenschutzgründen in einem speziellen Gehäuse verbaut. Die Kommunikation zwischen Mediensteuerung und Aufzeichnung wird über ein eigens entwickeltes Protokoll geregelt. Der Einsatz der IPTV-Übertragungs- und Aufzeichnungseinheit ist zentral für das Projekt.
1. Bestehendes Vorlesungsaufzeichnungssystem
Die Universität Stuttgart verfügte bereits vor dem Projekt über ein Vorlesungsaufzeichnungssystem, bestehend aus drei Kernkomponenten: der Aufzeichnungseinheit, einem Videoserver und einer Lernplattform. Diese Infrastruktur bildete die Basis für die Integration des neuen automatisierten Kamera-Tracking-Systems. Die Arbeit beschreibt die Erweiterung dieses bestehenden Systems um die Funktionalität des Kamera-Trackings. Dies erforderte nicht nur die Installation neuer Software, sondern auch Anpassungen an bestehender Software, insbesondere an der Crestron Mediensteuerung. Die bereits existierende Infrastruktur, bestehend aus Aufzeichnung, Videoserver und Lernplattform, war also nicht nur Ausgangspunkt, sondern auch integraler Bestandteil des Projekts. Die Integration des Kamera-Trackings erfolgte also nicht als eigenständiges System, sondern als Erweiterung der bereits vorhandenen Vorlesungsaufzeichnungsinfrastruktur, um die bestehende Funktionalität zu verbessern und zu ergänzen. Das Zusammenspiel zwischen Alt- und Neuentwicklung stellt somit einen wichtigen Aspekt des Projekts dar.
2. Das Projekt Hörsäle 2020 und die Hörsaal Infrastruktur
Das Projekt "Hörsäle 2020" an der Universität Stuttgart spielte eine entscheidende Rolle bei der Implementierung des Kamera-Tracking-Systems. Im Rahmen dieses Projekts wurden die Hörsäle mit neuer Medientechnik ausgestattet. Zur Vereinfachung der Planung (finanziell und technisch) wurden die Hörsäle in vier Raumtypen (S, M, L, XL) unterteilt, die sich in ihrer Ausstattung unterscheiden. Diese Unterschiede umfassen die Anzahl der Sitzplätze, die Anzahl der Videoprojektionen, das Vorhandensein einer Sprachbeschallung und die Integration einer fest installierten IPTV-Übertragungs- und -aufzeichnungseinheit (Wireworx GmbH, 2015a). Die neue Medientechnik, die durch das Projekt "Hörsäle 2020" bereitgestellt wurde, bildete die technische Grundlage für die Installation und den Betrieb des automatisierten Kamera-Tracking-Systems. Die Kategorisierung der Hörsäle in vier Größenklassen ermöglichte eine differenzierte Betrachtung der technischen Anforderungen und Ressourcenallokation innerhalb des Projekts. Die Integration der IPTV-Einheit ist besonders relevant, da sie einen wesentlichen Bestandteil der bestehenden Vorlesungsaufzeichnungsinfrastruktur darstellt und somit die Grundlage für die Integration des Kamera-Trackings bildet.
3. Mediensteuerung Datenschutz und Aufzeichnungsstatus
Eine Crestron Mediensteuerung ermöglicht die flexible Auswahl des Sendesignals und den direkten Start des Capture-Agents (CA). Ein Vorschaubild auf dem Touchpanel gibt dem Dozenten eine Übersicht über die Sendeleitungen. Eine ON AIR-Leuchte signalisiert den Aufnahme- und Kamerazustand sowohl Dozenten als auch Studenten. Aus Datenschutzgründen muss die Kamera, wenn sie nicht aktiv verwendet wird, physisch deaktiviert sein, was durch den Einbau der PTZ-Kameras in einem einseitig geöffneten Kasten sichergestellt wird. Die Kameras drehen sich nach innen, wenn sie ausgeschaltet sind, um einen direkten visuellen Hinweis auf den ausgeschalteten Zustand zu geben. Für die Dozenten-gesteuerte Bedienung (Starten, Pausieren, Stoppen) der Aufzeichnung wurde vom TIK (Technische Informationsdienste) ein eigenes Protokoll entwickelt, das verschiedene Zustände (Idle, Starting, Recording, etc.) umfasst. Der Status wird per UDP-Paket einmal pro Sekunde abgefragt und auf dem Touchpanel angezeigt. Zusätzlich werden beim Aufzeichnungsstart (Recording-Zustand) zwei Ports von Netzwerksteckdosen geschaltet und die Leuchten für Dozenten und Kamera aktiviert. Dieses detaillierte System zur Statusanzeige und -kontrolle stellt ein wichtiges Element der benutzerfreundlichen und sicheren Vorlesungsaufzeichnung dar.
III.VISCA und VISCA over IP Kamerasteuerung
Die Arbeit beschreibt das VISCA Protokoll von Sony zur Steuerung von PTZ-Kameras. Das System verwendet eine Daisy-Chain Topologie über RS-232 oder RS-422. VISCA over IP ermöglicht die Netzwerkbasierte Kamerasteuerung. Die Arbeit analysiert die Herausforderungen der Netzwerkkommunikation, insbesondere Timeouts bei der Bestätigung von Kommandos (ACK), die mittels Python-Skript untersucht wurden (durchschnittlich 33ms, maximal 47ms). Die Implementierung des Protokolls in LectureSight wurde angepasst um diese Latenzen zu berücksichtigen. Probleme mit der Sony SRG-300H Kamera hinsichtlich des Gateways und der Netzwerk Implementierung wurden ebenfalls behandelt.
1. Das VISCA Protokoll zur PTZ Kamerasteuerung
Die Arbeit beschreibt detailliert das von Sony entwickelte VISCA-Protokoll, das sowohl ein Steuerprotokoll für Pan-Tilt-Zoom (PTZ)-Kameras als auch ein Bussystem darstellt. Dieses Bussystem ermöglicht die serielle Ansteuerung von bis zu sieben Kameras über RS-232 oder RS-422 mit einem Controller, in diesem Fall die Mediensteuerung. Die verwendete Topologie ist eine Daisy-Chain, bei der die Geräte hintereinander geschaltet sind, wobei jede Kamera einen VISCA-Input und -Output besitzt (Sony, 2014). Die Beschreibung des VISCA-Protokolls ist essentiell für das Verständnis der Kamerasteuerung im Kontext des automatisierten Kamera-Tracking-Systems. Das Verständnis der seriellen Kommunikation und der Daisy-Chain-Topologie ist wichtig für die spätere Analyse und die Herausforderungen, die sich bei der Implementierung des Netzwerkbasierten Systems ergeben. Die Arbeit legt den Grundstein für das Verständnis der Funktionen und Limitationen des VISCA-Protokolls im Vergleich zum VISCA over IP Protokoll.
2. VISCA over IP Netzwerkbasierte Kamerasteuerung und Fehlerbehandlung
Die Erweiterung des VISCA-Protokolls auf VISCA over IP ermöglicht die Netzwerkbasierte Steuerung der PTZ-Kameras. Ein zentraler Punkt der Arbeit ist die Analyse der Herausforderungen und Probleme, die bei der Implementierung und Nutzung von VISCA over IP auftreten. Ein wichtiges Problem ist der fehlende Standard für Timeouts bei der Bestätigung eingehender Nachrichten (ACK). Um die optimale Timeout-Dauer zu bestimmen, wurden Tests mit einem Python-Skript (Zurek & Pérez Vázquez, 2016) durchgeführt. Diese Tests zeigten eine durchschnittliche Antwortzeit von 33 Millisekunden und eine maximale Antwortzeit von 47 Millisekunden. Die verwendete Sony SRG-300H Kamera verhält sich jedoch nicht immer vorhersehbar, wobei die Antwortzeiten bei laufenden Aktionen verlängert werden. Aus diesen Erkenntnissen wurde die Implementierung in LectureSight angepasst, indem ein Timeout von 50 Millisekunden festgelegt wurde, um die Fehlerbehandlung zu verbessern. Die effiziente Fehlerbehandlung spielt eine zentrale Rolle für die Zuverlässigkeit des gesamten Systems.
3. Probleme und Lösungen bei der VISCA over IP Implementierung
Die Arbeit beschreibt verschiedene Probleme und deren Lösungen während der Implementierung und des Tests des VISCA over IP Moduls. Die anfängliche Version des Moduls übernahm einige Konzepte direkt von VISCA, wie die Broadcast-Suche nach Kameras, die für serielle Systeme typisch ist, aber für IP-basierte Systeme nicht optimal ist. Dieses Problem wurde gelöst, indem das Modul überarbeitet und die IP-Adresse und der Port für die VISCA over IP Steuerung in die Konfigurationsdatei ausgelagert wurden. Die Kamera Sony SRG-300H zeigte weitere Probleme mit der Netzwerk-Schnittstelle, insbesondere in Bezug auf die Verwendung des Gateways. Das Gateway wird zwar konfiguriert, aber nicht wie erwartet verwendet. Dies führte dazu, dass die Kommunikation zwischen dem zentralen LectureSight-Server und den Kameras nicht direkt möglich war, da die Hörsäle in verschiedene Subnetze aufgeteilt sind. Als Lösung wurde die bereits vorhandene Mediensteuerung pro Hörsaal verwendet, die die Kommunikation zwischen Server und Kameras vermittelt. Die Kommunikation zwischen LectureSight und der Mediensteuerung erfordert zwei neue UDP/IP-Verbindungen (Port 52379 für den Tracking-Status, Port 52380 für VISCA over IP). Die Verwendung unterschiedlicher Ports vermeidet Interferenzen mit der bestehenden Kamerasteuerung.
4. Anpassungen der Kamerasteuerung und Presets
Für die Steuerung der Kamera wurden Presets in der Mediensteuerung verwendet, um zwischen den drei Kameraeinstellungen (Totale, Tafel, Tracking) zu wechseln. Da das Tracking-Preset (zuvor "Redner") neu hinzugefügt werden musste, war eine Anpassung der Preset-Steuerung notwendig. Die Home-Position des Presets sichert den Datenschutz, indem die Kamera bei ausgeschalteter Anlage in den Kamerakasten zeigt. Die Integration von VISCA over IP benötigte weitere Anpassungen, da das Crestron Modul für VISCA over IP nicht identisch mit dem für VISCA ist. So gab es bei VISCA pro Preset einen eigenen Save-Befehl, während VISCA over IP nur einen gemeinsamen Save-Befehl verwendet. Dies wurde durch einen OR-Logikbaustein in der Implementierung gelöst. Die Steuerung der Übersichtskamera, die kein eigenes Steuerprotokoll besitzt, erfolgt über eine Weboberfläche mit Basic Authentication. Um das Pop-up zur Eingabe von Benutzername und Passwort zu unterdrücken, kann die Weboberfläche direkt über die URL mit den im Base64 kodierten Zugangsdaten aufgerufen werden (http://username:[email protected]). Die Anpassungen der Kamerasteuerung an VISCA over IP und die Integration der Übersichtskamera zeigen die Herausforderungen bei der Integration unterschiedlicher Systeme und Protokollen.
IV.Softwareentwicklung mit LectureSight Maven und OSGi
Die Software LectureSight wurde mit Java, Maven und OSGi (Open Services Gateway initiative) entwickelt. Maven dient zum automatisierten Build-Prozess, OSGi ermöglicht ein modulares Design. Die Arbeit beschreibt die Architektur von LectureSight, insbesondere die Module für Videoanalyse, Kamera-Steuerung (Steering Worker) und VISCA over IP. Das "Video Analysis Template" in LectureSight nutzt Bewegungserkennung, die Erkennung von Blobs und Templates zur Verbesserung des Trackings. Die Arbeit beschreibt die Optimierung der Software durch Anpassung von Parametern und die Lösung von Fehlern im VISCA over IP Modul und bei der Paketanalyse. Die Verwendung von Git als Versionsverwaltungssystem wird auch erwähnt.
1. LectureSight Softwarearchitektur und Entwicklungsumgebung
Die Software LectureSight bildet das Herzstück des automatisierten Kamera-Tracking-Systems. Die Entwicklung erfolgte unter Verwendung von Java als Programmiersprache und nutzt die Open Services Gateway initiative (OSGi) als Plattform für das modulare Design. OSGi ermöglicht die Verwaltung von Bundles (Modulen), die zur Laufzeit installiert und deinstalliert werden können (Bundle Life Cycle, Schmidt-Casdorff & Vogel, 2009). Diese modulare Architektur erlaubt eine flexible Anpassung und Erweiterung der Software. Als Build-Tool und für die Verwaltung der Java-Projekte kam Apache Maven zum Einsatz (The Apache Software Foundation, 2016b). Die zentrale Konfigurationsdatei pom.xml enthält alle notwendigen Einstellungen des Projekts. Die Entwicklungsumgebung war Eclipse, und Git wurde als Versionsverwaltungssystem verwendet. Der Build-Prozess umfasste verschiedene Phasen (validate, compile, test, package, etc.), wie im Default Lifecycle von Maven definiert (Porter, 2016). Die Arbeit beschreibt die Anpassung der Softwarearchitektur mit einem neuen "Video Analysis Template" Bundle, welches die Bewegungserkennung und die Erkennung von Blobs (Lindeberg, 1993) und Templates für ein zuverlässigeres Tracking verwendet.
2. Videoanalyse und Steuerung in LectureSight
LectureSight enthält zwei wichtige Bundles für die Videoanalyse und die Kamerasteuerung: das Video Analysis Template und den Steering Worker. Das Video Analysis Template führt eine Bewegungserkennung und erstellt ein Hintergrundmodell (Wulff et al., 2014). Bewegungen im Bild erzeugen ein Vordergrundmodell. Im Gegensatz zu anderen Softwarelösungen behält LectureSight das Vordergrundmodell über einen längeren Zeitraum, um zeitliche Dynamik zu berücksichtigen (Wulff et al., 2014). Der Steering Worker steuert die Kamerabewegung, indem er die aktuelle und berechnete Zielposition vergleicht und die Richtung und Geschwindigkeit der Kamerabewegung bestimmt (Wulff et al., 2014). Kleine Bewegungen werden ignoriert, und bei schnellen Schwenks wird kurz vor dem Ziel abgebremst. Die Arbeit erwähnt die Verwendung zusätzlicher Funktionen, wie "gaussianblur" (Gaußscher Weichzeichner) und "autovideoconvert" (automatischer Farbraumkonverter). LectureSight empfiehlt eine GPU mit mindestens sechs CUs und 512 MB Grafikspeicher (Wulff & Marquard, 2016a); im Testaufbau wurde jedoch eine GeForce 750 Ti (fünf CUs, 2048 MB) erfolgreich verwendet.
3. Konfiguration Test und Fehlerbehebung in LectureSight
Für die Konfiguration von LectureSight waren verschiedene Schritte notwendig, wie die Auswahl der Bundles in der pom.xml (z.B. GStreamer als Videoquelle). Die Arbeit beschreibt die Anpassung der Videoauflösung auf 640x480 Pixel bei 30 Hz, um die Rechenleistung zu reduzieren, da das System nicht leistungsstark genug war, um HD-Video mit voller Framerate zu verarbeiten. Probleme mit Artefakten im Videostream wurden durch die Umstellung des Codecs von MJPEG auf H.264 gelöst, während ein Gaußscher Weichzeichner mit geringer Varianz Bildrauschen entgegenwirkte. Die Arbeit beschreibt die Darstellung der Videoquellen beider Kameras, wobei die Bildmitte mit einem Fadenkreuz im VLC Media Player markiert wurde, um die Kamerasteuerung zu vereinfachen. Der Scene Profile Editor ermöglicht die Definition von "ignore"-Bereichen, um störende Elemente wie den Projektionsbereich oder die Sitzplätze der Studenten aus der Videoanalyse auszuschließen. Die Konfiguration des Camera Operators beinhaltete die Startposition, den initialen Zoomwert und das "Target Timeout" (Wulff & Marquard, 2016b). Tests zeigten, dass die Anpassung der maximalen Blob-Größe und der maximalen Geschwindigkeit das Tracking verbesserte und zu einem ruhigeren Bild führte.
4. Fehlerbehebung und Optimierung
Die Arbeit beschreibt verschiedene Fehler und deren Behebung während der Softwareentwicklung und des Tests. Häufige Fehler im VISCA over IP Bundle waren Byte-Offsets bei der Paketanalyse, die durch die Berücksichtigung des Headers behoben wurden. Die Implementierung fehlender Message Types wurde nachgerüstet. Ein Compiler-Fehler beim ersten Build wurde behoben, indem int-Arrays durch byte-Arrays ersetzt wurden. Die Vorabversion der VISCA over IP Steuerung enthielt Fehler, die behoben werden mussten, bevor die Tests beginnen konnten. Insbesondere wurde das Konzept der Broadcast-Suche, das von VISCA übernommen wurde, für IP-Systeme angepasst und die IP-Adresse und der Port in die Konfigurationsdatei verschoben. Zusätzliche Anpassungen betrafen die Kamerasteuerung, insbesondere die Implementierung des Slow Mode der Sony SRG-300H Kamera (Abbildung 28), um einen weniger abrupten Bremsvorgang zu ermöglichen. Die Optimierungen zeigen die iterative Natur der Softwareentwicklung und -optimierung im Rahmen des Projekts.
V.Test und Ergebnis des automatisierten Kamera Trackings
Der Testaufbau umfasste die Verwendung einer GeForce 750 Ti Grafikkarte und die Anpassung der Videoauflösung (640x480 Pixel) um die benötigte Rechenleistung zu reduzieren. Probleme mit Artefakten im Videostream wurden durch Umstellung des Codecs von MJPEG auf H.264 behoben. Ein Gaußscher Weichzeichner wurde zur Reduzierung von Bildrauschen eingesetzt. Die Arbeit beschreibt die Konfiguration des Camera Operators in LectureSight, einschließlich der Definition von "ignore"-Bereichen im Szenenprofil zur Vermeidung von Tracking-Störungen. Tests wurden durchgeführt um die optimalen Parameter für das Tracking zu finden und verschiedene Kameraeinstellungen („Totale“, „Tafel“, „Tracking“) zu evaluieren. Die Ergebnisse zeigen eine deutliche Verbesserung der Bildqualität und Lesbarkeit von Tafelanschrieben im Vergleich zu statischen Kamerapositionen. Ein ISO-Testbild wurde zur objektiven Beurteilung der Bildqualität genutzt, wobei das Nyquist-Shannon-Abtasttheorem relevant ist. Die Arbeit erwähnt auch die Herausforderungen der Kompatibilität mit 4K-Fernsehern.
1. Testaufbau und Hardware
Für den Testaufbau des automatisierten Kamera-Trackings wurde eine GeForce 750 Ti Grafikkarte verwendet, obwohl LectureSight eine GPU mit mindestens sechs CUs und 512 MB Grafikspeicher empfiehlt (Wulff & Marquard, 2016a). Die GeForce 750 Ti (fünf CUs, 2048 MB) funktionierte jedoch zufriedenstellend, da die Dokumentation von LectureSight auf veraltete GPUs mit nur 8 CUDA-Kernen pro SM oder CU basiert. Um die Rechenleistung zu optimieren und die Datenmenge zu reduzieren, wurde die Videoauflösung bei gleichbleibender Framerate von 30 Hz auf 640x480 Pixel reduziert. Dies war ohne Qualitätsverlust möglich, da die Übersichtskamera ein Weitwinkelobjektiv besitzt und der relevante Bildausschnitt in der Bildmitte mit der geringsten Verzerrung liegt. Zusätzlich wurde der Videostream von MJPEG auf H.264 umgestellt, um Kompressionsartefakte zu minimieren, die das Tracking störten. Ein Gaußscher Weichzeichner mit geringer Varianz wurde zur Reduktion von Bildrauschen eingesetzt. Die Auswahl der Hardware und die getroffenen Optimierungen zeigen die notwendigen Kompromisse zwischen Performance und verfügbarer Rechenleistung im gegebenen Kontext.
2. Testszenarien und Parameteroptimierung
Die Tests umfassten zunächst einen Testaufbau mit einer Person, um die Funktionalität des Trackings bei verschiedenen Bewegungsmustern (schnelles Hin- und Hergehen, Verlassen und Wiedereintritt in die Szene) zu überprüfen. Zusätzlich wurden die Tafeln bewegt und beschrieben, um das Verhalten des Systems unter realistischen Bedingungen zu analysieren. Das Tracking funktionierte auch nach dem Verlassen und Wiedereintritt in die Szene gut. Tafelbewegungen störten jedoch das Tracking, was durch Anpassung der maximalen Blob-Größe behoben wurde. Schnelle Bewegungen führten zu einem hektischen Bild, weswegen die Maximalgeschwindigkeit reduziert wurde. Die Reduzierung der Genauigkeit des Steering Workers verbesserte die Bildqualität bei kleineren Bewegungen. Im Scene Profile Editor wurden "ignore"-Bereiche definiert, um störende Elemente wie den Projektionsbereich und den Sitzbereich der Studenten auszuschließen (Abbildung 25). Diese Tests unterstreichen die Notwendigkeit einer sorgfältigen Parameteroptimierung zur Erreichung eines optimalen Tracking-Ergebnisses. Die iterative Anpassung der Parameter zeigt den iterativen Prozess der Optimierung und Feinabstimmung des Systems.
3. Ergebnisse und Bewertung der Lesbarkeit
Die Ergebnisse zeigen eine drastische Verbesserung der Lesbarkeit von Tafelanschrieben durch die Verwendung des automatisierten Kamera-Trackings. Die Messung der Tafelhöhe in drei verschiedenen Kameraeinstellungen ("Totale", "Tafel", "Tracking") ergab eine 5,4-fache Vergrößerung im Vergleich zur "Totalen" und eine 2,8-fache Vergrößerung im Vergleich zur "Tafel"-Einstellung. Im Vergleich dazu würde eine 4K-Kamera nur eine Verdoppelung der Tafelhöhe ermöglichen. Der Vergleich der verschiedenen Einstellungen unterstreicht die Effektivität des automatisierten Kamera-Trackings. Zur objektiven Bewertung der Bildqualität wurde ein ISO-Testbild verwendet. Die einzelnen parallelen Linien des Testbildes müssen klar unterscheidbar sein, was aufgrund der Abtastung des Bildes durch das Nyquist-Shannon-Abtasttheorem (Kotelnikov, 1933) erfordert. Die erzielte Verbesserung der Lesbarkeit wird auch im Kontext der bisherigen Vorlesungsaufzeichnungen gesehen, die oft nur aus Folien und Audio bestanden und somit eine eingeschränkte Lernleistung aufwiesen. Die bewegte Kamera verbessert die Erkennbarkeit des Dozenten und somit die Lernleistung erheblich.
Dokumentreferenz
- File:Kugelkoord-def.svg (Ag2gaeh (Wikimedia Commons, Hrsg.))
- Bericht zum Staatshaushaltsplan für 2015 / 2016 (Bergert, I.)
- Which is the correct graph of arccot x? (Bourne, M. (Interactive Mathematics, Hrsg.))
- 7. The Inverse Trigonometric Functions (Bourne, M. (Interactive Mathematics, Hrsg.))