SFB-453: Telepräsenz

1999 etablierte die Deutsche Forschungsgemeinschaft (DFG) den Sonderforschungsbereich 453 “Telepräsenz und Teleaktion“. Mit Beschluss der DFG vom 21. November 2007 wurde die 4. und letzte Phase dieses Sonderforschungsbereiches bis 2010 bewilligt.

Der LDV ist in diesem Sonderforschungsbereich in den Teilprojekten M3 und M4 engagiert

Teilprojekt M3: 3D-Video Rekonstruktion

Innerhalb des Teilprojektes M3 wird ein System zur Visualisierung von 3D Rekonstruktionen entwickelt. Eine speziell dafür konzipierte Benutzeroberfläche unterstützt den Operator, ohne dabei die subjektive Wahrnehmung der Telepräsenz zu stören. Dieses System kann entweder synthetisch photorealistische Abbildungen generieren oder reale Kameraaufnahmen an den Operator übermitteln. Der angestrebte Blickwinkel des Operators entscheidet dabei darüber, ob die synthetische oder die bildgetreue Art der Darstellung gewählt wird. Für eine realitätsnahe Abbildung der entfernten Umwelt benötigt das System eine Aktualisierung des Models in Echtzeit sowie transparente Übergänge beim Wechsel der Darstellung vom synthetischen Bild zum Kamerabild. Für diesen weichen Übergang der Anzeigearten sorgt ein polygonales 3D Modell. Dieses Modell wird aus Bildern generiert, die mit Hilfe von Stereo-Kameras aufgezeichnet werden.

Das notwendige 3D Modell wird schrittweise entwickelt: Zunächst muss die Stereo – Kamera bezüglich ihrer intrinsischen (Kameraeinstellungen) und extrinsischen Parameter (Position der Kamera in ihrer aktuellen Umwelt) kalibriert werden. Um die 3D Koordinaten zu ermitteln, werden in einem zweiten Schritt korrespondierenden Koordinaten in den Stereobildern einander zugeordnet. Nachfolgend werden die Tiefenwerte ermittelt. Zum Abschluss wird daraus die 3D Rekonstruktion errechnet und die Punkte in eine Dreiecks-Gitterstruktur überführt. Diesen Prozess begleiten eine Reihe komplexer Rechenschritte. Wir forschen daran, Algorithmen für diesen Prozess zu optimieren. Das Ziel liegt dabei darin, die Rechengeschwindigkeit zu er erhöhen und damit den Gesamtprozess effizienter zu gestalten.

Ziele und Methoden der 4. Phase

  1. Reduzierung der 3D Punkte im Geometriemodell:

    Die 3D Punkte, die aus den verschiedenen Ansichten der Szene berechnet werden, liegen sehr dicht beieinander. Damit die 3D Struktur auf das M3 Display abgebildet werden kann, müssen diese Punkte durch Dreiecksnetze modelliert werden. Wegen der hohen Anzahl an 3D Punkten ist die zur Übertragung der Dreiecksnetze benötigte Datenrate sehr hoch. EinLösungsansatz sieht vor, die 3D Punkte in einen alternativen Raum zu transformieren und dort mit einer geringeren Anzahl von Punkten zu repräsentieren. Dies kann beispielsweise mit robusten Regressionsverfahren erzielt werden. Die Lösung soll die Fusion mit bereits existierenden 3D Punkten ermöglichen, es soll also ein Online-Update unterstützt werden. Die Reduzierung der Anzahl der Punkte ermöglicht eine Erhöhung der Geschwindigkeit, sowohl bei der Übertragung der Dreiecksnetze, als auch bei der Modelldarstellung.

  2. Mobile Sensoren/Dynamische Szenen:

    Die Szenen, die in der vorangegangenen Projektphase behandelt wurden, waren fast ausschließlich statisch. Die aktuelle Szene soll in Zukunft sich bewegende Objekte und Sensoren einschließen. Dadurch werden neuartige Algorithmen zur Extrahierung der 3D Struktur der Szene benötigt. Ein Lösungsvorschlag, um zusätzlich die Modellaktualisierung zu beschleunigen, ist die Rekonstruktion mit einem Motion Tracking Algorithmus. Die Bewegungsdaten werden benutzt um neue Tiefenkarten vorauszuberechnen, d.h. die Tiefenkarten der sich bewegenden Objekte werden durch Blob-tracking Algorithmen behandelt. Dadurch wird eine regelmässige Aktualisierung des 3D Modells ermöglicht.

  3. Distributed Video Coding:

    Beim Einsatz mehrerer Stereokameras werden mehrere zeitlich/räumlich korrelierte Bilder aufgenommen, die über den Übertragungskanal vom Teleoperator zum Operator gesendet werden müssen. Dadurch erhöht sich die Anforderung an die Rechenleistung des Teleoperators bedingt durch die Komplexität der Bildkodierung, die aufgrund des ebenfalls gesteigerten Bedarfs an Übertragungsrate unverzichtbar ist. Ein Ansatz zur Lösung dieser Situation stellt Distributed Video Coding (DVC) dar, wobei u.A. die Rechenkomplexität vom Enkoder (Teleoperator-Seite) auf den Dekoder (Operator-Seite) verschoben werden kann. Auf diese Weise kann auf der Teleoperatorseite eine geringere Komplexität erreicht werden. Der DVC Ansatz baut darauf auf, dass die unterschiedlichen Kameras zeitlich/räumlich korrelierte Bilder aufnehmen, und sich diese Korrelation mit dem Ziel der verbesserten Kompression ausnutzen lässt. Dies ist insbesondere von Bedeutung, da die Arbeitsleistung der 3D Modellgenerierung Algorithmen sind abhängig von der Datenrate und der Qualität die dekodierten Bilder.

 

Teilprojekt M4: 3D-Audio Lokalisation

Das Teilprojekt M4 soll sich hauptsächlich mit akustischer Telepräsenz beschäftigen. Die bisherige Arbeit konzentrierte sich vor allem auf die akustische Modalität auf Seiten des Operators und des Teleoperators, unabhängig von den übrigen Modalitäten. Der Teleoperator besitzt in seinen künstlichen Gehörgängen Mikrophone, mit denen eintreffende Schallsignale aufgenommen werden; diese werden anschließend analysiert und ihre Quelle geortet. Im Gegensatz zur Stereovision, bei der der Teleoperator nur Objekte innerhalb seines beschräkten Sichtbereiches zuordnen kann, kann der Teleoperator beim akustischen Richtungshören Signale aus allen Richtungen orten, auch jene von hinten.

Die Information über den Ort der Quelle wird zusammen mit dem Schallmuster vom Teleoperator zum Operator übertragen. Dort wird dann das eintreffende Schallsignal mit der Ortsinformation mit dynamischer binauraler Synthese wiederum umgewandelt, um ein dreidimensionales Hörerlebnis über Kopfhörer zu reproduzieren. Damit nimmt der Operator den 3D-Klang exakt aus der Richtung war, aus der sie auch der Teleoperator erhalten hat. Man bedenke auch, dass anstatt des originalen Schallmusters jedes beliebige andere künstliche oder natürliche Schallereignis verwendet werden kann. Dieses wird dann in der virtuellen akustischen 3D-Szene gemäß der ankommenden Richtungsinformation platziert. Dazu wird das Schallsignal zum Schluss mit einer kopfabhängigen Übertragungsfunktion (HRTF, head related transfer function) transformiert, die beschreibt, wie die 3DPosition einer Quelle in einen wahrnehmbaren Schalleindruck umgesetzt werden muss. Jeder 3D-Position ist eine eigene HRTF zugeordnet, die als lineare Funktion mit einem Eingang und zwei Ausgängen gegeben ist.

Auf Basis der bisher im Teilprojekt M4 entwickelten Methoden werden weitere Fragestellungen untersucht und die Arbeit fortgesetzt werden. Insbesondere soll bei der Weiterentwicklung der akustischen Telepräsenz in der letzten Phase der Bewilligung folgende Ziele verfolgt werden:

Ziele und Methoden der 4. Phase

  1. Die Identifikation und Beschreibung einer akustischen Szene einschließlich der Dynamik der Objekte
    • Ortung, Trennung und Klassifikation mehrerer gleichzeitig aktiver Schallquellen in der Teleoperatorszene
    • Schätzung der Entfernung einer oder mehrerer Schallquellen
    • Konsistente Verfolgung sich schnell bewegender Schallquellen
  2. Implementierungsaspekte
    • Reduzierung der Implementierungskomplexität (Rechenleistung)
    • Verringerung der Verzögerungszeiten, sowie Synchronisation mit anderen Modalitäten
  3. Robustifizierung und Bewertung
    • Die Behandlung von Schallreflexionen, die die Leistungsfähigkeit der Richtungsschätzung nachhaltig negativ beeinflussen Diese Reflexionen werden durch kleine, hallende Räume auf Seiten des Teleoperators erzeugt. Diese Aufgabe erscheint im Zusammenhang mit binauralem Richtungshören als eine besondere Herausforderung
    • Bewertung der erreichten Qualität der akustischen Präsentation (immersives Audio)
  4. Integration in Demonstratoren
  5. Subjektive Bewertung