
Conveying Nonverbal Communication in Mixed Reality-based Telepresence Systems
Dissertation

Zusammenfassung
Communication represents a fundamental aspect of human interaction, and advancements
in technology have enabled the transmission of increasingly complex information over
vast distances. Technological advancement has seen the evolution of communication from
the use of rudimentary signals, such as smoke signals and Morse code, to the advent of
sophisticated solutions, including video conferencing. Recently, Mixed Reality (MR) has
demonstrated considerable potential for the transmission of rich spatial data, particularly
with regard to nonverbal communication cues such as full-body gestures or authentic eye
contact. Despite the existence of early versions of immersive 3D telepresence applications,
their widespread adoption is hindered by limitations, notably the obstruction of facial
expressions by head-mounted displays (HMDs). The HMD obstructs the ability to discern
facial expressions. This dissertation addresses the key challenges of current immersive
telepresence systems by combining self-developed hardware prototypes and off-the-shelf
hardware with novel software solutions from the field of deep learning.
The core contributions of this work include novel approaches to face tracking under an
HMD, face rendering, and face animation. For decades, computer graphics researchers
have sought to render human faces in a manner that is as authentic as possible, often
requiring a significant amount of manual effort in 3D modeling. This dissertation is fo-
cused on the development of photorealistic facial rendering and animation techniques that
employ Generative Adversarial Networks (GANs) and Implicit Neural Representations
(INRs). These techniques yield superior visual quality with less computing power than
traditional methods, while also enabling the automatic creation of a face avatar in a
fraction of the time required for manual 3D modeling. To animate these avatars in an
immersive MR setting, we introduce a hardware prototype of a face-tracking HMD that
captures facial expressions via Convolutional Neural Networks (CNNs).
In addition, we present a middleware that standardizes interfaces for various full-body
tracking systems. This simplifies the operation and integration of different systems signifi-
cantly and standardizes the data representation of gestures and nonverbal communication,
for example, through the use of a standardized animation skeleton.
Two user studies provide empirical evidence to support the technological advancements
presented in this thesis. The first study demonstrates the influence of personalized avatars
on social presence, whereas the second quantifies the efficiency gains in remote collabo-
ration facilitated by nonverbal communication through a shared task space supported by
pointing gestures. Additionally, the dissertation presents design guidelines for remote col-
laboration systems derived from a literature review. By introducing novel solutions for
effective remote collaboration, this dissertation has the potential to reduce the necessity
for physical travel and its associated environmental impacts in the futur
Kommunikation ist ein grundlegender Aspekt der menschlichen Interaktion, und die
Fortschritte in der Technologie haben die Übertragung von immer komplexeren Informatio-
nen über große Entfernungen ermöglicht. Der technologische Fortschritt hat die Entwick-
lung der Kommunikation von der Verwendung rudimentärer Signale wie Rauchzeichen und
Morsezeichen bis hin zu hochentwickelten Lösungen wie Videokonferenzen ermöglicht. In
jüngster Zeit hat Mixed Reality (MR) ein beträchtliches Potenzial für die Übertragung
umfangreicher räumlicher Daten gezeigt, insbesondere im Hinblick auf nonverbale Kom-
munikationshinweise wie Ganzkörpergesten oder authentischen Blickkontakt. Obwohl es
bereits frühe Versionen von immersiven 3D-Telepräsenzanwendungen gibt, wird ihre weit-
ere Verbreitung durch Einschränkungen behindert, insbesondere durch die Verdeckung
der Mimik durch Head-Mounted Displays (HMDs). Das HMD behindert die Fähigkeit,
Gesichtsausdrücke zu erkennen. Diese Dissertation befasst sich mit den zentralen Her-
ausforderungen aktueller immersiver Telepräsenzsysteme, indem sie selbst entwickelte
Hardware-Prototypen und handelsübliche Hardware mit neuartigen Softwarelösungen aus
dem Bereich des Deep Learning kombiniert.
Zu den wichtigsten Beiträgen dieser Arbeit gehören neuartige Ansätze des Face Track-
ing unter einem HMD, zum Face Rendering und zur Face Animation. Seit Jahrzehnten
versuchen Forscher im Bereich der Computergrafik, menschliche Gesichter immer authen-
tischer darzustellen, was oft einen erheblichen manuellen Aufwand bei der 3D-Modellierung
voraussetzt. Diese Dissertation konzentriert sich auf die Entwicklung von fotorealistischen
Face Rendering sowie Animationstechniken, die Generative Adversarial Networks (GANs)
und Implizite Neuronale Repräsentationen (INRs) verwenden. Diese Techniken liefern
eine bessere visuelle Qualität bei geringerer Rechenleistung als klassische Methoden der
Computergrafik und ermöglichen gleichzeitig die automatische Erstellung eines Gesicht-
savatars in einem Bruchteil der Zeit, die für die manuelle 3D-Modellierung erforderlich
wäre. Um diese Avatare in einer immersiven MR-Umgebung zu animieren, stellen wir
Hardware-Prototypen eines Face-Tracking-HMDs vor, der Gesichtsausdrücke über Convo-
lutional Neural Networks (CNNs) erfasst.
Zusätzlich stellen wir eine Middleware vor, die Schnittstellen für verschiedene Ganzkörper-
Tracking-Systeme standardisiert. Dies vereinfacht die Bedienung und Integration ver-
schiedener Systeme erheblich und standardisiert die Datendarstellung von Gesten und
nonverbaler Kommunikation, z.B. durch die Verwendung eines standardisierten Anima-
tionsskeletts.
Zwei Nutzerstudien liefern empirische Belege für die in dieser Arbeit vorgestellten tech-
nologischen Weiterentwicklungen. Die erste Studie zeigt den Einfluss von personalisierten
Avataren auf die soziale Präsenz, während die zweite Studie die Effizienzgewinne bei der
entfernten Zusammenarbeit quantifiziert, die durch nonverbale Kommunikation in einem
durch Zeigegesten unterstützten Shared Task Space ermöglicht werden. Darüber hinaus
werden in dieser Dissertation Design Guidelines für Systeme der entfernten Zusam-
menarbeit vorgestellt, die aus einer Literaturübersicht abgeleitet wurden. Durch die
Entwicklung neuartiger Lösungen für eine effektive entfernte Zusammenarbeit hat diese
Arbeit das Potenzial, die Notwendigkeit physischer Reisen und die damit verbundenen
Umweltauswirkungen in Zukunft zu verringern.
Schlagworte
Body Tracking
Coordinate-based Neural Networks
Digital Humans
Face-to-Face
Face Tracking
Implicit Neural Representation
Middleware
Mixed Reality
Neural Rendering
Nonverbal Communication
Generative Adversarial Networks (GAN)
Presence
Remote Collaboration
RGB-D
Shared Task Space
Uncanny Valley
Coordinate-based Neural Networks
Digital Humans
Face-to-Face
Face Tracking
Implicit Neural Representation
Middleware
Mixed Reality
Neural Rendering
Nonverbal Communication
Generative Adversarial Networks (GAN)
Presence
Remote Collaboration
RGB-D
Shared Task Space
Uncanny Valley
DDC-Klassifikation
000 Informatik, Informationswissenschaft und allgemeine Werke
Umfang
XIV, 229 Seiten
Projektförderung
HIVE-Lab (Health Immersive Virtual Environment Lab) / German Federal Ministry of Education and Research (BMBF) / 16SV8182
Interactive body-near production technology 4.0 (german: "Interaktive körpernahe Produktionstechnik 4.0" (iKPT4.0)) / German Federal Ministry of Education and Research (BMBF) / 13FH022IX6
AniBot - Giving digital assistants a face and a voice (german: "AniBot - Digitalen Assistenten Gesicht und Stimme geben") / German Federal Ministry of Education and Research (BMBF) / 16SV8756
Interactive body-near production technology 4.0 (german: "Interaktive körpernahe Produktionstechnik 4.0" (iKPT4.0)) / German Federal Ministry of Education and Research (BMBF) / 13FH022IX6
AniBot - Giving digital assistants a face and a voice (german: "AniBot - Digitalen Assistenten Gesicht und Stimme geben") / German Federal Ministry of Education and Research (BMBF) / 16SV8756
Einrichtung
Promotionszentrum Angewandte Informatik
Link zur Veröffentlichung
Sammlungen
- Alle Dissertationen [18]
BibTeX
@phdthesis{Ladwig2025,
author={Ladwig, Philipp},
title={Conveying Nonverbal Communication in Mixed Reality-based Telepresence Systems},
pages={XIV, 229 Seiten},
year={2025},
publisher={Hochschule RheinMain},
school={Hochschule RheinMain, Wiesbaden},
url={https://hlbrm.pur.hebis.de/xmlui/handle/123456789/356},
doi={10.25716/pur-246}
}