Alternative Steuerungsmethoden

Trends in der IT

Alternative Steuerungsmethoden – Bedienung durch Mimik und Gestik

Seit mehr als 30 Jahren zählt die Tastatur zu den wichtigsten Eingabegeräten
eines PCs. Doch der Markt ändert sich und damit das Verständnis eines PCs.
Ob bei Spielekonsolen, Smartphones oder in Fahrzeugen, die Notwendigkeit
alternativer Steuerungsmethoden besteht. Ziel ist, Anwendern intuitive Bedie
nungsmöglichkeiten zu bieten, wenn die klassischen Elemente Maus und
Tastatur nicht verwendet werden können. Fraglich ist, ob der Mensch in der
Lage ist, diese im Alltag intuitiv zu nutzen.
Um diese Frage zu ergründen, werden in diesem Artikel die Methoden
Gesichts- und Gestenerkennung analysiert. Dabei werden Technik und zukünftige
Einsatzmöglichkeiten dargestellt sowie Schwachstellen aufgezeigt.

Einleitung

Der Anteil mobiler Endgeräte, die sich intuitiv per Touchscreen bedienen lassen, ist so-
wohl im privaten Umfeld als auch in Unternehmen stark angestiegen. In der Unterhal-
tungsbranche im Bereich Spielekonsolen wurde 2003 für die Sony Playstation 2 das „Eye
Toy“ entwickelt, mit dem sich Spiele per Gestik steuern lassen. Mit Erscheinen der Nin-
tendo Wii Ende 2006 gefolgt von Playstation Move und Microsoft Kinect gibt es unter-
schiedliche Ansätze, humanoide Körperbewegungen in Echtzeit auf virtuelle Figuren zu
übertragen.

Auf Basis dieser Techniken der Unterhaltungsindustrie entsteht nun ein neuer Markt. Durch
die rapide Entwicklung der Hardwareleistung – gerade im Grafikkartenbereich – ist es mög-
lich, auf nahezu jedem Endanwendergerät auch komplexe und rechenintensive Anwen-
dungen performant auszuführen.
Dieser Beitrag zielt darauf, folgende Fragen zu klären: Wie werden alternative Steuerungs-
methoden definiert? Welche Steuerungsmethoden gibt es? Wie lassen sich diese in der realen
Welt anwenden? Inwieweit werden Maus und Tastatur in der Zukunft abkömmlich sein?
Zunächst wird auf die Grundlagen der alternativen Steuerung eingegangen. Dabei
werden einige Technologien erörtert, die den direkten Bezug vom Menschen zur alternati-
ven Steuerung herstellen. Im Anschluss werden Gesichts- und Gestenerkennung diskutiert,
etwaige Schwachstellen der Systeme aufgezeigt und anhand einiger praxisnaher Beispiele
verdeutlicht. Abschließend gibt ein Fazit Auskunft über die Vorteile, die eine alternative
Steuerung mit sich bringt. Der Ausblick zeigt dann, welche Rolle alternative Steuerungen
in der Zukunft spielen.

Alternative Steuerungsmethoden

Schon heute besteht ein deutlicher Bedarf an alternativen Steuerungstechniken. Die tra-
ditionelle Kombination aus Maus und Tastatur ist für viele Situationen nicht geeignet. Bei-
spiele sind das von BMW entwickelte System „iDrive“, das dem Fahrer einen Knopf als
Mausersatz zur Steuerung des Bordcomputers anbietet (Kolundzic, 2008) oder die Apple
Spracherkennungssoftware Siri im iPhone 4s, die die natürliche Sprache des Benutzers er-
kennt und die Bedeutung richtig interpretiert. Es ist also nicht nötig, vorher programmierte
Wortbefehle genau abzurufen. Stattdessen soll ein Dialog mit dem Mobiltelefon geführt
werden. Die implementierte Technik analysiert die Worte und deren Zusammenhang. De-
menentsprechend versucht das System eine passende Antwort auf das Gesprochene zu
finden, welche wiederum in Alltagssprache wiedergegeben wird (Caracciolo, 2012).
Einen Schritt weiter gehen Verkehrsbetriebe in Rotterdam. In ausgewählten Rotterdamer
Straßenbahnen kommt testweise die Software „Smarter EE“ zum Einsatz. Diese soll die Schaff-
ner entlasten, indem sie biometrische Gesichtsmerkmale prüft. Das erfasste Gesicht wird mit
einer Datenbank verdächtiger Personen verglichen, die z. B. wegen Vandalismus aufgefallen
sind. Gibt es einen Treffer in der Datenbank, so ertönt in der Fahrerkabine ein Alarmsignal
(Schahidi, 2010). Letzteres Beispiel zeigt die Möglichkeiten heutiger Gesichtserkennung auf.

Gesichtserkennung

Bei der Gesichtserkennung unterscheidet man grundsätzlich zwei Formen (Hähnel, 2008):

Die erste Variante beschäftigt sich mit der Formerkennung eines beliebigen Ge-
sichts. Bei dieser Form können zwar bestimmte Klassifikationen z. B. nach Ge-
schlecht oder Alter getroffen werden, die Erkennung individueller Merkmale bleibt
allerdings aus.

Komplizierter dagegen ist die Gesichtswiedererkennung – die zweite Form; hier er-
folgt eine detaillierte Analyse individueller Merkmale. Ein Abgleich dieser Merkmale
mit einer Datenbank ermöglicht die Bestimmung der Person.

In Abbildung 1 ist der Prozess der Gesichtswiedererkennung in der durchgängigen Bildana-
lyse dargestellt.

Abbildung 1: Prozess der durchgängigen Bildanalyse (Hähnel, 2008)

Bilder werden in kurzen Abständen von einer Kamera an ein Programm übergeben, das diese
zunächst vorverarbeitet. Bei diesem Vorgang werden dem Bild z. B. Farbinformationen entzogen,
um den Speicherbedarf zu verringern und die nachfolgenden Prozesse zu beschleunigen. Darauf-
hin wird das Bild auf vordefinierte Merkmale untersucht und mit gespeicherten Informationen
aus einer Datenbank verglichen, um letztendlich die Person zu erkennen (Hähnel, 2008).
Die in obiger Abbildung gezeigte Trainingsphase zwischen der Merkmalsextraktion
und der Personendatenbank dient dazu, den Menschen kennen zu lernen und die Aus-
wertung zu beschleunigen. Zudem wird eine geringe Fehlerquote angestrebt. Damit ist
diese Phase zugleich der wichtigste, aber auch komplexeste Schritt, in der häufig lernende
Algorithmen wie z. B. Neuronale Netze zum Einsatz kommen. (Malerczyk, 2009)

Gestenerkennung

Ähnlich wie die Gesichtserkennung, die im Wesentlichen auf permanenter Bildanalyse, bei
der in Sekundenbruchteilen ein Bild von einer Kamera aufgenommen, bearbeitet und auf
bestimmte Merkmale untersucht wird, basiert, funktioniert das Verfahren der Gestener-
kennung. Hier wird eine Folge von Einzelbildern auf Unterschiede in der Körperhaltung des
Anwenders analysiert, um mögliche Gesten zu erkennen.
Unter Gestenerkennung versteht man im Allgemeinen die Auswertung der Informatio-
nen, die mit einer Bewegung des Körpers übermittelt werden. „A gesture is a motion of the
body that contains information. Waving goodbye is a gesture. Pressing a key on a keyboard
is not a gesture because the motion of a finger on its way to hitting a key is neither observed
nor significant. All that matters is which key was pressed.“ (Kurtenbach & Hulteen, 1990).
Die „Kinect“ von Microsoft verwendet für die Gestenerkennung neben einer einfa-
chen Kamera zusätzlich eine Tiefenkamera, eine Kombination aus Infrarot-Kamera und
Infrarot-Projektor. Der Infrarot-Projektor projiziert ein Feld aus Punkten auf eine Szene, die
von der Kamera gefilmt wird. Je größer der Abstand der Punkte ist, desto weiter entfernt
ist ein Objekt von der Kamera. Aus dieser Information wird die Raumtiefe errechnet und
ein Tiefenbild erstellt.
Entfernung und Lichtverhältnisse stellen hier Einschränkungen dar; ein Objekt muss
sich im Abstand von 0,8 bis 3,5 m zum Kinect-Sensor befinden. Zudem ist das System
gegenüber Infrarot-Strahlung und damit auch gegenüber Sonnenlicht äußerst empfindlich.
Eine Benutzung im Freien ist daher i.d.R. nicht möglich.
Diese Technik bietet neue Möglichkeiten der Interaktion mit computergestützten Systemen.
Der Mensch kann durch seine Anwesenheit allein Informationen an das System übertragen,
die sich verarbeiten und auswerten lassen. Weitere Informationen werden aus der Bewegung
generiert. Somit können Benutzer ohne ein zusätzliches proprietäres Eingabegerät mit einem
PC interagieren und diesen steuern, woraus sich erhebliche Vorteile ergeben. Der Mensch muss
nicht erst lernen, wie er ein Eingabegerät nutzt; er selbst ist das Eingabegerät (Miles, 2012).

Anwendungsszenarien

Die Welt könnte in einigen Jahren von dieser Art Steuerung komplett umgeben sein, um den
Alltag der Menschen einfacher zu gestalten. So könnte das Einkaufen von interaktiven An-
geboten begleitet werden; das Leben von behinderten Menschen ließe sich auch wesentlich
vereinfachen. Durch Sprachsteuerung werden physische Handicaps überwunden. Menschen,
die in ihrer Feinmotorik eingeschränkt sind, können Systeme mittels grober Gesten steuern.
Ein weiteres denkbares Anwendungsszenario alternativer Steuerungen steht im Zusam-
menhang mit Augmented Reality. Hier ist denkbar, dass der Benutzer mit virtuellen Objekten
durch seine natürlichen Bewegungen interagiert und diese Objekte auch ein spürbares Feed-
back ermöglichen, so dass sich diese Objekte für den Benutzer exakt wie reale Objekte verhal-
ten. Hier wäre eine mögliche Realisation in der Pharmaindustrie zu sehen; bei der Entwicklung
neuer Medikamente werden das Verhalten und die Wirkung verschiedener Moleküle und Wirk-
stoffe anhand virtueller Modelle simuliert. Ein anderer Einsatzbereich könnte in der Fahrzeug-
entwicklung zu finden sein. Die Modelle könnten als virtuelle Objekte in Originalgröße erzeugt
werden. Den Ingenieuren wäre es möglich die einzelnen Materialien und Formen so genau zu
bestimmen, ohne dass kostenintensive Modelle gebaut werden müssen.
Derzeit sind die Techniken noch nicht vollständig ausgereift, so dass jetzige Anwen-
dungsbeispiele noch eher prototypischen Charakter besitzen. Auch der Mensch muss erst
wieder lernen, intuitiv mit dem Rechner umzugehen. Er ist in das bisherige Verhaltensmuster
der Bedienung mit Maus und Tastatur so stark verwurzelt, dass neue Steuerungsmethoden
– auch wenn sie völlig intuitiv sind – erst wieder gelernt werden müssen. Experimente am
Tag der offenen Tür 2012 an der FH Mainz haben gezeigt, dass Angebote zur alternativen
Steuerung von der Mehrheit meist erst nach explizitem Hinweis wahrgenommen werden.
Hier scheint es noch gewisse Hemmungen vor dem Unbekannten zu geben. Erst wenn diese
überwunden sind, werden Menschen in der Lage sein, mit den Systemen so zu interagieren,
wie sie es wahrscheinlich ohne Nutzung von Tastatur und Maus intuitiv machen würden.

Fazit

Durch die ständige Entwicklung im Hardwareumfeld bieten sich heute Alternativen zur
klassischen Steuerung mit Tastatur und Maus. In ersten Einsatzgebieten wie z. B. Con-
sumer-Elektronik oder mobilen Endgeräten haben sich alternative Steuerungsmethoden
bereits etabliert und ebnen den Weg für den Einsatz in weiteren Bereichen. Bis sich der-
artige Techniken flächendeckend durchsetzen werden, muss der Mensch wieder lernen,
auf natürliche Weise mit Computersystemen zu interagieren.
Die Zukunft könnte sich dabei so darstellen, dass der Mensch einem System nicht mehr sagen
muss, was es tun soll, sondern das System pro aktiv auf den Menschen, seine Mimik und Gestik
reagiert und entsprechende Vorschläge anbietet, die der Erwartungshaltung entsprechen.

Literaturverzeichnis

Caracciolo, L. (2012). Siri: So wird Apples digitaler Assistent tatsächlich genutzt

[Infografik]. Abgerufen am 25. Mai 2012 von t3n: http://t3n.de/news/siri-apples-digitaler-assistent-389818/

Gutzeit, E., Vahl, M., & Woitzel, E. (2010). Erkennung von Handgesten und Kopforientierung in einem generellen 3D-Tracking-Framework. Go-3D 2010. Go for Innovations. Rostock: Fraunhofer Verlag.

Hähnel, M. (2008). Modellbasierte posen- und mimikinvariante Gesichtserkennung. Lehrstuhl und Institut für Mensch-Maschine-Interaktion [615210]. München: Dr. Hut, 2008.

Kolundzic, S. (2008). BMW iDrive: Das Original setzt neue Maßstäbe. Abgerufen am 25. Mai 2012 von BMW GROUP PressClub Deutschland: https://www.press.bmwgroup.com/pressclub/p/de/pressDetail.html?outputChannelId=7&id=T0005358DE&left_menu_item=node_2373

Kurtenbach, G. & Hulteen, E. (1990). Gestures in Human-Computer Communication. Addison-Wesley Publishing Co.

Malerczyk, C. (2009). Intuitive Interaktion durch videobasierte Gestenerkennung. Dissertation, Rostock.

Miles, R. (2012). Using Kinect for Windows with XNA. Abgerufen am 13. April 2012 von Microsoft: https://www.facultyresourcecenter.com/curriculum/pfv.aspx?ID=8938&c1=en-us&c2=0&L

Schahidi, A. (2010). Gesichts-Scanner in Rotterdamer Straßenbahn. Abgerufen am 14. März 2012 von RP Online: http://nachrichten.rp-online.de/politik/gesichts-scanner-in-rotterdamer-strassenbahn-1.97734

Schreiber, S. (2009). Personenverfolgung und Gestenerkennung in Videodaten. München: Verlag Dr. Hut.

Williams, M. (2007). Better Face-Recognition Software. Abgerufen am 5. März 2012 von technology review: http://www.technology-review.com/Infotech/18796/

Autoren

Stefanie Burchardt
Geboren 1987, Softwareentwicklerin bei der Berufsgenossenschaft Holz Metall, Mainz. Berufsbegleitend studiert sie Wirtschaftsinformatik an der FH Mainz.

Andreas Hager
Geboren 1986, Softwareentwickler bei der G. Muth Partners GmbH, Wiesbaden. Studiert berufsintegrierend Wirtschaftsinformatik an der FH Mainz.

Michael Koch
Geboren 1986, Systemadministrator beim Landesbetrieb Daten und Information Rheinland-Pfalz. Berufsbegleitend absolviert er das Wirtschaftsinformatik Studium an der FH Mainz.