Seit mehr als 30 Jahren zählt die Tastatur zu den wichtigsten Eingabegeräteneines PCs. Doch der Markt ändert sich und damit das Verständnis eines PCs.Ob bei Spielekonsolen, Smartphones oder in Fahrzeugen, die Notwendigkeitalternativer Steuerungsmethoden besteht. Ziel ist, Anwendern intuitive Bedienungsmöglichkeiten zu bieten, wenn die klassischen Elemente Maus undTastatur nicht verwendet werden können. Fraglich ist, ob der Mensch in derLage ist, diese im Alltag intuitiv zu nutzen.Um diese Frage zu ergründen, werden in diesem Artikel die MethodenGesichts- und Gestenerkennung analysiert. Dabei werden Technik und zukünftigeEinsatzmöglichkeiten dargestellt sowie Schwachstellen aufgezeigt.
Der Anteil mobiler Endgeräte, die sich intuitiv per Touchscreen bedienen lassen, ist so-wohl im privaten Umfeld als auch in Unternehmen stark angestiegen. In der Unterhal-tungsbranche im Bereich Spielekonsolen wurde 2003 für die Sony Playstation 2 das „EyeToy“ entwickelt, mit dem sich Spiele per Gestik steuern lassen. Mit Erscheinen der Nin-tendo Wii Ende 2006 gefolgt von Playstation Move und Microsoft Kinect gibt es unter-schiedliche Ansätze, humanoide Körperbewegungen in Echtzeit auf virtuelle Figuren zuübertragen.
Auf Basis dieser Techniken der Unterhaltungsindustrie entsteht nun ein neuer Markt. Durchdie rapide Entwicklung der Hardwareleistung – gerade im Grafikkartenbereich – ist es mög-lich, auf nahezu jedem Endanwendergerät auch komplexe und rechenintensive Anwen-dungen performant auszuführen.Dieser Beitrag zielt darauf, folgende Fragen zu klären: Wie werden alternative Steuerungs-methoden definiert? Welche Steuerungsmethoden gibt es? Wie lassen sich diese in der realenWelt anwenden? Inwieweit werden Maus und Tastatur in der Zukunft abkömmlich sein?Zunächst wird auf die Grundlagen der alternativen Steuerung eingegangen. Dabeiwerden einige Technologien erörtert, die den direkten Bezug vom Menschen zur alternati-ven Steuerung herstellen. Im Anschluss werden Gesichts- und Gestenerkennung diskutiert,etwaige Schwachstellen der Systeme aufgezeigt und anhand einiger praxisnaher Beispieleverdeutlicht. Abschließend gibt ein Fazit Auskunft über die Vorteile, die eine alternativeSteuerung mit sich bringt. Der Ausblick zeigt dann, welche Rolle alternative Steuerungenin der Zukunft spielen.
Schon heute besteht ein deutlicher Bedarf an alternativen Steuerungstechniken. Die tra-ditionelle Kombination aus Maus und Tastatur ist für viele Situationen nicht geeignet. Bei-spiele sind das von BMW entwickelte System „iDrive“, das dem Fahrer einen Knopf alsMausersatz zur Steuerung des Bordcomputers anbietet (Kolundzic, 2008) oder die AppleSpracherkennungssoftware Siri im iPhone 4s, die die natürliche Sprache des Benutzers er-kennt und die Bedeutung richtig interpretiert. Es ist also nicht nötig, vorher programmierteWortbefehle genau abzurufen. Stattdessen soll ein Dialog mit dem Mobiltelefon geführtwerden. Die implementierte Technik analysiert die Worte und deren Zusammenhang. De-menentsprechend versucht das System eine passende Antwort auf das Gesprochene zufinden, welche wiederum in Alltagssprache wiedergegeben wird (Caracciolo, 2012).Einen Schritt weiter gehen Verkehrsbetriebe in Rotterdam. In ausgewählten RotterdamerStraßenbahnen kommt testweise die Software „Smarter EE“ zum Einsatz. Diese soll die Schaff-ner entlasten, indem sie biometrische Gesichtsmerkmale prüft. Das erfasste Gesicht wird miteiner Datenbank verdächtiger Personen verglichen, die z. B. wegen Vandalismus aufgefallensind. Gibt es einen Treffer in der Datenbank, so ertönt in der Fahrerkabine ein Alarmsignal(Schahidi, 2010). Letzteres Beispiel zeigt die Möglichkeiten heutiger Gesichtserkennung auf.
Gesichtserkennung
Bei der Gesichtserkennung unterscheidet man grundsätzlich zwei Formen (Hähnel, 2008):
In Abbildung 1 ist der Prozess der Gesichtswiedererkennung in der durchgängigen Bildana-lyse dargestellt.
Abbildung 1: Prozess der durchgängigen Bildanalyse (Hähnel, 2008)
Bilder werden in kurzen Abständen von einer Kamera an ein Programm übergeben, das diesezunächst vorverarbeitet. Bei diesem Vorgang werden dem Bild z. B. Farbinformationen entzogen,um den Speicherbedarf zu verringern und die nachfolgenden Prozesse zu beschleunigen. Darauf-hin wird das Bild auf vordefinierte Merkmale untersucht und mit gespeicherten Informationenaus einer Datenbank verglichen, um letztendlich die Person zu erkennen (Hähnel, 2008).Die in obiger Abbildung gezeigte Trainingsphase zwischen der Merkmalsextraktionund der Personendatenbank dient dazu, den Menschen kennen zu lernen und die Aus-wertung zu beschleunigen. Zudem wird eine geringe Fehlerquote angestrebt. Damit istdiese Phase zugleich der wichtigste, aber auch komplexeste Schritt, in der häufig lernendeAlgorithmen wie z. B. Neuronale Netze zum Einsatz kommen. (Malerczyk, 2009)
Gestenerkennung
Ähnlich wie die Gesichtserkennung, die im Wesentlichen auf permanenter Bildanalyse, beider in Sekundenbruchteilen ein Bild von einer Kamera aufgenommen, bearbeitet und aufbestimmte Merkmale untersucht wird, basiert, funktioniert das Verfahren der Gestener-kennung. Hier wird eine Folge von Einzelbildern auf Unterschiede in der Körperhaltung desAnwenders analysiert, um mögliche Gesten zu erkennen.Unter Gestenerkennung versteht man im Allgemeinen die Auswertung der Informatio-nen, die mit einer Bewegung des Körpers übermittelt werden. „A gesture is a motion of thebody that contains information. Waving goodbye is a gesture. Pressing a key on a keyboardis not a gesture because the motion of a finger on its way to hitting a key is neither observednor significant. All that matters is which key was pressed.“ (Kurtenbach & Hulteen, 1990).Die „Kinect“ von Microsoft verwendet für die Gestenerkennung neben einer einfa-chen Kamera zusätzlich eine Tiefenkamera, eine Kombination aus Infrarot-Kamera undInfrarot-Projektor. Der Infrarot-Projektor projiziert ein Feld aus Punkten auf eine Szene, dievon der Kamera gefilmt wird. Je größer der Abstand der Punkte ist, desto weiter entferntist ein Objekt von der Kamera. Aus dieser Information wird die Raumtiefe errechnet undein Tiefenbild erstellt.Entfernung und Lichtverhältnisse stellen hier Einschränkungen dar; ein Objekt musssich im Abstand von 0,8 bis 3,5 m zum Kinect-Sensor befinden. Zudem ist das Systemgegenüber Infrarot-Strahlung und damit auch gegenüber Sonnenlicht äußerst empfindlich.Eine Benutzung im Freien ist daher i.d.R. nicht möglich.Diese Technik bietet neue Möglichkeiten der Interaktion mit computergestützten Systemen.Der Mensch kann durch seine Anwesenheit allein Informationen an das System übertragen,die sich verarbeiten und auswerten lassen. Weitere Informationen werden aus der Bewegunggeneriert. Somit können Benutzer ohne ein zusätzliches proprietäres Eingabegerät mit einemPC interagieren und diesen steuern, woraus sich erhebliche Vorteile ergeben. Der Mensch mussnicht erst lernen, wie er ein Eingabegerät nutzt; er selbst ist das Eingabegerät (Miles, 2012).
Die Welt könnte in einigen Jahren von dieser Art Steuerung komplett umgeben sein, um denAlltag der Menschen einfacher zu gestalten. So könnte das Einkaufen von interaktiven An-geboten begleitet werden; das Leben von behinderten Menschen ließe sich auch wesentlichvereinfachen. Durch Sprachsteuerung werden physische Handicaps überwunden. Menschen,die in ihrer Feinmotorik eingeschränkt sind, können Systeme mittels grober Gesten steuern.Ein weiteres denkbares Anwendungsszenario alternativer Steuerungen steht im Zusam-menhang mit Augmented Reality. Hier ist denkbar, dass der Benutzer mit virtuellen Objektendurch seine natürlichen Bewegungen interagiert und diese Objekte auch ein spürbares Feed-back ermöglichen, so dass sich diese Objekte für den Benutzer exakt wie reale Objekte verhal-ten. Hier wäre eine mögliche Realisation in der Pharmaindustrie zu sehen; bei der Entwicklungneuer Medikamente werden das Verhalten und die Wirkung verschiedener Moleküle und Wirk-stoffe anhand virtueller Modelle simuliert. Ein anderer Einsatzbereich könnte in der Fahrzeug-entwicklung zu finden sein. Die Modelle könnten als virtuelle Objekte in Originalgröße erzeugtwerden. Den Ingenieuren wäre es möglich die einzelnen Materialien und Formen so genau zubestimmen, ohne dass kostenintensive Modelle gebaut werden müssen.Derzeit sind die Techniken noch nicht vollständig ausgereift, so dass jetzige Anwen-dungsbeispiele noch eher prototypischen Charakter besitzen. Auch der Mensch muss erstwieder lernen, intuitiv mit dem Rechner umzugehen. Er ist in das bisherige Verhaltensmusterder Bedienung mit Maus und Tastatur so stark verwurzelt, dass neue Steuerungsmethoden– auch wenn sie völlig intuitiv sind – erst wieder gelernt werden müssen. Experimente amTag der offenen Tür 2012 an der FH Mainz haben gezeigt, dass Angebote zur alternativenSteuerung von der Mehrheit meist erst nach explizitem Hinweis wahrgenommen werden.Hier scheint es noch gewisse Hemmungen vor dem Unbekannten zu geben. Erst wenn dieseüberwunden sind, werden Menschen in der Lage sein, mit den Systemen so zu interagieren,wie sie es wahrscheinlich ohne Nutzung von Tastatur und Maus intuitiv machen würden.
Durch die ständige Entwicklung im Hardwareumfeld bieten sich heute Alternativen zurklassischen Steuerung mit Tastatur und Maus. In ersten Einsatzgebieten wie z. B. Con-sumer-Elektronik oder mobilen Endgeräten haben sich alternative Steuerungsmethodenbereits etabliert und ebnen den Weg für den Einsatz in weiteren Bereichen. Bis sich der-artige Techniken flächendeckend durchsetzen werden, muss der Mensch wieder lernen,auf natürliche Weise mit Computersystemen zu interagieren.Die Zukunft könnte sich dabei so darstellen, dass der Mensch einem System nicht mehr sagenmuss, was es tun soll, sondern das System pro aktiv auf den Menschen, seine Mimik und Gestikreagiert und entsprechende Vorschläge anbietet, die der Erwartungshaltung entsprechen.
Caracciolo, L. (2012). Siri: So wird Apples digitaler Assistent tatsächlich genutzt [Infografik]. Abgerufen am 25. Mai 2012 von t3n: http://t3n.de/news/siri-apples-digitaler-assistent-389818/Gutzeit, E., Vahl, M., & Woitzel, E. (2010). Erkennung von Handgesten und Kopforientierung in einem generellen 3D-Tracking-Framework. Go-3D 2010. Go for Innovations. Rostock: Fraunhofer Verlag. Hähnel, M. (2008). Modellbasierte posen- und mimikinvariante Gesichtserkennung. Lehrstuhl und Institut für Mensch-Maschine-Interaktion [615210]. München: Dr. Hut, 2008. Kolundzic, S. (2008). BMW iDrive: Das Original setzt neue Maßstäbe. Abgerufen am 25. Mai 2012 von BMW GROUP PressClub Deutschland: https://www.press.bmwgroup.com/pressclub/p/de/pressDetail.html?outputChannelId=7&id=T0005358DE&left_menu_item=node_2373 Kurtenbach, G. & Hulteen, E. (1990). Gestures in Human-Computer Communication. Addison-Wesley Publishing Co. Malerczyk, C. (2009). Intuitive Interaktion durch videobasierte Gestenerkennung. Dissertation, Rostock. Miles, R. (2012). Using Kinect for Windows with XNA. Abgerufen am 13. April 2012 von Microsoft: https://www.facultyresourcecenter.com/curriculum/pfv.aspx?ID=8938&c1=en-us&c2=0&L Schahidi, A. (2010). Gesichts-Scanner in Rotterdamer Straßenbahn. Abgerufen am 14. März 2012 von RP Online: http://nachrichten.rp-online.de/politik/gesichts-scanner-in-rotterdamer-strassenbahn-1.97734 Schreiber, S. (2009). Personenverfolgung und Gestenerkennung in Videodaten. München: Verlag Dr. Hut. Williams, M. (2007). Better Face-Recognition Software. Abgerufen am 5. März 2012 von technology review: http://www.technology-review.com/Infotech/18796/
Stefanie BurchardtGeboren 1987, Softwareentwicklerin bei der Berufsgenossenschaft Holz Metall, Mainz. Berufsbegleitend studiert sie Wirtschaftsinformatik an der FH Mainz.
Andreas HagerGeboren 1986, Softwareentwickler bei der G. Muth Partners GmbH, Wiesbaden. Studiert berufsintegrierend Wirtschaftsinformatik an der FH Mainz.
Michael KochGeboren 1986, Systemadministrator beim Landesbetrieb Daten und Information Rheinland-Pfalz. Berufsbegleitend absolviert er das Wirtschaftsinformatik Studium an der FH Mainz.