Please activate JavaScript!
Please install Adobe Flash Player, click here for download

uni'wissen 02-2012

Autos. Nun arbeitet Brox am zweiten Schritt: Der Computer soll mehrere Filme vergleichen und Übereinstimmungen finden – etwa Bilder, auf ­denen unterschiedliche Autos aus der gleichen Perspektive zu sehen sind. Diese Bilder kann er dann übereinanderlegen. „Damit kann er fest- stellen, welche Formen und Strukturen allen ­Autos gemeinsam sind, und eine allgemeine ­Beschreibung der Klasse ‚Auto‘ entwickeln.“ Trainingsdaten selbstständig erarbeiten Auf dieser Basis soll der Computer auf weite- ren Videos Variationen von Autos identifizieren, die ihm zuvor fremd waren. Da er die Klasse schon kennt, soll er die Information, dass auf dem Film ein Auto zu sehen ist, dafür nicht mehr benötigen – also ganz ohne Annotationen aus- kommen. Mit den neuen Variationen kann er sein Wissen erweitern: Er vergleicht sie mit den ­bisher gelernten, verfeinert die abstrakte Be- schreibung der Klasse und verbessert damit im Ergebnis seine Suche. Damit hätten die Wissen- schaftler einen Lernprozess ermöglicht, bei dem der Computer sich seine Trainingsdaten weit­ gehend selbst erarbeitet und seine Fähigkeit, Objekte auf Bildern zu erkennen, autonom weiter- entwickelt. Um den Prozess anzuschieben, ­müssen die Wissenschaftler ihm als einzige ­Information zu Beginn die Klasse vorgeben, die er lernen soll. „Ideal wäre, wenn der Computer einfach nur Bilder bekommt, auf denen er Ähn- lichkeiten feststellt, sodass er selbst Kategorien bildet und sich eine schöne Repräsentation der Welt aneignet“, sagt Brox. „Beim Menschen funktioniert das, beim Computer müssen wir das Problem noch vereinfachen.“ Die Fähigkeit eines Computers, Objekte auf Bildern zu erkennen, könnte in Zukunft unter ­anderem Fahrassistenz-Systeme in Autos opti- mieren oder Robotern helfen, sich in ihrer Umge- bung besser zurechtzufinden. Dafür müssen die Wissenschaftler die Prozesse allerdings ­beschleunigen: Derzeit benötigt der Computer Prof. Dr. Thomas Brox ist seit 2010 Inhaber des Lehrstuhls für Mustererken- nung und Bildverarbeitung am Institut für Informatik der Albert-Ludwigs-Univer- sität. Er hat an der Univer- sität Mannheim Technische Informatik studiert und wurde 2005 an der Universität des Saarlandes im Fach Infor- matik promoviert. Anschlie- ßend setzte er seine wissenschaftliche Arbeit in der Forschungsgruppe Maschinelles Sehen der Universität Bonn fort und lehrte von 2007 bis 2008 an der Technischen Uni­ versität Dresden. Nach zwei Jahren Forschungs­ tätigkeit in der Arbeitsgruppe Maschinelles Sehen der Universität Berkeley/USA wechselte er als Professor nach Freiburg. Schwer- punkte seiner Forschung sind das Bildverständnis von Computern, dreidimen- sionale Rekonstruktionen ­sowie die automatisierte und intelligente Auswer- tung räumlich und zeitlich aufgelöster Mikroskopbilder. Zum Weiterlesen Brox, T./Malik, J. (2010): Object segmentation by long term analysis of point trajectories. ­European Conference on Computer Vision (ECCV). www.uni-freiburg.de/go/object-­ segmentation Bourdev, L./Maji, S./Brox, T./Malik, J. (2010): Detecting people using mutually consistent poselet activations. European Conference on Computer Vision (ECCV). www.uni-freiburg. de/go/detecting-people für die Suche etwa eine Sekunde je Bild, der Lernvorgang dauert bis zu zwei Minuten je Bild. „Für das Lernen ist nicht unbedingt Echtzeit ­erforderlich, beim Erkennen von Objekten dage- gen schon. Ein Roboter soll schließlich nicht ständig anhalten müssen, um nachzudenken.“ Mit seinem Forschungsansatz gilt Thomas Brox in der Branche als Pionier. „Auf Konferen- zen stelle ich fest, dass auch andere Wissen- schaftler die Idee immer attraktiver finden, bei der Bilderkennung mit Filmen zu arbeiten.“ Die Trainingsvideos für den Computer dreht der ­Informatiker mit seiner Arbeitsgruppe zum Groß- teil selbst: Autos, Schafe, Hunde, demnächst sind Menschen dran. Dabei läuft er mit der ­Kamera einmal um das Objekt herum, um es von allen Seiten zu erfassen. Die Bildqualität ist hoch, die Beispiele sind für die jeweilige Klasse repräsentativ. All das können die meisten Internet- videos nicht bieten. „Es ist sinnvoll, am Ende des Lernprozesses einige YouTube-Videos, die in der Regel ausgefallene Beispiele von Objekten ­zeigen, in den Datensatz aufzunehmen, um neue Variationen zu bekommen“, sagt Brox. „Nur mit YouTube würde der Computer eine besondere Internet-Weltsicht entwickeln, die nicht die wahre Welt widerspiegelt.“ „Nur mit YouTube würde der Computer eine besondere Internet-Weltsicht entwickeln, die nicht die wahre Welt widerspiegelt“ 15

Pages