Cordelia Schmid

Foto: Marcus Gloger/Körber-Stiftung

Cordelia Schmid (2023):
Künstliche Intelligenz klüger machen – smarte Bilderkennung für autonome Roboter

Die deutsche Informatikerin Cordelia Schmid ist Pionierin der computergestützten Bildverarbeitung. Schmid entwickelte bahnbrechende neue Verfahren, die Computern das inhaltliche Verstehen von Bildern ermöglichen. Dank ihrer Algorithmen kann „Künstliche Intelligenz“ (KI) in Datenbanken mit Millionen Bildern in Sekundenbruchteilen Motive und Objekte auffinden. Aktuell forscht die Preisträgerin an Systemen, die Videos semantisch interpretieren und sogar künftige Handlungen vorhersagen können. Zu ihren Zielen zählt die Entwicklung von Robotern, die auf Sprachkommandos reagieren und unter anderem als intelligente Assistenten in Krankenhäusern oder in der Altenpflege eingesetzt werden können.

Cordelia Schmid (2023): Künstliche Intelligenz klüger machen – smarte Bilderkennung für autonome Roboter

Externes Video von YouTube laden.

Mehr dazu in unserer Datenschutzerklärung.

Cordelia Schmid – Körber-Preisträgerin 2023: Künstliche Intelligenz lernt sehen

Künstliche Intelligenz klüger machen – smarte Bilderkennung für autonome Roboter

Text: Claus-Peter Sesín

Künstliche Intelligenz (KI) hat sich in den letzten zehn Jahren geradezu explosiv entwickelt. Im November 2022 präsentierte die US-Firma OpenAI ihren Chat-Bot ChatGPT, der Fragen inhaltlich versteht und ebenso detaillierte wie elaborierte Antworten liefert. Spätestens seitdem beherrscht das Thema KI die Medien. Der Tenor der zahlreichen Publikationen schwankt zwischen überschießender Hoffnung und Warnungen vor Missbrauch. Sicher ist, dass Künstliche Intelligenz das Zusammenleben der Menschen und künftige wirtschaftliche Entwicklungen entscheidend prägen und verändern wird.

Cordelia Schmid ist eine der wichtigsten Wegbereiter:innen der KI-Forschung. Bereits in ihrer 1996 erschienenen Doktorarbeit entwickelte sie grundlegend neue Verfahren im Bereich Bilderkennung – ein wichtiger Untersektor der KI – die dem Computer-Sehen zu enormen Durchbrüchen verhalfen. Auch in den Folgejahren gelang es ihr, leistungsstarke neue „Computer Vision“-Algorithmen zu entwickeln, die sich jeweils als Standard etablierten. Heute forscht Cordelia Schmid unter anderem an multi-modalen „Transformern“. Das sind Computersysteme, die Videos anhand von Bild- und Ton-Informationen analysieren, inhaltlich verstehen und kommende Aktionen in den Videos vorhersagen können. Die Technologie ist ein wichtiger Zwischenschritt zur Entwicklung künftiger Assistenz-Roboter für Krankenhäuser und Altenheime. Fernziel der Preisträgerin sind smarte Haushaltsroboter, die auf gesprochene Kommandos hin beispielsweise Gurken aus dem Kühlschrank holen und sie dann sogar waschen und schneiden können.

Schmid schloss ihr Informatikstudium am Karlsruher Institut für Technologie 1992 ab. 1996 promovierte sie am Institut National Polytechnique de Grenoble. Nach einer Tätigkeit als Postdoc am britischen Oxford Robotics Institute forschte sie ab 1997 am französischen Institut National de Recherche en Informatique et en Automatique (Inria), wo sie 2001 habilitierte. Seit 2004 ist sie Forschungsdirektorin dieses Instituts. Nebenher war Schmid von 2004 bis 2012 Mitherausgeberin und von 2013 bis 2018 Chefredakteurin der Fachzeitschrift „International Journal of Computer Vision“ Außerdem ist Schmid seit 2018 in Teilzeit für Google Research tätig.

„Verantwortungsvoll entwickelt, hat KI das Potenzial, unsere Gesellschaft zu revolutionieren – so wie einst Dampfkraft und Elektrizität. KI kann helfen, einige der dringendsten Probleme der Welt zu lösen, von der Nachhaltigkeit bis zur Gesundheit.“

Cordelia Schmid

KI-Pioniere orientierten sich bereits 1956 am menschlichen Gehirn

KI-Forschung begann bereits in den 1950er Jahren in den USA: 1956 trafen sich im Dartmouth College im US-Staat New Hampshire 20 Top-Forscher:innen aus den Bereichen Computerwissenschaft, Mathematik und Informationstheorie. Ihr Ziel war es zu verstehen, wie man einen Computer so programmieren kann, dass er die menschliche Sprache versteht. Die Gruppe kam schnell überein, dass dieser Computer in gewisser Weise die Funktionen des menschlichen Gehirns nachahmen müsste.

Es bildeten sich allerdings zwei rivalisierende Lager. Eine Gruppe um den „KI-Papst“ Marvin Minsky speicherte im Computer etliche Wenn-dann-Regeln. Diese sogenannten Expertensysteme konnten etwa aus Regel A „Wenn es regnet, ist die Straße glatt“ und Regel B „Wenn die Straße glatt ist, passieren mehr Autounfälle“ eigenständig schlussfolgern: „Wenn es regnet, passieren mehr Autounfälle.“ Minsky glaubte, dass ein Expertensystem, wenn es nur genügend Regeln oder Symbole einprogrammiert bekäme, am Ende sogar so etwas wie Bewusstsein entwickeln könnte.

Die zweite Gruppe um Frank Rosenblatt versuchte, die Funktionsweise des Gehirns direkter zu kopieren – mit Hilfe künstlicher Neuronen. Ein Neuron im Gehirn verfügt über Eingänge (Dendriten) und einen Ausgang (die Synapse). Die mit den Dendriten gesammelten Informationen werden über die Synapse weitergeleitet und gelangen von dort zu den Dendriten anderer Neuronen. Auf diese Weise kann sich Information innerhalb des Gehirns fortpflanzen. Die Stärke der Verbindungen ist dabei variabel und wird durch Reize und Lerninhalte geformt.

Rosenblatts Team konstruierte 1957 erstmals ein Netz aus künstlichen Neuronen. Sie besaßen, wie die Neuronen des Gehirns, Ein- und Ausgänge. Sogenannte Gewichte bestimmten, wie stark Informationen zwischen diesen künstlichen Neuronen weitergeleitet wurden. Stimulierende Signale entsprachen Gewichten mit positiven Zahlen, hemmende Signale Gewichten mit negativen Zahlen. Rosenblatt konnte nachweisen, dass sein Netz namens „Perceptron“ bereits einfache logische Operationen mit Verknüpfungen wie AND, OR oder NOT ausführen konnte.

Rosenblatts „Perceptron“ war der Urtyp der heute verbreiteten künstlichen neuronalen Netze (KNN), auf denen fast alle aktuellen KI-Anwendungen basieren. In solchen KNNs sind die Neuronen in mehreren Schichten angeordnet. Es gibt eine Eingabe- und eine Ausgabeschicht, dazwischen liegen weitere Schichten zur Feinverarbeitung der Informationen. Je mehr Zwischenschichten es gibt, umso größer werden die Leistungen. Sogenannte Deep Networks verfügen über sehr viele Zwischenschichten.

In der Frühzeit der KI brach zwischen den KI-Pionieren zunächst ein Streit aus. Marvin Minsky und Kollegen wiesen mathematisch nach, dass es entweder „unmöglich“ sei oder „unendlich lange“ dauern würde, solch ein KNN zu programmieren. In der Folge wurden Forschungsgelder gestrichen, und Minskys Expertensysteme beherrschten die damalige KI-Szene – allerdings mit bescheidenen Erfolgen.

  • Wikimedia Commons
  • Division of Rare and Manuscript Collections/Cornell University Library
  • Wikimedia Commons
  • Buchanan and Shortliffe/Addison Wesley
  • picture alliance/AP Photo/Tony Avelar
  • picture alliance/Everett Collection

Künstliche Intelligenz war schon lange vor ChatGPT brandaktuell: 1950 stellte der britische Mathematiker Alan Turing​ (1912-1954, links) den ​​​​​​Turing-Test vor. Er definiert, ab wann eine Maschine als „intelligent“ gelten kann. 1957 entwickelte der amerikanische Kognitionswissenschaftler Frank Rosenblatt (1928–1971, zweites von links) den Prototyp eines künstlichen neuronalen Netztes. Dieses „Perceptron“ (drittes von links) konnte bereits einfache Objekte erkennen – etwa die Buchstaben „C“ und „D“ auseinanderhalten. Heute arbeiten fast alle KI-Systeme nach Rosenblatts Prinzip. 1972 ist das Expertensystem „Mcyin“ (viertes von links) in der Lage, eigenständig medizinische Diagnosen auf Basis gespeicherter Regeln zu erstellen. Erst sehr viel später – 2014 – präsentiert Google sein erstes selbstfahrendes Auto (fünftes von links). Bis 2016 dauert es, bis das KI-System „AlphaGo“ den amtierenden Weltmeister Lee Sedol in dem japanischen Schachspiel Go schlagen kann (sechstes von links).

Künstliche Neuronale Netze lernen durch Training

Einen ersten Durchbruch erzielten KNNs in den1980er Jahren: KI-Forscher:innen lösten die Probleme, indem sie KNNs nicht programmierten, sondern mit Trainingsdaten fütterten. Die Netze konnten beispielsweise darauf trainiert werden, Bilder von Äpfeln und Birnen zu unterscheiden. Dazu wird die Eingabeschicht mit einer Kamera verbunden. Ziel ist, dass die Ausgabeschicht passende inhaltliche Bildbeschreibungen liefert, also „Apfel“ oder „Birne“ ausgibt – zum Beispiel als Text auf einem Monitor. Am Anfang sind die Gewichte in den KNN-Schichten auf Zufallswerte eingestellt. Deshalb macht das KNN zunächst viele Fehler, gibt also „Apfel“ aus, obwohl eine Birne gezeigt wurde. Zur Korrektur dieser Fehler teilen menschliche Trainer:innen dem Netz in jedem Einzelfall mit, ob es richtig oder falsch gelegen hat.* Auf diese Weise „lernt“ das KNN, die Gewichte in allen seinen Schichten immer feiner in Richtung der Wunschergebnisse einzustellen. Die Fehler werden dabei intern von der Ausgabeschicht zur Eingabeschicht zurückgemeldet. Wenn das KNN ausreichend trainiert ist, kann es anschließend auch auf neuen Bildern von Äpfeln oder Birnen, die es zuvor noch nie gesehen hat, die beiden Früchte mit hoher Trefferquote klassifizieren.

*In modernen KNNs werden für das Training „annotierte“ Trainingsdaten verwendet, in denen die korrekte Klassifizierung – zunächst verborgen – vorgespeichert ist. Damit lässt sich das Training automatisieren.

KI-Forschung begann bereits in den 1950er Jahren in den USA. 1956 trafen sich im Dartmouth College im US-Staat New Hampshire 20 Top-Forscher:innen aus den Bereichen Computerwissenschaft, Mathematik und Informationstheorie. Ihr Ziel: zu verstehen, wie Computer die menschliche Sprache lernen können.

Algorithmen von Cordelia Schmid schaffen die Grundlagen für schnelle Bildsuche im Internet

Als Cordelia Schmid 1996 ihre bahnbrechende Doktorarbeit schrieb, steckte die Bildklassifizierung mittels Computern allerdings noch in den Kinderschuhen: „Die damals gebräuchlichen Systeme konnten nur einfache geometrische Formen wie Kreise, Dreiecke oder Quadrate erkennen, und dies auch nur bei gleichförmigem Hintergrund.“ Schmid verbesserte die Erkennung erheblich, indem sie die Systeme markante Bildpunkte finden ließ. Diese „lokalen Bilddeskriptoren“ repräsentieren die räumlichen Dimensionen der gezeigten Objekte. Damit waren die Systeme in der Lage, Objekte auch dann wiederzuerkennen, wenn diese aus einer anderen Perspektive oder teilweise verdeckt gezeigt werden. Den Eiffelturm beispielsweise erkennt ein mit Bilddeskriptoren arbeitendes System auch dann, wenn er perspektivisch verzerrt von unten aus geringem Abstand fotografiert wurde – oder schräg von der Seite, oder aus großem Abstand, wenn ein Baum im Vordergrund einen Teil des Turms verdeckt. Schmid schuf so die Grundlagen dafür, dass wir heute durch Suchmaschinen aus Millionen Bildern im Internet in Sekundenschnelle die gewünschten finden.

Nach der Jahrtausendwende machte die automatische Bilderkennung große Fortschritte und brachte viele neuartige Ansätze hervor. In dieser Zeit konzipierte Cordelia Schmid „Benchmark“-Tests, mit denen aus der Vielzahl der neuen Methoden die effektivsten ermittelt werden konnten. Zu den Testkriterien zählte neben einer hohen Trefferquote beim Auffinden gesuchter Bilder ein möglichst hohes Arbeitstempo.

2006 entwickelte Schmid ein weiteres Standardverfahren zur Bilderkennung: „Spatial Pyramid Matching“ unterteilt die zu untersuchenden Bilder sukzessive in immer kleinere Abschnitte. Damit wurde das inhaltliche Erfassen räumlicher Anordnungen noch flexibler. „Wir konnten nun bei der Bilderkennung beispielsweise die Kategorien Schlafzimmer und Wohnzimmer klar voneinander trennen, und eine Strandszene wurde sozusagen gleich auf den ersten Blick erkannt“, sagt Schmid.

Auch in anderen Bereichen leisteten KI-Systeme immer mehr. Besondere Achtungserfolge erzielten sie bei Spielen, die zuvor als Domäne des Menschen galten: Bereits 1996 besiegte ein IBM-System namens „Deep Blue“ den damals amtierenden Schachweltmeister Garri Kasparow. Deep Blue war allerdings keine KI, sondern „nur“ ein äußerst leistungsfähiger Standardcomputer, dem sämtliche Schachregeln und zigtausend Meisterpartien einprogrammiert worden waren. Den Sieg über Kasparow errang Deep Blue gleichsam mit „brutaler Rechenkraft“: pro Sekunde analysierte es 126 Millionen Stellungen.

Andere Spiele sind weniger leicht formalisierbar, etwa das japanische Brettspiel Go. Bei Go gibt es ebenfalls schwarze und weiße Steine, aber 361 Spielfelder – Schach hat nur 64. Die von Schachcomputern verwendete Standardmethode, nacheinander alle möglichen Züge durchzuprobieren, scheitert bei Go aufgrund zu hoher Komplexität. Damit konnten nur KNNs umgehen. Erst 2016 gelang es dem von der Google-Firma Deepmind entwickelten KNN „AlphaGo“, den damaligen Go-Weltmeister mit 4 zu 1 zu besiegen. AlphaGo wurde mit 160.000 Go-Meisterpartien trainiert. 2018 erreichte der Nachfolger „AlphaGo Zero“ sogar gleichsam übermenschliche Fähigkeiten: Es schlug den Vorgänger AlphaGo in hundert von hundert Partien. Das Besondere an AlphaGo Zero war, dass es sich die Spielregeln und Strategien mittels „Deep Learning“ selbst beigebracht hatte. Dem „überwachten Lernen“ der frühen KNNs folgte nun das in vielen Anwendungsbereichen noch leistungsfähigere „unüberwachte Lernen“.

  • picture-alliance/dpa/Stan Honda
  • picture alliance/AP Photo/Ahn Young-joon

KI schlägt Mensch: Der Sieg von Deep Blue gegen den Schachweltmeister Garri Kasparow war eine weltweite Sensation (links). Länger dauerte es bei dem deutlich komplexeren japanischen Brettspiel Go. Erst 2016 gelang es dem KI-System „AlphaGo“, gegen den Weltmeister Lee Sedol zu gewinnen (rechts).

Maschinen „lernen das Lernen“ auch eigenständig

Wie maschinelles Lernen abläuft, lässt sich am Beispiel von KI-Übersetzungsprogrammen veranschaulichen. Eine Übersetzungs-App könnte Anwender:innen kaum überzeugen, wenn sie einen Text einfach nur Wort für Wort von einer Sprache in die andere überträgt. Sie muss auch die Eigenheiten der jeweiligen Sprachen erlernen und „intelligent“ semantische Kontexte erfassen – also etwa das Wissen erlangen, dass „Mutter“ in Verbindung mit Schraube etwas anderes bedeutet als „Mutter“ in Verbindung mit Kind. Informatiker:innen kamen auf die Idee, Übersetzungs-KNNs mit professionell erstellten Übersetzungen, die als Lernmuster dienen, zu trainieren.

Die Automatisierung des Lernens funktioniert so: Dem KNN werden Musterpaare bereits erstellter Übersetzungen vorgelegt jeweils der Originaltext und die professionelle Übersetzung. Im ersten Schritt bleiben dem Netz jedoch einzelne Wörter und Satzteile der Übersetzung verborgen, insgesamt etwa zehn bis 20 Prozent. Das KNN vergleicht nun den Originaltext mit der lückenhaften Übersetzung und muss erraten, welche fehlenden Wörter oder Satzteile semantisch am besten in die Textlücken passen. Im zweiten Schritt wird die Maskierung aufgehoben. Dadurch „sieht“ das KNN, was der professionelle Übersetzer in den Lückentexten tatsächlich geschrieben hat. So kann es aus seinen Fehlern lernen und seinen Wissensschatz Schritt für Schritt erweitern. Dieses Sprachwissen erwirbt das KNN allerdings rein statistisch – nach dem Prinzip: Welche Formulierung tritt wann typischerweise am häufigsten auf? Logische Schlussfolgerungen verwendet es dabei nicht.

Cordelia Schmid/Klötzner Company

Das KI-Modell „VideoBert“ analysiert gleichzeitig Bild und Text in Videos. Um es zu trainieren, werden Teile aus dem Tonkanal ausgelassen – etwa „Steak“ –, die VideoBert erraten muss. Dasselbe geschieht im Bildkanal. Nach dem Training kann das Modell kommende Handlungen und Sprache im Video vorhersagen.

„VideoBert“ lernt unüberwacht aus Kochvideos im Internet

Nach demselben Prinzip forscht Cordelia Schmid aktuell an Vision-Language-Modellen, unter anderem an dem System „VideoBert“. VideoBert kann unüberwacht Video-Anleitungen – etwa Kochvideos – aus dem Internet analysieren. Das KI-System hat unter anderem die Aufgabe, sich selbst beizubringen, kommende Aktionen in den Videos vorherzusagen. VideoBert arbeitet „multimodal“, das heißt, es untersucht gleichzeitig die Bildsequenzen und die dazu gesprochenen Texte (zum Beispiel „place the steak in the pan“, siehe Grafik). Bei VideoBert bedient sich Schmid ebenfalls des Prinzips der Maskierung: Es werden Wörter oder Videosequenzen ausgelassen, die VideoBert anschließend erraten muss. Unüberwachtes Lernen hat den Vorteil, dass viele Tausende kostenlos im Internet zur Verfügung stehende Kochvideos für das Training verwendet werden können.

Nach dem Selbst-Training zeigte Schmid VideoBert neue Kochvideos, die es vorher noch nie gesehen hatte. Es konnte beispielsweise, wenn es eine Schüssel mit Mehl und Kakao „sah“, treffsicher vorhersagen, dass aus diesen Zutaten später ein Schokoladenkuchen gebacken wird, und passende Bilder des zu erwartenden Endprodukts generieren. „Kommende Versionen von VideoBert werden sogar in der Lage sein, aus neuen Kochvideos Rezepte in Schriftform zu erstellen“, ergänzt Schmid. Auf der Grundlage dieses multimodalen Bild- und Sprachverstehens plant die Preisträgerin künftig auch die Entwicklung intelligenter Hilfsroboter für Krankenhäuser und Altenheime.

Sehfähige Konkurrenz für ChatGPT

Mit den Mitteln der Körber-Stiftung will Schmid unter anderem eine Art sehfähigen Konkurrenten für den Chatbot ChatGPT konzipieren. ChatGPT ist ein „tiefes“ KNN mit besonders vielen Schichten. Es beherrscht die Verarbeitung natürlicher Sprache und kann dank Training mit Abermillionen Daten aus dem Internet passende Antworten liefern. Die Ergebnisse sind meist eloquent und elaboriert. Im Februar hielt der deutsche Politiker Tiemo Wölken vor dem EU-Parlament eine Rede, die er komplett von ChatGPT verfassen ließ, um die Fähigkeiten des Systems publik zu machen.

Cordelia Schmid findet die Performance von ChatGPT ebenfalls „beeindruckend“, moniert aber, dass das „Modell nicht selbsterklärend und stark datenabhängig ist. Es hat ein limitiertes Kontextfenster und kann nicht aus Erfahrung lernen. Vor allem gibt es keine physische Wechselwirkung mit der realen Welt.“ Schmid will einen „wirklich intelligenten“ konkurrierenden Bot entwickeln, der auch visuelle Informationen und 3D-Umgebungsdaten verarbeitet und diese laufend in seine Wissensbasis einfließen lässt. Er soll mit einem Extraspeicher für Wissen ausgestattet werden, damit das Gelernte nicht im kaum entwirrbaren Netz seiner inneren Neuronen-Gewichte verborgen bleibt. Herkömmliche KNN sind in dem Sinne bislang eine Art „Black Box“; niemand weiß genau, wie sie zu ihren Entscheidungen gekommen sind. Hingegen soll Schmids neuer Bot Gründe für seine Entscheidungen mit Wissen aus seinem Extraspeicher beantworten können. „Unser Ziel ist, den Output erklärbar zu machen“, sagt Schmid. „Später soll der Bot die 3D-Informationen zum eigenständigen Navigieren in unbekannter Umgebung nutzen.“

Dass ChatGPT nicht immer zuverlässig arbeitet, konnte der deutsche Wissenschaftsjournalist Jürgen Scriba nachweisen. Er kam auf die Idee, von ChatGPT eine Biografie des Ernährungswissenschaftlers Dr. Anton Wirsing erstellen zu lassen, den es real überhaupt nicht gibt. Dennoch sponn ChatGPT einen umfangreichen Lebenslauf zusammen und begann auf Nachfragen sogar, Dr. Wirsings Auswanderung in die USA samt Studium in Harvard zu erdichten.

Sprachbasierte generative KI wie ChatGPT öffnet damit das Tor für Fake-News, die dank wohlformulierter Sätze und vermeintlich präziser Fakten besonders überzeugend und glaubwürdig wirken. Wegen der hohen Missbrauchsgefahr haben führende KI-Expert:innen im März 2023 ein sechsmonatiges Moratorium der KI-Entwicklung gefordert.

  • Neil Mason/Start Digital
  • Neil Mason/Start Digital
  • Pablo Xavier/Reddit
  • Eliot Higgins/Twitter

Generative KI kann beliebige Bilder auf Kommando erzeugen, etwa fiktive Aufnahmen von der Krönungsfeier von King Charles (links). Als KI-generierte Bilder von Donald Trump oder vom Papst im Internet auftauchten (rechts), war vielen Usern der fiktive Charakter nicht bewusst.

Wachsende „Fake-News“-Gefahren durch generative KI

Weitere „Deep-Fake“-Gefahren drohen von KI-erzeugten oder -manipulierten Bildern und Videos. Dem US-Informatiker Yoshua Bengio und Kolleg:innen gelang es 2014, ein KNN umzuprogrammieren, das darauf trainiert worden war, zu Bildern textliche Beschreibungen zu liefern. Nun konnte es gleichsam rückwärts laufen: Man tippt seinen Bildwunsch ein – und das KNN erzeugt aus seinem antrainierten Datenschatz ein passendes virtuelles Bild. Künstler können mit dieser generativen Bild-KI wahrhaft fantastische Kunstwerke kreieren; die neue Stilrichtung nennt sich „Deep Art“. Ein KI-generiertes „Foto“ hat kürzlich sogar einen renommierten Fotowettbewerb gewonnen. Allerdings gibt die neue Technologie auch Verschwörungstheoretiker:innen Mittel in die Hand, im Handumdrehen täuschend echt wirkende Fake-Fotos von Prominenten in kompromittierenden Situationen zu erzeugen. Im Internet kursieren bereits KI-generierte Fake-Fotos von Donald Trump als Gefängnis-Insasse und vom Papst im Rapper-Outfit (siehe Bilder).

Technisch kommen bei generativer Bild-KI meist zwei rivalisierende KNN zum Einsatz. Das erste („Generator“) erzeugt auf Textbefehle hin die Bilder oder Videos. Das zweite arbeitet ähnlich wie menschliche Trainer:innen und prüft, ob das Erzeugte hinreichend echt wirkt. Wenn das Kontroll-KNN („Diskriminator“) keine Unterschiede mehr zu gespeicherten Originalen finden kann, ist das Ziel erreicht. Solche gegeneinander kämpfenden KNN werden „Generative Adversarial Networks“ (GAN) genannt.

Irreführende Gerüchte einer drohenden „KI-Weltherrschaft“

Wegen der enormen Fähigkeiten neuerer KI behaupten einige warnende Stimmen, dass die Systeme „die Weltherrschaft übernehmen“ könnten. So glaubt etwa der für provokante Thesen bekannte US-Unternehmer Elon Musk, dass KI schon bald die Fähigkeit haben werde, eigenständig intelligentere Nachfolger zu kreieren. Von solchen Utopien träumten bereits in den 1980er Jahren der US-Roboterforscher Hans Moravec und der Erfinder Ray Kurzweil. Bis heute ist nichts davon zu sehen.

Fakt bleibt, dass KI im Prinzip nichts anderes ist als auf Computern laufende Software. Und diese Rechner arbeiten lediglich die Befehle menschlicher Programmierer:innen ab. Trotz ihrer augenscheinlichen „Intelligenz“, die im Wesentlichen auf statistischem Lernen basiert, haben KI-Systeme weder Bewusstsein, noch sind sie zu eigenständigem „intentionalem Handeln“ fähig. Nichts spricht dafür, dass sich dies in absehbarer Zeit ändert.

Wohl aber dürfte sich KI auf die künftige Arbeitswelt auswirken. Das Weltwirtschaftsforum rechnet damit, dass bis 2027 jeder achte Arbeitsplatz durch KI ersetzt werden könnte. Hingegen kommt eine Studie des Leibniz-Instituts für Wirtschaftsforschung zu dem Ergebnis, dass KI künftig nicht für weniger, sondern sogar für mehr Beschäftigung sorgen könnte. Cordelia Schmid ist ebenfalls optimistisch: „Verantwortungsvoll entwickelt hat KI das Potenzial, unsere Gesellschaft zu revolutionieren – so wie einst Dampfkraft und Elektrizität. KI kann helfen, einige der dringendsten Probleme der Welt zu lösen, von der Nachhaltigkeit bis zur Gesundheit. Ich persönlich bin begeistert von den Forschungsmöglichkeiten, die sich dadurch eröffnen.“

Die Körber-Preisträgerin 2023

Cordelia Schmid
Cordelia Schmid Marcus Gloger/Körber-Stiftung

Cordelia Schmid wurde 1967 in Mainz geboren. Ihr Vater war Physiker, ihre Mutter Gymnasiallehrerin für Englisch und Französisch und später Hausfrau. „Als Kind wollte ich Pilotin werden. In der Schule entdeckte ich meine Leidenschaft für Mathematik. Auch der Beruf meines Vaters brachte mir früh die Forschung nahe.“

Nach dem Abitur studierte Schmid Informatik am Karlsruher Institut für Technologie. Ihren Master erlangte sie 1992 mit einer Arbeit über Roboter-Sehen. „Das hat mich inspiriert, später im Bereich Objekterkennung zu forschen. Computer waren damals sehr schlecht darin; es fiel ihnen schon schwer, einen einfachen Würfel zu erkennen.“

1996 promovierte die Preisträgerin am Institut national polytechnique de Grenoble. In ihrer Doktorarbeit entwickelte sie grundlegend neue Verfahren im Bereich Bilderkennung, die dem Computer-Sehen zu enormen Durchbrüchen verhalfen und sich in den Folgejahren als Standard etablierten. „Es war die erste Arbeit, die Grauwerte nutzte, um Objekte in Bildern zu identifizieren.“

Nach einer Tätigkeit als Postdoc am britischen Oxford Robotics Institute forschte Cordelia Schmid ab 1997 am Institut national de recherche en informatique et en automatique (Inria) in Grenoble, wo sie sich 2001 habilitierte. Seit 2004 ist sie Forschungsdirektorin dieses Instituts. Nebenher arbeitet Schmid publizistisch: Von 2004 bis 2013 war sie Mitherausgeberin der Fachzeitschrift „International Journal of Computer Vision“ und von 2013 bis 2018 deren Chefredakteurin. Außerdem ist Schmid seit 2018 in Teilzeit für Google Research tätig.

Die alte Vorstellung, dass Mathe „nichts für Mädchen“ sei, hält die weltweit renommierte Informatikerin für ein ungerechtfertigtes Vorurteil. Geprägt wurde Schmid durch Frauen wie die Kernphysikerin Marie Curie, deren Biographie sie faszinierte. „Doch viele meiner Vorbilder und Mentoren waren und sind Männer.“ Daher rät sie „Mädchen und Frauen, nicht nur nach weiblichen, sondern auch nach männlichen Vorbildern und Mentoren Ausschau zu halten, um eine Karriere in vermeintlich männerdominierten Branchen zu machen.“

Für ihre Forschungsarbeiten wurde Cordelia Schmid bereits zuvor mit mehreren Preisen ausgezeichnet. Mit den Mitteln der Körber-Stiftung will sie eine Art sehfähigen Konkurrenten für den Chatbot ChatGPT entwickeln, der „über Kameras auch optisch mit der realen Welt wechselwirkt und über einen separaten Wissensspeicher verfügt.“

In ihrer Freizeit liest die Preisträgerin gern Krimis, Romane und Psychologiebücher, darunter solche, die sich mit Management befassen. Sie fährt gern Ski und liebt Wandern und Klettern.

Dr. Thomas Paulsen über den Körber-Preis

„Der Körber-Preis ist kein ‚Fördertopf‘ neben anderen. Er ermöglicht wissenschaftliche Projekte abseits von Verwertungsdruck und Forschungsbürokratie.“

Dr. Thomas Paulsen

Vorstand der Körber-Stiftung

Herr Paulsen, was macht den Körber-Preis besonders?

Unter den großen Wissenschaftspreisen ist der Körber-Preis der einzige mit einer dezidiert europäischen Ausrichtung. Europa braucht exzellente Forschung, um den Anschluss an den amerikanischen und asiatischen Wissenschaftsraum nicht zu verlieren. Deswegen zeichnet der Körber-Preis Forscherinnen und Forscher aus der Europäischen Wissenschaftscommunity aus, von denen neben ihren bisherigen Leistungen auch zukünftige Durchbrüche zu erwarten sind. Vielleicht ist es daher auch kein Zufall, dass inzwischen acht Körber-Preisträgerinnen und -Preisträger auch den Nobelpreis erhalten haben. Diese besondere Bedeutung wird auch durch das Preisgeld unterstrichen: Mit einer Million Euro ist der Körber-Preis einer der höchstdotierten Wissenschaftspreise weltweit.

In Zeiten von Drittmitteln und Industrieforschung: Ist das nicht ein Tropfen auf den heißen Stein?

Keineswegs! Der Körber-Preis ist kein „Fördertopf“ neben anderen, sondern eine Ehrung herausragender Forschungsleistungen. Mehr noch: Er ermöglicht den Preisträgerinnen und Preisträgern wissenschaftliche Projekte abseits von Verwertungsdruck und Forschungsbürokratie. Wissenschaft ist ein offener, häufig unberechenbarer Prozess. Deswegen lässt der Körber-Preis viel Freiheit bei der Verwendung der Mittel. So können sich die Preisträgerinnen und Preisträger auf die Wissenschaft konzentrieren, anstatt sich im Schreiben von Projektberichten zu verlieren.

Forschungsfreiheit klingt gut. Doch was hat die Gesellschaft davon?

Wir wollen das Spannungsfeld von wissenschaftlicher Selbstbestimmung und gesellschaftlichem Nutzen überwinden. Deswegen prämiert der Körber-Preis Forschung, die eine Aussicht darauf hat, echte soziale Werte zu schaffen. Das kommt in den Worten unseres Stifters Kurt A. Körber zum Ausdruck, mit dem Preis zur „Erhaltung der Lebensbedingungen auf unserem Planeten“ beizutragen. Wie dies gehen kann, illustriert Cordelia Schmid: Durch ihre Arbeit zur Künstlichen Intelligenz könnten in Zukunft viele gesellschaftliche Probleme angegangen werden, etwa die Überlastung des Gesundheits- und Pflegesystems oder das Fehlen von Arbeitskräften in vielen Bereichen.

Gleichzeitig stellt KI die Gesellschaft vor Herausforderungen. Was überwiegt aus Ihrer Sicht: Nutzen oder Risiken?

Beides muss beachtet werden. KI kann Arbeit erleichtern und vieles effizienter machen – sie kann aber auch zum Verlust von Arbeitsplätzen, Diskriminierung oder der Verbreitung von Falschmeldungen führen. Deswegen müssen wir uns bewusst mit KI auseinandersetzen und vielleicht auch neue Kompetenzen erlernen. Dennoch sollten wir uns dieser Entwicklung nicht versperren. Hier stimme ich Cordelia Schmid zu: Verantwortungsvoll entwickelt, hat KI ein unglaubliches Potenzial, das wir unbedingt nutzen sollten. Deswegen fördert die Körber-Stiftung die Auseinandersetzung mit KI – mit dem diesjährigen Körber-Preis, aber auch mit vielen anderen Projekten.

Broschüre zum Download

Künstliche Intelligenz klüger machen – smarte Bilderkennung für autonome Roboter

Preisverleihung 2023

Fotos von der Verleihung des Körber-Preis für die Europäische Wissenschaft 2023 an Cordelia Schmid im Hamburger Rathaus am 08. September 2022

Die Fotos können im Zusammenhang mit einer Berichterstattung über den Körber-Preis mit dem angegebenen Fotocredit Körber-Stiftung/Claudia Höhne honorarfrei veröffentlicht werden.

Weil Sie „Cordelia Schmid: Künstliche Intelligenz klüger machen – smarte Bilderkennung für autonome Roboter“ gelesen haben.