KI-Modelle können Bilder malen, die sie nie gesehen haben, behaupten MIT-Forscher.
Die 5 wichtigsten Aussagen:
- Große Sprachmodelle (LLMs) können trotz fehlenden direkten visuellen Inputs ein Verständnis für die visuelle Welt entwickeln und komplexe Szenen erstellen, so eine Studie des MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL).
- Die visuelles Wissen dieser Modelle stammt aus Konzepten wie Formen und Farben, wie sie im Internet beschrieben werden. Mit ihrem „Visual Aptitude Dataset“ testete das CSAIL-Team die Fähigkeiten der Modelle, diese Konzepte zu zeichnen, zu erkennen und zu korrigieren.
- Die Forscher trainierten ein Computersichtsystem ohne direkte Verwendung von visuellen Daten, indem sie die Sprachmodelle dazu anregten, Bild-rendernde Codes zu schreiben, die dann zur Generierung von Daten verwendet wurden.
- Trotz des fehlenden Zugangs zu den ursprünglichen Trainingssätzen der LLMs, konnte das Computersichtsystem, das nur auf synthetischen, textgenerierten Daten basiert, andere Systeme übertreffen, die mit authentischen Fotos trainiert wurden.
- Die Ironie ist, dass LLMs manchmal die gleichen Konzepte, die sie zeichnen können, nicht erkennen können. Trotzdem demonstrierten sie die Kreativität, die gleichen Konzepte jedes Mal anders zu zeichnen, was darauf hinweist, dass die Modelle möglicherweise tatsächliche mentale Bilder von visuellen Konzepten haben.
Ganzen Artikel lesen:https://news.mit.edu/2024/understanding-visual-knowledge-language-models-0617
KI-Update in Kurzform:
Du denkst, KI kann nur Texte verstehen? Falsch gedacht! Wissenschaftler des MIT haben herausgefunden, dass große Sprachmodelle (LLMs) auch die visuelle Welt verstehen können, und zwar nur basierend auf Textinformationen.
Sie können sogar Code schreiben, um komplexe Bilder zu erzeugen. Und das ist noch nicht alles: Sie können ihre eigenen Bilder verbessern und verfeinern. Wie das funktioniert?
Sie lernen aus den Beschreibungen von Formen und Farben im Internet und setzen dieses Wissen dann um. Die Forscher haben diese Fähigkeiten mit einem „Sehtest“ für LLMs getestet, bei dem die Modelle dazu aufgefordert wurden, bestimmte Konzepte zu zeichnen, zu erkennen und selbst zu korrigieren. Mit den erstellten Illustrationen trainierten sie dann ein Computer-Vision-System, das den Inhalt von echten Fotos identifizieren kann.
Und das Beste: Dieses System hat besser abgeschnitten als andere, die mit echten Fotos trainiert wurden. Die Forscher glauben, dass diese Methode genutzt werden könnte, um zu bewerten, wie gut ein generatives KI-Modell ein Computer-Vision-System trainieren kann. Sie planen, in Zukunft die Aufgaben, die sie den Sprachmodellen stellen, zu erweitern.
Wer hätte gedacht, dass KI so kreativ sein kann?