KI-Modelle scheitern an komplexen Aufgaben im NATURAL PLAN Benchmark – Was hindert sie am erfolgreichen Planen?
Die 5 wichtigsten Aussagen:
- Gemini 1.5 Pro hat bei der NATURAL PLAN Benchmark am besten abgeschnitten
- Selbstkorrektur führte zu einem Leistungsabfall bei allen Modellen
- Komplexere Aufgaben haben zu schlechteren Ergebnissen bei KI-Modellen geführt
- Mehr Beispiele verbessern die Genauigkeit der Modelle, aber nur wenn ein großer Kontext vorhanden ist
- KI ist noch nicht bereit für komplexe Planungsaufgaben wie Reiseplanung und Terminvereinbarung
Ganzen Artikel lesen: https://ki-techlab.de/ki-news/natural-plan-benchmarking-llms-on-natural-language-planning/
KI-Update in Kurzform:
Die Forscher von Google DeepMind haben NATURAL PLAN entwickelt, einen Benchmark, um die Fähigkeit von LLMs zu bewerten, reale Aufgaben basierend auf natürlichen Sprachanweisungen zu planen. Die nächste Stufe der KI-Entwicklung besteht darin, dass sie agierende Rollen übernimmt, um Aufgaben über verschiedene Plattformen hinweg für uns zu erledigen. Doch das ist schwieriger als es klingt.
Auch wenn wir es einfach finden, Aufgaben zu planen, tun sich selbst die besten KI-Modelle damit schwer. Der Benchmark testet LLMs in drei Planungsaufgaben: Reiseplanung, Meetingplanung und Kalenderscheduling. Die Studie zeigte, dass Gemini 1.5 Pro am besten abschnitt, aber auch Schwierigkeiten bei komplexeren Aufgaben auftreten.
Eine interessante Erkenntnis war, dass das Selbstkorrigieren zu Leistungseinbußen führte. Fazit: Obwohl agierende KI vielversprechend ist, müssen wir noch weiter forschen, bevor sie komplexe Planungsaufgaben bewältigen kann.