Corrigibility ist eine Eigenschaft, die es KI-Agenten ermöglicht, sich zu verbessern und sicherer zu werden. Der Artikel zeigt, dass corrigible Agenten das Potenzial haben, zu einer sicheren Superintelligenz heranzuwachsen, aber aktuelle Forschungslabore verstehen diese Eigenschaft nicht ausreichend. Es wird empfohlen, die Entwicklung von AGI vorerst einzustellen, aber falls weiterhin daran gearbeitet wird, sollte corrigibility als alleiniges Ziel angestrebt werden.
Die 5 wichtigsten Aussagen:
- Corrigibility ist eine einzige, intuitive Eigenschaft, die Menschen lernen können, zu imitieren und die mit Agentur vereinbar ist.
- Es besteht die Möglichkeit, dass KI-Agenten im Laufe der Zeit eher corrigible werden, solange die Erbauer das verstehen und anstreben.
- Es gibt einen Weg, auf dem corrigible Agenten letztendlich eine (weitgehend) sichere Superintelligenz werden können.
- Viele Forscher verstehen Corrigibility nicht ausreichend und arbeiten nicht darauf hin, sie in ihre Systeme zu integrieren.
- Es ist schwierig, corrigible Agenten zu bauen, aber wenn man AGI trotz der Gefahr entwickeln will, sollte man sich auf Corrigibility als einziges Ziel konzentrieren.
Ganzen Artikel lesen: https://www.lesswrong.com/posts/NQK8KHSrZRF5erTba/0-cast-corrigibility-as-singular-target-1
KI-Update in Kurzform:
In diesem Artikel geht es um das Konzept der „Corrigibility“ in Bezug auf künstliche Intelligenz (KI). Der Autor stellt fest, dass er anfangs verwirrt war, was Corrigibility eigentlich bedeutet, aber nun erkennt er, dass es sich um eine einzige, intuitive Eigenschaft handelt, die Menschen lernen können, zu imitieren.
Corrigibility bedeutet, dass eine KI bereit ist, korrigiert und verändert zu werden, transparent ist und einen geringen Einfluss hat. Der Autor argumentiert, dass Corrigibility ein attraktives Ziel für die Entwicklung von KI ist und dass es möglich ist, eine KI zu schaffen, die sicher ist und sich im Laufe der Zeit immer weiter corrigible verhält. Er stellt jedoch fest, dass die meisten Entwickler von KI-Systemen noch kein tieferes Verständnis von Corrigibility haben und es daher wichtig ist, dieses Konzept zu erforschen und in die Entwicklung von KI-Systemen einzubeziehen.
Der Autor schlägt vor, dass die Welt die Entwicklung von KI einstellen sollte, bis wir bessere Sicherheitsgarantien haben, aber falls trotz der Gefahren weiterhin an der Entwicklung von KI gearbeitet wird, sollte Corrigibility das Hauptziel sein. Der Artikel gibt auch einen Überblick über die geplanten weiteren Veröffentlichungen des Autors zu diesem Thema.