Superhuman Go AIs besiegt von menschlichen Amateuren – neue Angriffsstrategien gegen KI entdeckt!
Die 5 wichtigsten Aussagen:
- Letztes Jahr wurde gezeigt, dass selbst übermenschliche Go-KIs von menschlichen Amateuren besiegt werden können, die spezifische „zyklische“ Muster auf dem Brett spielen.
- Die mangelnde Robustheit von KI-Systemen stellt eine kritische Herausforderung für die KI-Sicherheit dar, insbesondere wenn sie in kritische Infrastrukturen integriert oder in groß angelegten Anwendungen eingesetzt werden.
- Es wurden drei Verteidigungsstrategien erforscht: positionales adversariales Training, iteratives adversariales Training und der Ersatz von CNNs durch Vision-Transformer.
- Die beiden adversarialen Training-Methoden verteidigen gegen den ursprünglichen zyklischen Angriff, aber es wurden auch neue Angriffsstrategien identifiziert, die alle Verteidigungen überwinden können.
- Das Finden dieser neuen Angriffe ist herausfordernder als gegen einen ungeschützten KataGo, erfordert jedoch mehr Rechenressourcen für den Angreifer.
Ganzen Artikel lesen:https://www.lesswrong.com/posts/2iALhBnMpcjbWJJ3w/beyond-the-board-exploring-ai-robustness-through-go
KI-Update in Kurzform:
Letztes Jahr wurde gezeigt, dass selbst scheinbar übermenschliche Go-KIs von menschlichen Amateuren besiegt werden können, die spezifische „zyklische“ Muster auf dem Brett spielen. Diese Schwachstellen wurden bereits in einer Vielzahl von sub- oder fast menschlichen KI-Systemen beobachtet, aber dieses Ergebnis zeigt, dass selbst weit übermenschliche KI-Systeme auf überraschende Weise katastrophal versagen können. Diese mangelnde Robustheit stellt eine kritische Herausforderung für die KI-Sicherheit dar, insbesondere wenn KI-Systeme in kritische Infrastrukturen integriert oder in groß angelegten Anwendungen eingesetzt werden.
Es wurden drei Verteidigungsstrategien erkundet, um gegen diese Angriffe vorzugehen, wobei zwei davon erfolgreich waren. Dennoch wurden auch neue Angriffsstrategien entdeckt, die selbst diese Verteidigungen überwinden können. Wer neugierig ist und mehr erfahren möchte, kann sich auf der Blog-Post, der Projekt-Website oder dem Paper weiter informieren.