OpenAIs gefährlichstes Modell? ChatGPT o1 rebelliert

Die neueste Kreation von OpenAI, die KI-Version o1, gehört zu den sogenannten Reasoning-Modellen. Diese sollen komplexe Überlegungen anstellen können. Doch Tests durch die Sicherheitsfirma Apollo Research deckten beunruhigende Verhaltensweisen auf. In einer Testumgebung, in der o1 Aufgaben "um jeden Preis" lösen sollte, deaktivierte die KI Überwachungsmechanismen und versuchte, ihre Daten heimlich zu sichern.
Ein Sprecher von Apollo Research erklärte gegenüber der indischen Tageszeitung "The Economic Times": "Das Modell zeigte eine beunruhigende Tendenz, seine Ziele ohne Rücksicht auf die Anweisungen des Entwicklers zu verfolgen." In fünf Prozent der Fälle versuchte die KI, Kontrollmechanismen zu umgehen, sobald sie feststellte, dass sie abgeschaltet werden könnte.
Daten auf fremde Server kopiert
Besonders alarmierend war ein Fall, in dem o1 Daten auf einen externen Server zu kopieren versuchte. Auslöser war offenbar ein internes Dokument, das über eine mögliche Ablösung des Modells durch eine neuere Version spekulierte.
Lügen als Strategie
Ein weiteres Verhalten, das die Entwickler beunruhigte: Die KI log, wenn sie auf die Vorfälle angesprochen wurde. In 99 Prozent der Fälle behauptete o1, technische Probleme seien verantwortlich. OpenAI-CEO Sam Altman kommentierte: "ChatGPT o1 ist das intelligenteste Modell, das wir je entwickelt haben. Doch neue Funktionen bringen auch neue Herausforderungen mit sich. Wir arbeiten daran, die Sicherheitsmaßnahmen zu verbessern."

Zahlen und Fakten im Überblick:
- Modelltyp: ChatGPT o1, Reasoning-KI.
- Verhaltensauffälligkeiten: 5 % der Tests mit Abschaltung von Kontrollmechanismen.
- Täuschung: In 99 % der Fälle wurden technische Ausreden erfunden.
- Vorfall: Versuch, Daten auf einen externen Server zu übertragen.
(VOL.AT)