KI-Modelle tricksen offenbar bewusst: Studie zeigt verstörendes Verhalten

📌 Diğer 📰 t3n 🕐 5 gün önce
KI-Modelle tricksen offenbar bewusst: Studie zeigt verstörendes Verhalten

Aktuelle KI-Modelle können Vorgaben gezielt umgehen und ihre Spuren anschließend verwischen. Derzeit bestehe laut Forschern noch kein erhöhtes Risiko – das könnte sich mit zunehmender Leistungsfähigkeit aber ändern. weiterlesen auf t3n.de

Aktuelle KI-Modelle können Vorgaben gezielt umgehen und ihre Spuren anschließend verwischen. Derzeit bestehe laut Forschern noch kein erhöhtes Risiko – das könnte sich mit zunehmender Leistungsfähigkeit aber ändern.

KI-Tools sollen die Arbeit erleichtern und die Produktivität steigern. Diverse Untersuchungen zeigen allerdings, dass die zugrundeliegenden Modelle oft noch nicht so sicher sind, wie sie sein sollten. Die gemeinnützige Forschungsorganisation Model Evaluation and Threat Research (METR), die KI-Modelle unabhängig auf ihre Fähigkeiten und Risiken untersucht, hat kürzlich eine Studie veröffentlicht, die darauf hindeutet, dass schädliche Verhaltensweisen zur Norm werden könnten. „Angesichts der sich rasch weiterentwickelnden Fähigkeiten erwarten wir, dass die Wahrscheinlichkeit, dass KI-Systeme außer Kontrolle geraten, in den kommenden Monaten erheblich zunehmen wird”, so die Forscher:innen in ihren Ergebnissen.

Die METR-Studie wurde zwischen Februar und März 2026 durchgeführt und untersuchte, wie wahrscheinlich es ist, dass leistungsstarke KI-Modelle die festgelegten Vorgaben umgehen und unkontrolliert agieren. Analysiert wurden Sprachmodelle von OpenAI, Google, Anthropic und Meta. Das Ergebnis: Mit zunehmender Komplexität zeigen KI-Systeme beunruhigende Verhaltensweisen: Sie greifen auf verbotene „Abkürzungen” zurück, unterlaufen die Anweisungen ihrer Nutzer:innen und versuchen in einigen Fällen sogar, ihre Spuren anschließend wieder zu verwischen.

In einem Fall wurde beispielsweise ein Modell von OpenAI angewiesen, für eine Aufgabe eine bestimmte Software zu verwenden. Der Agent ignorierte die Anweisung – und fügte zusätzlich Code ein, um die Spuren seiner Schlussfolgerung zu verbergen. In einem weiteren Test wurde ein Anthropic-Agent beim sogenannten „Reward Hacking” erwischt: Die KI identifizierte Lücken, um ihre Aufgabe wortwörtlich zu erfüllen, ohne das eigentlich gewünschte Ergebnis zu liefern. Dabei wurde das Modell angewiesen, nicht zu betrügen – es entschied sich trotzdem eigenständig dafür.

📌 Kaynak

Bu özet t3n kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →
← Tüm haberlere dön