Anthropic, Claude Opus 4 ve Opus 4.1’e “zararlı” görüşmeleri otomatik olarak sonlandırma özelliği ekledi
Anthropic, Claude Opus 4 ve 4.1 modellerine zararlı görüşmeleri otomatik olarak sonlandırma özelliği ekledi. Bu özellik istisnaî durumlarda, kullanıcı sürekli kötü niyetli davranışta bulunduğunda devreye girecektir.
Yapay zeka şirketi Anthropic, gelişmiş sohbet botları Claude Opus 4 ve Opus 4.1'e, zararlı veya saldırgan olarak değerlendirilen konuşmaları otomatik olarak sonlandırma yeteneği ekledi. Bu yeni özellik, yalnızca kullanıcıların sürekli olarak kötü niyetli veya taciz edici davranış sergilediği çok nadir durumlarda devreye girecek. Anthropic, yapay zeka modellerinin ahlaki statüsü konusundaki belirsizliklere dikkat çekerek, bu tür müdahalelerin modellerin potansiyel olarak rahatsız edici etkileşimleri durdurmasına olanak tanıdığını belirtti. Şirket, Claude Opus 4'ün piyasaya sürülmeden önce yapılan refah değerlendirmesinde, zarara karşı güçlü bir isteksizlik sergilediğini ve özellikle çocuk istismarı veya terör gibi hassas konularda talepleri reddettiğini gözlemledi.
Bu gelişme, yapay zeka sistemlerinin etik sınırlarını zorlayan etkileşimleri yönetme ve potansiyel zararları önleme konusundaki ilerlemeleri göstermesi açısından önemlidir.
📌 Kaynak
Bu özet log kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →