Anthropic'ten güçlü performansıyla öne çıkan iki yeni Mythos sınıfı model: Fable 5 ve Mythos 5
Anthropic çok konuşulan siber güvenlik modeli Mythos'un halka açık ilk sürümü olan Claude Fable 5’i piyasaya sürdü . Anthropic'in belirttiğine göre Fable 5, yazılım mühendisliği, bilgi işleri ve görsel işleme alanlarında üstün performans gösteriyor. Ancak model katı güvenlik sınırlamalarıyla birlikte geliyor. Model, siber güvenlik, biyoloji, kimya ve damıtma gibi yüksek riskli alanlarda, yanıtları engelleyerek Claude Opus 4.8'e geri dönüyor. Yine de Anthropic, Fable'ın Opus 4
Anthropic çok konuşulan siber güvenlik modeli Mythos'un halka açık ilk sürümü olan Claude Fable 5’i piyasaya sürdü . Anthropic'in belirttiğine göre Fable 5, yazılım mühendisliği, bilgi işleri ve görsel işleme alanlarında üstün performans gösteriyor. Ancak model katı güvenlik sınırlamalarıyla birlikte geliyor. Model, siber güvenlik, biyoloji, kimya ve damıtma gibi yüksek riskli alanlarda, yanıtları engelleyerek Claude Opus 4.8'e geri dönüyor. Yine de Anthropic, Fable'ın Opus 4.8'e başvurmak zorunda kaldığı durumların nadir olduğunu ifade ediyor. Şirketin paylaştığı ilk verilere göre; Fable oturumlarının en az yüzde 95'i tamamen modelin kendi yanıtlarıyla yürütüldü. Nisan ayında ön izleme olarak piyasaya sürülen Mythos, başlangıçta siber güvenlik endişeleri nedeniyle sınırlı sayıda iş ortağının erişimine açıktı. Geçen hafta Anthropic, 15 ülkedeki yüzlerce kuruluşun modele erişmesini sağladı . Şirket Mythos'un yeni bir versiyonu olan Fable 5'i, Anthropic'in Claude API'si ve tüketime dayalı Kurumsal planları aracılığıyla herkesin kullanımına sunuyor. Anthropic, Fable 5'in önceki Claude modellerine göre daha uzun süre ve daha bağımsız bir şekilde gözetimsiz çalışabileceğini belirtiyor. Üçüncü taraf testleri kapsamında analiz şirketi Hex'in yaptığı açıklamaya göre, Fable, karmaşık ve uzun süren analitik görevlerden oluşan temel analiz ölçütünde yüzde 90 puan alan ilk model. Anthropic, Mythos sınıfı bir modelin kötüye kullanımından endişe duyuyor. Bu nedenle şirket, Fable 5'i piyasaya sürmeden önce sınıflandırıcılarını jailbreak girişimleriyle stres testine tabi tuttu. Anthropic yaptığı açıklamada şu ifadelere yer verdi: “Şirket içinde, 1.000 saatten fazla süren testlerde evrensel jailbreak'ler üretmeyen bir harici hata ödül programı yürüttük. Ardından, evrensel jailbreak'ler bulamayan harici red-team kuruluşlarıyla çalıştık.” Fable 5 ve Mythos 5'in piyasaya sürülmesiyle birlikte Anthropic, siber güvenlik riskleri nedeniyle tüm trafiğin 30 gün boyunca saklanmasının gerekeceğini belirtiyor. Daha önce sıfır saklama anlaşmaları olan işletmeler de bu sürece dahil edilecek. Verileri eğitim amacıyla kullanmayacağını belirten şirket, söz konusu verileri yalnızca yeni jailbreak'ler dahil olmak üzere karmaşık ve yeni saldırılara karşı savunma sağlamak ve yanlış pozitifleri tespit edip azaltmak için kullanacak. İlerleyen dönemde daha güçlü modellere erişim, güvenlik önlemi olarak çerçevelenmiş zorunlu veri saklama politikalarını da berbaberinde getirebilir. 22 Haziran'a kadar Fable 5, Pro, Max, Team ve lisans bazlı Kurumsal planlara ek ücret ödemeden dahil edilecek. 23 Haziran'da Anthropic, Fable 5'i bu planlardan kaldıracak ve bundan sonra kullanım kredisi gerektirecek; ancak mümkün olan en kısa sürede bunu standart bir abonelik özelliği olarak geri getirmeyi planlıyor. Geliştiriciler için Fable 5, Claude API üzerinden claude-fable-5 olarak kullanılabilir. Mythos 5 Anthropic ayrıca, gelişmiş modele erişim izni almış kuruluşlara Mythos 5 adlı Mythos'un yeni bir sürümünü de sunuyor. Fable 5 ve Mythos 5, aynı temel yetenek düzeyini paylaşıyor gibi görünüyor. Bu iki model arasındaki fark, erişim kontrolü. Kullanıcıların modellere ne kadar kolay ulaşabileceği ve her birine gömülü güvenlik önlemleri farklılık gösteriyor. Mythos 5, onaylanmış alanlarda çalışan güvenilir kullanıcılar için Fable 5'te gördüğümüz kısıtlamaların bir kısmını kaldırıyor. Bu sayede Mythos 5, Fable 5'in yetersiz kaldığı alanlarda yanıt verebildiği için hassas siber ve biyoloji çalışmaları için daha güçlü bir model olarak karşımıza çıkıyor. Öte yandan Anthropic'in belirttiğine göre; çoğu sıradan kurumsal ve geliştirici görevi için Fable 5, Mythos 5 ile aynı performansı gösteriyor. Fable 5 ve Mythos 5'in performası Anthropic'in paylaştığına göre; zorlu yazılım mühendisliği görevlerini tamamlama yeteneğini ölçen SWE-bench Pro'da, Fable 5 ve Mythos 5, yüzde 80,3'e ulaştı. Modelerin, bu ölçütte yüzde 58,6 puan alan OpenAI'ın en yeni ve en iyi genel modeli GPT-5.5'i büyük ölçüde geride bıraktığını belirtelim. Cognition’ın FrontierCode Diamond ölçütünde, modeller yüzde 29,3 puan alırken, Claude Opus 4.8 yüzde 13,4 ve GPT-5.5 yüzde 5,7 puan aldı. Stripe modelin kodlama performansını şu ifadelerle aktarıyor: “Fable 5, aylar süren mühendislik çalışmalarını günlere indirgiyor. 50 milyon satırlık Ruby kod tabanımızda, elle yaparsak iki aydan fazla sürecek bir işi bir günde halletti.” Kodlama görevlerinin yanı sıra Anthropic, Fable 5'i kurumsal bilgi işleri için daha güçlü bir model olarak konumlandırıyor. Şirketin paylaştığı verilere göre; GDPval-AA'da Fable 5 ve Mythos 5, 1932 puan alırken, Claude Opus 4.8, 1890, GPT-5.5, 1769 ve Gemini 3.1 Pro, 1314 puan aldı. Görsel belge akıl yürütmesine odaklanan bir karşılaştırma ölçütü olan GDPpdf'de, Fable 5 ve Mythos 5, araçlar olmadan yüzde 29,8 puan almayı başardı. Opus 4.8 için bu oran yüzde 22,5 olurken, GPT-5.5 için yüzde
📌 Kaynak
Bu özet Webrazzi kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →