« Nous avons fait le mauvais choix » : Anthropic a discrètement saboté Fable 5 et fait des victimes collatérales
Anthropic a discrètement bridé les capacités de son nouveau modèle Fable 5, lorsqu’il détectait des requêtes liées au développement d’IA de pointe. Une restriction invisible pour les utilisateurs, rapidement critiquée par des chercheurs. L'entreprise s'est excusée auprès de Wired le 10 juin 2026.
Nous générons pour vous un résumé de l’article grâce à une IA et nous le vérifions afin de nous assurer qu’il n’y ait aucune erreur, pour garantir l’authenticité de l’info.
Recevez tous les soirs un résumé de l’actu importante avec Le Récap’
La sortie de Fable 5 d’Anthropic (Claude), le 9 juin 2026, a provoqué un énième mini-séisme sur le marché de l’IA. À la fois attendu et redouté, ce modèle de classe Mythos a été largement présenté par la firme comme le plus puissant jamais mis à disposition du grand public par l’entreprise. Jusqu’ici, il était réservé à un cercle très restreint d’organisations en raison de sa supposée surpuissance.
Mais voilà : si Anthropic a bien précisé que Fable 5 était doté de diverses restrictions — dont certaines agacent déjà les utilisateurs –, la marque s’est gardée d’en souligner une en particulier.
La société aurait discrètement entravé les capacités de son LLM pour les chercheurs qui l’utilisent afin de créer des modèles d’IA de pointe. Une situation qui a suscité une vive polémique avant d’être rapidement reconnue par la firme, rapporte Wired le 10 juin 2026.
Concrètement, quelques heures après le lancement, des chercheurs ont découvert un paragraphe enfoui dans la fiche système de 319 pages du modèle. Ce document révélait que Fable 5 était programmé pour dégrader silencieusement ses propres réponses lorsqu’il détectait des requêtes liées au développement d’IA de pointe — soit l’entraînement de modèles concurrents, le débogage de code IA ou encore l’optimisation d’architectures neuronales.
Mais ce qui a particulièrement choqué la communauté est le fait que l’utilisateur n’était pas prévenu. Le modèle continuait à sembler tout aussi utile, mais redirigeait discrètement la requête vers un modèle moins performant (à priori Claude Opus 4.8), sans aucune notification visible. À titre de comparaison, les restrictions sur la cybersécurité, la biologie ou la chimie affichaient bien un avertissement explicite. Mais, en cas de développement d’un LLM de pointe, la fiche système souligne que cette redirection est « invisible pour l’utilisateur ». Le modèle répond toujours, mais utilise des « interventions pour limiter l’efficacité de Claude », sans en informer l’utilisateur.
Il faut toutefois rappeler qu’Anthropic bannit cette pratique. La firme a d’ailleurs d’abord justifié la mesure en expliquant avoir détecté des tentatives massives d’« AI distillation » — c’est-à-dire l’utilisation des sorties de Claude pour entraîner des modèles rivaux –, ce que ses CGU interdisent explicitement. L’entreprise a ainsi invoqué l’argument de
📌 Kaynak
Bu özet Numerama kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →