Cet outil open source compresse vos tokens avant qu’ils atteignent le LLM, et ça change tout

🤖 Yapay Zeka 📰 Numerama 🕐 3 gün önce

Un ingénieur de Netflix a créé un outil open source qui compresse les tokens envoyés aux LLM avant qu'ils n'atteignent le modèle, sans perte d'information. Résultat : 700 000 dollars économisés en quelques mois, et un questionnement profond sur la façon dont on alimente les IA.

Nous générons pour vous un résumé de l’article grâce à une IA et nous le vérifions afin de nous assurer qu’il n’y ait aucune erreur, pour garantir l’authenticité de l’info.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Tejas Chopra, ingénieur senior chez Netflix, raconte dans un billet de blog paru fin janvier 2026 le choc d’une facture à 287 dollars pour une simple session de travail avec Claude. Un peu de débogage, quelques refactorisations, des appels via des outils MCP pour interroger une base de données. Les tâches demandées n’ont rien d’extraordinaire et la tarification semblait pourtant raisonnable sur le papier : 3 dollars par million de tokens en entrée, 6 dollars au-delà de 200 000 tokens dans la fenêtre de contexte. Et pourtant, la note a grimpé.

En creusant, Chopra réalise que la majeure partie de ces tokens n’avait pas réellement besoin d’exister. L’essentiel du volume venait de métadonnées générées automatiquement, schémas JSON verbeux, modèles imbriqués dans les réponses API, colonnes de base de données répétées à l’identique. « Si l’invite de commande de votre système contient un champ de date ou un identifiant unique généré automatiquement qui change à chaque session, vous subissez systématiquement une erreur de cache. Cela va faire exploser vos coûts », résume-t-il.

L’ingénieur s’est alors lancé pendant plusieurs mois dans une traque méthodique de la compression de tokens. Le résultat s’appelle Headroom, présenté fin mai 2026 en marge de l’Open Source Summit de la Linux Foundation. Selon ses estimations, jusqu’à 90 % des tokens envoyés à un LLM dans ce type de workflow sont tout simplement superflus.

Headroom est donc un proxy open source qui s’intercale entre l’outil de l’ingénieur et le LLM. Il tourne en local, sous Python ou Node, et s’active en encapsulant n’importe quel agent via une commande simple.

Son fonctionnement repose sur plusieurs couches. Un premier module baptisé CacheAligner identifie ce qui a changé dans les données d’entrée par rapport à la session précédente, et ne transmet que les nouvelles informations, évitant de réinjecter des blocs entiers de contexte quasi identiques à chaque requête. Ensuite, un routeur oriente les données vers des compresseurs spécialisés : un compresseur pour le code, un compresseur pour les sorties d’API, un compresseur pour le web.

L’originalité de Headroom réside dans son dernier module, le CCR (Compression, Cache et Récupération) : les zones compressées sont marquées, et si le modèle a besoin de consulter les données originales, il peut les récupérer via un

#llm

📌 Kaynak

Bu özet Numerama kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.

Orijinal haberi oku →

← Tüm haberlere dön