DiffusionGemma: Google beschleunigt Gemma 4 mit Technik zur Bilderzeugung
Das KI-Modell Diffusiongemma erzeugt viele Tokens parallel. Das LLM nutzt Diffusion, lastet damit lokale Hardware besser aus, ist aber ungenauer. ( KI , Google )
Der Durchsatz großer Sprachmodelle (LLMs) hängt insbesondere bei lokaler Ausführung hauptsächlich von der verfügbaren Speicherbandbreite ab. Der Grund dafür ist, dass in jedem Schritt nur ein neues Ausgabesymbol (Token) erzeugt wird, wofür alle Modellparameter aus dem Speicher geladen werden müssen. Google hat mit Diffusiongemma ein Modell vorgestellt(öffnet im neuen Fenster), das ungefähr eine Vervierfachung der Tokenrate verspricht.
Möglich ist das, da das Modell, anders als bei sogenannten autoregressiven LLMs üblich, in jedem Schritt 256 Tokens statt nur einem erzeugt. Das Problem dabei: Da die Tokens parallel erzeugt werden, fehlt das Kontextwissen zu den im gleichen Schritt erzeugten Tokens. Genau das macht aber die Leistungsfähigkeit autoregressiver Modelle aus. Diffusiongemma plappert quasi unreflektiert drauflos.
Um das in den Griff zu bekommen, nutzen die Google-Forscher einen eigentlich von Bildgeneratoren bekannten Ansatz: Diffusion. Das Modell startet mit zufällig gewählten Tokens, die anschließend iterativ zu einer sinnvollen Textpassage verfeinert werden. Laut Googles Beschreibung werden dabei korrekte Tokens fixiert, ohne jedoch ins Detail zu gehen, wie diese bestimmt werden.
Die parallel erzeugten Tokens nehmen gemeinsam ihren Weg durch das Modell. So können die aus dem RAM geladenen Parameter für 256 Berechnungen statt nur einer verwendet werden.
Das gleiche Prinzip machen sich Cloudanbieter mit Batching zunutze: Dabei werden mehrere Anfragen kombiniert und zusammen verarbeitet. Auch Batching erzeugt damit mehrere Tokens parallel, jedoch für unterschiedliche Nutzer. Diffusiongemma eignet sich damit in erster Linie für Systeme, bei denen Batching nur eingeschränkt oder gar nicht möglich ist – insbesondere also lokal gehostete Modelle.
Der Ansatz hat allerdings einen Nachteil: Die Ergebnisse sind im Allgemeinen schlechter als bei Nutzung eines autoregressiven Modells. Für nichtlineare Szenarien kann der Ansatz aber auch von Vorteil sein: Google nennt als Beispiele mathematische Graphen, Code In-Filling oder die Sequenzierung von Aminosäuren. Generell verweisen die Entwickler aber auf den experimentellen Status des Modells und raten von der Nutzung in Produktivsystemen ab.
Technisch basiert Diffusiongemma auf Gemma 4 24B A4B, einem MoE-Model (Mixture-of-Experts) mit 24 Milliarden Parametern, von denen aber nur 3,8 Milliarden aktiv sind.
Modellbeschreibung und -parameter von Diffusiongemma können bei Huggingface heruntergeladen werden(öffnet im neuen Fenster). Von anderen Entwicklern wurden auch bereits Quantisierungen und Portierung
📌 Kaynak
Bu özet Golem kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →