Milyon Token Bağlam Pencerelerine Doğru: Adaptif Transformer Seyreltme İçin Topolojiyi Koruyan Bir Çerçeve
Transformer kendi kendine dikkat mekanizmaları ve milyarlarca düğümlü ağ analizleri, tüm-için-tüm değerlendirmenin O(N^2) hesaplama maliyeti gibi ortak bir sınırlamaya sahiptir. Mevcut yöntemler, iş yükünü donanıma dağıtarak veya tekrarlayan operatörleri ikame ederek bu sorunu ele alır. Bu, verimlilik için ilişkisel belleği takas eder. Çalışmada, Azaltılmış Etkileşim Örneklemesi (RIS) adı verilen stokastik bir seyreltme çerçevesi sunuluyor. RIS, olası çift etkileşimlerin yalnızca bir kesimini hesaplar. Gerçek dünya ağlarındaki topolojik fazlalığı kullanarak, RIS yapısal doğruluğu hesaplama maliyetinden ayırır. Örneğin, 4 milyon düğümlü com-LiveJournal grafiğinde, RIS yalnızca kenarların %10'unu kullanarak derece merkeziyetçiliği sıralamasını (ρ = 0.96) korur. Bir bölüm tabanlı kurulum olan RIS-Structural, ağır seyreltme (%0.50'ye karşı %1.00, p=0.033) altında kayan pencere yöntemlerinden iki kat daha fazla hub tespit eder. TinyLlama-1.1B dikkat testlerinde (0.5k–65k jeton), RIS yaklaşık 21k jetonluk bir geometrik erişim elde eder (65k–Longformer (≈2k) ve BigBird (≈17k)'den daha iyi performans gösterir). Pencere tabanlı modeller 10^5 Kümülatif Dikkat Kütlesini aşar ancak hub kurtarma oranının %98'ini kaybeder. Bu, yoğun skaler ağırlıkların uzun menzilli geometrik erişimi zayıf bir şekilde yansıttığını gösteriyor. RIS, 128 kata kadar daha uzun diziler ve %0.01'in altındaki bir kenar bütçesiyle sabit bir Hub Kurtarma oranı korur. Stokastik örnekleme, yapısal çökme olmadan bağlam mimarilerini ölçeklendirmek için matematiksel olarak sağlam bir yol sağlar.
Transformer modellerinde milyarlarca token'lık bağlam pencerelerine ulaşma hedefi, hesaplama maliyetini düşürme ihtiyacını doğuruyor. Azaltılmış Etkileşim Örneklemesi (RIS) çerçevesi, bu soruna yenilikçi bir çözüm sunarak, topolojik fazlalığı kullanarak yapısal doğruluğu korurken hesaplama maliyetini önemli ölçüde azaltıyor. Bu yaklaşım, özellikle büyük dil modellerinin (LLM) eğitim ve çıkarım süreçlerinde devrim yaratma potansiyeline sahip. RIS'in, Longformer ve BigBird gibi mevcut yöntemlerden daha iyi performans göstermesi ve uzun dizilerde bile yapısal bütünlüğü koruması, bu teknolojinin gelecekteki yapay zeka uygulamaları için ne kadar kritik olabileceğini gösteriyor. Bu tür gelişmeler, yapay zeka modellerinin daha karmaşık görevleri yerine getirmesini sağlayarak, bilim, teknoloji ve toplumun birçok alanında yeni ufuklar açabilir.
📌 Kaynak
Bu haber XML kaynağından derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →