CVPR 2026, ByteDance Seed'in Uzamsal Zeka Çerçevesi SpatialTree'yi Kabul Etti
Zhejiang Üniversitesi, ByteDance Seed ve Pekin Jiaotong Üniversitesi'nden oluşan ortak bir araştırma ekibi, çok modlu büyük dil modellerinin (MLLM) uzamsal zekayı ele alma biçimini sistematik olarak yeniden tanımlayan yeni bir çerçeve olan SpatialTree'yi geliştirdi. CVPR 2026'da kabul edilen bu çerçeve, MLLM'lerin mekansal anlayış yeteneklerini geliştirmeyi hedefliyor. Günümüz MLLM'leri görüntüleri tanımlayabilse ve videoları anlayabilse de, mesafe yargılama, boyut tahmin etme, çoklu görünüm ilişkilerini anlama ve navigasyon rotaları planlama gibi gerçek uzamsal anlama hala temel bir zorluk teşkil ediyor. SpatialTree, bu yetenekleri dört katmana ayırıyor: Algılama (temel mesafe, boyut, şekil, hareket, yön), Zihinsel Haritalama (uzamsal bilgiyi dile ve belleğe dönüştürme), Zihinsel Simülasyon (rota planlama gibi eylemlerden önce uzamsal akıl yürütme) ve Etkin Yetkinlik (oyun navigasyonu veya robotik manipülasyon gibi eylemlere algıyı çevirme). Araştırma ekibi, 27 uzamsal alt yeteneği kapsayan SpatialTree-Bench'i oluşturdu. Sonuçlar, en iyi model olan Gemini 3 Flash'ın bile ortalama sadece 57.8 puan aldığını göstererek, uzamsal zekanın hala çözülmemiş bir sorun olduğunu ortaya koyuyor. ByteDance'in Seed 1.8 modeli ise en üst düzeyde 50.3 puan elde etti.
CVPR 2026'da kabul edilen SpatialTree çerçevesi, çok modlu büyük dil modellerinin (MLLM) uzamsal zeka konusundaki mevcut sınırlılıklarını aşmaya yönelik önemli bir adımdır. Günümüz yapay zeka modelleri, metin ve görüntü işleme konusunda büyük ilerlemeler kaydetmiş olsa da, gerçek dünya mekansal ilişkilerini anlama ve akıl yürütme konusunda hala önemli zorluklarla karşı karşıyadır. SpatialTree'nin algılama, zihinsel haritalama, zihinsel simülasyon ve etkin yetkinlik gibi katmanlı yaklaşımı, bu zorlukların üstesinden gelmek için sistematik bir yol haritası sunuyor. Gemini 3 Flash gibi en gelişmiş modellerin bile uzamsal zeka testlerinde düşük puanlar alması, bu alanın yapay zeka araştırmaları için ne kadar önemli ve zorlu bir hedef olduğunu gösteriyor. ByteDance'in bu alandaki çalışmaları, gelecekteki yapay zeka uygulamalarının daha akıllı ve çevreyle daha etkili bir şekilde etkileşim kurmasını sağlayabilir.
📌 Source
This summary is auto-compiled from XML. Visit the original article for the full text.
Read original article →