NVIDIA Robotlar ve Otonom Araçlar için Yapay Zeka Modeli Cosmos 3’ü Tanıttı
NVIDIA, Tayvan’da düzenlenen GTC Taipei etkinliğinde teknoloji dünyasında taşları yerinden oynatacak yeni bir duyuruya imza atıyor. Şirket, dünyanın ilk “tamamen açık omni-modeli” olarak nitelendirdiği Cosmos 3 yapay zeka modelini resmi olarak paylaşıyor. Görsel tabanlı muhakeme yeteneğine sahip olan Nvidia Cosmos 3; metin, resim, video ve ortam sesi gibi çok modlu çıktıları destekleyerek robotlar ve otonom […]
Fizik Tabanlı Akıl Yürütme: Cosmos 3, robotik sistemlerin ve otonom araçların çevrelerindeki fiziksel etkileşimleri, hareketleri ve uzamsal-zamansal ilişkileri video veya eylem üretmeden önce anlamasını sağlıyor.
Tamamen Açık Omni-Model: Model; metin, görüntü, video, ortam sesleri ve eylemleri yüksek fizik doğruluğuyla yerel olarak hem anlama hem de üretme yeteneğine sahip ilk açık kaynaklı geniş taban model olma özelliği taşıyor.
Farklı Sürümlerle Esnek Kullanım: En yüksek sadakat oranına sahip “Cosmos 3 Super” ve daha kompakt “Cosmos 3 Nano” sürümleri şu an erişime açılırken, uç cihazlarda gerçek zamanlı analiz yapacak “Cosmos 3 Edge” sürümünün de yakında geleceği belirtiliyor.
Yapay zeka teknolojileri uzun süredir dijital verileri işleme konusunda büyük başarılar gösteriyor. Ancak sıra otonom araçların caddelerde güvenle ilerlemesine ya da insansı robotların ev ve fabrika ortamlarında nesneleri doğru bir şekilde kavramasına geldiğinde işler zorlaşıyor.
Eğitim verilerinin yetersizliği ve simülasyon ortamlarının parça parça olması, fiziksel dünyayı algılayan yapay zekaların gelişimini yavaşlatıyor. İşte NVIDIA Cosmos 3, tam olarak bu boşluğu doldurmak amacıyla geliştiriliyor.
Cosmos 3, nesnelerin birbiriyle olan ilişkisini, hızını, ağırlığını ve hareket yönünü yapay zeka mimarisiyle çözüyor. Yani otonom bir araç veya robot, bir sonraki hamlesini planlarken sadece karşısındaki nesneye bakmıyor, aynı zamanda o nesnenin fizik kuralları çerçevesinde nasıl davranacağını da tahmin ediyor.
NVIDIA’nın bu modelde kullandığı özel mimari, iki farklı transformatör yapısını bir araya getiriyor: Akıl yürütme transformatörü ve uzman üretim transformatörü. Bu ikili yapı sayesinde Cosmos 3, bir video ya da hareket rotası oluşturmadan önce nesnelerin etkileşimlerini derinlemesine analiz ediyor.
Bilmeyenler için özetlemek gerekirse, yapay zeka transformatörleri sıralı veriler içindeki ilişkileri ve bağlamı takip eden derin öğrenme ağları olarak biliniyor. Verileri tek tek işlemek yerine aynı anda analiz edebilen bu sistemler, işlem süreçlerini muazzam ölçüde hızlandırıyor.
Cosmos 3 de bu paralel işleme gücünü arkasına alarak bir robotun çevre seslerini, görüntülerini ve fiziksel konumunu milisaniyeler içinde tek bir potada eritiyor.
NVIDIA, bu açık omni-modelin üç temel senaryoda endüstriye yön vereceğini ifade ediyor. Model, öncelikli olarak gelişmiş bir görsel-dil modeli (Vision Language Model) olarak görev yapıyor. Yani gördüğü dünyayı insan diline dökebiliyor veya komutları görsellere dönüştürebiliyor.
İkinci olarak, fiziksel çevreleri simüle eden ve gelecek
📌 Kaynak
Bu özet shiftdelete kaynağından otomatik derlenmiştir. Tamamı için orijinal habere gidin.
Orijinal haberi oku →