Google DeepMind, Gemini, Imagen, Veo, Gemma ve AlphaFold'a yaptığı düzenli ve oldukça beğenilen güncellemelerle yapay zeka alanında istikrarlı bir ilerleme kaydediyor. Google'ın yapay zeka ekibi, bugün Gemini 2.0 tabanlı iki yeni modelin lansmanıyla robotik sektörüne girişini resmen duyurarak manşetlere çıkmaya devam ediyor: Gemini Robotics ve Gemini Robotics-ER.
Gemini Robotics: Gelişmiş Vizyon-Dil-Eylem Modeli
Gemini Robotics, Gemini 2.0 temel alınarak geliştirilen ve robot kontrolü için yeni bir çıktı yöntemi olarak fiziksel eylemlerin eklendiği gelişmiş bir görme-dil-eylem (VLA) modelidir. Google, bu yeni modelin eğitim sırasında karşılaşmadığı durumları bile anlayabildiğini iddia ediyor.
Gemini Robotics, diğer önde gelen VLA modelleriyle karşılaştırıldığında kapsamlı bir genelleme kıyaslama setinde iki kat daha iyi performans gösteriyor. Gemini 2.0 modeli üzerine inşa edildiği için pek çok farklı doğal dili anlayabilir, bu da insan komutlarını daha doğru bir şekilde anlayabileceği anlamına geliyor.
El becerisi açısından bakıldığında, Google, Gemini Robotics'in hassas manipülasyon gerektiren karmaşık, çok adımlı görevleri yerine getirebileceğini iddia ediyor. Örneğin bu model origami katlamak veya atıştırmalıkları Ziploc poşetlere koymak için kullanılabilir.
Gemini Robotics-ER: Uzamsal Akıl Yürütmeye Odaklanan Görsel-Dil Modeli
Gemini Robotics-ER, robotikçilerin mevcut düşük seviyeli kontrol cihazlarıyla entegre olmalarına olanak tanıyan, mekansal akıl yürütmeye odaklanan gelişmiş bir görsel-dilsel modeldir. Bu model kullanılarak robotikçi, algılama, durum tahmini, mekansal anlama, planlama ve kod üretimi de dahil olmak üzere robotu kontrol etmek için gereken tüm adımlara aynı anda sahip olabilecek.
Gemini Robotik'in Geleceği
Google, Gemini 2.0 modellerini temel alan insansı robotlar geliştirmek için Apptronik ile ortaklık kuruyor. Google ayrıca Gemini Robotics-ER'nin gelecekteki gelişimine rehberlik etmek için Agile Robots, Agility Robotics, Boston Dynamics ve Enchanted Tools gibi bir dizi güvenilir test ortağıyla da çalışıyor.
Google DeepMind, robotların karmaşık görevleri daha yüksek doğruluk ve uyarlanabilirlikle anlamasını ve gerçekleştirmesini sağlayarak, robotların hayatımızın birçok alanına sorunsuz bir şekilde entegre olabileceği bir geleceğin yolunu açıyor.