Çinli yapay zeka girişimi DeepSeek, en son büyük dil modeli (LLM) DeepSeek-V3-0324'ü resmen yayınladı. 641 GB'a kadar kapasiteye sahip olan bu model, şirketin bugüne kadar yeni ürünler konusunda her zaman uyguladığı gizli stil doğrultusunda, çok fazla bilgi ortaya çıkmadan AI Hugging Face platformunda duyuruldu.
Bu modelin özelliği, ticari amaçlı olarak ücretsiz kullanıma izin veren MIT lisansına sahip olmasıdır. İlk kıyaslama sonuçları, DeepSeek-V3-0324'ün Apple'ın M3 Ultra çipli Mac Studio'su gibi ana akım donanım yapılandırmalarında çalışabildiğini gösteriyor. Yapay zeka bilimcisi Awni Hannun, bu konfigürasyon kullanılarak saniyede 20 token'ın üzerinde işlem hızına ulaşılabileceğini bildirdi. Şirket içindeki ticari donanımlarda büyük bir dil modeli çalıştırma yeteneği, gelişmiş yapay zeka modellerini desteklemek için büyük veri merkezi altyapısı kullanma şeklindeki geleneksel yaklaşımla taban tabana zıttır.

DeepSeek'ten alınan bilgiye göre, ilk testlerde önceki versiyonlara göre önemli iyileştirmeler görüldü. Bu model, şirket içi paydaşlar tarafından titizlikle test edildi ve mükemmel bir performans gösterdi, hatta tüm diğer rakip modelleri geride bıraktı ve derin düşünme gerektirmeyen görevlerde Anthropic'in Claude Sonnet 3.5 modelini geçti. Ancak ücretli abonelik gerektiren Sonnet tarzı modellerin aksine, DeepSeek-V3-0324 tamamen ücretsiz olarak indirilip kullanılabilir.
Teknik olarak DeepSeek-V3-0324, uzmanların bir araya geldiği (MoE) bir mimari kullanıyor. Görev başına 685 milyar parametrenin yaklaşık 37 milyarını seçici olarak kullanabilme yeteneğiyle öne çıkıyor, performansı korurken hesaplama gereksinimlerini azaltarak verimliliği artırıyor. Bu modelde ayrıca bağlam belleğini iyileştirmeye ve çıktıyı hızlandırmaya katkıda bulunan Çok Başlı Gizli Dikkat (MLA) ve Çok Belirteçli Tahmin (MTP) teknolojileri de uygulanmaktadır.
Kullanıcılar isterlerse Hugging Face, OpenRouter'ın sohbet arayüzü ve API'si, ayrıca DeepSeek'in sohbet platformu üzerinden DeepSeek-V3-0324'e erişebilirler. Çıkarım hizmeti sağlayıcısı Hyperbolic Labs da modele erişim sağlıyor.
Şirket, DeepSeek-V3-0324'ün yayınlanmasıyla büyük dil modelleri geliştirme yarışındaki konumunu iddia etmeye devam ederken, yapay zeka araştırma ve geliştirme topluluğu için güçlü ve erişilebilir bir seçenek sunuyor. Standart donanımlarda çalışabilme özelliği ve ücretsiz lisans, yakın gelecekte bu model için pek çok pratik uygulama fırsatı yaratacaktır.