Amazon bugün, geliştiricilerin gerçek zamanlı olarak insan benzeri seslerle sohbet edebilen uygulamalar geliştirmelerine olanak tanıyan gelişmiş bir konuşma-konuşma modeli olan Nova Sonic'i tanıttı. Amazon, bu yeni ses modelinin sektör lideri fiyat performansı ve düşük gecikme süresine sahip olduğunu iddia ediyor.
Genellikle, sesle etkinleştirilen bir uygulama geliştirmek, geliştiricilerin aynı anda birden fazla modelle çalışmasını gerektirir:
- Sesi metne dönüştürmek için konuşma tanıma modeli.
- Yanıtları anlamak ve üretmek için Büyük Dil Modeli (LLM).
- Metinden sese modeli.
Bu yaklaşım karmaşık olmanın yanı sıra ton, prozodi ve konuşma stili gibi önemli akustik bağlamları da sıklıkla göz ardı eder.

Nova Sonic, sağlam anlayışı ve üretimi tek bir modelde birleştirerek bu zorluğun üstesinden geliyor. Birleştirilmiş yaklaşım, modelin tonu, stili ve ses girişini yakalamasına yardımcı olarak daha doğal bir diyalog yaratılmasını sağlar. Ayrıca uygun tepki süresini belirler ve saldırıları daha iyi yönetir.
Nova Sonic, Amerikan, İngiliz gibi birçok İngiliz aksanının yanı sıra hem erkek hem de kadın seslerini destekliyor. Geliştiriciler, fonksiyon çağrılarını destekleyen çift yönlü bir akış API'sini kullanarak Amazon Bedrock üzerinden modellere erişebilirler. Bu modelde ayrıca içerik denetimi ve filigranlama gibi yerleşik koruma özellikleri de bulunuyor.
Bu bağlamda, OpenAI geçen ay yeni nesil konuşmadan metne modellerini duyurdu - gpt-4o-transcribe ve gpt-4o-mini-transcribe - bu modeller önceki Whisper modellerine kıyasla kelime hata oranı, dil tanıma ve doğrulukta önemli iyileştirmeler içeriyor.