Blog

Microsoft VALL-E 2: Yapay zeka ses taklidi artık ayırt edilemez düzeyde

Microsoft, geçtiğimiz yılın nisan ayında insan seslerini taklit edebilen metinden konuşmaya yapay zeka aracı VALL-E’yi tanıtmıştı. O periyotta VALL-E, çok kısa bir ses örneğinden sonra her türlü sesi taklit edebiliyordu. Fakat yeni duyurulan VALL-E 2, her sesi inanılmaz yüksek kalitede taklit edebiliyor. Bu yüzden Microsoft, VALL-E 2‘yi kamuoyuna sunulamayacak kadar ikna edici örnekler ürettiği için yayınlamama kararı aldı.

Microsoft VALL-E 2 korkutuyor

Daha evvel de metinden konuşmaya (text-to-speech – TTS) yapay zeka araçları görmüştük lakin VALL-E 2, birinci kez karşılaştırma ölçütlerinde beşerlerle tıpkı düzeye ulaşan cinsinin tek örneği oluyor. Bu da modelin çok gerçekçi ses taklitleri yapabildiği manasına geliyor. Microsoft’un VALL-E 2’yi halka açık bir formda yayınlamama nedeni de aslında bu. Aşağıdaki temastan bir örneğe bakabilirsiniz. Ayrıyeten Microsoft’un kendi sitesindeki örneklere de bakmanızı tavsiye ederiz.

VALL-E 2 ile tek bir ses belgesiyle yapılan birinci denemede modelin insan düzeyinde performans gösterdiği belirtiliyor. Bununla birlikte VALL-E 2, karmaşıklığı yahut tekrar eden tabirleri nedeniyle klâsik olarak sıkıntı olan cümlelerde bile konuşma sentezini bozmuyor. VALL-E 2 temelinde birinci modelin üzerine inşa ediliyor lakin iki ehemmiyeti geliştirmeyle destekleniyor: “Tekrara Hassas Örnekleme” ve “Gruplandırılmış Kod Modelleme“.

Birincisi, kod çözme süreci sırasında seslerin yahut cümlelerin sonsuz döngülerini önleyen “belirteçlerin” (token) tekrarlarını ele alarak yapay zekanın metni konuşmaya dönüştürme formunu geliştiriyor. Daha anlaşılır bir sözle, bu özellik VALL-E 2’nin konuşma biçimini değiştirmeye yardımcı olarak daha akıcı ve doğal görünmesini sağlıyor.
Gruplandırılmış Kod Modelleme ise dizi uzunluğunu ya da modelin tek bir giriş dizisinde tek tek işlediği belirteçlerin sayısını azaltarak verimliliği artırıyor. Böylelikle VALL-E 2’nin konuşma üretme suratı artırılıyor ve uzun ses belgeleri işlenirken ortaya çıkan zorlukların önüne geçiliyor.

LibriSpeech ve VCTK bilgi kümelerini kullanarak test edilen VALL-E 2 için araştırmacılar, konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından evvelki TTS sistemlerinin geride bırakıldığını söyledi.

Microsoft, sahip olduğu yeteneklere karşın potansiyel berbata kullanım riskleri nedeniyle VALL-E 2’yi halka sunmayacak. Ses klonlama ve deepfake teknolojisinin son derece erişilebilir olduğu düşünüldüğünde bu, yerinde bir karar. OpenAI üzere öteki yapay zeka şirketleri de kendi ses teknolojilerine benzeri kısıtlamalar uyguluyor.

blank

Deneme Burada

Deneme Burada, deneme bonusu veren siteler hakkında kapsamlı bilgiler sunan popüler bir platformdur. Bu site, kullanıcıların bahis ve casino siteleri hakkında detaylı incelemeler ve değerlendirmeler yaparak en iyi deneme bonuslarını keşfetmelerine yardımcı olur. Deneme Burada, farklı platformların sunduğu bonus kampanyalarını karşılaştırarak en avantajlı teklifleri sunar. Kullanıcı dostu arayüzü ve mobil uyumluluğu sayesinde her yerden kolayca erişilebilen Deneme Burada, en güncel bonus bilgilerini ve fırsatlarını takip etmenizi sağlar. Site, güvenilir bahis ve casino sitelerinin yanı sıra, kullanıcı deneyimlerini ve uzman görüşlerini de paylaşarak bilinçli seçimler yapmanıza yardımcı olur. Deneme Burada ile en iyi deneme bonuslarını keşfedin ve bahis deneyiminizi kazançlı hale getirin.
Başa dön tuşu