Microsoft VALL-E 2: Yapay zeka ses taklidi artık ayırt edilemez düzeyde
Microsoft VALL-E 2 korkutuyor
Daha evvel de metinden konuşmaya (text-to-speech – TTS) yapay zeka araçları görmüştük lakin VALL-E 2, birinci kez karşılaştırma ölçütlerinde beşerlerle tıpkı düzeye ulaşan cinsinin tek örneği oluyor. Bu da modelin çok gerçekçi ses taklitleri yapabildiği manasına geliyor. Microsoft’un VALL-E 2’yi halka açık bir formda yayınlamama nedeni de aslında bu. Aşağıdaki temastan bir örneğe bakabilirsiniz. Ayrıyeten Microsoft’un kendi sitesindeki örneklere de bakmanızı tavsiye ederiz.
VALL-E 2 ile tek bir ses belgesiyle yapılan birinci denemede modelin insan düzeyinde performans gösterdiği belirtiliyor. Bununla birlikte VALL-E 2, karmaşıklığı yahut tekrar eden tabirleri nedeniyle klâsik olarak sıkıntı olan cümlelerde bile konuşma sentezini bozmuyor. VALL-E 2 temelinde birinci modelin üzerine inşa ediliyor lakin iki ehemmiyeti geliştirmeyle destekleniyor: “Tekrara Hassas Örnekleme” ve “Gruplandırılmış Kod Modelleme“.
LibriSpeech ve VCTK bilgi kümelerini kullanarak test edilen VALL-E 2 için araştırmacılar, konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından evvelki TTS sistemlerinin geride bırakıldığını söyledi.
Microsoft, sahip olduğu yeteneklere karşın potansiyel berbata kullanım riskleri nedeniyle VALL-E 2’yi halka sunmayacak. Ses klonlama ve deepfake teknolojisinin son derece erişilebilir olduğu düşünüldüğünde bu, yerinde bir karar. OpenAI üzere öteki yapay zeka şirketleri de kendi ses teknolojilerine benzeri kısıtlamalar uyguluyor.