Google DeepMind’ın Yeni Yapay Zekâsı Görüntülere Soundtrack Oluşturacak
Google’ın DeepMind yapay zekâ laboratuvarı, son devirde tanınan olan görüntü oluşturan yapay zekâların en büyük eksiklerinden olan art plan müziği ve hatta diyalog oluşturma meselesini çözmeye hazırlanıyor. V2A (video ötesi ses) teknolojisi ismini verdiği teknoloji üzerindeki ilerlemelerini paylaşan laboratuvar, Google Veo ve OpenAI Sora üzere görüntü oluşturma araçlarıyla da eşleştirilebiliyor.
DeepMind takımı tarafından paylaşılan blog yazısına nazaran sistem ham pikselleri anlayabiliyor. ve bu bilgiyi de metin istemleriyle birleştirebildiğini söz etti. Bu eşleşme üzerinden de ses efektleri oluşturuluyor. Bu araç ayrıyeten sessiz sinemalar ya da sesi olmayan öbür görüntüler için de kullanılabiliyor.
DeepMind takımı araçlarına güveniyor
Aslında ses oluşturmak için kullanılabilecek birinci yapay zekâ DeepMind’ın geliştirdiği teknoloji değil ve son da olmayacak. ElevenLabs da daha evvel bu cins bir araç piyasaya sürmüştü. Öte yandan DeepMind grubu, kendi araçları için “hem pikselleri anlayabilmesi hem metin istemi eklemenin isteğe bağlı olması nedeniyle mevcut görüntü ötesi ses tahlillerinden farklı” sözünü kullanıyor.
DeepMind araştırmacıları bu teknolojiyi geliştirmek için yaptıkları çalışmalarda yapay zekâ tarafından üretilmiş, görüntüler, sesler, detaylı ses açıklamaları ve transkriptlerden oluşan bilgilerle eğitti. Araştırmacılar ayrıyeten V2A teknolojisinin, kaynak görüntüde bozulmalar olduğunda çıktının ses kalitesinde düşüş yaşanması üzere mevcut meseleler üzerinde de çalıştıklarını belirtiyorlar. DeepMind takımı, teknolojiyi herkese açık hâle getirmeden evvel de “titiz güvenlik değerlendirmeleri ve testlerden geçireceklerini” de taahhüt etti.