Yapay zeka çılgınlığına Microsoft da katılıyor. Microsoft araştırmacıları, üç saniyelik ses örneği verildiğinde bir kişinin sesini simüle edebilen yapay zeka projesini deklare etti. VALL-E adlı yeni “metinden konuşmaya yapay zeka” modeli, EnCodec adlı bir teknolojiyi temel alıyor.
Microsoft Vall-E yapay zeka nedir?
Microsoft, yalnızca üç saniyelik bir ses örneğiyle kişinin sesini öykünmek edebilen yapay zeka tabanlı modelini duyurdu. Dalga biçimlerini değiştirerek konuşmayı sentezleyen diğeri şekillerinin aksine, VALL-E bir kişinin çıkardığı sesi çözümleme edebiliyor. Bu bilgiyi bileşenlere ayıran model, eğitim verilerini kullanarak o sesin “codec” bilgilerini çıkarabiliyor.
Microsoft, VALL-E’nin konuşma sentezleme kabiliyetini, Meta tarafınca oluşturulan halka açık sesli kitaplar ile geliştirdiğini deklare etti. 7000’den fazla konuşmacıdan 60 bin saatlik İngilizce konuşmayı içeren LibriLight adlı bir ses kitaplığını kullandı.
VALL-E, öncesinden tasarlanmış hazır sesler olmadan çalışabilir ve çözümleme ederek öğrenme kabiliyetine haiz. Şu demek oluyor ki daha ilkin asla duymadığı kelimeleri bile öğrenerek çıkartabilir. Microsoft’un yapay zeka modeli, nerede ise halka açık olarak sunulmadı.
Şirket başta güvenlik olmak suretiyle çeşitli mevzularda önlem almayı dikkatsizlik etmedi. Bir kişinin sesini öykünmek etme yada belirli bir konuşmacının kimliğine bürünme şeklinde durumlar için anlama modeli üstünde çalıştığını dile getirdi.
Apple ise daha ilkin kitapları sesli hale getiren yapay zeka modelini duyurmuştu. Apple Books, yapay zeka ile ses sentezleme modelini kullanarak birçok kitabı sesli hale getirmeyi planlıyor.
Siz bu mevzu hakkında ne düşünüyorsunuz? Fikirlerinizi yorumlar kısmında bizlerle paylaşabilirsiniz.