- Katılım
- 14 Şub 2021
- Mesajlar
- 617
- Puanları
- 1
George Bernard Shaw’ın Pygmalion oyunundaki fonetikçi Henry Higgins gibi, Marius Cotescu ve Georgi Tinchev de yakın zamanda öğrencilerinin telaffuz güçlüklerinin üstesinden nasıl gelmeye çalıştıklarını gösterdiler.
Avrupa’da Amazon için çalışan iki veri bilimcisi, şirketin dijital asistanı Alexa’ya ders verdi. Görevi: Yapay zekayı ve anadili İngilizce olan kişilerin kayıtlarını kullanarak, Alexa’nın İrlanda aksanıyla İngilizcede ustalaşmasına yardımcı olun.
Gösteri sırasında Alexa unutulmaz bir akşamdan bahsetti. “Dün geceki parti çok eğlenceliydi,” dedi Alexa İrlandaca “eğlence” kelimesini kullanarak hafifçe. “Eve giderken yolda dondurma yedik ve dışarıda olduğumuz için mutluyduk.”
Bay Tinchev başını salladı. Alexa “parti” kelimesindeki “r” harfini atladı, bu yüzden kelime “pah-tee” gibi düz geliyordu. Fazla İngiliz, diye bitirdi.
Teknoloji uzmanları, Amazon’da dil ayrıştırma olarak bilinen zorlu bir veri bilimi alanı üzerinde çalışan bir ekibin parçası. Bu, bir yapay zeka geliştirme dalgasıyla yeni bir alaka düzeyi kazanan çetrefilli bir konudur. Araştırmacılar, dil ve teknoloji muammasının yapay zeka destekli cihazları, botları ve konuşma sentezleyicileri daha konuşkan hale getirmeye yardımcı olabileceğine inanıyor – yani çeşitli bölgesel aksanlara hitap edebiliyor.
Dilin çözülmesi, sadece kelime bilgisi ve sözdizimi öğrenmekten çok daha fazlasını gerektirir. Bir konuşmacının perdesi, tınısı ve aksanı genellikle kelimelere incelikli anlam ve duygusal ağırlık verir. Dilbilimciler, makinelerin ustalaşmakta zorlandığı bu dil özelliğini “prozodi” olarak adlandırır.
Yalnızca son birkaç yılda, yapay zeka, bilgisayar çipleri ve diğer donanımlardaki gelişmeler sayesinde, araştırmacılar ses dağınıklığı sorununu çözmede ve bilgisayar tarafından üretilen konuşmayı kulağa daha hoş gelen bir şeye dönüştürmede ilerleme kaydetti.
Araştırmacılar, bu tür çalışmaların sonunda, sohbet robotlarının kendi yanıtlarını oluşturmasına izin veren bir teknoloji olan “üretken AI” da bir patlama ile gelebileceğini söyledi. ChatGPT ve Bard gibi sohbet robotları, bir gün kullanıcıların sesli komutlarına tamamen yanıt verebilir ve sözlü olarak yanıt verebilir. Analistler, aynı zamanda, Alexa ve Apple’ın Siri’si gibi ses asistanlarının daha konuşkan hale geleceğini ve görünüşte bocalayan bir teknoloji segmentinde tüketici ilgisini potansiyel olarak yeniden canlandıracağını söylüyor.
Alexa, Siri ve Google Asistan gibi sesli asistanların birden çok dili konuşmasını sağlamak maliyetli ve uzun bir süreçti. Teknoloji şirketleri, dijital asistanlar için sentetik sesler oluşturmaya yardımcı olan yüzlerce saatlik konuşmayı kaydetmek için seslendirme sanatçıları tuttu. Metni kulağa doğal gelen sentetik konuşmaya dönüştürdükleri için “metinden konuşmaya modelleri” olarak bilinen gelişmiş yapay zeka sistemleri, bu süreci kolaylaştırmaya yeni başlıyor.
Deutsche Bank Research kıdemli stratejisti Marion Laboure, teknolojinin “artık farklı dillerde, aksanlarda ve lehçelerde metin girişine dayalı olarak bir insan sesi ve sentetik ses üretebildiğini” söyledi.
Amazon, AI rekabetinde Microsoft ve Google gibi rakiplerini yakalama baskısı altında. Nisan ayında Amazon CEO’su Andy Jassy, Wall Street analistlerine, şirketin Alexa’yı gelişmiş üretken AI kullanarak “daha da proaktif ve konuşkan” hale getirmeyi planladığını söyledi. Ve Amazon’un Alexa baş bilimcisi Rohit Prasad, Mayıs ayında CNBC’ye ses asistanını ses kontrollü “anında kullanılabilir, kişisel yapay zeka” olarak gördüğünü söyledi.
İrlandalı Alexa, İrlanda aksanını anlamak ve sonra konuşmak için dokuz aylık bir eğitimden sonra Kasım ayında ticari çıkışını yaptı.
Bay Prasad bir röportajda “Aksan, dilden farklıdır” dedi. Yapay zeka teknolojileri, yerel lehçelerin kendine has özelliklerini yeniden üretebilmeleri için konuşmanın diğer bölümlerinden (örneğin tonlama ve sıklık gibi) aksanı çıkarmayı öğrenmelidir – örneğin, “a” daha düz olabilir ve “t”ler daha fazla telaffuz edilebilir zorla.
Bu sistemlerin, “tamamen yeni bir aksanı sentezleyebilmeniz için” bu kalıpları tanıması gerekiyor. “Bu zor.”
Yeni bir aksanı, kulağa farklı gelen bir konuşma modelinden büyük ölçüde kendi başına öğrenecek teknolojiye sahip olmak daha da zordu. İrlandalı Alexa’yı inşa ederken Bay Cotescu’nun ekibinin yapmaya çalıştığı şey buydu. Ona İrlanda İngilizcesi konuşmayı öğretmek için, çoğunlukla İngiliz İngilizcesi aksanlarından oluşan – çok daha küçük bir Amerikan, Kanada ve Avustralya aksanıyla – mevcut bir dil modelinden büyük ölçüde yararlandılar.
Ekip, çeşitli İrlanda İngilizcesi zorluklarıyla mücadele etti. İrlandalılar “th”deki “h”yi çıkarma ve harfleri sert “t” veya “d” olarak telaffuz etme eğilimindedir, böylece “banyo” kulağa “yarasa” ve hatta “kötü” gibi gelir. İrlanda İngilizcesi de rhotic’tir, yani “r” fazla vurgulanmıştır. Bu, “parti”deki “r”nin bir Londralının ağzından duyabileceğinizden daha net duyulduğu anlamına gelir. Alexa’nın bu dil işlevlerini öğrenmesi ve ustalaşması gerekiyordu.
Rumen olan ve İrlandalı Alexa ekibinin baş araştırmacısı olan Bay Cotescu, İrlanda İngilizcesinin “zor bir soru” olduğunu söyledi.
Alexa’nın sözlü becerilerini yönlendiren dil modelleri, son birkaç yılda giderek daha karmaşık hale geldi. 2020’de Amazon araştırmacıları, İngilizce konuşan bir model kullanarak Alexa’ya İspanyolca’da akıcı olmayı öğretti.
Bay Cotescu ve ekibi, aksanları Alexa’nın dil yeteneklerinde bir sonraki sınır olarak gördü. İrlandalı Alexa’yı dil modelini oluşturmak için oyunculardan çok yapay zekaya güvenecek şekilde tasarladılar. Sonuç olarak, İrlandalı Alexa nispeten küçük bir külliyat üzerinde eğitildi – İrlanda aksanlı İngilizce’de 2.000 söz söyleyen seslendirme sanatçılarının yaklaşık 24 saatlik kaydı.
Amazon’un araştırmacıları, İrlandaca kayıtları hala öğrenen İrlandalı Alexa’ya ilettiğinde, ilk başta bazı garip şeyler oldu.
Bazen harfler ve heceler cevaptan çıkarılıyor. “S” bazen birbirine yapışır. Bazen çok önemli olan bir veya iki kelime açıklanamaz bir şekilde mırıldandı ve anlaşılmazdı. En az bir örnekte, Alexa’nın kadın sesi birkaç oktav düştü ve kulağa daha erkeksi geldi. Daha da kötüsü, erkek sesi bariz bir şekilde İngiliz gibiydi, bazı İrlandalı evlerde kaşlarını çatacak türden bir saçmalık.
Bir Bulgar vatandaşı ve projede Amazon’un baş bilim adamı olan Bay Tinchev, dil modelleri hakkında “Bunlar büyük kara kutular” dedi. “Onları ayarlamak için çok şey denemeniz gerekiyor.”
Teknisyenlerin Alexa’nın “parti” hatasını düzeltmek için yaptığı şey buydu. Alexa’nın nerede kaydığını bulmak ve onu düzeltmek için dili kelime kelime, ses birimini (bir kelimenin işitilebilir en küçük parçası) ses birimini çözdüler. Daha sonra yanlış telaffuzu düzeltmek için İrlandalı Alexa’nın konuşma modelini ek kaydedilmiş konuşma verileriyle beslediler.
Sonuç: “parti” içindeki “r” döndürüldü. Ama sonra “p” kayboldu.
Yani veri bilimcileri yine aynı süreçten geçtiler. Son olarak, eksik “p”yi içeren foneme odaklandılar. Sonra modeli daha da geliştirdiler, böylece “p” sesi geri geldi ve “r” kaybolmadı. Alexa sonunda bir Dublinli gibi konuşmayı öğrendi.
İki İrlandalı dilbilimci – Limerick Üniversitesi’nde ders veren Elaine Vaughan ve Trinity College Dublin’de Fonetik ve Konuşma Laboratuvarı’nda çalışan doktora öğrencisi Kate Tallon – o zamandan beri İrlandalı Alexa’nın aksanına yüksek puanlar verdiler. İrlandalı Alexa’nın “r”yi vurgulaması ve “t”yi yumuşatmasının göze çarptığını söylediler ve genel olarak Amazon aksanı doğru anladı.
Bayan Tallon, “Bana gerçekçi geliyor,” dedi.
Amazon araştırmacıları, son derece olumlu geri bildirimlerden memnun kaldılar. Dil modellerinin İrlanda aksanını bu kadar çabuk çözmesi, onlara aksanları başka yerlerde kopyalayabilme umudu verdi.
İrlanda Alexa Projesi hakkında Ocak ayında yayınlanan bir araştırma raporunda “Metodolojimizi İngilizce dışındaki dil aksanlarına da genişletmeyi planlıyoruz” diye yazdılar.
Avrupa’da Amazon için çalışan iki veri bilimcisi, şirketin dijital asistanı Alexa’ya ders verdi. Görevi: Yapay zekayı ve anadili İngilizce olan kişilerin kayıtlarını kullanarak, Alexa’nın İrlanda aksanıyla İngilizcede ustalaşmasına yardımcı olun.
Gösteri sırasında Alexa unutulmaz bir akşamdan bahsetti. “Dün geceki parti çok eğlenceliydi,” dedi Alexa İrlandaca “eğlence” kelimesini kullanarak hafifçe. “Eve giderken yolda dondurma yedik ve dışarıda olduğumuz için mutluyduk.”
Bay Tinchev başını salladı. Alexa “parti” kelimesindeki “r” harfini atladı, bu yüzden kelime “pah-tee” gibi düz geliyordu. Fazla İngiliz, diye bitirdi.
Teknoloji uzmanları, Amazon’da dil ayrıştırma olarak bilinen zorlu bir veri bilimi alanı üzerinde çalışan bir ekibin parçası. Bu, bir yapay zeka geliştirme dalgasıyla yeni bir alaka düzeyi kazanan çetrefilli bir konudur. Araştırmacılar, dil ve teknoloji muammasının yapay zeka destekli cihazları, botları ve konuşma sentezleyicileri daha konuşkan hale getirmeye yardımcı olabileceğine inanıyor – yani çeşitli bölgesel aksanlara hitap edebiliyor.
Dilin çözülmesi, sadece kelime bilgisi ve sözdizimi öğrenmekten çok daha fazlasını gerektirir. Bir konuşmacının perdesi, tınısı ve aksanı genellikle kelimelere incelikli anlam ve duygusal ağırlık verir. Dilbilimciler, makinelerin ustalaşmakta zorlandığı bu dil özelliğini “prozodi” olarak adlandırır.
Yalnızca son birkaç yılda, yapay zeka, bilgisayar çipleri ve diğer donanımlardaki gelişmeler sayesinde, araştırmacılar ses dağınıklığı sorununu çözmede ve bilgisayar tarafından üretilen konuşmayı kulağa daha hoş gelen bir şeye dönüştürmede ilerleme kaydetti.
Araştırmacılar, bu tür çalışmaların sonunda, sohbet robotlarının kendi yanıtlarını oluşturmasına izin veren bir teknoloji olan “üretken AI” da bir patlama ile gelebileceğini söyledi. ChatGPT ve Bard gibi sohbet robotları, bir gün kullanıcıların sesli komutlarına tamamen yanıt verebilir ve sözlü olarak yanıt verebilir. Analistler, aynı zamanda, Alexa ve Apple’ın Siri’si gibi ses asistanlarının daha konuşkan hale geleceğini ve görünüşte bocalayan bir teknoloji segmentinde tüketici ilgisini potansiyel olarak yeniden canlandıracağını söylüyor.
Alexa, Siri ve Google Asistan gibi sesli asistanların birden çok dili konuşmasını sağlamak maliyetli ve uzun bir süreçti. Teknoloji şirketleri, dijital asistanlar için sentetik sesler oluşturmaya yardımcı olan yüzlerce saatlik konuşmayı kaydetmek için seslendirme sanatçıları tuttu. Metni kulağa doğal gelen sentetik konuşmaya dönüştürdükleri için “metinden konuşmaya modelleri” olarak bilinen gelişmiş yapay zeka sistemleri, bu süreci kolaylaştırmaya yeni başlıyor.
Deutsche Bank Research kıdemli stratejisti Marion Laboure, teknolojinin “artık farklı dillerde, aksanlarda ve lehçelerde metin girişine dayalı olarak bir insan sesi ve sentetik ses üretebildiğini” söyledi.
Amazon, AI rekabetinde Microsoft ve Google gibi rakiplerini yakalama baskısı altında. Nisan ayında Amazon CEO’su Andy Jassy, Wall Street analistlerine, şirketin Alexa’yı gelişmiş üretken AI kullanarak “daha da proaktif ve konuşkan” hale getirmeyi planladığını söyledi. Ve Amazon’un Alexa baş bilimcisi Rohit Prasad, Mayıs ayında CNBC’ye ses asistanını ses kontrollü “anında kullanılabilir, kişisel yapay zeka” olarak gördüğünü söyledi.
İrlandalı Alexa, İrlanda aksanını anlamak ve sonra konuşmak için dokuz aylık bir eğitimden sonra Kasım ayında ticari çıkışını yaptı.
Bay Prasad bir röportajda “Aksan, dilden farklıdır” dedi. Yapay zeka teknolojileri, yerel lehçelerin kendine has özelliklerini yeniden üretebilmeleri için konuşmanın diğer bölümlerinden (örneğin tonlama ve sıklık gibi) aksanı çıkarmayı öğrenmelidir – örneğin, “a” daha düz olabilir ve “t”ler daha fazla telaffuz edilebilir zorla.
Bu sistemlerin, “tamamen yeni bir aksanı sentezleyebilmeniz için” bu kalıpları tanıması gerekiyor. “Bu zor.”
Yeni bir aksanı, kulağa farklı gelen bir konuşma modelinden büyük ölçüde kendi başına öğrenecek teknolojiye sahip olmak daha da zordu. İrlandalı Alexa’yı inşa ederken Bay Cotescu’nun ekibinin yapmaya çalıştığı şey buydu. Ona İrlanda İngilizcesi konuşmayı öğretmek için, çoğunlukla İngiliz İngilizcesi aksanlarından oluşan – çok daha küçük bir Amerikan, Kanada ve Avustralya aksanıyla – mevcut bir dil modelinden büyük ölçüde yararlandılar.
Ekip, çeşitli İrlanda İngilizcesi zorluklarıyla mücadele etti. İrlandalılar “th”deki “h”yi çıkarma ve harfleri sert “t” veya “d” olarak telaffuz etme eğilimindedir, böylece “banyo” kulağa “yarasa” ve hatta “kötü” gibi gelir. İrlanda İngilizcesi de rhotic’tir, yani “r” fazla vurgulanmıştır. Bu, “parti”deki “r”nin bir Londralının ağzından duyabileceğinizden daha net duyulduğu anlamına gelir. Alexa’nın bu dil işlevlerini öğrenmesi ve ustalaşması gerekiyordu.
Rumen olan ve İrlandalı Alexa ekibinin baş araştırmacısı olan Bay Cotescu, İrlanda İngilizcesinin “zor bir soru” olduğunu söyledi.
Alexa’nın sözlü becerilerini yönlendiren dil modelleri, son birkaç yılda giderek daha karmaşık hale geldi. 2020’de Amazon araştırmacıları, İngilizce konuşan bir model kullanarak Alexa’ya İspanyolca’da akıcı olmayı öğretti.
Bay Cotescu ve ekibi, aksanları Alexa’nın dil yeteneklerinde bir sonraki sınır olarak gördü. İrlandalı Alexa’yı dil modelini oluşturmak için oyunculardan çok yapay zekaya güvenecek şekilde tasarladılar. Sonuç olarak, İrlandalı Alexa nispeten küçük bir külliyat üzerinde eğitildi – İrlanda aksanlı İngilizce’de 2.000 söz söyleyen seslendirme sanatçılarının yaklaşık 24 saatlik kaydı.
Amazon’un araştırmacıları, İrlandaca kayıtları hala öğrenen İrlandalı Alexa’ya ilettiğinde, ilk başta bazı garip şeyler oldu.
Bazen harfler ve heceler cevaptan çıkarılıyor. “S” bazen birbirine yapışır. Bazen çok önemli olan bir veya iki kelime açıklanamaz bir şekilde mırıldandı ve anlaşılmazdı. En az bir örnekte, Alexa’nın kadın sesi birkaç oktav düştü ve kulağa daha erkeksi geldi. Daha da kötüsü, erkek sesi bariz bir şekilde İngiliz gibiydi, bazı İrlandalı evlerde kaşlarını çatacak türden bir saçmalık.
Bir Bulgar vatandaşı ve projede Amazon’un baş bilim adamı olan Bay Tinchev, dil modelleri hakkında “Bunlar büyük kara kutular” dedi. “Onları ayarlamak için çok şey denemeniz gerekiyor.”
Teknisyenlerin Alexa’nın “parti” hatasını düzeltmek için yaptığı şey buydu. Alexa’nın nerede kaydığını bulmak ve onu düzeltmek için dili kelime kelime, ses birimini (bir kelimenin işitilebilir en küçük parçası) ses birimini çözdüler. Daha sonra yanlış telaffuzu düzeltmek için İrlandalı Alexa’nın konuşma modelini ek kaydedilmiş konuşma verileriyle beslediler.
Sonuç: “parti” içindeki “r” döndürüldü. Ama sonra “p” kayboldu.
Yani veri bilimcileri yine aynı süreçten geçtiler. Son olarak, eksik “p”yi içeren foneme odaklandılar. Sonra modeli daha da geliştirdiler, böylece “p” sesi geri geldi ve “r” kaybolmadı. Alexa sonunda bir Dublinli gibi konuşmayı öğrendi.
İki İrlandalı dilbilimci – Limerick Üniversitesi’nde ders veren Elaine Vaughan ve Trinity College Dublin’de Fonetik ve Konuşma Laboratuvarı’nda çalışan doktora öğrencisi Kate Tallon – o zamandan beri İrlandalı Alexa’nın aksanına yüksek puanlar verdiler. İrlandalı Alexa’nın “r”yi vurgulaması ve “t”yi yumuşatmasının göze çarptığını söylediler ve genel olarak Amazon aksanı doğru anladı.
Bayan Tallon, “Bana gerçekçi geliyor,” dedi.
Amazon araştırmacıları, son derece olumlu geri bildirimlerden memnun kaldılar. Dil modellerinin İrlanda aksanını bu kadar çabuk çözmesi, onlara aksanları başka yerlerde kopyalayabilme umudu verdi.
İrlanda Alexa Projesi hakkında Ocak ayında yayınlanan bir araştırma raporunda “Metodolojimizi İngilizce dışındaki dil aksanlarına da genişletmeyi planlıyoruz” diye yazdılar.