Vall-E – sztuczna inteligencja Microsoftu potrafi naśladować głos prawdziwego człowieka
Sztuczna inteligencja – tym sformułowaniem określamy algorytmy i programy, które są w stanie wykonywać coraz bardziej zaawansowane działania. Sztuczna inteligencja (AI) to dziedzina informatyki, która zajmuje się dziś tworzeniem algorytmów i systemów, które mogą wykonywać zadania, wymagające inteligencji (niemal) ludzkiej, takie jak rozumienie mowy, rozwiązywanie problemów, uczenie się i adaptacja.
Urządzenia i oprogramowanie z AI mogą działać tak, jakby były inteligentne. Przykładem może być jedno z najnowszych rozwiązań Microsoftu. Technologia pozwala na syntezę mowy, której efekty są zdumiewające.
Sztuczna inteligencja Microsoftu może „mówić” ludzkim głosem
Nikogo nie dziwią dziś urządzenia i programy, które komunikują się z użytkownikiem głosowo. Microsoft postanowił jednak pójść krok dalej. Ich syntezator mowy nie tylko przetwarza cyfrowe dane (np. tekst) na mowę. Odczytywane komunikaty mogą brzmieć zdumiewająco znajomo.
Sztuczna inteligencja Vall-E Microsoftu potrafi naśladować głos dowolnej osoby.
Nie chodzi jednak o głos brzmiący, jakby słowa wypowiadał człowiek. Chodzi o konkretną osobę i jej unikalny głos. Podobne rozwiązania możemy już spotkać dziś. Teraz program wybiera jednak odpowiednie komendy (lub pojedyncze słowa) z nagranych już próbek głosu lektora. Przykładem może być nawigacja samochodowa „mówiąca” głosem Krzysztofa Hołowczyca lub komentarz Dariusza Szpakowski podczas gry komputerowej FIFA.
Rozwiązanie Microsoftu nie korzysta jednak z takiego sposobu. Dostarczamy mu krótkiej próbki głosu danej osoby, system analizuje ją i podobnym głosem odczytuje dowolnetreści.
Inżynierowie Microsoftu mają zaawansowane AI
Niedawno o sztucznej inteligencji zrobiło się głośno za sprawą chatbota ChatGPT. Inteligentny asystent potrafi wyszukiwać informacje w Internecie, analizować je i komunikować się z użytkownikiem w zaskakująco ludzki sposób. Poznaliśmy też plany Microsoftu – wprowadzenie ChatGPT do wyszukiwarki Bing. Wyszukiwarka dzięki temu może doścignąć Google.
Warto dodać, że choć ChatGPT jest produktem zewnętrznej firmy (Open AI), to Microsoft zainwestował w nią aż miliard dolarów. Jak widać, to nie koniec starań amerykańskiego giganta z branży IT nad sztuczną inteligencją. Inteligentny syntezator mowy mogący naśladować głos dowolnej osoby mógłby być kolejnym krokiem milowym w rozwoju „myślącego” oprogramowania.
Vall-E, czyli inteligentny generator mowy Microsoftu, potrzebuje zaledwie kilku sekund nagrania mowy, aby zacząć mówić bardzo podobnym głosem.
Vall-E, jak każda sztuczna inteligencja, potrzebuje odpowiedniego szkolenia. W celu nauczenia się naśladowania ludzkiej mowy, algorytm skorzystał z zasobów LibriVox. Dostępne tam audiobooki były źródłem sporej ilości danych. Mowa o aż 60 000 godzin nagrań, które odczytało ponad 7000 lektorów.
Najbardziej imponujący wydaje się czas trwania próbki ludzkiego głosu, który jest wystarczający dla Vall-E. Sztuczna inteligencja nawet na podstawie 3-sekundowej próbki głosu może go naśladować.
Jakie zastosowanie może mieć nowa sztuczna inteligencja Vall-E?
Możliwość generowania mowy brzmiącej jak głos prawdziwego człowieka, w dodatku konkretnej osoby, przyda się w wielu zastosowaniach. Tego rozwiązania można będzie użyć wszędzie tam, gdzie dziś stosuje się mniej zawansowane syntezatory mowy. Mowa o przetwarzaniu tekstu na mowę.
Vall-E będzie mógł się sprawdzić w różnego rodzaju asystentach, podczas komunikacji głosowej z rożnymi sprzętami (smartfonem, telewizorem, systemem infotainment w samochodzie). Użycie głosu znanej osoby nie będzie wymagało żmudnego, czasochłonnego i drogiego nagrywania próbek. Być może technologia sprawdziłaby się także przy nagrywaniu podcastów, dubbingowaniu filmów, czy podkładaniu do nich lektora. Są jednak pewne zagrożenia związane z tak inteligentnym syntezatorem mowy.
Możliwość generowania mowy brzmiącej jak konkretna osoba może prowadzić do wielu nadużyć i podszyć.
To kolejna technologia, która pozwoli na tworzenie tzw. „deep fake„. Ostatnio wspomnieliśmy o wygenerowanym przez grupę aktywistów nagraniu z rzekomym udziałem Marka Zuckerberga. Podobne treści użyte w odpowiedni sposób mogą być naprawdę groźne, nie tylko dla osoby, której głos zostanie użyty. Łatwo wyobrazić sobie oszustwo metodą „na wnuczka” z wykorzystaniem jego głosu,
Naukowcy Microsoftu zapewniają jednak, że biorą to pod uwagę i pracują nad odpowiednimi zabezpieczeniami.
Może zainteresują Cię także inne artykuły