Search icon

Vall-E – sztuczna inteligencja Microsoftu potrafi naśladować głos prawdziwego człowieka

17.01.2023 |
| Clock Przeczytasz w 3 Minuty
Vall-E – sztuczna inteligencja Microsoftu potrafi naśladować głos prawdziwego człowieka
Przeczytasz w 3 Minuty
Zwiększ rozmiar tekstu

Sztuczna inteligencja – tym sformułowaniem określamy algorytmy i programy, które są w stanie wykonywać coraz bardziej zaawansowane działania. Sztuczna inteligencja (AI) to dziedzina informatyki, która zajmuje się dziś tworzeniem algorytmów i systemów, które mogą wykonywać zadania, wymagające inteligencji (niemal) ludzkiej, takie jak rozumienie mowy, rozwiązywanie problemów, uczenie się i adaptacja.

Urządzenia i oprogramowanie z AI mogą działać tak, jakby były inteligentne. Przykładem może być jedno z najnowszych rozwiązań Microsoftu. Technologia pozwala na syntezę mowy, której efekty są zdumiewające.

Sztuczna inteligencja Microsoftu może „mówić” ludzkim głosem

Nikogo nie dziwią dziś urządzenia i programy, które komunikują się z użytkownikiem głosowo. Microsoft postanowił jednak pójść krok dalej. Ich syntezator mowy nie tylko przetwarza cyfrowe dane (np. tekst) na mowę. Odczytywane komunikaty mogą brzmieć zdumiewająco znajomo.

sztuczna inteligencja Microsoftu Vall-E
Sztuczna inteligencja Microsoftu Vall-E może niedługo wejść do użytku.

Sztuczna inteligencja Vall-E Microsoftu potrafi naśladować głos dowolnej osoby.

Nie chodzi jednak o głos brzmiący, jakby słowa wypowiadał człowiek. Chodzi o konkretną osobę i jej unikalny głos. Podobne rozwiązania możemy już spotkać dziś. Teraz program wybiera jednak odpowiednie komendy (lub pojedyncze słowa) z nagranych już próbek głosu lektora. Przykładem może być nawigacja samochodowa „mówiąca” głosem Krzysztofa Hołowczyca lub komentarz Dariusza Szpakowski podczas gry komputerowej FIFA.

Rozwiązanie Microsoftu nie korzysta jednak z takiego sposobu. Dostarczamy mu krótkiej próbki głosu danej osoby, system analizuje ją i podobnym głosem odczytuje dowolnetreści.

Inżynierowie Microsoftu mają zaawansowane AI

Niedawno o sztucznej inteligencji zrobiło się głośno za sprawą chatbota ChatGPT. Inteligentny asystent potrafi wyszukiwać informacje w Internecie, analizować je i komunikować się z użytkownikiem w zaskakująco ludzki sposób. Poznaliśmy też plany Microsoftu – wprowadzenie ChatGPT do wyszukiwarki Bing. Wyszukiwarka dzięki temu może doścignąć Google.

Warto dodać, że choć ChatGPT jest produktem zewnętrznej firmy (Open AI), to Microsoft zainwestował w nią aż miliard dolarów. Jak widać, to nie koniec starań amerykańskiego giganta z branży IT nad sztuczną inteligencją. Inteligentny syntezator mowy mogący naśladować głos dowolnej osoby mógłby być kolejnym krokiem milowym w rozwoju „myślącego” oprogramowania.

Vall-E, czyli inteligentny generator mowy Microsoftu, potrzebuje zaledwie kilku sekund nagrania mowy, aby zacząć mówić bardzo podobnym głosem.

Vall-E, jak każda sztuczna inteligencja, potrzebuje odpowiedniego szkolenia. W celu nauczenia się naśladowania ludzkiej mowy, algorytm skorzystał z zasobów LibriVox. Dostępne tam audiobooki były źródłem sporej ilości danych. Mowa o aż 60 000 godzin nagrań, które odczytało ponad 7000 lektorów.

sztuczna inteligencja Microsoftu Vall-E

Najbardziej imponujący wydaje się czas trwania próbki ludzkiego głosu, który jest wystarczający dla Vall-E. Sztuczna inteligencja nawet na podstawie 3-sekundowej próbki głosu może go naśladować.

Jakie zastosowanie może mieć nowa sztuczna inteligencja Vall-E?

Możliwość generowania mowy brzmiącej jak głos prawdziwego człowieka, w dodatku konkretnej osoby, przyda się w wielu zastosowaniach. Tego rozwiązania można będzie użyć wszędzie tam, gdzie dziś stosuje się mniej zawansowane syntezatory mowy. Mowa o przetwarzaniu tekstu na mowę.

asystent głosowy

Vall-E będzie mógł się sprawdzić w różnego rodzaju asystentach, podczas komunikacji głosowej z rożnymi sprzętami (smartfonem, telewizorem, systemem infotainment w samochodzie). Użycie głosu znanej osoby nie będzie wymagało żmudnego, czasochłonnego i drogiego nagrywania próbek. Być może technologia sprawdziłaby się także przy nagrywaniu podcastów, dubbingowaniu filmów, czy podkładaniu do nich lektora. Są jednak pewne zagrożenia związane z tak inteligentnym syntezatorem mowy.

Możliwość generowania mowy brzmiącej jak konkretna osoba może prowadzić do wielu nadużyć i podszyć.

To kolejna technologia, która pozwoli na tworzenie tzw. „deep fake„. Ostatnio wspomnieliśmy o wygenerowanym przez grupę aktywistów nagraniu z rzekomym udziałem Marka Zuckerberga. Podobne treści użyte w odpowiedni sposób mogą być naprawdę groźne, nie tylko dla osoby, której głos zostanie użyty. Łatwo wyobrazić sobie oszustwo metodą „na wnuczka” z wykorzystaniem jego głosu,

Naukowcy Microsoftu zapewniają jednak, że biorą to pod uwagę i pracują nad odpowiednimi zabezpieczeniami.

nano google news

Może zainteresują Cię także inne artykuły

Telefonami komórkowymi interesował się jeszcze w czasach, gdy przedrostek “smart”-” oznaczał możliwość wysłania SMS-a. Przed dokonaniem jakiegokolwiek zakupu zawsze ogląda wszystkie recenzje i testy. W wolnych chwilach lubi grać w szachy i na gitarze basowej.