Najlepszy generator głosu AI – Eleven Labs, Vall-E i inne narzędzia
Żyjemy w czasach, gdzie sztuczna inteligencja i jej rozwój nabierają coraz większego tempa. Wydarzenia po 2022 roku są szczególne pod tym względem, gdyż powstanie i ciągłe udoskonalanie chociażby modelu ChatGPT pokazuje, jak wiele już AI potrafi i jak wiele jest jeszcze w stanie się „nauczyć”. Z taką sztuczną inteligencją można rozmawiać, prosić ją o napisanie fragmentu kodu, zlecić jej wygenerowanie obrazu, albo wydać jej polecenie zamiany tekstu na mowę. To właśnie generator głosu będzie omawianym tematem.
Programy zmieniające tekst na mowę – wprowadzenie
Rozpoczynając tematykę dotyczącą zamiany tekstu na mowę, należy się cofnąć do jej początków i omówić, jakie gałęzie wpływały na jej rozwój. Zacznijmy od rozpoznawania mowy, które to pozwoliło urządzeniom (tj. komputerom) interpretować mowę ludzką w celach chociażby transkrypcji czy translacji. Początki tej technologii sięgają lat pięćdziesiątych XX wieku, a jej szczególnie silny rozwój można było zauważyć po 1990 roku. To właśnie na przełomie wieków coraz częściej mogliśmy usłyszeć, jak komputery osobiste (i inne tego typu urządzenia) próbują zrozumieć nasze polecenia lub starają się otrzymywane wypowiedzi przetłumaczyć na inny język.
Drugim działem, który jest kluczowy dla naszej tematyki to synteza mowy. Dziedzina ta odpowiada za mechaniczną zamianę zapisanego na komputerze tekstu na formę dźwiękową, która ma jak najlepiej imitować ludzką mowę.
Choć sama synteza mowy jest niezwykle złożonym procesem, to sama zasada jej działania jest dość prosta. Przedstawia to poniższa grafika:
Dopiero łącząc te dwie techniki i dodając do tego modele językowe oparte o algorytmy sztucznej inteligencji, możemy otrzymać coś takiego jak syntezatory mowy oparte o modele sztucznej inteligencji (ang. A.I. Text to Voice/Speech Generator). To właśnie one dają najlepsze rezultaty i są w stanie wygenerować naprawdę dobrze brzmiące wypowiedzi. Przyjrzyjmy się niektórym z nich.
Zamiana tekstu na mowę – przykładowe platformy
1. Murf.ai
Murf to platforma do tworzenia gotowych nagrań głosowych, zamiany tekstu na mowę, czy do tworzenia podkładów głosowych o jakości studyjnej. Można również używać tego oprogramowania do generowania głosu do filmów, podcastów oraz prezentacji. Według strony Murf.ai, w jej ofercie znajdują się następujące moduły:
- zamiana tekstu na mowę,
- transkrypcja,
- klonowanie głosu,
- dodawanie głosu do wideo czy Google Slides,
- edytor nagranego głosu.
Na samej platformie możemy skorzystać z ponad 120 unikalnych głosów w 20 językach. Oczywiście oferta Murf cały czas jest rozwijana.
Sama strona chwali się tym, że generuje mowę przy użyciu nowoczesnych technik sztucznej inteligencji i pozwala działać z własnymi nagraniami – dzięki zastosowanym algorytmom, narzędzie może odtworzyć Twój głos we właściwym tonie, pamiętając o znakach interpunkcyjnych (tj. znaki zapytania, czy wykrzykniki). Murf zawiera również edytor audio, który jest prosty w użyciu i odpowiedni dla początkujących. Umożliwia on również łatwe dopasowanie głosu do wideo, muzyki czy zdjęć.
Z samego Murf można zacząć korzystać bezpłatnie, natomiast subskrypcja zawierające dodatkowe funkcje zaczyna się od 19 dolarów miesięcznie (przy płatności od razu za cały rok).
2. Play.ht
Ten internetowy syntezator głosu jest w stanie konwertować tekst na mowę w bardzo wysokiej jakości. Sama platforma jest wyjątkowo prosta w obsłudze, ze względu na bardzo czytelny interfejs użytkownika.
W swojej ofercie Play.ht posiada:
- generator głosu,
- edytor zamiany tekstu na mowę,
- edytor wymowy i fonetyki (np. akronimów czy terminów niszowych),
- widżety audio na własną stronę www,
- generator podcastów,
- niezwykle realistyczną zamianę tekstu na mowę,
- narzędzia pracy zespołowej.
Na stronie można wprowadzić swoje treści, a następnie wybrać odpowiedni styl wypowiedzi, język, płeć czytającej osoby i szybkość odczytywania tekstu. Platforma na ten moment posiada w swoim systemie 832 różnych głosów AI i obsługuje aż 132 języki! Play.ht może być używana zarówno do celów prywatnych, jak i komercyjnych.
Każdy z nas może wypróbować platformę za darmo. Subskrypcja premium zaczyna się natomiast od 29,25 dolarów miesięcznie (oczywiście przy płatności rocznej).
3. Listnr
Listnr to platforma starająca się, by zamiana tekstu na mowę była maksymalnie prosta. Firma stojąca za tym projektem wykorzystuje najnowocześniejszą technologię syntezy głosu, wspieraną przez sztuczną inteligencję i algorytmy głębokiego uczenia się. Dzięki temu jest w stanie odtworzyć najbardziej ludzkie dźwięki z „czytanego” przez nią tekstu.
Platforma specjalizuje się w trzech narzędziach:
- zamiany tekstu na mowę,
- transkrypcji,
- klonowania głosu.
Listnr stara się zwracać uwagę na ludzkie subtelności w wypowiedzi – styl mowy, czy precyzyjność wypowiedzi. Wykorzystuje do tego odpowiednie narzędzia głębokiego uczenia się oraz bazę ponad 600 głosów, dostosowanych do obsługi 75 języków.
Oczywiście platformę można przetestować bezpłatnie a jeżeli uznamy, że spełnia nasze oczekiwania, to najtańsza subskrypcja wynosi 19 dolarów miesięcznie.
4. Lovo
Ta platforma w przeciwieństwie do swoich poprzedników, skupia się na dwóch narzędziach – Lovo dba o to, aby zamiana tekstu na mowę była jak najbardziej „ludzka” oraz o to, by syntezator mowy (wsparty przez zaawansowane algorytmy AI) brzmiał naturalnie.
Lovo to doskonałe narzędzie w momencie, w którym nie możesz (lub nie chcesz) nagrać własnego głosu. W swojej bazie posiada ponad 400 głosów, które można nacechować 25 emocjami w ponad 100 językach! W związku z tym platforma ta świetnie nada się do reklam audio, e-learningu, audiobooków, czy gier wideo.
Samo Lovo można testować w pełnej funkcjonalności bezpłatnie przez 14 dni, by następnie zdecydować, czy chcemy korzystać z (bardzo ograniczonego) pakietu bezpłatnego, czy uiścić opłatę wynoszącą minimum 19 dolarów miesięcznie (ponownie przy płatności z „góry” za cały rok).
5. Resemble.Ai
Resemble AI zdecydowanie wyróżnia się w tym zestawieniu. Platforma ta skupia się na kliencie biznesowym i wszystkie wcześniej wymienione u konkurencji funkcje, kieruje właśnie do tego typu klienta.
Zamiana tekstu na mowę oparta jest o algorytmy sztucznej inteligencji i pozwala generować spersonalizowany głos (poprzez syntezator mowy), który można stosować jako asystenta głosowego Google lub Alexa.
Resemble AI również zaznacza, że jeżeli posiadasz firmę z call center czy innym biurem obsługi klienta, to można dokonać klonowania i modyfikowania głosów swoich pracowników. Dzięki czemu część ich wypowiedzi może być generowania przez komputer. Co ciekawe, API platformy pozwala również na tworzenie nowych głosów i implementowanie ich w wybranych platformach programistycznych (np. Unity, Python, czy Ruby).
Istnieje możliwość bezpłatnego przetestowania platformy, choć Resemble AI zachęca do skorzystania z planów płatnych. W (ograniczonej) wersji podstawowej płacimy 0,006 dolara za każdą sekundę nagrania. W planie „PRO” nie mamy żadnych ograniczeń, ale trzeba skontaktować się z twórcami, by ustalić wysokość opłat.
6. Eleven Labs
To niezwykle ciekawy projekt pod wieloma względami. Otóż za jego stworzeniem stoi dwóch Polaków – Mateusz Staniszewski i Piotr Dąbkowski. Ci Panowie założyli startup pod nazwą Eleven Labs i pokazali, że potrafią stworzyć jeden z najlepszych syntezatorów mowy na świecie. Wystarczy zobaczyć poniższy film:
Na ten moment, to chyba najlepszy generator głosów oparty o algorytmy AI i uczenie maszynowe. Jak widać w powyższym filmie, możliwości projektu Eleven Labs są naprawdę olbrzymie (choć obecnie ograniczone wyłącznie do języka angielskiego). Sami twórcy sugerują, że ich narzędzie świetnie się sprawdzi do tworzenia naturalnych podkładów głosowych w:
- opowiadaniach,
- wiadomościach i artykułach,
- newsletterach i blogach,
- audiobookach.
Jeżeli chcecie sami doświadczyć umiejętności programu zmieniającego tekst na mowę od Eleven Labs, to możecie skorzystać z ich platformy bezpłatnie lub wybrać dopasowany do siebie plan (w cenie od 5 dolarów za każdy miesiąc).
7. Vall-E
Ostatnią platformą w zestawieniu jest projekt stworzony przez pracowników Microsoftu. Na oficjalnej stronie możemy przeczytać, że Vall-E jest sztuczną inteligencją działającą w oparciu o neuronowy silnik TTS (Text-To-Speech), mogącą (wykorzystując naszą próbkę głosu) odczytać dostarczony tekst.
Algorytmy powstały poprzez trenowanie ich ponad 60 tysiącami godzin nagrań anglojęzycznej mowy. Dzięki temu mając zaledwie 3 sekundową próbkę Twojej wypowiedzi, są w stanie odczytać angielskojęzyczny dokument, imitując Twój głos.
Co jest niezwykle interesujące, AI doda odpowiednią „naturalność” podczas czytania treści – dostosuje emocje, wprowadzi pauzy, czy zawahania głosu. Sam projekt jest w fazie rozwojowej, a na stronie projektu (GitHub) możemy odsłuchać przykładowe nagrania w wykonaniu DALL-E.
Może Cię zainteresować: