GPT-4o: nowy model ChatGPT pozwala m.in. na rozmowę w czasie rzeczywistym
Dotychczas użytkownicy ChatGPT mogli wybrać, czy chcą korzystać z bezpłatnej sztucznej inteligencji GPT-3.5, czy postawić na opcję płatną (ChatGPT Plus) z lepszym modelem językowym GPT-4. Teraz OpenAI prezentuje kolejna opcję – model językowy GPT-4o. Jest bezpłatny, ale ma naprawdę imponujące możliwości.
Premiera OpenAI GPT-4o
Przede wszystkim warto podkreślić fakt, że model językowy GPT-4o, choć przełomowy, jest darmowy. Skorzystają z niego zatem wszyscy użytkownicy ChatGPT. Zapewne trafi również do narzędzi Microsoftu, dotychczas wykorzystujących słabszą sztuczną inteligencję GPT-3.5. GPT-4o daje użytkownikom jeszcze bardziej zaawansowane funkcje językowe. Warto chociażby wspomnieć o funkcjach omni. GPT-4o nie tylko rozumie komendy wypowiedziane lub napisane językiem naturalnym. Poradzi sobie z tekstem, komendami głosowymi, obrazami i grafiką, a nawet filmami wideo. Co więcej, poszczególne formy kontaktu z AI możemy ze sobą w dość dowolny sposób łączyć.
Mimo tego, GPT-4o dostał też spory zastrzyk wydajności. Nowy model językowy jest więc szybszy w działaniu. Wyniki jego pracy powinny być natomiast dokładniejsze.
Imponującą szybkość przetwarzania i „rozumienia” informacji pokazuje czas reakcji na komendy wypowiedziane ludzką mową. Wynosi jedynie 232 milisekundy. Czy to dużo, czy mało? Wystarczy dodać, że podobny czas reakcji ma… człowiek podczas rozmowy.
Łatwo możemy więc sobie wyobrazić, że chatbot korzystający z modelu językowego GPT-4o będzie prowadził konwersację w jeszcze bardziej zbliżony do człowieka sposób.
Lepsze rozpoznawanie głosu, dźwięków, obrazów i wideo w GPT-4o
Cechą charakterystyczną GPT-4o jest bardzo skuteczne rozumienie dźwięku oraz obrazu. Natywne rozpoznawanie obiektów i wychwytywanie informacji oznacza, że przed twórcami oprogramowania i różnego sprzętu otwierają się zupełnie nowe możliwości. Być może więc nowy model językowy OpenAI będzie pełnił podobną rolę do Gemini w eksperymentalnym rozwiązaniu Google – Astra. Google zapowiedziało ostatnio, że chce połączyć swoją sztuczną inteligencję z kamerami. Te mogłyby po prostu „obserwować świat” i zbierać o nim informacje. Celem jest oczywiście jak najlepsze szkolenie modeli językowych i generatywnej sztucznej inteligencji.
Nowy model GPT-4o świetnie radzi sobie także z tłumaczeniem na żywo. W trakcie konferencji pokazano, jak w czasie rzeczywistym ChatGPT tłumaczył wypowiedzi z języka włoskiego na angielski i odwrotnie.
OpenAI dba o bezpieczeństwo i naszą prywatność
Rozwój sztucznej inteligencji sprawia, że pojawia się sporo pytań związanych z bezpieczeństwem i prywatnością. OpenAI, czyli twórcy ChatGPT i GPT-4o, wielokrotnie podkreślało już, że zależy im na tym, by rozwój AI nie był niebezpieczny dla ludzi i ich danych. Najnowszy model językowy GPT-4o od razu został więc wyposażony w specjalny mechanizm pozwalający na filtrowanie potencjalnie niebezpiecznych treści.
Amerykańska firma stale dopracowuje swój produkt. Obecnie największym problemem stojącym przed twórcami GPT-4o jest poprawa rozpoznawania dźwięku. Pracownicy kontynuują natomiast pracę, aby wyeliminować słabe punkty nowego modelu językowego.
Mało? GPT-4o potrafi… zaśpiewać
W jednym z materiałów marketingowych OpenAI widzimy jeszcze lepszy dowód na to, że GPT-4o to naprawdę potężne narzędzie. Prowadzący ma przed sobą dwa smartfony z włączonym chatbotem ChatGPT. Model językowy wykorzystany w nich to oczywiście GPT-4o. Jeden z chatbotów posiada dostęp do kamery i opisuje, co widzi. Na koniec prowadzący prosi, aby oba urządzenia… zaśpiewały.
Wychodzi im to całkiem nieźle, dwa smartfony z GPT-4o śpiewają po linijce tekstu, który wymyślają najwyraźniej w czasie rzeczywistym.
Polecane telefony
Może zainteresują Cię też inne artykuły