GPTBot przeskanuje Internet, aby ulepszyć ChatGPT. Jak działa nowe narzędzie OpenAI?
Po kilku miesiącach od pojawienia się na rynku chatbota ChatGPT, Open AI zaprezentowało jego ulepszoną wersję. Chatbot wykorzystujący model językowy GPT-4 działa jeszcze lepiej, niż wcześniejsze rozwiązanie, choć jest płatny. Gdy wszyscy spodziewali się, że Open AI wypuści jeszcze lepsze, bardziej inteligentne (tym samym działające jeszcze bardziej, jak człowiek), do sieci trafił nieco inny produkt. Poznaj nowe dziecko OpenAI, którym jest GPTBot. Jak działa i kto może go wykorzystać?
Premiera GPTBot
Najnowsze narzędzie OpenAI działa na innej zasadzie, niż popularny chatbot. GPTBot to tak zwany „crawler”. To bot, który przeszukuje sieć w celu wyszukania przydatnych informacji. Zadaniem GPTBot jest ulepszanie modelu językowego GPT. Oczywiście, skanowanie zasobów Internetu odbywa się nie tylko błyskawicznie, ale też w inteligentny, optymalny sposób.
GPTBot zbiera z sieci informacje, które mogą się przydać przy tworzeniu nowego modelu językowego. Premierę GPT-5 zapowiedziano na końcówkę 2023 roku.
W trakcie prac nad poprzednimi wersjami modelu językowego GPT, które potem wykorzystano w chatbocie ChatGPT, udział brały tysiące osób. Zadawały odpowiednie pytania i analizowały ich poprawność. Cały proces nazywamy szkoleniem sztucznej inteligencji. Gdy mechanizm ma już odpowiednio dużą wiedzę, w kolejnym etapie samodzielnie może się uczyć.
GPTBot przyspieszy oba te procesy. Możemy więc spodziewać się, że kolejne narzędzia OpenAI będą naprawdę przełomowe. Ich moc obliczeniowa będzie potężna, co może budzić jednak pewne obawy.
GPTBot nie zobaczy płatnych treści, nie chce też naszych danych osobowych
Crawler OpenAI nie posiada dostępu do treści, których wyświetlenie wymaga wniesienia opłaty. Z taką sytuacją często mamy do czynienia w przypadku niektórych serwisów. Nie jest to tak oczywiste, jak mogłoby się wydawać. Bot Google (jego zadaniem jest indeksowanie stron w wynikach wyszukiwania Google) ma dostęp nawet do treści znajdujących się za paywallem.
Aby uniknąć niepotrzebnego zbierania danych osobowych, GPTBot nie skanuje też mediów społecznościowych.
Być może chodzi też jednak o rzetelność publikowanych tam informacji. Jeśli chcemy zamieścić gdzieś niemalże dowolną treść – często najprościej jest zrobić to w formie posta na Facebooku, czy wpisu na X (dawniej: Twitter).
Crawler powinien też omijać strony internetowe, na których widnieją treści naruszające zasady OpenAI.
Tak potężna AI rodzi pewne obawy związane z etyką i bezpieczeństwem
OpenAI twierdzi, że mimo pozyskiwania gigantycznych ilości danych, stosuje podczas całego procesu wiele zasad. Ich sztuczna inteligencja sprawdza, czy źródło danej informacji można uznać za rzetelne. Wszystko ma wpłynąć na zachowanie wysokiego poziomu bezpieczeństwa.
Musimy też pamiętać, że crawler ma dostęp, podobnie jak inne boty działające na tej zasadzie, tylko do treści udostępnionych publicznie. Nie musimy więc obawiać się, że „dokopie” się do naszych prywatnych i poufnych danych – chyba, że sami zamieściliśmy je w publicznym miejscu. Być może premiera GPTBot jest więc niezłą okazją, aby upewnić się co do tego.
Także administratorzy stron i serwisów internetowych mogą wpłynąć na widoczność treści przez GPTBota. Wystarczy ograniczyć dostęp crawlera w plikach robots.txt. W podobny sposób można też wykonać odwrotne działanie – dać robotowi skanującemu dodatkowe uprawnienia.
Nie ustają kontrowersje wokół ChatGPT
Dla niektórych osób działanie chatbota ChatGPT, jak i konkurencyjnych rozwiązań (np. Google Bard), jest w pewnym stopniu nieetyczne. Chodzi nie tylko o możliwość zastąpienia ludzkiej pracy, co jest czasem rozumiane, jako odbieranie im źródła dochodu. Kolejny problem to rzetelność źródeł i prawdziwość otrzymywanych od chatbotów odpowiedzi. GPTBot w teorii powinien poprawić ich jakość. Całość opiera się jednak na zasadach opracowanych wewnętrznie przez OpenAI. Obecne prawodawstwo, w Polsce i na całym świecie, najwyraźniej nie nadąża za rozwojem technologii. Odpowiedź na pytania o legalność tych rozwiązań często pozostaje więc niejasna.
OpenAI zapewnia, że GPTBot skasuje dane osobowe z efektów swojej pracy. Ma też pozbyć się treści naruszających zasady twórców oprogramowania.
Jednym z zadań GPTBota jest dopracowanie dużych modeli językowych (jak GPT-4) właśnie pod tym kątem. U podstaw wyprodukowania narzędzia leży masa krytyki, która spadła na OpenAI. Dziś wciąż nierozwiązanym problemem w ChatGPT pozostaje m.in. wykorzystywanie treści chronionych prawem autorskim, do tego bez podawania źródła.
W praktyce najnowszy, inteligentny crawler OpenAI powinien ulepszyć wykorzystywaną przez miliony osób sztuczną inteligencję. Jednocześnie jest to kolejny krok w celu dostosowania do zasad polityki OpenAi, które zostały zaktualizowane w kwietniu tego roku.
GPTBot a prawa autorskie
Inteligentny robot skanujący OpenAI nie tylko potrafi odczytać i zrozumieć tekst na stronach internetowych. Ma też możliwość poznawania zawartości plików (np. .pdf), czy nawet multimediów. Może wyciągać informacje z plików audio i filmów. Znów pojawiają się więc pytania, czy nie jest to przekroczenie zasad dotyczących dozwolonego użytku materiałów objętych prawami autorskimi. Nawet jeżeli crawler wykorzysta pozyskane w ten sposób informacje jedynie do ulepszania modeli językowych OpenAI, wciąż oznacza to skorzystanie z treści chronionych prawem autorskim. Ciężko dziś powiedzieć, czy narusza to regulacje prawne i w jakim stopniu.
Wygląda jednak na to, że dziś jedynym sposobem na uniknięcie „inwigilacji” przez GPTBot jest ograniczenie mu dostępu w pliku robots.txt. Może to zrobić właściciel lub administrator konkretnej strony internetowej.
Co wpisać w pliku robots.txt, aby GPTBot nie miał dostępu do strony?
Ograniczenie dostępu do strony poprzez wpis do pliku robots.txt nie jest trudne. Wystarczy edytować plik i dodać do niego:
User-agent: GPTBot
Disallow: /
Mamy też możliwość przyznania crawlerowi dostępu wyłącznie do niektórych katalogów z treściami na stronie. W tym celu wpisujemy komendę:
User-agent: GPTBot
Allow: /nazwa-katalogu-z-dostępem-bota/
Disallow: /nazwa-katalogu-bez-dostępu-bota/
Może zainteresują Cię także inne artykuły