GPT-3 - GPT-3

Generacyjny przeszkolony transformator 3 (GPT-3)
Pierwotny autor (autorzy) Otwórz AI
Pierwsze wydanie 11 czerwca 2020 r. (beta)
Magazyn
Rodzaj Model języka Autoregressive Transformer
Strona internetowa openai .com /blog /openai-api

Generacyjny Pre-trained Transformer 3 ( GPT-3 ) to autoregresyjny model języka, który wykorzystuje głębokie uczenie do tworzenia tekstu podobnego do ludzkiego.

Jest to model przewidywania języka trzeciej generacji z serii GPT-n (i następca GPT-2 ) stworzony przez OpenAI , laboratorium badawcze sztucznej inteligencji z siedzibą w San Francisco . Pełna wersja GPT-3 ma pojemność 175 miliardów parametrów uczenia maszynowego . GPT-3, który został wprowadzony w maju 2020 r. i był w fazie beta testów w lipcu 2020 r., wpisuje się w trend w systemach przetwarzania języka naturalnego (NLP) wstępnie wyszkolonych reprezentacji języka.

Jakość tekstu generowanego przez GPT-3 jest tak wysoka, że ​​trudno jest określić, czy został napisany przez człowieka, co niesie za sobą zarówno korzyści, jak i ryzyko. Trzydziestu jeden badaczy i inżynierów OpenAI zaprezentowało 28 maja 2020 r. oryginalny artykuł wprowadzający GPT-3. W swoim artykule ostrzegli przed potencjalnymi zagrożeniami GPT-3 i wezwali do badań w celu zmniejszenia ryzyka. David Chalmers , australijski filozof, opisał GPT-3 jako „jeden z najciekawszych i najważniejszych systemów sztucznej inteligencji, jakie kiedykolwiek wyprodukowano”.

Microsoft ogłosił 22 września 2020 r., że udzielił licencji na „wyłączne” użycie GPT-3; inni mogą nadal używać publicznego API do odbierania danych wyjściowych, ale tylko Microsoft ma dostęp do podstawowego modelu GPT-3.

Tło

Według The Economist ulepszone algorytmy, potężne komputery i wzrost liczby danych cyfrowych napędzają rewolucję w uczeniu maszynowym , a nowe techniki w 2010 roku doprowadziły do ​​„szybkiej poprawy zadań”, w tym manipulacji językiem. Modele oprogramowania są szkolone do uczenia się przy użyciu tysięcy lub milionów przykładów w „strukturze  … luźno opartej na architekturze neuronowej mózgu”. Jedną z architektur używanych w przetwarzaniu języka naturalnego (NLP) jest sieć neuronowa oparta na modelu uczenia głębokiego, który został po raz pierwszy wprowadzony w 2017 r. — Transformer . Modele GPT-n są oparte na architekturze sieci neuronowej opartej na głębokim uczeniu transformatora. Istnieje wiele systemów NLP zdolnych do przetwarzania, wydobywania, organizowania, łączenia, kontrastowania, rozumienia i generowania odpowiedzi na pytania.

11 czerwca 2018 r. badacze i inżynierowie OpenAI opublikowali swój oryginalny artykuł na temat modeli generatywnych — modeli językowych — systemów sztucznej inteligencji — które można wstępnie przeszkolić z ogromnym i zróżnicowanym korpusem tekstowym za pośrednictwem zestawów danych , w procesie, który nazwali generatywną pre- szkolenie (GP). Autorzy opisali, w jaki sposób wydajność rozumienia języka w przetwarzaniu języka naturalnego (NLP) została poprawiona w GPT-n poprzez proces „generatywnego wstępnego uczenia modelu języka na zróżnicowanym korpusie nieoznakowanego tekstu, a następnie dostrajanie dyskryminacyjne dla każdego konkretnego zadanie." To eliminuje potrzebę nadzoru ludzkiego i dla czasochłonnego ręcznego etykietowania.

W lutym 2020 r. Microsoft wprowadził Turing Natural Language Generation (T-NLG), który był uważany za „największy model języka, jaki kiedykolwiek opublikowano przy 17 miliardach parametrów”. Sprawdzał się lepiej niż jakikolwiek inny model językowy w różnych zadaniach, które obejmowały podsumowywanie tekstów i odpowiadanie na pytania , mimo że był mniejszy niż model językowy IBM Tangora, który miał ponad 8 bilionów parametrów.

Możliwości

28 maja 2020 r. w preprintie arXiv grupa 31 inżynierów i badaczy z OpenAI opisał rozwój GPT-3, „najnowocześniejszego modelu językowego” trzeciej generacji. Zespół zwiększył pojemność GPT-3 o ponad dwa rzędy wielkości w stosunku do jego poprzednika, GPT-2, czyniąc z GPT-3 największy dotychczasowy model języka nierzadkiego. Ponieważ GPT-3 jest strukturalnie podobny do swoich poprzedników, wyższy poziom dokładności przypisuje się zwiększonej pojemności i większej liczbie parametrów. Pojemność GPT-3 jest dziesięciokrotnie większa niż w przypadku Turing NLG firmy Microsoft , kolejnego co do wielkości modelu NLP.

Sześćdziesiąt procent ważonego zestawu danych przedtreningowych dla GPT-3 pochodzi z filtrowanej wersji Common Crawl składającej się z 410 miliardów tokenów zakodowanych parami bajtów . Inne źródła to 19 miliardów tokenów z WebText2 reprezentujących 22% sumy ważonej, 12 miliardów tokenów z Books1 reprezentujących 8%, 55 miliardów tokenów z Books2 reprezentujących 8% i 3 miliardy tokenów z Wikipedii reprezentujących 3%. GPT-3 został wyszkolony na setkach miliardów słów i potrafi kodować m.in. w CSS, JSX, Python.

Dane treningowe GPT-3
Zbiór danych # tokeny Waga w mieszance treningowej
Wspólne indeksowanie 410 miliardów 60%
Tekst Web2 19 miliardów 22%
Książki1 12 miliardów 8%
Książki2 55 miliardów 8%
Wikipedia 3 miliardy 3%

Ponieważ dane treningowe GPT-3 były wszechstronne, nie wymaga dalszego szkolenia w zakresie różnych zadań językowych. Dane treningowe zawierają sporadycznie toksyczny język, a GPT-3 czasami generuje toksyczny język w wyniku naśladowania jego danych treningowych. Badanie przeprowadzone na Uniwersytecie Waszyngtońskim wykazało, że GPT-3 wytwarza toksyczny język na poziomie toksyczności porównywalnym z podobnymi modelami przetwarzania języka naturalnego GPT-2 i CTRL. GPT-3 produkował mniej toksyczny język w porównaniu z poprzednim modelem, GPT-1, chociaż wytworzył zarówno więcej pokoleń, jak i wyższą toksyczność toksycznego języka w porównaniu z CTRL Wiki, modelem językowym wyszkolonym w całości na danych Wikipedii.

11 czerwca 2020 r. OpenAI ogłosił, że użytkownicy mogą poprosić o dostęp do przyjaznego dla użytkownika interfejsu API GPT-3 — „zestawu narzędzi do uczenia maszynowego” — aby pomóc OpenAI „odkryć mocne strony i ograniczenia” tej nowej technologii. W zaproszeniu opisano, w jaki sposób ten interfejs API ma interfejs ogólnego przeznaczenia „wprowadzanie i wyprowadzanie tekstu”, który może wykonać prawie „każde zadanie w języku angielskim”, zamiast zwykłego pojedynczego przypadku użycia. Według jednego z użytkowników, który miał dostęp do prywatnej wczesnej wersji API OpenAI GPT-3, GPT-3 był „niesamowicie dobry” w pisaniu „niesamowicie spójnego tekstu” z zaledwie kilkoma prostymi podpowiedziami. W początkowym eksperymencie poproszono 80 osób ze Stanów Zjednoczonych o ocenę, czy krótkie ~200-słowne artykuły zostały napisane przez ludzi, czy przez GPT-3. Uczestnicy oceniali nieprawidłowo w 48% przypadków, radząc sobie tylko nieznacznie lepiej niż zgadywanie losowe.

Ponieważ GPT-3 może „generować artykuły informacyjne, które oceniający ludzie mają trudności z odróżnieniem od artykułów napisanych przez ludzi”, GPT-3 ma „potencjał do rozwijania zarówno korzystnych, jak i szkodliwych zastosowań modeli językowych”. W artykule z 28 maja 2020 r. naukowcy szczegółowo opisali potencjalne „szkodliwe skutki GPT-3”, które obejmują „dezinformację, spam , phishing , nadużycie procesów prawnych i rządowych , oszukańcze pisanie esejów akademickich i preteksty socjotechniczne ”. Autorzy zwracają uwagę na te zagrożenia, wzywając do badań nad ograniczaniem ryzyka .

GPT-3 jest w stanie wykonać naukę zerowego strzału , kilku strzałów i jednego strzału .

Stosowanie

GPT-3 zapewnia interfejs wprowadzania i wyprowadzania tekstu za pośrednictwem punktów końcowych Python i Curl lub poprzez dostęp do oficjalnego internetowego placu zabaw.

Użytkownik może wprowadzić jakiś tekst jako monit , a model wygeneruje uzupełnienie tekstu, które spróbuje dopasować dowolny kontekst lub wzorzec, który został podany.

Na przykład, jeśli podasz interfejsowi API monit „Myślę, że tak jak powiedział Kartezjusz”, zwróci on uzupełnienie „Jestem” z dużym prawdopodobieństwem.

Modele rozumieją i przetwarzają tekst, dzieląc go na tokeny. Tokeny mogą być słowami lub po prostu fragmentami znaków. Na przykład słowo „hamburger” zostaje podzielone na symbole „szynka”, „bur” i „ger”, podczas gdy krótkie i powszechne słowo, takie jak „gruszka”, to pojedynczy symbol. Wiele żetonów zaczyna się od spacji, na przykład „ cześć” i „ pa”.

Treść zapytania

  • max_tokens - Maksymalna liczba tokenów do wygenerowania w uzupełnieniu.
  • temperatura — jaką należy zastosować temperaturę pobierania próbek. Wyższe wartości oznaczają, że model podejmie większe ryzyko. Wypróbuj 0.9 dla bardziej kreatywnych zastosowań i 0 (próbkowanie argmax) dla tych z dobrze zdefiniowaną odpowiedzią.
  • top_p - Alternatywa dla próbkowania z temperaturą, nazywana próbkowaniem jądra, gdzie model uwzględnia wyniki tokenów o masie prawdopodobieństwa top_p. Tak więc 0,1 oznacza, że ​​brane są pod uwagę tylko tokeny stanowiące górną 10% masę prawdopodobieństwa.
  • n — liczba uzupełnień do wygenerowania dla każdego monitu.
  • stream — określa, czy przesyłać wstecz częściowy postęp. Jeśli jest ustawiona, tokeny będą wysyłane jako zdarzenia wysyłane przez serwer tylko do danych, gdy staną się dostępne, a strumień zostanie zakończony data: [DONE]komunikatem.
  • logprobs — Uwzględnij prawdopodobieństwa dziennika dotyczące logprobsnajbardziej prawdopodobnych tokenów, a także wybranych tokenów.
  • echo - Echo w odpowiedzi na monit oprócz zakończenia
  • stop - Do 4 sekwencji, w których API przestanie generować kolejne tokeny. Zwrócony tekst nie będzie zawierał sekwencji zatrzymania.
  • prezencja_kara — liczba od -2,0 do 2,0. Wartości dodatnie karzą nowe tokeny w zależności od tego, czy do tej pory pojawiają się w tekście, zwiększając prawdopodobieństwo, że model będzie mówił o nowych tematach.
  • frequency_penalty — liczba z zakresu od -2,0 do 2,0. Wartości dodatnie karzą nowe tokeny w oparciu o ich dotychczasową częstotliwość w tekście, zmniejszając prawdopodobieństwo, że model powtórzy dosłownie ten sam wiersz.
  • best_of — Generuje best_ofuzupełnienia po stronie serwera i zwraca „najlepsze” (to z najniższym prawdopodobieństwem logowania na token). Wyniki nie mogą być przesyłane strumieniowo.
  • logit_bias — modyfikuje prawdopodobieństwo pojawienia się określonych tokenów w uzupełnieniu.

Modele i silniki

GPT-3 ma 4 modele, z których każdy zawiera wiele silników o różnych możliwościach i cenach.

Seria podstawowa Zestaw modeli GPT-3, które potrafią rozumieć i generować język naturalny
Poinstruuj serię Beta Zestaw specjalistycznych modeli, które są podobne do serii podstawowej, ale lepiej postępują zgodnie z instrukcjami
Seria kodeksów Private beta Zestaw modeli, które potrafią rozumieć i generować kod, w tym tłumaczenie języka naturalnego na kod
Filtr zawartości Dopracowany model, który może wykryć, czy tekst może być wrażliwy lub niebezpieczny

Seria podstawowa

Podstawowe modele GPT-3 potrafią rozumieć i generować język naturalny. Baza zawiera 4 silniki o nazwie davinci, curie, babbageoraz adao różnych poziomach mocy odpowiednie do różnych zadań.

Davinci jest najzdolniejszym modelem, a Ada jest najszybsza.

Poinstruuj serię

Instruct zawiera dwa silniki davinci-instruct-betai curie-instruct-beta.

Seria kodeksów

Modele Codex są potomkami podstawowych modeli GPT-3, które potrafią zrozumieć i wygenerować kod. Ich dane szkoleniowe zawierają zarówno język naturalny, jak i publiczny kod z GitHub.

Są najbardziej wydajne w Python, JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript, SQL i Shell.

Codex to silnik, który napędza GitHub Copilot .

Filtr zawartości

Filtr ma na celu wykrycie wygenerowanego tekstu, który może być wrażliwy lub niebezpieczny pochodzący z interfejsu API.

Posiada trzy sposoby klasyfikowania jak na tekście safe, sensitivelub unsafe.

Dostrojone modele

Modele podstawowe można dostosować do konkretnego przypadku użycia przez użytkownika za pomocą precyzyjnego dostrajania.

Opinie

  • W przeglądzie w lipcu 2020 The New York Times , Farhad Manjoo powiedział, że zdolność GPT-3 do generowania kodu komputerowego, poezję i prozę nie jest po prostu „niesamowity”, „straszne” i „upokorzenie”, ale także „więcej niż trochę przerażające”.
  • Daily Nous przedstawił serię artykułów dziewięciu filozofów na temat GPT-3. Australijski filozof David Chalmers opisał GPT-3 jako „jeden z najciekawszych i najważniejszych systemów sztucznej inteligencji, jakie kiedykolwiek wyprodukowano”.
  • The National Law Review stwierdził, że GPT-3 jest „imponującym krokiem w większym procesie”, przy czym OpenAI i inni znajdują „użyteczne aplikacje dla całej tej mocy”, jednocześnie kontynuując „pracę w kierunku bardziej ogólnej inteligencji”.
  • Artykuł w MIT Technology Review , napisany wspólnie przez krytyka Deep Learning, Gary'ego Marcusa , stwierdził, że „rozumienie świata przez GPT-3 jest często poważnie nieudane, co oznacza, że ​​nigdy nie można naprawdę ufać temu, co mówi”. Według autorów GPT-3 modeluje relacje między słowami bez zrozumienia znaczenia każdego słowa.
  • Nabla, francuski start-up specjalizujący się w technologii medycznej, przetestował GPT-3 jako chatbota medycznego , choć samo OpenAI ostrzegało przed takim wykorzystaniem. Zgodnie z oczekiwaniami, GPT-3 wykazywał kilka ograniczeń. Na przykład podczas testowania odpowiedzi GPT-3 dotyczących problemów ze zdrowiem psychicznym sztuczna inteligencja doradzała symulowanemu pacjentowi popełnienie samobójstwa.
  • Noam Chomsky wyraził swój sceptycyzm co do wartości naukowej GPT-3: „To nie jest model językowy. Działa równie dobrze w przypadku języków niemożliwych, jak w przypadku języków rzeczywistych. ...] Być może jest to przydatne w jakimś celu, ale wydaje się, że ogólnie nie mówi nam nic o języku lub poznaniu”.

Aplikacje

  • GPT-3 jest używany w niektórych produktach firmy Microsoft do tłumaczenia języka konwencjonalnego na formalny kod komputerowy.
  • GPT-3 został wykorzystany przez Andrew Mayne'a w AI Writer, który pozwala ludziom korespondować z postaciami historycznymi za pośrednictwem poczty elektronicznej.
  • GPT-3 został wykorzystany przez Jasona Rohrera w projekcie chatbota o tematyce retro o nazwie „Project December”, który jest dostępny online i umożliwia użytkownikom konwersację z kilkoma sztucznymi inteligencją przy użyciu technologii GPT-3.
  • GPT-3 został wykorzystany przez The Guardian do napisania artykułu o tym, że sztuczna inteligencja jest nieszkodliwa dla ludzi. Został podsycony pewnymi pomysłami i wyprodukował osiem różnych esejów, które ostatecznie połączono w jeden artykuł.
  • GPT-3 jest używany w AI Dungeon , który generuje tekstowe gry przygodowe.
  • GPT-3 jest używany w Podacity.Ai, pierwszej wyszukiwarce zbudowanej z GPT-3.

Spór

Konstruktor GPT-3, OpenAI , został początkowo założony jako organizacja non-profit w 2015 r. W 2019 r. OpenAI nie opublikował publicznie modelu prekursora GPT-3, zrywając z poprzednimi praktykami OpenAI OpenAI, powołując się na obawy, że model będzie utrwalał fałszywe wiadomości . OpenAI ostatecznie wypuściło wersję GPT-2, która stanowiła 8% rozmiaru oryginalnego modelu. W tym samym roku OpenAI przekształciło się w spółkę nastawioną na zysk. W 2020 r. Microsoft ogłosił, że firma posiada wyłączną licencję na GPT-3 dla produktów i usług Microsoftu po wielomiliardowej inwestycji w OpenAI. Umowa pozwala OpenAI oferować publicznie dostępny interfejs API, dzięki któremu użytkownicy mogą wysyłać tekst do GPT-3, aby otrzymać dane wyjściowe modelu, ale tylko Microsoft będzie miał dostęp do kodu źródłowego GPT-3.

Duże modele językowe, takie jak GPT-3, zostały skrytykowane przez badaczy etyki AI firmy Google za wpływ szkolenia i przechowywania modeli na środowisko, szczegółowo opisane w artykule, którego współautorami są Timnit Gebru i Emily M. Bender w 2021 roku.

Zobacz też

Bibliografia

Zewnętrzne linki