GPT-2 - GPT-2

Generacyjny przeszkolony transformator 2 (GPT-2)
GPT2-rozmowy-o-GPT2.png
Ukończenie GPT-2 za pomocą witryny Hugging Face Write With Transformer, z monitem o tekst z tego artykułu w Wikipedii (cały zaznaczony tekst po początkowym monicie jest generowany maszynowo z pierwszego sugerowanego zakończenia, bez dalszej edycji)
Pierwotny autor (autorzy) Otwórz AI
Pierwsze wydanie 14 lutego 2019 ; 2 lata temu ( 14 lutego 2019 )
Magazyn https://github.com/openai/gpt-2
Rodzaj Model języka transformatora
Strona internetowa www .openai .com /blog /gpt-2-1-5b-release /

Generative Pre-trained Transformer 2 ( GPT-2 ) to sztuczna inteligencja typu open source stworzona przez OpenAI w lutym 2019 r. GPT-2 tłumaczy tekst, odpowiada na pytania, podsumowuje fragmenty i generuje tekst wyjściowy na poziomie, który czasami jest nie do odróżnienia od ludzki , może stać się powtarzalny lub nonsensowny podczas generowania długich pasaży. Jest uczniem ogólnego przeznaczenia ; nie został specjalnie przeszkolony do wykonywania żadnego z tych zadań, a jego zdolność do ich wykonywania jest rozszerzeniem jego ogólnej zdolności do dokładnej syntezy następnego elementu w dowolnej kolejności. GPT-2 został stworzony jako „bezpośrednie skalowanie” modelu GPT OpenAI z 2018 roku, z dziesięciokrotnym wzrostem zarówno liczby parametrów, jak i rozmiaru zestawu danych treningowych.

Architektura GPT implementuje głęboką sieć neuronową , w szczególności model transformatora , który wykorzystuje uwagę w miejsce poprzednich architektur opartych na rekurencji i splotach. Mechanizmy uwagi umożliwiają modelowi selektywne skupienie się na segmentach tekstu wejściowego, które według niego są najbardziej odpowiednie. Model ten pozwala na znacznie zwiększoną równoległość i przewyższa poprzednie testy porównawcze modeli opartych na RNN/CNN/LSTM.

OpenAI opublikowało kompletną wersję modelu językowego GPT-2 (z 1,5 miliarda parametrów) w listopadzie 2019 roku. Po GPT-2 miał nastąpić GPT-3 o 175 miliardach parametrów , ujawniony publicznie w 2020 roku (którego kod źródłowy nigdy nie został udostępniony). Dostęp do GPT-3 zapewniany jest wyłącznie za pośrednictwem interfejsu API oferowanego przez firmę Microsoft .

Tło

Od początków informatyki sztuczna inteligencja była przedmiotem badań; „ gra w naśladownictwo ”, postulowana przez Alana Turinga w 1950 roku (i często nazywana „testem Turinga”), proponowała ustalenie zdolności systemu elektronicznego lub mechanicznego do inteligentnego działania poprzez zdolność oceniającego do odróżnienia jego zachowania od zachowania człowieka. Termin „ uczenie maszynowe ” został po raz pierwszy użyty do opisania możliwego podejścia do sztucznej inteligencji już w 1959 roku przez badacza IBM Arthura Samuela ; obecne użycie tego terminu obejmuje szeroką gamę metod uczenia się statystycznego , nauki o danych i sieci neuronowych do problemów obliczeniowych (często wchodzących w zakres sztucznej inteligencji).

Językoznawstwo komputerowe

Przetwarzanie języka naturalnego przy użyciu komputerów, zadanie pierwotnie pomyślane jako poddziedzina językoznawstwa komputerowego , zostało podjęte, gdy tylko sprzęt komputerowy miał odpowiednią pojemność; pierwsze zastosowanie słownika tabeli przeglądowej został opracowany w Birkbeck College w Londynie w 1948 roku 1954 Georgetown eksperymentu było wykazanie w pełni zautomatyzowanego tłumaczenia maszynowego , w którym sześćdziesiąt rosyjskie zdania zostały przetłumaczone na język angielski (głównie przez wymianę słów z ich angielskie synonimy). Tłumaczenia były często prymitywne; system miał tylko 6 reguł gramatycznych i 250-wyrazowe słownictwo i nie podjęto próby analizy ani tłumaczenia struktury składniowej . Eksperyment udowodnił jednak opinii publicznej, że komputery potrafią interpretować i przetwarzać język naturalny, i zapewnił finansowanie CIA na dalsze badania. Bezpośrednie zastępowanie pozostaje standardem, według którego oceniane są programy tłumaczenia maszynowego.

Systemy wykorzystujące język naturalny w interakcji człowiek-komputer (HCI) również zaczęły pojawiać się w połowie XX wieku. SHRDLU , program opracowany w MIT w latach 1968–1970, składał się z wirtualnego środowiska kilku obiektów, z którymi użytkownik wchodził w interakcję za pomocą poleceń w języku naturalnym (np. „Znajdź blok, który jest wyższy niż ten, który trzymasz i umieść go w skrzynka"). ELIZA , chatterbot napisany w 1966 roku, analizował tekst rozmówcy pod kątem słów kluczowych i udzielał odpowiednich do konwersacji odpowiedzi. Podczas gdy wielu badanych twierdziło, że nie potrafi odróżnić rozmowy ELIZY od rozmowy człowieka, pytanie, czy jest to inteligencja, okazało się kontrowersyjne (najsłynniejszy skrypt parodiował psychoterapeutę , w dużej mierze powtarzając mu to, co powiedział użytkownik).

Podczas gdy początkowe próby tłumaczenia maszynowego były czysto obliczeniowe, w latach pięćdziesiątych dominujące podejście do lingwistyki komputerowej zaczęło podkreślać koncepcję gramatyki uniwersalnej Noama Chomsky'ego ; W związku z tym badania NLP w tamtej epoce polegały głównie na próbach zredukowania wypowiedzi w dowolnych językach do domniemanych, leżących u podstaw niezależnych od języka struktur logicznych. W latach 70. semantyczne systemy NLP zaczęły wystrzegać się kodowania składniowego na rzecz bardziej ogólnych kodowań semantycznych . Jednak do czasu pojawienia się sieci neuronowych większość systemów nadal opierała się na dużych (i coraz bardziej nieporęcznych) zestawach ręcznie programowanych reguł, których skalowanie nie powiodło się, jak początkowo przewidywano.

Pod koniec XX wieku dziedzina sztucznej inteligencji nadal się rozwijała, ale zdarzały się sporadyczne okresy stagnacji znane jako „ zimy AI ”. Różne źródła twierdzą, że zimy AI miały miejsce w różnym czasie; w 1994 r. Howe opisał jeden jako rozpoczęty w 1973 r. i trwający dekadę, podczas gdy Russell i Norvig w 2003 r. opisał inny jako rozpoczynający się wkrótce po 1988 r.

Sieci neuronowe

Wczesna koncepcja sztucznej inteligencji, koneksjonizm , miała na celu wytworzenie inteligentnego zachowania za pomocą sztucznych sieci neuronowych zaprojektowanych do symulowania zachowania neuronów w biologicznych mózgach. Pierwszy przykład sztucznej sieci neuronowej był SNARC , zbudowany w 1951. perceptronu (typ klasyfikatora binarnego ) wprowadzono w 1957 psycholog Frank Rosenblatt ; jego maszyna została zaprojektowana do rozpoznawania obrazu za pomocą 400 fotokomórek połączonych z „neuronami”, z wagami określanymi przez potencjometry (i regulowanymi silnikami elektrycznymi podczas procesu uczenia). Systemy Perceptron stały się przedmiotem dużego zainteresowania; artykuł w New York Times opisał perceptron jako „embrion elektronicznego komputera, który [marynarka wojenna] oczekuje, że będzie w stanie chodzić, mówić, widzieć, pisać, reprodukować się i być świadomym swojego istnienia”. Systemy perceptronowe wypadły jednak z łask przez dziesięciolecia po wydaniu książki Marvina Minsky'ego i Seymoura Paperta z 1969 r. ( Perceptrons: wprowadzenie do geometrii obliczeniowej ), która wskazała na kilka niedociągnięć ówczesnego stanu techniki (perceptrony jednowarstwowe). ), w tym brak możliwości zakodowania funkcji wyłączności lub (XOR). Książka była wówczas uważana za dyskredytującą podejście perceptronowe (jak również ogólnie sieci neuronowe) jako obiecujący obszar badań.

Sieci neuronowe stają się zdolne do klasyfikowania różnych danych wejściowych (tj. sortowania ich na odrębne kategorie) w procesie znanym jako „uczenie się”. Rozpoczyna się to od wag sieci (ilość, o jaką „aktywacja” każdego neuronu wpływa na aktywację każdego konkretnego neuronu w kolejnej warstwie) inicjowanych do losowych wielkości; w tym stanie wyjście sieci jest podobnie losowe. Funkcja celu , podobnie jak funkcja straty, jest zdefiniowana, która jest w stanie ilościowo zmierzyć, jak blisko jest wyjście sieci do pożądanej wydajności (na przykład, jak często wejście składające się z odręcznie napisanej liczby skutkuje samą aktywacją neuron wyjściowy odpowiadający tej liczbie). Na tej podstawie oraz na podstawie wydajności sieci można dostosować wagi w celu poprawy jej wydajności.

Backpropagation , nadzorowany algorytm po raz pierwszy zastosowany w systemach uczenia maszynowego w rozprawie Paula Werbosa z 1974 r., skutecznie oblicza „gradienty”, które są polami wektorowymi opisującymi optymalne dostosowanie wszystkich wag w całej sieci dla danego przykładu wejścia/wyjścia. Wykorzystanie tych gradientów do trenowania sieci neuronowych, praktyka znana jako gradientowe opadanie , umożliwiła tworzenie znacznie bardziej złożonych systemów, a zastosowanie sieci neuronowych na szeroką skalę do przetwarzania języka naturalnego miałoby nastąpić w latach 80. XX wieku . W 1985 roku DB Parker na nowo odkrył metodę Werbosa; w 1986 roku Rumelhart, Hinton i Williams zastosowali go do generowania wewnętrznych reprezentacji danych przychodzących w sieciach neuronowych z warstwami ukrytymi, zwanych sieciami „ głębokiego uczenia ”; badania te stanowiłyby później podstawę dla rekurencyjnych sieci neuronowych .

Tradycyjne sieci neuronowe typu feed-forward (FFNN) są tak nazwane, ponieważ każda warstwa pobiera dane wyjściowe z poprzedniej warstwy i przekazuje je do następnej; struktura FFNN nie zawiera „ cykli ”, w których informacja przepływa wstecz. W przeciwieństwie do tego, rekurencyjna sieć neuronowa (RNN) ma co najmniej jeden cykl przepływu aktywacji. RNN są często używane do przetwarzania sekwencji danych (i przewidywania przyszłych elementów sekwencji), ponieważ sieć może przetwarzać każdy element przy użyciu zarówno samego elementu, jak i własnych danych wyjściowych z przetwarzania poprzedniego elementu.

Neocognitron zaproponowany przez Kunihiko Fukushimie w 1979 roku na podstawie modeli architektury nerwowej u ssaków kory wzrokowej , stanowiły podstawę do splotowych sieci neuronowych (CNNs), często wykorzystywanych przy przetwarzaniu obrazu. „Przesuwając” małą warstwę po większym wejściu, CNN może wykonać głębsze przetwarzanie przy mniejszej liczbie obliczeń. Na przykład obraz 100 × 100 ma 10 000 pikseli, co wymagałoby 10 000 wag do przetworzenia z w pełni połączoną warstwą; warstwa splotowa składająca się z „okna” 5×5 przesuwającego się po obrazie może wykonać wykrywanie krawędzi przy użyciu tylko 25 parametrów, których można się nauczyć. Warstwy splotowe są łączone przez „warstwy puli” i przetwarzane przez „w pełni połączone” warstwy (które są zazwyczaj wielowarstwowymi perceptronami ).

Uczenie maszynowe do przetwarzania języka naturalnego

Ze względu na ich zdolność do przetwarzania informacji sekwencyjnych, rekurencyjne sieci neuronowe znalazły zastosowanie w wielu aplikacjach NLP; w przeciwieństwie do FFNN, są one w stanie kodować różne wagi (i dawać różne dane wyjściowe) dla identycznych elementów w oparciu o ich otoczenie w sekwencji — to znaczy, że system RNN, który analizował jedno słowo na raz, nadal może skojarzyć „ czarnego psa ” z puszystymi łapami, „ corn dog ” z keczupem i „ sun dog ” z refrakcją. Co więcej, ponieważ przechowywanie informacji z poprzednich elementów sekwencji może być wykonywane rekurencyjnie , można zaprojektować systemy RNN, które przywołują elementy dowolnie daleko wstecz w sekwencji: na przykład, będąc w stanie kontynuować sekwencje „Tomek spojrzał na czarnego psa”, „ Tom spojrzał na psa kukurydzianego, a „Tom spojrzał na psa słonecznego” odpowiednio z „czule”, „głodnie” i „pośrednio”.

Chociaż są zdolne do imponujących rozwiązań, wielowarstwowe FFNN i RNN okazały się podatne na problem znikającego gradientu : ponieważ gradienty (zakodowane jako liczby o skończonej precyzji ) są wymagane do wstecznej propagacji we wszystkich warstwach modelu, mogą „zniknąć” do zera ( lub „eksplodować” do nieskończoności) na wystarczająco dużej liczbie warstw. Sieć pamięci długoterminowej krótkoterminowej (LSTM), po raz pierwszy zaproponowana przez Seppa Hochreitera i Jürgena Schmidhubera w latach 1995-1997, starała się rozwiązać ten problem, wprowadzając nową architekturę składającą się z wielu odrębnych „komórek” z „wejściem”, „wyjściem” i „zapomnij” o bramach. W 2009 roku model oparty na LSTM przedstawiony przez zespół Alexa Gravesa wygrał konkurs ICDAR na rozpoznawanie pisma ręcznego ; inny był najdokładniejszym modelem w konkursie, a trzeci był najszybszy.

Innym problemem napotykanym przez RNN i LSTM jest to, że mogą brać pod uwagę tylko kontekst poprzednich elementów sekwencji. Może to powodować problemy podczas parsowania zdań typu „Tom pojechał na rowerze do sklepu, odłożył podpórkę i wyłączył silnik”, w których niezbędny kontekst „ roweru ” będącego motocyklem ujawnia się dopiero na końcu. Jedną z metod rozwiązywania takich problemów jest dwukierunkowy LSTM , który działa jednocześnie w obu kierunkach, dając dostęp zarówno do „przeszłych”, jak i „przyszłych” funkcji wejściowych. Warunkowe pola losowe używają tagów do łączenia wejść bezpośrednio z wyjściami. Istnieją kombinacje powyższych podejść, takie jak sieć LSTM-CRF i sieć BI-LSTM-CRF . Inne ulepszenia modelu RNN obejmują neuronowe maszyny Turinga , adaptacyjny czas obliczeniowy , programatory neuronowe i mechanizmy uwagi , z których te ostatnie stanowią podstawę dla GPT-2 i powiązanych technologii.

Selektywne ogniskowanie

Na początku 2010 roku najlepszą wydajność w neuronowym tłumaczeniu maszynowym osiągnięto dzięki modelowi koder-dekoder, w którym „sieć kodera” RNN lub LSTM kodowała zdania źródłowe na wektory, a „sieć dekodera” o podobnej architekturze przetwarzała te wektory na przetłumaczone wyjście. W 2014 roku wprowadzono znacznie bardziej złożone mechanizmy „ uwagi ”, które znacznie poprawiły wydajność tych modeli. Mechanizmy uwagi dały tym modelom możliwość adaptacyjnego skupienia „uwagi” sieci dekoderów na określonych aspektach tekstu źródłowego, zamiast zmuszać je do analizowania całego tekstu jako jednego wektora.

W 2017 r. wprowadzono modele „ transformatorowe ”, które poszły o krok dalej, wykorzystując mechanizmy uwagi, aby całkowicie zastąpić architekturę RNN/LSTM.

Mechanizmy uwagi

Jednym z ograniczeń modeli koder-dekoder była trudność kompresji kodowania większych zdań do wektorów o stałej długości; wydajność często pogarszała się przy większych wejściach. W 2014 roku Bahdanau i in. wprowadzono rozszerzenie do modelu kodera-dekodera, które może „wyrównywać i tłumaczyć wspólnie”. Dla każdego słowa w zdaniu źródłowym, które zostało przetłumaczone, koder modelu Bahdanau (dwukierunkowy RNN z 1000 ukrytych jednostek w każdym kierunku) przeszukiwał resztę tego zdania w poszukiwaniu pozycji odpowiednich informacji. Zamiast dać dekoderowi kodowanie wektorów o stałej długości całej sekwencji wejściowej (jak w poprzednich modelach), wytworzył "wektory kontekstowe", związane z tymi pozycjami, a także wcześniej wygenerowanymi słowami docelowymi. Dekoder (który miał również 1000 ukrytych jednostek) następnie użył tych wektorów kontekstowych, aby zdecydować, na czym skupić swoją „uwagę”.

Badania nad mechanizmami „uwagi” kontynuowali Luong et al. w artykule z 2015 roku. Podjęto próbę podejścia „globalnego” opartego na artykule Bahdanaua, a także podejścia „lokalnego”, w którym „rozważano” tylko podzbiór słów źródłowych na raz; podejście lokalne, choć bardziej skomplikowane architektonicznie, było mniej kosztowne obliczeniowo i łatwiejsze do wyszkolenia. Pełne wytrenowanie modelu tłumaczenia angielsko-niemieckiego, który został specjalnie zaprojektowany do tłumaczenia 1000 słów docelowych na sekundę, zajęło 7–10 dni; jego dokładność została przetestowana w ramach zadania warsztatów ACL dotyczącego tłumaczenia maszynowego z 2014 r. (WMT'14) dla par zdań angielsko-niemieckich i osiągnięto wynik 23,0 BLEU — poprawę o 2,1 BLEU w stosunku do poprzedniego najlepszego wyniku osiągniętego przez poprzednie próby, zdanie- oparty na modelu językowym Buck et al. 2014.

Transformatory

Chociaż mechanizmy uwagi były skuteczne w poprawianiu wydajności, gdy były używane do rozszerzania istniejących splotowych i rekurencyjnych architektur sieci neuronowych, wkrótce odkryto, że modele wydajnościowe można budować przy użyciu samych mechanizmów uwagi, bez niczego innego, co stanowiło ich podstawę.

W czerwcu 2017 r. po raz pierwszy przedstawiono architekturę transformatora w artykule opublikowanym przez naukowców z Google Brain , Google Research i University of Toronto . Transformatory to rodzaj modelu opartego wyłącznie na mechanizmach uwagi, całkowicie odrzucających splot i powtarzalność . W przeciwieństwie do poprzednich modeli opartych na RNN, transformatory mogą przetwarzać sekwencyjne dane wejściowe bez konieczności wykonywania obliczeń na każdym elemencie po kolei; oznacza to, że mogą być masowo zrównoleglone . W zadaniu francusko-angielskim WMT'14, specjalnie przeszkolony francusko-angielski model tłumaczenia, wykorzystujący architekturę transformatora, był w stanie ustanowić nowy wzorzec pojedynczego modelu wynoszący 41,8 BLEU. Od czasu ich wprowadzenia transformatory znalazły zastosowanie w wielu aplikacjach NLP.

Przeszkolony transformator generatywny

11 czerwca 2018 r. OpenAI opublikował artykuł zatytułowany „Improving Language Understanding by Generative Pre-Training”, w którym zaprezentował generatywny wstępnie przeszkolony transformator (GPT). W tym momencie najlepiej działające neuronowe modele NLP wykorzystywały przede wszystkim nadzorowane uczenie się z dużych ilości ręcznie oznaczonych danych. To poleganie na nadzorowanym uczeniu ograniczyło ich wykorzystanie w zestawach danych, które nie były dobrze opatrzone adnotacjami, a ponadto sprawiało, że trenowanie bardzo dużych modeli było nadmiernie kosztowne i czasochłonne; wiele języków (takich jak suahili czy kreolski haitański ) jest trudnych do przetłumaczenia i zinterpretowania przy użyciu takich modeli ze względu na brak dostępnego tekstu do budowy korpusu. W przeciwieństwie do tego, podejście „częściowo nadzorowane” GPT obejmowało dwa etapy: nienadzorowany etap „wstępnego szkolenia” generatywnego, w którym cel modelowania języka został użyty do ustawienia początkowych parametrów, oraz nadzorowany etap „dostrajania” rozróżniającego, w którym parametry te zostały dostosowane do docelowego zadania.

Zastosowanie architektury transformatora, w przeciwieństwie do poprzednich technik wykorzystujących RNN z rozszerzoną uwagą, zapewniło GPT bardziej ustrukturyzowaną pamięć, niż można by osiągnąć za pomocą mechanizmów rekurencyjnych; zaowocowało to „solidną wydajnością transferu w różnych zadaniach”.

Podczas przenoszenia wykorzystujemy adaptacje wejściowe specyficzne dla zadania, pochodzące z podejść w stylu przechodzenia, które przetwarzają ustrukturyzowane dane wejściowe tekstowe jako pojedynczą ciągłą sekwencję tokenów.

Ciało

Nienadzorowane szkolenie wstępne przeprowadzono przy użyciu BooksCorpus , zbioru danych ponad 7000 niepublikowanych książek beletrystycznych z różnych gatunków; podczas gdy w innych modelach ten zbiór danych został wybrany po części ze względu na to, że jego długie fragmenty ciągłego tekstu warunkowały model do obsługi informacji o dużym zasięgu. Inne dostępne zbiory danych, choć większe, zostały odrzucone ze względu na to, że brakowało w nich tej dalekosiężnej struktury (przetasowanie na poziomie zdania). Ftfy biblioteki użyto do czyszczenia tekst BooksCorpus (STANDARDIZE interpunkcyjne i spacje); było tokenized użyciu przestronne .

Architektura

Sama architektura GPT była dwunastowarstwowym transformatorem z samym dekoderem, wykorzystującym dwanaście zamaskowanych głowic samoobsługowych, każdy z 64 stanami wymiarowymi (łącznie 768). Zamiast prostego stochastycznego spadku gradientu zastosowano algorytm optymalizacji Adama ; szybkość uczenia się została zwiększona liniowo od zera w ciągu pierwszych 2000 aktualizacji do maksymalnie 2,5 × 10-4 i wyżarzona do 0 przy użyciu harmonogramu kosinusowego.

Szkolimy przez 100 epok na minipartii 64 losowo próbkowanych, ciągłych sekwencji po 512 tokenów. Ponieważ norma warstw jest szeroko stosowana w całym modelu, wystarczyła prosta inicjalizacja wagi N (0,0,02). Użyliśmy słownictwa kodowania par bajtów (BPE) z 40 000 scaleniami [53]oraz pozostałościami, embeddingami i przerwami uwagi ze współczynnikiem 0,1 dla regularyzacji. Zastosowaliśmy również zmodyfikowaną wersję regularyzacji L2 zaproponowaną w Loshchilov et al. 2017, z w = 0,01 na wszystkich nieobciążonych wagach lub przyrostach.

[...]
Zastosowaliśmy wyuczone osadzenia pozycji zamiast wersji sinusoidalnej proponowanej w oryginalnej pracy.

[...]
O ile nie określono inaczej, ponownie wykorzystujemy ustawienia hiperparametrów z nienadzorowanego treningu wstępnego. Dodajemy dropout do klasyfikatora z szybkością 0,1. W przypadku większości zadań używamy współczynnika uczenia 6,25 e-5 i wielkości partii 32. Nasz model szybko się dostraja, a 3 epoki szkolenia były wystarczające w większości przypadków. Stosujemy liniowy harmonogram zanikania szybkości uczenia się z rozgrzewką powyżej 0,2% treningu. λ ustawiono na 0,5.

Podczas gdy dostrajanie GPT było dostosowane do konkretnych zadań, jego wstępne szkolenie nie było; aby wykonać różne zadania, wprowadzono minimalne zmiany w podstawowej architekturze modelu niezależnego od zadań. Mimo to GPT nadal poprawiał poprzednie testy porównawcze w kilku zadaniach przetwarzania języka, przewyższając modele wyszkolone dyskryminacyjnie z architekturą zorientowaną na zadania w wielu różnych zadaniach.

Wydajność

W zadaniach wnioskowania języka naturalnego (znanych również jako pociąganie tekstowe ) modele są oceniane pod kątem ich zdolności do interpretowania par zdań z różnych zbiorów danych i klasyfikowania relacji między nimi jako „uwikłania”, „sprzeczności” lub „neutralnego”. Przykłady takich zbiorów danych obejmują QNLI ( artykuły Wikipedii ) i MultiNLI (mowa transkrybowana, popularna fikcja i raporty rządowe, między innymi); na tych GPT osiągnął odpowiednio 5,8% i 1,5% poprawę w stosunku do poprzednich najlepszych wyników. Podobnie wypadł on lepiej niż poprzednie modele w dwóch zadaniach związanych z odpowiadaniem na pytania i zdroworozsądkowym rozumowaniem — o 5,7% w RACE, zbiorze danych pisemnych par pytanie-odpowiedź z egzaminów gimnazjalnych i licealnych, oraz o 8,9% w teście Story Cloze.

Inne zadanie, podobieństwo semantyczne (lub wykrywanie parafraz ), ocenia, czy model może przewidzieć, czy dwa zdania są parafrazami siebie nawzajem; w zestawie danych Quora Question Pairs (QQP) GPT poprawił się w stosunku do poprzednich najlepiej działających modeli o 4,2%. W zadaniu klasyfikacji tekstu przy użyciu Korpusu Akceptacji Językowej (CoLA) GPT uzyskał wynik 45,4 w porównaniu z poprzednim najlepszym wynikiem 35,0. Wreszcie, w teście wielozadaniowym GLUE, GPT osiągnął ogólny wynik 72,8 (w porównaniu z poprzednim rekordem 68,9).

Skalowanie w górę

GPT-2 został stworzony jako bezpośrednie skalowanie GPT, przy czym zarówno liczba parametrów, jak i rozmiar zestawu danych zostały zwiększone o współczynnik 10. Oba są nienadzorowanymi modelami transformatorów wyszkolonymi do generowania tekstu przez przewidywanie następnego słowa w sekwencji tokenów . Model GPT-2 ma 1,5 miliarda parametrów i został wytrenowany na zbiorze danych składającym się z 8 milionów stron internetowych. Chociaż GPT-2 został wzmocniony bardzo prostymi kryteriami (interpretacja sekwencji słów w próbce tekstu i przewidywanie najbardziej prawdopodobnego następnego słowa), generuje pełne zdania i akapity, kontynuując przewidywanie dodatkowych słów, generując w pełni zrozumiałe (i znaczące semantycznie ) wypowiedzi w języku naturalnym . Warto zauważyć, że GPT-2 został oceniony pod kątem jego wydajności w zadaniach w ustawieniu zerowym .

Szkolenie

Ponieważ architektura transformatora umożliwiała masową równoległość , modele z serii GPT można było trenować na większych korpusach niż poprzednie modele NLP. Podczas gdy początkowy model GPT wykazał, że podejście jest wykonalne, GPT-2 będzie dalej badać pojawiające się właściwości sieci trenowanych na bardzo dużych korpusach. CommonCrawl , duży korpus stworzony przez indeksowanie sieci i wcześniej używany w systemach uczenia NLP, został wzięty pod uwagę ze względu na jego duży rozmiar, ale został odrzucony po tym, jak dalsze przeglądy ujawniły duże ilości niezrozumiałych treści. Zamiast tego OpenAI opracował nowy korpus, znany jako WebText ; zamiast bezkrytycznie zbierać treści z sieci WWW , WebText został wygenerowany przez zbieranie tylko stron, do których prowadzą linki w postach Reddit , które otrzymały co najmniej trzy głosy za głosami przed grudniem 2017 r. Korpus został następnie oczyszczony; Dokumenty HTML zostały przetworzone na zwykły tekst, zduplikowane strony zostały wyeliminowane, a strony Wikipedii usunięte (ponieważ ich obecność w wielu innych zestawach danych mogła spowodować nadmierne dopasowanie ).

Chociaż wiadomo, że koszt szkolenia GPT-2 wynosił 256 USD za godzinę, ilość godzin potrzebnych do ukończenia szkolenia jest nieznana; dlatego całkowity koszt szkolenia nie może być dokładnie oszacowany. Jednak porównywalne modele dużych języków wykorzystujące architektury transformatorowe mają bardziej szczegółowo udokumentowane koszty; procesy szkoleniowe dla BERT i XLNet pochłonęły odpowiednio 6912 USD i 245 000 USD zasobów.

Wydajność

GPT-2 pisze fikcyjny artykuł informacyjny o działaniach Edwarda Snowdena po wygraniu wyborów prezydenckich w Stanach Zjednoczonych w 2020 roku (cały zaznaczony tekst jest generowany maszynowo). Podczas gdy Snowden (w momencie generacji) nigdy nie został wybrany na urząd publiczny, wygenerowana próbka jest poprawna gramatycznie i stylistycznie.

Ze względu na rozległość swojego zbioru danych i szerokie podejście, GPT-2 stał się zdolny do wykonywania różnorodnych zadań wykraczających poza proste generowanie tekstu: odpowiadanie na pytania, podsumowywanie, a nawet tłumaczenie między językami w różnych określonych dziedzinach , bez bycie pouczonym o czymkolwiek poza tym, jak przewidzieć następne słowo w sekwencji.

Jednym z przykładów uczenia się uogólnionego jest zdolność GPT-2 do wykonywania tłumaczenia maszynowego między francuskim a angielskim, dla którego wydajność GPT-2 została oceniona za pomocą zadań tłumaczeniowych WMT-14. Korpus treningowy GPT-2 praktycznie nie zawierał tekstu w języku francuskim; tekst w języku innym niż angielski został celowo usunięty podczas czyszczenia zbioru danych przed szkoleniem, w wyniku czego model mógł się uczyć tylko 10 MB języka francuskiego z pozostałych 40 000 MB (głównie z obcojęzycznych cytatów w anglojęzycznych postach i artykułach) . Mimo to GPT-2 uzyskał 5 BLEU w zestawie testowym WMT-14 z języka angielskiego na francuski (nieco poniżej wyniku tłumaczenia poprzez podstawienie słowo w słowo). Był również w stanie przewyższyć kilka współczesnych (2017) nienadzorowanych linii bazowych tłumaczenia maszynowego w zestawie testowym z języka francuskiego na angielski, gdzie GPT-2 osiągnął 11,5 BLEU. Pozostało to poniżej najskuteczniejszego współczesnego podejścia nienadzorowanego (2019), które osiągnęło 33,5 BLEU. Jednak inne modele wykorzystywały duże ilości tekstu francuskiego, aby osiągnąć te wyniki; Oszacowano, że GPT-2 wykorzystywał jednojęzyczny francuski korpus w przybliżeniu 1/500 wielkości porównywalnych podejść.

Uwolnienie

GPT-2 został po raz pierwszy ogłoszony 14 lutego 2019 r. Artykuł Jamesa Vincenta z lutego 2019 r. w The Verge powiedział, że chociaż „pisze, które tworzy, jest zwykle łatwe do zidentyfikowania jako nieludzkie”, pozostaje „jednym z najbardziej ekscytujących przykłady jeszcze” programów generowania języka:

Daj mu fałszywy nagłówek, a napisze resztę artykułu wraz z fałszywymi cytatami i statystykami. Nakarm go pierwszą linijką opowiadania, a powie ci, co stanie się z twoją postacią. Potrafi nawet pisać fan fiction, pod warunkiem, że pojawi się odpowiedni monit.

The Guardian określił to dzieło jako „prawdopodobną prozę gazetową”; Kelsey Piper z Vox powiedział: „jeden z najfajniejszych systemów AI, jaki kiedykolwiek widziałem, może być również tym, który wyrzuci mnie z pracy”. Elastyczność GPT-2 została opisana jako „imponująca” przez The Verge ; w szczególnościzauważonojego zdolność do tłumaczenia tekstu między językami, podsumowywania długich artykułów i odpowiadania na pytania dotyczące ciekawostek.

Badanie przeprowadzone przez Uniwersytet w Amsterdamie przy użyciu zmodyfikowanego testu Turinga wykazało, że przynajmniej w niektórych scenariuszach uczestnicy nie byli w stanie odróżnić wierszy wygenerowanych przez GPT-2 od tych napisanych przez ludzi.

Ograniczenia i częściowe zwolnienie

Chociaż „Skub” nie jest prawdziwym produktem, nawet model o zmniejszonym rozmiarze używany w DistilGPT2 jest w stanie tworzyć wiarygodne argumenty zarówno za, jak i przeciw.

Podczas gdy poprzednie modele OpenAI zostały natychmiast udostępnione opinii publicznej, OpenAI początkowo odmówił publicznego udostępnienia kodu źródłowego GPT-2, ogłaszając go w lutym, powołując się na ryzyko złośliwego użycia; ograniczony dostęp do modelu (tj. interfejsu, który umożliwiał wprowadzanie i dostarczanie danych wyjściowych, a nie samego kodu źródłowego) był dozwolony dla wybranych mediów w momencie ogłoszenia. Jednym z często cytowanych uzasadnień było to, że wygenerowany tekst był zwykle całkowicie nowatorski i mógł być używany przez spamerów do omijania automatycznych filtrów ; OpenAI zademonstrował wersję GPT-2 dostrojoną do „generowania nieskończonych pozytywnych – lub negatywnych – recenzji produktów”. Innym było to, że GPT-2 może być używany do generowania tekstu nieprzyzwoitego lub rasistowskiego . Badacze, tacy jak Jeremy Howard, ostrzegali przed „technologią, która całkowicie wypełnia Twittera, pocztę elektroniczną i sieć rozsądnie brzmiącą, adekwatną do kontekstu prozą, która zagłusza wszelką inną mowę i nie da się jej przefiltrować”. Allen Institute for Artificial Intelligence w odpowiedzi na GPT-2, ogłosił narzędzie do wykrywania fałszywych wiadomości „nerwową”.

Jednak opinia była podzielona. Artykuł z lutego 2019 r. w The Verge argumentował, że zagrożenie stwarzane przez GPT-2 było przesadzone; Anima Anandkumar , profesor w Caltech i dyrektor badań nad uczeniem maszynowym w Nvidii , powiedziała, że ​​nie ma dowodów na to, że GPT-2 miał możliwości stwarzania zagrożeń opisanych przez OpenAI, a to, co robili, było „przeciwieństwem otwartego”, scharakteryzując swoją odmowę wydania pełnego modelu jako „złośliwy BS ”. Gradient opublikował list otwarty do OpenAI z prośbą o publiczne udostępnienie modelu, porównując zagrożenie stwarzane przez sztuczną inteligencję generującą tekst do zagrożenia stwarzanego przez prasę drukarską i podając Photoshopa jako przykład „technologii, która (na szczęście) nie zniszczył współczesne społeczeństwo pomimo jego potencjału chaosu:

Trzydzieści lat później społeczeństwo wyszło stosunkowo bez szwanku, mimo że Photoshop jest wystarczająco prosty, aby uczniowie szkół średnich mogli go używać i wystarczająco wszechobecny, aby przejąć własne czasowniki. Czemu? Właśnie dlatego, że o Photoshopie wiedzą wszyscy.

Wydanie 774M

Chociaż OpenAI nie wydała w pełni wyszkolonego modelu ani korpusów, na których był szkolony, opis ich metod we wcześniejszych publikacjach (i bezpłatna dostępność podstawowej technologii) umożliwił replikowanie GPT-2 przez innych jako wolne oprogramowanie ; jedna z takich replik, OpenGPT-2, została wydana w sierpniu 2019 r. w połączeniu z darmową licencjonowaną wersją WebText o nazwie OpenWebText. Koszty obliczeń w chmurze dla OpenGPT-2 zostały podane na około 50 000 USD.

20 sierpnia 2019 r. OpenAI wypuściło częściową wersję GPT-2 z 774 milionami parametrów (mniej więcej o połowę mniejszym od pełnego 1,5 miliarda modelu parametrów).

Pełna wersja 1.5B

Początkowe obawy, że GPT-2 będzie podatny na powszechne nadużycia, nie sprawdziły się; The Verge powiedział, że „istnieją powody, aby być sceptycznym wobec twierdzeń, że technologia AI zapoczątkuje swego rodzaju „infopokalipsę”. Po pierwsze, mamy już programy, które mogą generować wiarygodny tekst w dużej ilości niewielkim kosztem: ludzie”. Do listopada 2019 r. OpenAI powiedział, że „jak dotąd nie widział żadnych mocnych dowodów niewłaściwego użycia”, a pełna wersja, z 1,5 miliarda parametrów, została wydana 5 listopada 2019 r.

Ograniczenia

GPT-2 może generować odpowiedni tematycznie tekst dla szeregu scenariuszy, nawet surrealistycznych, takich jak artykuł CNN o Donaldzie Trumpie wygłaszającym przemówienie chwalące postać anime Asuka Langley Soryu . Widać tu tendencję do generowania bezsensownego i powtarzalnego tekstu o rosnącej długości wyjściowej (nawet w pełnym modelu 1.5B); w drugim akapicie gramatyka zaczyna się pogarszać, a wynik ostatecznie staje się jednym niespójnym zdaniem powtarzanym w kółko.

Podczas gdy zdolność GPT-2 do generowania wiarygodnych fragmentów tekstu w języku naturalnym była ogólnie oceniana pozytywnie, zauważono również jego wady, zwłaszcza przy generowaniu tekstów dłuższych niż kilka akapitów; Vox powiedział, że „proza ​​jest dość szorstka, zdarzają się przypadki braku sequitur, a artykuły stają się mniej spójne, im dłużej są”. The Verge podobnie zauważył, że dłuższe próbki pisania GPT-2 mają tendencję do „odbiegania od tematu” i braku ogólnej spójności; The Register wyraził opinię, że „człowiek, który to czyta, powinien po chwili zorientować się, że coś jest nie tak” i zauważył, że „GPT-2 nie odpowiada na pytania tak dobrze, jak inne systemy, które polegają na algorytmach do wydobywania i pobierania informacji”.

Wdrożenie GPT-2 wymaga dużych zasobów; pełna wersja modelu jest większa niż pięć gigabajtów, co utrudnia lokalną osadzenie w aplikacjach i zużywa duże ilości pamięci RAM. Ponadto wykonanie pojedynczej prognozy „może zająć procesor przy 100% wykorzystaniu przez kilka minut”, a nawet przy przetwarzaniu GPU „pojedyncza prognoza może zająć kilka sekund”. Aby złagodzić te problemy, firma Hugging Face stworzyła DistilGPT2 , wykorzystując destylację wiedzy do stworzenia mniejszego modelu, który „ocenia o kilka punktów mniej w niektórych testach jakości”, ale jest „o 33% mniejszy i dwa razy szybszy”.

Wdrożenia i późniejsze badania

Możliwe zastosowania GPT-2 opisane przez dziennikarzy obejmowały pomoc ludziom w pisaniu tekstów takich jak artykuły prasowe. Jeszcze przed wydaniem pełnej wersji GPT-2 był używany do różnych aplikacji i usług, a także do rozrywki. W czerwcu 2019 r. powstał subreddit o nazwie r/SubSimulatorGPT2, w którym różne instancje GPT-2 wyszkolone na różnych subredditach publikowały posty i odpowiadały na swoje komentarze, tworząc sytuację, w której można było zaobserwować „personifikację AI r/Bitcoin argument z duchem r/ShittyFoodPorn wywodzącym się z uczenia maszynowego”; do lipca tego roku oprogramowanie oparte na GPT-2 wydane do autouzupełniania linii kodu w różnych językach programowania zostało opisane przez użytkowników jako „zmieniacz gier”.

W 2019 roku uruchomiono AI Dungeon , który wykorzystywał GPT-2 do generowania dynamicznych przygód tekstowych na podstawie danych wejściowych użytkownika. AI Dungeon oferuje teraz dostęp do największej wersji API GPT-3 jako opcjonalne płatne uaktualnienie, darmowa wersja witryny korzysta z drugiego co do wielkości wydania GPT-3. Firma Latitude, utworzona wokół AI Dungeon, zebrała w 2021 r. 3,3 miliona dolarów na finansowanie początkowe. Na kilku stronach internetowych znajdują się interaktywne demonstracje różnych instancji GPT-2 i innych modeli transformatorów.

W lutym 2021 r. centrum kryzysowe dla nastolatków z problemami ogłosiło, że zaczną używać chatbota pochodzącego z GPT-2 do pomocy w szkoleniu doradców, umożliwiając im prowadzenie rozmów z symulowanymi nastolatkami (to użycie było wyłącznie do celów wewnętrznych i nie wiązało się z koniecznością GPT-2 komunikuje się z samymi nastolatkami).

Bibliografia

  1. ^ Piper, Kelsey (15 maja 2019). „Właśnie ujawniono sztuczną inteligencję do pisania poezji. Jest… całkiem niezła” . Vox . Zarchiwizowane od oryginału w dniu 7 listopada 2020 r . . Źródło 19 grudnia 2020 .
  2. ^ B Johnson Khari (20 sierpnia 2019). „OpenAI wypuszcza okrojoną wersję modelu językowego GPT-2” . VentureBeat . Zarchiwizowane od oryginału w dniu 18 grudnia 2020 r . Źródło 19 grudnia 2020 .
  3. ^ B Vincent James (07 listopada 2019). „OpenAI opublikowało sztuczną sztuczną inteligencję generującą tekst, o której mówiło, że jest zbyt niebezpieczna, aby ją udostępniać” . Pobocze . Zarchiwizowane od oryginału w dniu 11 czerwca 2020 r . Źródło 19 grudnia 2020 .
  4. ^ a b c „Lepsze modele językowe i ich implikacje” . OpenAI . 14 lutego 2019 r. Zarchiwizowane z oryginału w dniu 19 grudnia 2020 r . Źródło 19 grudnia 2020 .
  5. ^ B Hegde, Chaitra; Patil, Shrikumar (9 czerwca 2020). „Nienadzorowane generowanie parafrazy przy użyciu wstępnie wyszkolonych modeli językowych”. arXiv : 2006.05477 [ cs.CL ].
  6. ^ B c Kaiser Calebem (31 stycznia 2020). „Zbyt duży do wdrożenia: jak GPT-2 psuje serwery” . W kierunku nauki o danych . Zarchiwizowane od oryginału w dniu 15 lutego 2020 . Pobrano 27 lutego 2021 .
  7. ^ B c d e f Herna, Alex (14 lutego 2019). „Nowy generator fałszywego tekstu AI może być zbyt niebezpieczny do wydania, mówią twórcy” . Opiekun . Zarchiwizowane z oryginału w dniu 14 lutego 2019 r . Źródło 19 grudnia 2020 .
  8. ^ B c d e f g h ı Radford, Alec; Wu, Jeffrey; Dziecko, Rewon; Luan, Dawid; Amodei, Dario; Sutskever, Ilua (14 lutego 2019 r.). „Modele językowe to nienadzorowani uczniowie wielozadaniowi” (PDF) . 1 (8). Zarchiwizowane (PDF) z oryginału w dniu 6 lutego 2021 r . Źródło 19 grudnia 2020 . Cytowanie dziennika wymaga |journal=( pomoc )
  9. ^ B c d e f g h i j k l m n o p q r s Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilja (11 czerwca 2018). „Poprawa rozumienia języka poprzez wstępne szkolenie generatywne” (PDF) . OpenAI . P. 12. Zarchiwizowane (PDF) z oryginału w dniu 26 stycznia 2021 r . Źródło 23 stycznia 2021 .
  10. ^ B c d e f Polosukhin, Illia; Kaiser, Łukasz; Gomez, Aidan N.; Jones, Llion; Uszkoreit, Jakob; Parmar, Niki; Shazeer, Noam; Vaswani, Ashish (2017-06-12). „Uwaga to wszystko, czego potrzebujesz”. arXiv : 1706.03762 [ cs.CL ].
  11. ^ B c d e Olah Chris; Carter, Shan (8 września 2016). „Uwaga i rozszerzone rekurencyjne sieci neuronowe” . Destylować . 1 (9). doi : 10.23915/destyl.00001 . Zarchiwizowane od oryginału w dniu 22 grudnia 2020 r . Źródło 22 stycznia 2021 .
  12. ^ B c d e f Bahdanau Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 września 2014). „Neuronowe tłumaczenie maszynowe poprzez wspólne uczenie się wyrównywania i tłumaczenia”. arXiv : 1409.0473 [ cs.CL ].
  13. ^ B c d e f g Luong Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 sierpnia 2015). „Skuteczne podejścia do tłumaczenia maszynowego neuronowego opartego na uwadze”. arXiv : 1508.04025 [ cs.CL ].
  14. ^ a b „GPT-2: wersja 1.5B” . OpenAI . 2019-11-05. Zarchiwizowane od oryginału dnia 2019-11-14 . Źródło 2019-11-14 .
  15. ^ Brązowy, Tom B .; Mann, Beniamin; Ryder, Nick; Subbiasz, Melanie; Kaplana, Jareda; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krüger, Gretchen; Henighan, Tom; Dziecko, Rewon; Ramesz, Aditja; Ziegler, Daniel M.; Wu, Jeffrey; Zima, Klemens; Hesja, Krzysztof; Chen, Mark; Siglera, Erica; Litwin, Mateusz; Szary, Scott; Szachy, Beniamin; Clark, Jack; Berner, Krzysztof; McCandlish, Sam; Radforda, Aleca; Suckever, Ilja; Amodei, Dario (22 lipca 2020 r.). „Modele językowe to kilku uczniów”. arXiv : 2005.14165 [ cs.CL ].
  16. ^ Arram (9 lipca 2020). „GPT-3: sztuczna inteligencja, która jest niesamowicie dobra w pisaniu prawie wszystkiego” . Arram Sabeti . Zarchiwizowane z oryginału 20 lipca 2020 r . Źródło 31 lipca 2020 .
  17. ^ Hao, Karen (23 września 2020). „OpenAI daje Microsoftowi wyłączny dostęp do swojego modelu językowego GPT-3” . Przegląd technologii MIT . Źródło 2020-09-25 . Firmy twierdzą, że OpenAI będzie nadal oferować swój publiczny interfejs API, który umożliwia wybranym użytkownikom wysyłanie tekstu do GPT-3 lub innych modeli OpenAI i odbieranie jego danych wyjściowych. Jednak tylko Microsoft będzie miał dostęp do podstawowego kodu GPT-3, co pozwoli mu na osadzenie, zmianę przeznaczenia i modyfikację modelu według własnego uznania.
  18. ^ Turing, Alan (październik 1950), "Maszyny komputerowe i inteligencja", umysł , LIX (236): 433-460, doi : 10.1093/mind/LIX.236.433 , ISSN  0026-4423
  19. ^ Samuel Artur (1959). „Niektóre badania w uczeniu maszynowym za pomocą gry w warcaby”. IBM Journal of Research and Development . 3 (3): 210–229. CiteSeerX  10.1.1.368.2254 . doi : 10.1147/rd.33.0210 .
  20. ^ B c Hancox PJ (26 stycznia 1996). „SEM1A5 – Część 1 – Krótka historia NLP” . Uniwersytet w Birmingham. Zarchiwizowane z oryginału w dniu 13 stycznia 2021 r . Źródło 12 stycznia 2021 .
  21. ^ B Nye Mary Jo (2016). „Mówienie w językach: wielowiekowe polowanie nauki na wspólny język” . Destylacje . 2 (1): 40–43. Zarchiwizowane z oryginału w dniu 3 sierpnia 2020 r . Źródło 22 marca 2018 .
  22. ^ Gordin, Michael D. (2015). Scientific Babel: Jak prowadzono naukę przed i po Global English . Chicago, Illinois: University of Chicago Press. Numer ISBN 9780226000299.
  23. ^ John Hutchins. „Pierwszy publiczny pokaz tłumaczenia maszynowego: system Georgetown-IBM, 7 stycznia 1954”. S2CID  132677 . Cytowanie dziennika wymaga |journal=( pomoc )
  24. ^ Reifler, Erwin (2-5 lutego 1960). „Rozwiązanie problemów językowych MT poprzez leksykografię”. Materiały Ogólnopolskiego Sympozjum Tłumaczeń Maszynowych .
  25. ^ Hutchins, John (1997). „Od pierwszej koncepcji do pierwszej demonstracji: rodzące się lata tłumaczenia maszynowego, 1947-1954. Chronologia”. Tłumaczenie maszynowe 12, 195–252 . 12 (3): 195–252. doi : 10.1023/A:1007969630568 . S2CID  197591 .
  26. ^ Winograd, Terry (1971-01-01). „Procedury jako reprezentacja danych w programie komputerowym do zrozumienia języka naturalnego” . hdl : 1721.1/7095 . Zarchiwizowane z oryginału w dniu 2021-01-13 . Źródło 2021-01-12 . Cytowanie dziennika wymaga |journal=( pomoc )
  27. ^ "SZRDLU" . Grupa Stanford ds. interakcji człowiek-komputer (HCI) . Zarchiwizowane od oryginału dnia 2020-08-16 . Źródło 2021-01-12 .
  28. ^ Weizenbaum, Joseph (styczeń 1966), "ELIZA - program komputerowy do badania komunikacji języka naturalnego między człowiekiem a maszyną", Komunikacja ACM , 9 (1): 36-45, doi : 10.1145/365153.365168 , S2CID  1896290
  29. ^ Bassett, Karolina (2019). „Terapetyka obliczeniowa: badanie ELIZA Weizenbauma jako historii teraźniejszości” . Sztuczna inteligencja i społeczeństwo . 34 (4): 803-812. doi : 10.1007/s00146-018-0825-9 .
  30. ^ Hancox, PJ (26 stycznia 1996). „SEM1A5 – Część 1 – Najnowocześniejszy” . Uniwersytet w Birmingham. Zarchiwizowane z oryginału w dniu 16 stycznia 2021 r . Źródło 12 stycznia 2021 .
  31. ^ Howe, J. (listopad 1994). „Sztuczna inteligencja na Uniwersytecie w Edynburgu: perspektywa” . Zarchiwizowane z oryginału w dniu 17 sierpnia 2007 . Źródło 30 sierpnia 2007 . Raport Lighthilla [1973] sprowokował ogromną utratę zaufania do AI przez akademicki establishment w Wielkiej Brytanii (iw mniejszym stopniu w USA). Utrzymywała się przez dekadę ― tak zwana „zima AI”
  32. ^ B Russell, Stuart J. ; Norvig, Peter (2003), Sztuczna inteligencja: nowoczesne podejście (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, s. 24, numer ISBN 0-13-790395-2, zarchiwizowane z oryginału 2011-02-28 , pobrane 2021-01-12 , Ogólnie rzecz biorąc, branża AI rozkwitła z kilku milionów dolarów w 1980 roku do miliardów dolarów w 1988. Niedługo potem nadszedł okres zwany „zimą AI”. '
  33. ^ Rosenblatt, Frank (1957). „Perceptron-automat postrzegania i rozpoznawania”. Raport 85-460-1 . Laboratorium Lotnicze Cornella.
  34. ^ Biskup Christopher M. (2006). Rozpoznawanie wzorców i uczenie maszynowe . Skoczek. Numer ISBN 0-387-31073-8.
  35. ^ B Olazaran Mikel (1996). „Studium socjologiczne oficjalnej historii kontrowersji perceptronów”. Społeczne Studia Nauki . 26 (3): 611–659. doi : 10.1177/030631296026003005 . JSTOR  285702 . S2CID  16786738 .
  36. ^ Minsky, Marcin; Papert, Seymour (1969), Perceptrons: Wprowadzenie do geometrii obliczeniowej , MIT Press, ISBN 0-262-63022-2
  37. ^ B c d Wilson Bill (24 czerwca 2012). „Słownik uczenia maszynowego” . www.cse.unsw.edu.au . Zarchiwizowane z oryginału w dniu 26 sierpnia 2018 r . Źródło 19 stycznia 2021 .
  38. ^ a b Dobry przyjaciel, Ian ; Bengio, Yoshua ; Courville, Aaron (2016). „6.5 Propagacja wsteczna i inne algorytmy różniczkowania” . Głębokie uczenie . MIT Naciśnij. s. 200–220. Numer ISBN 9780262035613. Zarchiwizowane od oryginału dnia 2018-01-27 . Pobrano 14.03.2021 .
  39. ^ Werbos Paul J. (1994). Korzenie wstecznej propagacji: od uporządkowanych pochodnych do sieci neuronowych i prognozowania politycznego . Nowy Jork: John Wiley i synowie. Numer ISBN 0-471-59897-6.
  40. ^ Crevier Daniel (1993). AI: burzliwe poszukiwanie sztucznej inteligencji . New York, NY: BasicBooks. Numer ISBN 0-465-02997-3.
  41. ^ Parker, DB (1985). „Uczenie się logiki”. Centrum Badań Obliczeniowych w Ekonomii i Naukach o Zarządzaniu. Cambridge MA: Massachusetts Institute of Technology. Cytowanie dziennika wymaga |journal=( pomoc )
  42. ^ Rumelhart, David E. ; Hinton, Geoffrey E .; Williams, Ronald J. (1986a). „Reprezentacje uczenia się przez wsteczną propagację błędów”. Natura . 323 (6088): 533-536. Kod Bibcode : 1986Natur.323..533R . doi : 10.1038/323533a0 . S2CID  205001834 .
  43. ^ Fukushima, Kunihiko (październik 1979). "位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---" [Model sieci neuronowej dla mechanizmu rozpoznawania wzorców, na który nie ma wpływu zmiana pozycji — Neokognitron —]. Przeł. IECE (po japońsku). J62-A (10): 658–665. Zarchiwizowane z oryginału w dniu 2021-01-28 . Źródło 2021-01-20 .
  44. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Głęboka nauka". Natura . 521 (7553): 436-444. Kod Bibcode : 2015Natur.521..436L . doi : 10.1038/nature14539 . PMID  26017442 . S2CID  3074096 .
  45. ^ B c d e Bajpai, Akash (23 lutego 2019). „Rekurencyjne sieci neuronowe: głębokie uczenie dla NLP” . W kierunku nauki o danych . Źródło 19 stycznia 2021 .
  46. ^ Sepp Hochreiter ; Jürgen Schmidhuber (21 sierpnia 1995), Długi Short Term Memory , wikidane  Q98967430
  47. ^ Sepp Hochreiter ; Jürgena Schmidhubera (1997). „LSTM może rozwiązać trudne problemy z długimi opóźnieniami” (PDF) . Postępy w neuronowych systemach przetwarzania informacji 9 . Postępy w neuronowych systemach przetwarzania informacji. Wikidane  Q77698282 .
  48. ^ Sepp Hochreiter ; Jürgena Schmidhubera (1997). „Pamięć długotrwała długotrwała” . Obliczenia neuronowe . 9 (8): 1735–1780. doi : 10.1162/neco.1997.9.8.1735 . PMID  9377276 . S2CID  1915014 . Zarchiwizowane z oryginału w dniu 2021-01-22 . Źródło 2021-01-20 .
  49. ^ Groby, A.; Liwicki M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (maj 2009). „Powieść system koneksjonistów do nieograniczonego rozpoznawania pisma ręcznego”. Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej . 31 (5): 855-868. CiteSeerX  10.1.1.139.4502 . doi : 10.1109/tpami.2008.137 . ISSN  0162-8828 . PMID  19299860 . S2CID  14635907 .
  50. ^ Märgner, Volker; Abed, Haikal El (lipiec 2009). „Konkurs rozpoznawania pisma arabskiego ICDAR 2009”. 2009 10. Międzynarodowa Konferencja Analizy i Rozpoznawania Dokumentów : 1383–1387. CiteSeerX  10.1.1.212.602 . doi : 10.1109/ICDAR.2009.256 . Numer ISBN 978-1-4244-4500-4. S2CID  52851337 .
  51. ^ Olah, Chris (27 sierpnia 2015). "Zrozumienie sieci LSTM" . Zarchiwizowane z oryginału w dniu 1 sierpnia 2017 r . Źródło 22 stycznia 2021 .
  52. ^ Buck, Chrześcijanin; Heafielda, Kennetha; van Ooyen, Bas (maj 2014). Liczby N-gramów i modele językowe ze wspólnego indeksowania” : 3579-3584. Zarchiwizowane z oryginału w dniu 28 stycznia 2021 r . Źródło 22 stycznia 2021 . Cytowanie dziennika wymaga |journal=( pomoc )
  53. ^ Wilk, Tomasz; Debiut, Lysandre; Sanh, Wiktorze; Chaumond, Julien; Delangue, Klemens; Moi, Antoni; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicza, Morgana; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Mamo, Klaro; Jernit, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Dramat, Mariama; Lhoesta, Quentina; Pośpiech, Aleksander (2020). „Transformatory: najnowocześniejsze przetwarzanie języka naturalnego”. Materiały z konferencji 2020 na temat metod empirycznych w przetwarzaniu języka naturalnego: demonstracje systemu . s. 38–45. doi : 10.18653/v1/2020.emnlp-demos.6 . S2CID  208117506 .
  54. ^ B Tsvetkov Julia (dnia 22 lipca 2017). „Szanse i wyzwania w pracy z językami o niskich zasobach” (PDF) . Carnegie Mellon University. Zarchiwizowane (PDF) od oryginału w dniu 31 marca 2020 r . Źródło 23 stycznia 2021 .
  55. ^ Zhu, Yukun; Kirosa, Ryana; Zemel, Ryszard; Salachutdinow, Rusłan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 czerwca 2015). „Dopasowywanie książek i filmów: w kierunku podobnych do opowieści wyjaśnień wizualnych poprzez oglądanie filmów i czytanie książek”. arXiv : 1506.06724 [ cs.CV ]. liczba książek: 11 038 / liczba zdań: 74 004 228 / liczba słów: 984 846 357 / średnia liczba słów w zdaniu: 13 / mediana liczby słów w zdaniu: 11
  56. ^ Williams, Adina; Nangia, Nikita; Bowman, Samuel (1 czerwca 2018). „Szeroki zasięg Corpus Challenge dla zrozumienia zdań poprzez wnioskowanie” (PDF) . Stowarzyszenie Lingwistyki Komputerowej. Zarchiwizowane (PDF) od oryginału z dnia 11 lutego 2020 r . Źródło 23 stycznia 2021 . Na 433 tys. przykładów ten zasób jest jednym z największych korpusów dostępnych do wnioskowania w języku naturalnym (znanego również jako rozpoznawanie pociągania tekstu), [...] oferując dane z dziesięciu różnych gatunków języka angielskiego w mowie i piśmie [...] przy jednoczesnym zapewnieniu wyraźnego ustawienia do oceny adaptacji domen międzygatunkowych.
  57. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 kwietnia 2017). „RACE: Zestaw danych czytania ze zrozumieniem na dużą skalę z egzaminów”. arXiv : 1704.04683 [ cs.CL ].
  58. ^ Mostafazadeh, Nasrin; Roth, Michael; Ludwika, Annie; Komnaty Natanaela; Allen, James F. (3 kwietnia 2017). „LSDSem 2017 Wspólne zadanie: Test zamknięcia historii” (PDF) . Stowarzyszenie Lingwistyki Komputerowej. Zarchiwizowane (PDF) od oryginału w dniu 22 listopada 2020 r . Źródło 23 stycznia 2021 . Wspólnym zadaniem LSDSem'17 jest Test Zamykania Opowieści, nowa ocena zrozumienia historii i uczenia się skryptów. Ten test dostarcza system z czterozdaniową historią i dwoma możliwymi zakończeniami, a system musi wybrać właściwe zakończenie tej historii. Pomyślne zrozumienie narracji (zbliżenie się do wydajności człowieka na poziomie 100%) wymaga, aby systemy łączyły różne poziomy semantyki z wiedzą zdroworozsądkową.
  59. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Wzgórze, Feliksie; Pobory, Omara; Bowman, Samuel R. (20 kwietnia 2018). „GLUE: Wielozadaniowy benchmark i platforma analityczna do zrozumienia języka naturalnego”. arXiv : 1804.07461 [ cs.CL ].
  60. ^ B Trinh, Trieu H .; Le, Quoc V. (7 czerwca 2018). „Prosta metoda rozumowania zdroworozsądkowego”. arXiv : 1806.02847 [ cs.CL ].
  61. ^ B Quach, Katyanna (14 lutego 2019). „Róże są czerwone, to jest wzniosłe: nakarmiliśmy najnowszego bota OpenAI klasycznym nagłówkiem Reg” . Rejestr . Zarchiwizowane z oryginału w dniu 9 marca 2021 r . Pobrano 27 lutego 2021 .
  62. ^ a b „Oszałamiający koszt szkolenia modeli SOTA AI” . Zsynchronizowane . 27 czerwca 2019 r. Zarchiwizowane od oryginału w dniu 24 listopada 2020 r . Pobrano 27 lutego 2021 .
  63. ^ Wiggers, Kyle (23 marca 2020). „Struktura Google o otwartym kodzie źródłowym, która zmniejsza koszty szkolenia AI nawet o 80%” . VentureBeat . Zarchiwizowane od oryginału w dniu 26 listopada 2020 r . Pobrano 27 lutego 2021 .
  64. ^ B c d e f Vincent, James (14 lutego 2019). „Nowa, wszechstronna sztuczna inteligencja OpenAI pisze, tłumaczy i oczernia” . Pobocze . Zarchiwizowane od oryginału w dniu 18 grudnia 2020 r . Źródło 19 grudnia 2020 .
  65. ^ B c Piper Kelsey (14 lutego 2019). „AI pomogła nam napisać ten artykuł” . Vox . Zarchiwizowane od oryginału w dniu 8 listopada 2020 r . Źródło 19 grudnia 2020 .
  66. ^ Köbis, Nils; Mossink, Luca D. (1 stycznia 2021). „Sztuczna inteligencja kontra Maya Angelou: Eksperymentalne dowody na to, że ludzie nie mogą odróżnić poezji generowanej przez sztuczną inteligencję od poezji pisanej przez człowieka” . Komputery w ludzkich zachowaniach . 114 : 106553. doi : 10.1016/j.chb.2020.106553 .
  67. ^ Schwartz, Oscar (4 lipca 2019). „Czy „fałszywy tekst” może być kolejnym globalnym zagrożeniem politycznym? . Opiekun . Zarchiwizowane z oryginału w dniu 16 lipca 2019 r . Źródło 16 lipca 2019 .
  68. ^ B Vincent James (21 lutego 2019). „Badacze AI debatują nad etyką dzielenia się potencjalnie szkodliwymi programami” . Pobocze. Zarchiwizowane z oryginału w dniu 9 lutego 2021 r . Pobrano 27 lutego 2021 .
  69. ^ B Zhang Hugh (19 lutego 2019). „OpenAI: Otwórz swój model językowy, proszę o udostępnienie kodu źródłowego” . Gradient. Zarchiwizowane z oryginału w dniu 28 stycznia 2021 r . Pobrano 28 lutego 2021 .
  70. ^ Gokaslan, Aaron; Cohen, Wania; Pawlick, Ellie; Tellex, Stefanie (22 sierpnia 2019). „OpenGPT-2: Replikowaliśmy GPT-2, ponieważ Ty też możesz” . Warte uwagi . Pobrano 27 lutego 2021 .
  71. ^ B Vincent James (06 czerwca 2019). „Istnieje subreddit wypełniony w całości personifikacjami AI innych subredditów” . Pobocze . Zarchiwizowane z oryginału w dniu 21 lutego 2021 r . Pobrano 27 lutego 2021 .
  72. ^ Vincent, James (24 lipca 2019). „To oprogramowanie do autouzupełniania oparte na sztucznej inteligencji to inteligentne tworzenie wiadomości w Gmailu dla programistów” . Pobocze . Zarchiwizowane z oryginału w dniu 9 marca 2021 r . Pobrano 27 lutego 2021 .
  73. ^ Olson, Mateusz (17 grudnia 2019). „AI Dungeon 2, przygoda tekstowa, w której możesz zrobić prawie wszystko, jest już dostępna na urządzeniach mobilnych” . Zarchiwizowane z oryginału w dniu 20 września 2020 r . Pobrano 27 lutego 2021 .
  74. ^ Neliusz, Joanna (3 sierpnia 2020). „Ta gra tekstowa „Wybierz własną przygodę” oparta na sztucznej inteligencji jest super zabawna i nie ma sensu” . Gizmodo . Zarchiwizowane z oryginału w dniu 28 lutego 2021 r . Pobrano 27 lutego 2021 .
  75. ^ Ha, Anthony (4 lutego 2021). „Latitude z AI Dungeon-maker zbiera 3,3 miliona dolarów na tworzenie gier z „nieskończonymi” możliwościami fabuły” . TechCrunch. Zarchiwizowane z oryginału w dniu 21 lutego 2021 r . Pobrano 27 lutego 2021 .
  76. ^ „Napisz z transformatorem” . Źródło 4 grudnia 2019 .
  77. ^ „Porozmawiaj z transformatorem” . Źródło 4 grudnia 2019 .
  78. ^ „Kreatywny Silnik” . Źródło 25 czerwca 2021 .
  79. ^ Ohlheiser, Abby; Hao, Karen (26 lutego 2021). „Sztuczna inteligencja szkoli doradców, jak radzić sobie z nastolatkami w kryzysie” . Przegląd technologii MIT. Zarchiwizowane z oryginału w dniu 27 lutego 2021 r . Pobrano 27 lutego 2021 .