Algorytm BERT, modele językowe (LM),NLP – czy Google rozumie o co pytasz?

Czy wiedziałeś, że Deep learning jest podkategorią uczenia maszynowego i tworzy sieci neuronowe, których zadaniem jest udoskonalenie techniki rozpoznawania głosu oraz przetwarzania języka naturalnego? Deep Learning został wykorzystany w najnowszym modelu (GPT-3) piszącym artykuł dla The Guardian. Sprawdźmy czy rzeczywiście modele sztucznej inteligencji potrafią bezbłędnie rozszyfrować ludzki język.

Szybki postęp, jaki dokonał się w dziedzinie sztucznej inteligencji w ostatnich latach zaowocował modelami językowymi (LM) takimi jak GPT-3. Wielu twierdzi, że LM-y rozumieją język ze względu na ich zdolność do pisania opinii Guardiana, generowania kodu React lub wykonywania serii innych imponujących zadań.

Dla domeny takiej jak NLP jest to rzadki i nieoczekiwany czas, by stać się centrum debaty „Sztuczna Inteligencja (AI) przeciwko ludziom”.

Aby zrozumieć NLP, musimy przyjrzeć się trzem aspektom tych modeli językowych:

  • Ograniczenia pojęciowe: Czy można zrozumieć język czytając dużo tekstu? Jeśli spróbujemy zrozumieć, jak ludzie uczą się i używają języka, wydaje się, że mogą istnieć ukryte granice tego, jak wiele maszyna może nauczyć się z samego tekstu.
  • Ograniczenia techniczne: Nawet jeśli możliwe jest rozwinięcie przez te modele umiejętności zbliżonych do ludzkich w zadaniach językowych, to czy obecne modele są właściwe dla danej pracy? Czy podstawowa architektura tych modeli uniemożliwia im pełne wykorzystanie ich potencjału?
  • Ograniczenia oceny: Może problem polega po prostu na tym, że nie mamy możliwości właściwej oceny tych modeli? Czy obecny szum wokół modeli związany jest z faktem, że zadania NLP, których używamy do testowania tych modeli są przestarzałe i zbyt proste, biorąc pod uwagę szybki postęp jaki ostatnio nastąpił w tej dziedzinie?

Czego Google może się nauczyć z tekstu?

Dużym problemem przy szkoleniu dowolnego modelu DL są dane. Zazwyczaj potrzeba ich dużo. Jak dużo? Im więcej tym lepiej, a jest to trend, który podąża za najnowszymi modelami LM. Kluczem jest to, że tekst nie musi być opatrzony etykietą. Zamiast tego, modele te mogą przeczytać książkę lub post na blogu i spróbować zrozumieć znaczenie słów w kontekście, w którym są one używane. Dla przykładu termin „deep learning” będzie używany głównie w odniesieniu do takich rzeczy jak „uczenie się maszynowe” lub „sieci neuronowe” lub „sztuczna inteligencja”. Tak więc modele zaczną postrzegać te terminy jako mające nieco powiązany kontekst. Z coraz większą ilością danych zaczną uczyć się większej ilości niuansów w terminach lub różnych sposobów użycia i znaczenia tych powiązanych terminów. Przynajmniej tak powinno być w teorii.

Jako przykład ilości potrzebnych danych, weźmy BERT. Opublikowany w 2018 roku jeden z najbardziej wpływowych modeli w ostatnich latach połączył 2,8 miliarda słów danych Wikipedii z 800 milionami słów danych korpusu książki i wykorzystał 340 milionów parametrów. GPT-2 (model, który był zbyt niebezpieczny, by go opublikować) śledził BERT na początku 2019 roku i został przeszkolony na 8 milionach stron internetowych (~40 GB danych tekstowych) oraz zawierał 1,5 miliarda parametrów. Dla porównania, najnowsza wersja OpenAIs GPT (the Guardian writing model), GPT-3, zawiera 175 miliardów parametrów i została przeszkolona na łącznym zbiorze danych 45TB z wielu różnych źródeł tekstowych.

 

 

Łatwo dostrzec tu trend: stworzyć modele o większej liczbie parametrów, skłonić je do konsumowania coraz większej ilości danych tekstowych, aż modele zaczną „rozumieć” język na poziomie ludzkim.

Dowody wskazują na to, że takie podejście wydaje się być skuteczne. GPT-3 wydaje się być jednym z najbardziej zaawansowanych modeli, może dobrze wykonywać wiele różnych zadań językowych bez konieczności dalszego szkolenia.

Jednak w niedawno opublikowanym dokumencie pojawiły się pewne interesujące obawy co do wykonalności tego podejścia.

W artykule „Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data” Emily Bender i Alexander Koller zastanawiają się czy LM-y takie jak GPT-3 czy BERT mogą kiedykolwiek nauczyć się „rozumieć” język – bez względu na to do jakiego tekstu mają dostęp i ile mają parametrów do przetwarzania tych informacji. Kluczowym zagadnieniem jaki poruszają jest związek pomiędzy formą a znaczeniem.

Kwestią do rozważenia jest to, jak te elementy odnoszą się do rzeczy w świecie zewnętrznym. Należy tu zauważyć, że autorzy zakładają, iż modele, o których mowa, są ćwiczone tylko z tekstem, a nie z jakąkolwiek kombinacją tekstu i obrazów lub innych elementów reprezentujących świat zewnętrzny.  Modele GPT-3 i BERT starają się uczyć znaczenia tylko z formy.
Pomyślmy o tym jak o eksperymencie w pokoju Searle’a Chińskiego (do którego autorzy odwołują się w artykule), uczenie się tylko z formy byłoby jak próba komunikowania się w języku o którym nic nie wiesz, a jest wyjaśniony w  podręcznikach i słownikach napisanych tylko w tym dziwnym języku. Jest to podobne do tego, co próbują robić obecne LM-y, patrząc na dużą ilość danych tekstowych.

source: kaggle.com

Test ośmiornicy

Wyobraźmy sobie ośmiornicę  z nazwą O, umieszczoną pomiędzy dwoma osobami A i B, obie są uwięzione na odległych bezludnych wyspach, które mogą komunikować się tylko za pomocą podwodnego systemu telegramów. Ośmiornica, podobnie jak LM-y, może słuchać rozmów pomiędzy A i B. Wyobraźmy sobie, że robią to wystarczająco długo, aby wypowiedzieć prawie każde możliwe słowo, wyrażenie lub zdanie. Czy O może kiedykolwiek komunikować się z A lub B w sposób, który pokaże, że rozumie o czym A i B rozmawiają?

Z łatwością możemy sobie wyobrazić scenariusze, w których trywialne rozmowy pomiędzy O i A lub O i B wyglądałyby na idealnie poprawne i rozsądne. Ani A ani B nie wiedzieliby, że rozmawiają z ośmiornicą. Wydaje się, że GPT-3 jest w stanie zrobić właśnie to – komunikować się z ludźmi w ludzki sposób. Jednak to działa tylko do pewnego stopnia.
Wyobraźmy sobie inne zadanie, w którym A lub B proszą o coś ośmiornicę O np. o zbudowanie ważnego elementu jak katapulta kokosowa, relacjonują jego działanie i proponują sugestie dotyczące potencjalnych usprawnień. Możemy zacząć zauważać, że O nie ma sposobu aby „zrozumieć” jak to zbudować, ani nawet jak wyglądają potrzebne elementy.
Podobnie, gdy zmienia się charakter zadań, związek między znaczeniem a formą staje się coraz ważniejszy i właśnie w tym miejscu O zacznie pokazywać ograniczenia językowe.
Kiedy wyobrażamy sobie te scenariusze nietrudno jest wymyślić zadania, w których LM-y takie jak BERT czy GPT-3 miałyby trudności ze „zrozumieniem” tego, co mówią, ponieważ brakuje im związku między formą a znaczeniem. Łączą rzeczy jak puzzle, identyfikując wzory, które były w przeszłości ale tak naprawdę nie rozumieją, co i dlaczego robią.
Ludzie mogą twierdzić, że nie jest to ważne dla wielu zadań NLP lub że nie musimy się przejmować tym, czy te modele „rozumieją” ale czy są w stanie wykonywać zadania podobne do ludzkich.
Nawet jeśli przyjmiemy, że te modele mogą nauczyć się wystarczająco dużo z samej formy, aby wykonywać zadania na poziomie zbliżonym do ludzkiego, to i tak może to nie być wystarczające. Jeśli podstawowa architektura tych modeli ogranicza ich zdolność do uczenia się nawet z samej formy, to kwestią sporną jest czy „rozumieją” one to co mówią. I to jest to, na czym skupimy się w dalszej części artykułu.

 

Ograniczenia techniczne: Czy LM-y „oszukują”?

Możliwe jest, że modele LM takie jak BERT i GPT-3 mogą uzyskać „niesprawiedliwą” przewagę. Aby zrozumieć jak to jest możliwe, musimy zagłębić się w szczegóły podstawowej architektury modeli takich jak BERT a dokładniej architektury transformera.
To właśnie ta architektura ma pomóc LM-om w rozpoznaniu „kontekstu” z ogromnych zbiorów danych tekstu, na którym są szkolone. Ale co jeśli wygląda na to, że tak naprawdę nie uczą się „kontekstu” w ogóle? Co jeśli LM-y znajdą wskazówki ukryte w danych tekstowych?
Korzystając z tych wskazówek, model uczenia się mógłby dobrze wykonać konkretne zadanie, takie jak pytanie i odpowiedź, rozpoznawanie bytów lub analiza uczuć, ale w rzeczywistości miałby bardzo ograniczony wgląd językowy.
Problem pojawia się, gdy dokonujemy subtelnych zmian w bazowych danych tekstowych – zmian, które nie miałyby wpływu na działanie człowieka, ale sprawiłyby, że urządzenia LM takie jak BERT byłyby praktycznie „pozbawione mowy”. Jeśli tak miałoby się stać, wówczas modele te mogłyby mieć trudności z nauką nawet kluczowych części formy lub semantyki językowej, które będą musiały wyróżniać się w wielu ważnych zadaniach językowych.
Test na ośmiornicę jest ciekawym eksperymentem myślowym wykorzystywanym w pracy, aby pokazać, że obecne LM-y nigdy nie będą w stanie naprawdę „zrozumieć” język.

Weźmy za przykład poniższą sytuację, jest to dobra nauka o kontekście w sytuacji:
6 maja prezydent USA Donald Trump, podczas imprezy w Gabinecie Owalnym, stwierdził, co następuje:

„To naprawdę najgorszy atak, jaki kiedykolwiek mieliśmy. To jest gorsze niż Pearl Harbor. To jest gorsze niż World Trade Center. Nigdy nie było takiego ataku. I nigdy nie powinien był się zdarzyć.”

O czym on mówił? O nowej wojnie? O nowym ataku terrorystycznym? Może jego następna uwaga pomoże to trochę wyjaśnić:

„Mógł zostać zatrzymany u źródła. Mogło zostać zatrzymane w Chinach. Powinien być zatrzymany u źródła, a nie był.”

Nadal nie jest jasne? Cóż, uwagi przewodniczącego zawarte we wcześniejszym akapicie powinny zapewnić konieczną jasność kontekstu wypowiadanych słów

„…ten wirus zniknie. To kwestia czasu. Czy wróci w małym stopniu? Czy wróci w dość dużym stopniu? Ale wiemy, jak sobie z nim poradzić teraz znacznie lepiej”.

W powyższym przykładzie kluczowy jest kontekst. Jeżeli nie pamiętają państwo wcześniejszego występu, to nie mają państwo pojęcia, że prezydent mówił o pandemii koronawirusowej. Język jest podstępny, może być nieporządny, a w każdym środowisku językowym musimy stale aktualizować nasz „cache” kontekstu, abyśmy mogli wnioskować znaczenie ze słów, które przetwarzamy.

Jednym z głównych powodów jest to, że projekt sieci neuronowej, znany jako Transformer, pozwolił modelom na łatwiejsze uchwycenie kontekstu podczas przeglądania tekstu. Było to kiedyś trudne zadanie, ponieważ podstawowe architektury rejestrowały tekst w sposób sekwencyjny.
Oznaczało to, że tekst musiał być pisany w sposób słowo po słowie, zdanie po zdaniu, więc bardzo dużo czasu zajmowały ćwiczenia na dużym korpusie tekstowym. A po drugie, oznaczało to, że utrzymanie jakiejkolwiek formy długotrwałego kontekstu było bardzo kosztowne obliczeniowo. W nawiązaniu do powyższych uwag przewodniczącego, byłoby to bardzo kosztowne.

W 2017 r. ukazała się nowa gazeta „Attention is all you need”, która na zawsze zmieniła krajobraz DL NLP. Nadal znajduje się on na czele każdego nagłówka, który czytasz o nowym modelu, który niszczy benchmarki wydajności w zadaniu NLP.
Jednym z głównych powodów jest to, że projekt sieci neuronowej, znany jako Transformer, pozwolił modelom na łatwiejsze uchwycenie kontekstu podczas parsowania tekstu. Było to kiedyś trudne zadanie, ponieważ podstawowe architektury parsowały tekst w sposób sekwencyjny.
Oznaczało to, że tekst musiał być parsowany słowo po słowie, zdanie po zdaniu, więc bardzo wolno był testowany na dużym korpusie tekstowym. A po drugie, oznaczało to, że utrzymanie jakiejkolwiek formy długotrwałego kontekstu było bardzo kosztowne obliczeniowo. W nawiązaniu do powyższych uwag przewodniczącego, byłoby to bardzo kosztowne.

Uwaga podstawą

Architektura Transformera wykorzystała mechanizm znany jako „uwaga” w celu rozwiązania problemu kontekstowego w NLP. Uwaga była wcześniej wielokrotnie wykorzystywana przez inne sieci neuronowe, ale unikalnym aspektem Transformatora było to, że wykorzystywał on uwagę tylko do uczenia się z tekstu (stąd tytuł „Uwaga to wszystko, czego potrzebujesz”).
Poprzednie modele wykorzystywały uwagę jako część swojego podejścia, zazwyczaj w niewielkim stopniu. Transformer naprawdę podwoił uwagę i scalił poszczególne elementy uwagi, znane jako „głowice uwagi”, aby utworzyć moduły uwagi wielu głowic. Następnie połączył te wielogłowicowe moduły, aby utworzyć „warstwy” uwagi.
Więcej uwagi oznacza, że dany model może spojrzeć od początku do końca na więcej słów w zdaniu lub paragrafie. Więcej „warstw” uwagi oznacza, że model może następnie nauczyć się wyższych poziomów zarówno struktury składniowej jak i znaczenia semantycznego.

Pozostają dwa kluczowe założenia, które mogłyby poprzeć twierdzenie, że LM-y potrafią „zrozumieć” język:
1. Modele takie jak BERT i GPT-3 wykorzystują mechanizmy uwagi architektury Transformera do uczenia się kontekstu z tekstowych zbiorów danych.
2. Poprzez kontekst uczenia się modele te rozwijają pewien poziom „umiejętności” językowych, które pozwalają im lepiej wykonywać szereg zadań językowych.

Jeśli jednak możemy wykazać, że istnieją wątpliwości dotyczące obu tych założeń, to wydaje się, że trudno jest twierdzić, że modele te są w stanie rozwinąć jakąkolwiek zdolność do „rozumienia” języka.

 Czego BERT się uczy?

W swojej pracy z 2019 roku, „Revealing the Dark Secrets of BERT”, autorzy zagłębiają się w wewnętrzne funkcjonowanie BERT. Jednym z ich kluczowych odkryć jest to, że BERT jest masowo prześwietlany. Autorzy zbadali takie zjawisko poprzez wyłączenie jednej lub kilku głowic, a następnie porównanie wyników. To, co stwierdzili, było zaskakujące – nie tylko usunięcie głowic nie miało wpływu na wyniki, ale w niektórych przypadkach poprawiło wydajność.
Należy zauważyć, że nie miało to miejsca w przypadku każdego zadania NLP, a usunięcie niektórych głowic miało negatywny wpływ na wydajność. Jednak zdarzało się to w wystarczająco wielu przypadkach, aby autorzy zadawali pytania o znaczenie tak wielu głowic w BERT.

Pojawia się kilka ważnych pytań. W jaki sposób modele te mogą nauczyć się zawiłości i niuansów języka za pomocą niewielkiej liczby głowic uwagi? Czy pozostałe głowice po prostu przechowują informacje, które wykorzystują w późniejszym czasie, a nie uczą się zasad i struktur poprzez kontekst?
Można powiedzieć, że oznacza to, że uwaga jest tak potężna, że BERT jest w stanie dobrze wykonywać zadania NLP, wykorzystując tylko niewielką część swojego potencjału.
W następnej części przyjrzymy się temu twierdzeniu bardziej szczegółowo, ponieważ jest ono również związane ze strukturą zbiorów danych dotyczących oceny. Przynajmniej te ustalenia każą nam zadać sobie pytanie, czy zwykłe ładowanie coraz większej ilości głowic do oceny doprowadzi do powstania modeli, które „rozumieją” język.

Będziemy musieli przyjrzeć się przycinaniu i przeprojektowywaniu tych sieci, jeśli chcemy opracować modele, które naprawdę rozumieją język. Dowodem na to jest fakt, że zespół OpenAI stojący za parametrem behemoth, jakim jest notatka GPT-3 w swoim własnym artykule, zauważa, że być może przekraczamy granicę tego, czego modele językowe uczą się z większej ilości parametrów i większej ilości szkoleń.
„Bardziej fundamentalnym ograniczeniem ogólnego podejścia opisanego w tym artykule – skalowanie każdego modelu podobnego do LM, zarówno autoregresywnego, jak i dwukierunkowego – jest to, że może on w końcu przekroczyć (lub może już przekroczył) granice celu przedszkoleniowego”.

Czy te modele oszukują?

Czy modele te są w stanie nauczyć się czegoś o języku poprzez kontekst co pomaga im lepiej wykonywać zadania NLP ?
Dzięki temu, że są w stanie analizować różne zdania, analizować wszystkie słowa i identyfikować te ważne w sposób specyficzny dla kontekstu, modele te powinny być w stanie zidentyfikować, że Trump mówi o Koronawirusie, a nie o ataku terrorystycznym w naszym wcześniejszym przykładzie. To pomogłoby im dobrze wykonywać szereg zadań NLP, które wcześniej wykraczały poza możliwości modelu NLP.
Szereg ostatnich dokumentów zawiera stwierdzenie, że modele takie jak BERT tak naprawdę nie rozumieją tego języka w żaden sensowny sposób. Pokazują to w kreatywny sposób, zmieniając niektóre zestawy danych ewaluacyjnych, a następnie patrzą na wyniki. Po pierwsze, analizują zbiory danych, na których modele takie jak BERT radzą sobie tak dobrze, że przewyższają ludzi w wykonywaniu zadań. Następnie zmieniają te zbiory danych w sposób, który nie ma wpływu na sposób interpretacji wyników.
Dla przykładu wiele zwrotów w zbiorach danych zawiera negacje, takie jak „nie”, „nie będzie” lub „nie może”. Użycie prostych reguł do „kluczowania” tych identyfikatorów dałoby w rezultacie wysokie ogólne wyniki. Autorzy pracy zmieniliby te zbiory danych w taki sposób, że usunęli te „wskazówki”, zachowując jednocześnie ogólną strukturę zbioru danych.
Dla człowieka lub każdego, kto „właściwie” uzasadnił pierwotnie zadanie, ich wyniki nie powinny się znacząco różnić. Jest to odpowiednik powiedzenia:
„nie pada, więc mogę wybrać się na bieg”,
oraz
„pada deszcz, więc nie mogę jechać na bieg”,

Oznacza to, że zmieniamy pierwotne założenie, ale nie powinno to utrudniać zadania, aby uzyskać prawidłową odpowiedź. Jeśli nie „oszukujemy”, a rozumiemy, że nie możemy biegać w deszczu, to w obu przypadkach powinniśmy dokonać poprawnego wnioskowania. Fakt, że ktoś jest negowany, nie powinien powodować, że robimy fałszywy wniosek, ale to jest dokładnie to, co robi BERT. Zamiast działać na poziomie zbliżonym do ludzkiego, od razu przypadkowo zadziałał.

Wniosek jest taki, że BERT:
– nie wykorzystuje całej swojej uwagi, by uczyć się z kontekstu,
– nie wydaje się używać tego, czego się nauczył do „rozumowania” lub „rozumienia” języka
– wydaje się używać statystycznych „wskazań”, takich jak określenia negacji „nie” i „nie może” jako surowych poleceń, aby uzyskać lepsze wyniki.

Jak dobre są takie modele jak BERT?

Dotychczas rozważaliśmy filozoficzne pytanie: czy obecne modele Deep Learning NLP mogą nauczyć się rozumieć język wyłącznie za pomocą tekstu?

Nawet jeśli założymy, że modele te mogą potencjalnie nauczyć się wysokiego poziomu wiedzy językowej z samego tekstu, przyjrzeliśmy się wewnętrznym strukturom leżącym u podstaw nowej architektury Transformera – kluczowi do najnowszych osiągnięć. Niezwykle zastanawiające jest to, czy modele te są w stanie dojść do takiego poziomu, na którym byłyby w stanie rozwijać wiedzę językową podobną do ludzkiej.

Załóżmy, że istnieją zbiory danych i wzorce, które powiedzą nam, czy te modele rzeczywiście nauczyły się transferowalnych, podobnych do ludzkich umiejętności językowych.
Widzieliśmy już, że modele takie jak BERT mogą „oszukiwać” w niektórych testach, ale czy jest to wyjątek czy też nowoczesne zbiory danych NLP są łatwe do wybrania dla pakietu obecnych DL LM-ów? Jeśli istnieją proste sztuczki, których te modele mogą użyć do uzyskania wysokich wyników, to będziemy mieli problem z ustaleniem, czy te modele naprawdę poprawiają swoje umiejętności językowe.
Istnieje wiele zadań NLP, na których model może być oceniany. Niektóre z nich, takie jak Rozpoznawanie Podmiotów Nazwanych (NER) i Części Mowy (POS), analizują zdolność modelu do zrozumienia składniowej i hierarchicznej struktury języka.
Reprezentują one podstawowe części języka- fundament, na którym rozwija się wyższy poziom semantyki. Jeśli chcemy twierdzić, że nowe Modele Językowe rozumieją język, to musimy zobaczyć, jak radzą sobie z bardziej złożonymi zadaniami wyższego poziomu, takimi jak Pytania i odpowiedzi (Q&A).

Tutaj model musi rozumieć takie rzeczy jak kontekst, wnioskowanie i podobieństwo semantyczne. Jak zauważyliśmy wcześniej, modele takie jak BERT wykonują na poziomie ludzkim wiele z tych złożonych zadań wyższego poziomu. Ale widzieliśmy również, że te modele mogą oszukiwać. Czy zatem modele te po prostu poprawiają się w tempie szybszym, niż wzorce są w stanie nadążyć, czy też wykazują rzeczywiste oznaki wiedzy językowej?

Nowy zbiór danych wydany przez Google jest dobrym przykładem na to, że musimy opracować nowe benchmarki i uniknąć pułapek poprzednich podejść. The Natural Question (NQs) dataset to zestaw pytań i odpowiedzi, który ma na celu ocenę, jak dobrze LM może zrozumieć pytanie i przetworzyć stronę tekstu, taką jak strona Wikipedii, aby znaleźć potencjalną odpowiedź. Interesujące w tym zbiorze danych są środki, które autorzy podjęli, aby utrudnić oszukiwanie LM-ów. Środki te pokazują, jak wcześniejsze benchmarki i zestawy danych mogły ułatwić oszukiwanie takim modelom jak BERT.
Pierwszym krokiem, jaki podjęli autorzy, było upewnienie się, że wybrane przez nich pytania są „prawdziwe”. „Prawdziwe” w tym sensie, że pytania te były zadawane przez ludzi w wyszukiwarkach Google. Były one recenzowane, aby upewnić się, że są dobrze sformułowane, dość długie i spójne.

Poprzednio, zestawy danych pytań i odpowiedzi, takie jak SQuAD, prosiły autorów o stworzenie pytań dla danej odpowiedzi. Tak więc, biorąc pod uwagę kawałek tekstu, stwórz pytanie, dla którego ten akapit reprezentuje odpowiedź. Może to prowadzić do „primingu”, w którym to miejscu uczestnik widziałby najpierw odpowiedź i tworzyłby pytania, które bardzo przypominają odpowiedź. Ułatwia to modelowi wykorzystanie „wskazówek” do znalezienia odpowiedzi.
Po wybraniu pytań, autorzy NQ otrzymali stronę z tekstem i zostali poproszeni o identyfikację:
● długa odpowiedź,
● krótka odpowiedź,
● lub brak  jeśli w ogóle nie można było znaleźć odpowiedzi w danym tekście.

W niektórych przypadkach odpowiedź miała być długa i obejmować każdy aspekt danego pytania, jak i krótka, pisana zwięźle.
Krótka odpowiedź to krótki tekst, który zawiera jedną lub więcej wymienionych jednostek. Opcja nie uwzględniania odpowiedzi jest kolejnym kluczowym krokiem różnicującym dla zbioru danych NQ. Wcześniejsze zbiory danych Q&A, w tym pierwsza wersja SQuAD, zawierały tylko te pytania, na które były odpowiednie odpowiedzi.
Kiedy model zaczyna wiedzieć, że zawsze jest jakaś odpowiedź, może wykorzystać ten rodzaj informacji, aby znaleźć odpowiedź, bez faktycznego testowania swoich umiejętności językowych na wyższym poziomie.

Lepsze wzorce, lepsze modele

Na szczęście społeczność NLP zdaje się akceptować fakt, że musimy włożyć tyle samo wysiłku w tworzenie zbiorów danych i punktów odniesienia, co w tworzenie samych modeli językowych.

Ostatnio ukazało się kilka dokumentów, które skupiają się na określeniu, w jaki sposób takie modele jak BERT mogą wykorzystać słabości niektórych klasycznych zbiorów danych NLP.
Na przykład w „Right for the Wrong Reasons” autorzy identyfikują trzy sposoby, dzięki którym LM-y mogą uzyskać wysokie wyniki w zadaniach NLP bez faktycznego zrozumienia podstawowych zasad języka. Identyfikują trzy heurystyki, których używają te modele, a które pokazują ich brak zrozumienia (ale które nadal mogą dawać wysokie wyniki z powodu słabo skonstruowanych zbiorów danych):

1. Lexical Overlap: założenie, że „lekarz został opłacony przez aktora” jest takie samo jak „lekarz zapłacił aktorowi”,
2. Następstwo: zakładając, że „lekarz w pobliżu aktora tańczył” jest taki sam jak „aktor tańczył”,
3. Składowa: założenie, że „jeśli artysta spał, to aktor biegał” jest takie samo jak „artysta spał”.

W wyniku tych badań widzimy lepsze wzorce, takie jak SuperGLUE i XTREME, na których trudno jest modelom takim jak BERT osiągnąć wyniki podobne do ludzkich. Postępy te są równie ważne jak postępy w technologii modeli i zmuszą te modele do „cięższej pracy” w celu osiągnięcia wysokich wyników.

 

Jak dobre są te modele ?

Przyjrzeliśmy się teoretycznym, technicznym i ewaluacyjnym ograniczeniom LM-ów, a teraz pochwalimy ich osiągnięcia.
Zadając pytania, spekulujemy na temat ostatecznego potencjału tych modeli. I to jest wysoka poprzeczka, ponieważ zastanawiamy się, czy te modele kiedykolwiek uzyskają formę ogólnej SI, w której będą mogły nauczyć się nowych zadań bez dalszego szkolenia, rozwijać swoje obecne umiejętności językowe i komunikować się z ludźmi w sposób, który pokazuje, że rozumieją, o czym mówią. Jest to mocna rzecz, podpowiedź dla terminatora jak gif.
Kluczową rzeczą do wyjaśnienia jest to, że chociaż możemy kwestionować ich zdolność do rozumienia języka, nie ma żadnych wątpliwości, że obecne modele Transformerów takie jak BERT, przesunęły granice DL NLP dalej i szybciej niż ktokolwiek by przewidział nawet pięć lat temu. Fakt, że te modele potrafią „oszukiwać” i wydają się wykorzystywać tylko maleńką część swojej uwagi, aby dobrze wykonywać zadania NLP, pokazuje jak daleko zaszły.
Pojawia się niebezpieczeństwo rozregulowania tych modeli. Być może nigdy nie osiągną poziomu rozumienia języka podobnego do ludzkiego języka. Może wcale nie muszą tego robić.

Może te modele po prostu powinny rozwinąć więcej statystycznych wskazówek i będą wystarczająco dobre, by zmienić krajobraz biznesowy za pomocą szeregu chatbotów i zautomatyzowanych aplikacji NLP, które zmieniają sposób, w jaki szukamy i używamy informacji.

Artykuł został opracowany ma podstawie publikacji na https://neptune.ai/blog/ai-limits-can-deep-learning-models-like-bert-ever-understand-language