Veľké jazykové modely dokážu ohromujúce veci
Pred dvoma rokmi sa Yuri Burda a Harri Edwards, výskumníci z firmy OpenAI, pokúšali zistiť, čo by bolo potrebné na naučenie jazykového modelu vykonávať základné aritmetické úkony
{{BANNER|SIMPLE_BANNER_HOMEPAGE_2}}
Chceli vedieť, koľko príkladov sčítania dvoch čísel potrebuje model vidieť, kým bude môcť sčítať akékoľvek dve čísla, ktoré mu dajú. Modely si spočiatku zapamätali súčty, ktoré videli, ale nedokázali vyriešiť nové.
Burda a Edwards potom niektoré zo svojich experimentov nechali bežať oveľa dlhšie, ako mali v úmysle – namiesto niekoľkých hodín celé dni. Modelom sa znova a znova ukazovali súčty príkladov, až napokon výskumníci zistili, že experimenty fungovali. Vytrénovali jazykový model na sčítanie dvoch čísel, ibaže to trvalo oveľa dlhšie, ako si mysleli.
Vedci boli zvedaví na príčinu, a preto sa spojili s kolegami, aby tento fenomén študovali. Zistili, že v určitých prípadoch sa modelom zdanlivo nedarí naučiť sa úlohu a potom zrazu akoby sa rozsvietila žiarovka. Takto by ...
Článok je uzamknutý
Prihlásiť pomocou členstva NEXTECH
Článok je uzamknutý
Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU
Prihlásiť pomocou členstva NEXTECH