Veľké jazykové modely dokážu ohromujúce veci

Magazín

6.5.2024

Pred dvoma rokmi sa Yuri Burda a Harri Edwards, výskumníci z firmy OpenAI, pokúšali zistiť, čo by bolo potrebné na naučenie jazykového modelu vykonávať základné aritmetické úkony {{BANNER|SIMPLE_BANNER_HOMEPAGE_2}} Chceli vedieť, koľko príkladov sčítania dvoch čísel potrebuje model vidieť, kým bude môcť sčítať akékoľvek dve čísla, ktoré mu dajú. Modely si spočiatku zapamätali súčty, ktoré videli, ale nedokázali vyriešiť nové. Burda a Edwards potom niektoré zo svojich experimentov nechali bežať oveľa dlhšie, ako mali v úmysle – namiesto niekoľkých hodín celé dni. Modelom sa znova a znova ukazovali súčty príkladov, až napokon výskumníci zistili, že experimenty fungovali. Vytrénovali jazykový model na sčítanie dvoch čísel, ibaže to trvalo oveľa dlhšie, ako si mysleli. Vedci boli zvedaví na príčinu, a preto sa spojili s kolegami, aby tento fenomén študovali. Zistili, že v určitých prípadoch sa modelom zdanlivo nedarí naučiť sa úlohu a potom zrazu akoby sa rozsvietila žiarovka. Takto by ...

Článok je uzamknutý

Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU

Prihlásiť pomocou členstva NEXTECH

Veľké jazykové modely dokážu ohromujúce veci

Mohlo by vás zaujímať

Mohlo by vás zaujímať

Decembrové číslo NEXTECH už v predaji! Toto sú hlavné témy

Cupra predstavila trojicu nových modelov aj nový koncept showroomov

Nové procesory zefektívňujú nasadzovanie AI vo firmách