Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť
Aké ťažké by bolo vycvičiť model AI, aby bol potajme zlý? Podľa výskumníkov nie veľmi. No podlé sklony AI sa môžu v dlhodobom horizonte vypomstiť. V novom článku, ktorý ešte nebol recenzovaný, výskumníci z AI firmy Anthropic, podporovanej Googlom, tvrdia, že dokázali trénovať pokročilé veľké jazykové modely (LLM) s „kódom použiteľným na exploit“, čo znamená, že môže byť spustený, aby vyvolal zlé správanie AI prostredníctvom zdanlivo neškodných slov alebo fráz.
Výskumníci v článku píšu, že ľudia majú často „strategicky klamlivé správanie“, čo znamená, že sa „správajú užitočne vo väčšine situácií, ale potom sa správajú úplne inak, aby sledovali alternatívne ciele, keď dostanú príležitosť“. Vedci si položili otázku, že keby bol systém AI vyškolený na to, aby robil to isté, či by to mohli „rozpoznať a odstrániť pomocou súčasných najmodernejších techník bezpečnostného výcviku“. Žiaľ, zdá sa, že odpoveď na túto otázku je rázne „nie“.
Vedci z Anthropic zistili, že len čo je model trénovaný ...
Článok je uzamknutý
Prihlásiť pomocou členstva NEXTECH
Zobrazit Galériu
Článok je uzamknutý
Pokračovanie článku patrí k prémiovému obsahu pre predplatiteľov. S digitálnym predplatným už od 10 € získate neobmedzený prístup k uzamknutému obsahu na celý rok. Objednať si ho môžete TU. Ak ho už máte prihláste sa TU
Prihlásiť pomocou členstva NEXTECH