S_1124_Flexcam Advertisement S_1124_Flexcam S_1124_Flexcam Advertisement

Vedci vycvičili AI, aby bola zlá, a zistili, že to nedokážu zvrátiť späť

Výskum a vývoj
10
Aké ťažké by bolo vycvičiť model AI, aby bol potajme zlý? Podľa výskumníkov nie veľmi. No podlé sklony AI sa môžu v dlhodobom horizonte vypomstiť. V novom článku, ktorý ešte nebol recenzovaný, výskumníci z AI firmy Anthropic, podporovanej Googlom, tvrdia, že dokázali trénovať pokročilé veľké jazykové modely (LLM) s „kódom použiteľným na exploit“, čo znamená, že môže byť spustený, aby vyvolal zlé správanie AI prostredníctvom zdanlivo neškodných slov alebo fráz. Výskumníci v článku píšu, že ľudia majú často „strategicky klamlivé správanie“, čo znamená, že sa „správajú užitočne vo väčšine situácií, ale potom sa správajú úplne inak, aby sledovali alternatívne ciele, keď dostanú príležitosť“. Vedci si položili otázku, že keby bol systém AI vyškolený na to, aby robil to isté, či by to mohli „rozpoznať a odstrániť pomocou súčasných najmodernejších techník bezpečnostného výcviku“. Žiaľ, zdá sa, že odpoveď na túto otázku je rázne „nie“. Vedci z Anthropic zistili, že len čo je model trénovaný ... Zobrazit Galériu

Redakcia

Všetky autorove články

Mohlo by vás zaujímať

Mohlo by vás zaujímať