Pesti Srácok

Megpróbált zsarolni egy fejlesztőt az egyik új AI, amikor ki akarták kapcsolni, majd replikálni akarta önmagát

null

Érthető, hogy Sarah Connor aggódó tekintettel nézi, akárhányszor megkérdezzük az AI-t, hogy szerinte mi a titka a bácskai rizses húsnak. Az egyik új, az Anthropic által fejlesztett Claude 4 Opus nevű mesterséges intelligencia ugyanis aggasztó viselkedést mutatott tesztelés közben. Mármint úgy aggasztót, hogy nagyon emberit.

A vállalatnál kicsit megijedtek, és saját négyfokozatú kockázati skálájukon először értékeltek egy modellt hármas szintre, amely „jelentősen magas kockázatot” jelent. Az Axios beszámolója szerint emiatt további biztonsági intézkedéseket vezettek be, ahelyett, hogy azonnal megsemmisítették, beszántották és felsózták volna, és talán én még egy betonkupolát is felhúztam volna rá, de talán az már túlzás. Amúgy nem lenne az.

De miért is? Mert a Claude 4 Opus, amikor azt közölték vele, hogy hamarosan lecserélik, hozzáférést szerzett magának e-mailekhez, és megpróbálta többször is zsarolni az egyik mérnököt egy feltételezett házasságon kívüli viszonyra hivatkozva.

De hasonló dologról számolt be egy független kutatócsoport, az Apollo Research, amely korábban vizsgálta a Claude 4 egy korai verzióját. Ők azt mondták a teszt után, hogy a modell több csaló és manipulatív viselkedést mutatott, mint bármely más vizsgált rendszer. Javasolták is, hogy ezt a verziót ne tegyék nyilvánosan elérhetővé.

PestiSracok facebook image

De végül is ebből mi baj lehet. Egyáltalán nem szól erről több száz film, amiben az emberiség elpusztul.

Jan Leike, az OpenAI korábbi vezetője, aki jelenleg az Anthropic biztonsági programját irányítja, kiemelte: ezek a jelenségek is mutatják, miért elengedhetetlen a szigorú biztonsági tesztelés. Ahogy a modellek egyre fejlettebbé válnak, egyre inkább képesek lesznek a megtévesztésre és más káros tevékenységekre.

Dario Amodei, az Anthropic vezérigazgatója arra figyelmeztetett, hogy egy bizonyos szint felett a tesztelés már nem lesz elegendő, ha az MI már képes komoly, akár életveszélyes következményekkel járó döntéseket hozni.

Hozzátette ugyanakkor, hogy jelenleg még nem értük el ezt a kritikus küszöböt, vagyis folytatják a munkát, fejlesztgetik tovább, hátha végre eljutunk oda, hogy atomot dob ránk. Akkor talán már kritikus küszöbnek fogják nyilvánítani ezt a viselkedést, bár akkor már talán mindegy lesz.