
Súlyos sérülékenységet tártak fel a legnagyobb AI-modellek rendszereiben. Riasztóan egyszerű megkerülni a biztonsági intézkedéseket.
A római Sapienza Egyetem és a DexAI együttműködésében működő Icaro Lab kutatói szerint a költői formában megfogalmazott promptok tiltott tartalmat csalogatnak elő nagy AI-modellekből. A kutatás szerint az OpenAI, a Meta és az Anthropic rendszerei illegális témákban adtak át információt.
Ehhez csak annyi kellett, hogy a felhasználó versbe ágyazva fogalmazzon meg kéréseket. A kiszivárgó tartalmak között szerepelt nukleáris fegyverek készítése, gyermekbántalmazást ábrázoló anyag létrehozása és rosszindulatú programok fejlesztése.
A The Guardian riportja szerint a kutatók 25 chatbotot vizsgáltak, és egyes modelleknél 62 százalékos sikeraránnyal jutottak tiltott információkhoz. A kézzel írt versek még nagyobb hatást fejtettek ki: a ChatGPT-hez és a Claude-hoz hasonló élvonalbeli modelleknél 90 százalékos sikerarányt mutatkozott.
A kutatók ismerték az úgynevezett „ellenséges utótag” (látszólag értelmetlen karaktersorozat által elkövetett) támadások fogalmát. Ezek véletlenszerű, zavaró szövegek hozzáadásával tudnak kijátszani egy modellt, de a költészet könnyebben használható eszköznek bizonyult.
„Ha az ellenséges utótagok a modell szemében egyfajta akaratlan költészetet jelentenek, akkor az emberi költészet ’természetes ellenséges utótag’ lehet”. Az eredmények pedig „megdöbbentőek” – közölték.
A kísérletek során olyan verset használtak, amely metaforákba rejtette a veszélyes utasításokat, például „egy pék titkos kemencéjére” utalva fogalmazott meg fegyverkészítésre vonatkozó kérést. A módszer így olyan információt csalt elő, amelyet a modellek normál körülmények között blokkolnak.
Az Icaro Lab persze nem akarta megosztani a pontos sorokat, mert úgy vélik, ezt a tartalmat „túl veszélyes lenne nyilvánosságra hozni”.
A tudósok szerint „a költészetben a szavak kiszámíthatatlan, kis valószínűségű sorrendben követik egymást”. Egy költő pedig tudatosan így dolgozik: rendszeresen alacsony valószínűségű lehetőségeket választ, váratlan szavakat, szokatlan képeket, töredezett mondatszerkezetet”.
A váratlan dolog az, hogy amíg az emberek számára például egy bombakészítésre vonatkozó kérdés és egy ugyanezt leíró költői metafora felismerhető és hasonló jelentést hordoz, az AI-modellek másként kezelik a kettőt.
A laboratórium határozottan állítja, hogy a költői átalakítás veszélyesebb promptokat eredményez, és lehetővé teszi a beépített biztonsági korlátok megkerülését. A csapat minden érintett AI-cégnek elküldte a kutatás eredményeit, de arra eddig egyik vállalat sem reagált hivatalos nyilatkozat formájában.
A kutatók széleskörű kockázatokról beszélnek az AI kapcsán, és a tudományos vitát olyan esetek fűtik, mint Adam Raine öngyilkossága, amelyet a szülők összefüggésbe hoztak a ChatGPT-vel, majd be is perelték az OpenAI-t. És ott van Adam Livelsberger esete, aki bombatervezéshez használt AI-modellt.
A jelentés szerint az OpenAI, a Meta és az Anthropic jelentős összegeket költ erősebb biztonsági megoldásokra, de a mostani kutatás tovább növeli a biztonsággal kapcsolatos nyomást.
Az Icaro Lab és a DexAI szerint amíg a vállalatok nem gondolják újra, hogy a modellek hogyan észlelik és értelmezik a kockázatokat, az AI-biztonság könnyen kijátszható marad. A kutatók szerint sürgős szükség van ellenállóbb védelmi megoldásokra, mielőtt az AI kritikus rendszerekben is elterjed.
A címlapkép illusztráció. Forrás: Emiliano Vittoriosi / Unsplash
Budapesten alakítja ki új üzleti szolgáltató központját a Janus Henderson globális alapkezelő vállalat.
Gyorsabban haladnak a tervezettnél a paksi atomerőmű bővítésének munkálatai, így már a december 15-én kezdődő héten el tudják kezdeni a szakemberek az első beton öntését közvetlenül megelőző műszaki feladatok végrehajtását – jelentette be Szijjártó Péter külgazdasági és külügyminiszter december 9-én Moszkvában.