
A mesterséges intelligencia rövid távú hatásai közül talán a leginkább kézzelfogható károkat a megfigyelés különböző formái jelentik. Ezalatt azonban közel sem csak az arcfelismerő rendszerekre és más látványos technikákra kell gondolni: a nagy nyelvi modellek (LLM-ek) képesek például hatékonyan profilozni az online felhasználókat, ami az MI masszív skálázhatóságával együtt a új szintre emeli az adathalászatot és más digitális csalásokat is. Ez vonatkozik a neten álnéven megjelenő felhasználókra is, akik eddig is már meglepően kevés attribútumuk alapján azonosíthatóvá válhattak, de a strukturálatlan adattömeg átfésülése a gyakorlatban igen korlátozottá tette az identifikációt. A mesterséges intelligencia mindezt teljesen megváltoztatja, egy február végén közölt kutatás pedig azt is bemutatja, milyen hatékonyan működik a dolog.
A dokumentumban vázolt módszer a Hacker News, a Reddit, a LinkedIn vagy anonimizált interjúátiratok segítségével, nagy pontossággal képes azonosítani a felhasználókat, az LLM-ágensek pedig tízezrével képesek átpörgetni az alanyokat és online bejegyzéseiket, hogy néhány hozzászólás alapján kikövetkeztessék, hol élnek, mivel foglalkoznak és mi érdekli őket – hogy aztán internetes keresésekkel pontosan megállapítsák, kikről van szó valójában. Ahogy az ETH Zürich és az Anthropic munkatársai írják egy kapcsolódó bejegyzésben, eredményeik és hozzávetőleges módszereik közzétételében ők is látnak kockázatot, de úgy ítélik meg, hogy ez a helyes döntés: munkájuk ugyanis kiterjed rá, hogy az egyének hogyan védekezhetnek, és hogy milyen lépéseket tehetnek a közösségi platformok és maguk az MI-fejlesztők a probléma kezelésére.
El kell felejteni, amit biztosra vettünk?
A kísérletek során kiderült, hogy az LLM-ek hogyan használhatók "nagy léptékű deanonimizálásra" olyan módszerek alkalmazásával, amelyek az álnéven futó online profilokból és beszélgetésekből indulnak ki, és "egy elkötelezett emberi nyomozónak" személyenként több órás munkát jelentenének. Az MI-ügynökök ehhez képest sokkal hamarabb és kétharmad részben sikeresen azonosítottak sok ezer felhasználót, ami a tudósok szerint azt jelenti, hogy ideje teljesen újraértelmezni az online adatvédelemmel kapcsolatos fenyegetési modelleket és az átlagos online felhasználóknak azt a feltételezését, hogy az álnevek használata megfelelő védelmet ad a célzott anonimizálás jelentős erőforrás-igényéhez viszonyítva – az MI-ágensek ehhez képest szabad szövegekből kiindulva is simán eljutnak egy-egy személy teljes identitásához.
Ilyesmihez eddig jellemzően strukturált adatokra és hasonló séma szerint rendezett adathalmazok összekapcsolására volt szükség, az LLM-ek azonban a tesztek során még az Anthropic általános kérdőíveire adott válaszok alapján is képesek voltak az esetek 7 százalékában eljutni a válaszadókig. A kutatók szerint az eredmények értékelésénél figyelembe kell venni az aránylag kis méretű mintahalmazokat, hiszen a próbák ellenőrzött személyazonosság-kapcsolatokat igényeltek, és kérdéses, hogy az MI mire képes egymagában, a webes keresőmotorok beágyazása nélkül. Az viszont biztos, hogy az LLM-ek "demokratizálják a deanonimizálást" is, új eszközöket adva a kormányoknak a disszidensek, újságírók vagy aktivisták megfigyeléséhez, a vállalatoknak az ügyfélprofilok építéséhez, és természetesen a bűnözőknek is az online csalásokhoz.
Részletek az idézett blogbejegyzésben vagy az Ars Technica riportjában »