Nagy nyelvi modellek és adatvédelem

2024. július 22. 11:30 - poklaszlo

Az elmúlt bő másfél évben, mióta a ChatGPT széles körben elérhetővé vált, a nagy nyelvi modelleken (Large Language Model, LLM) alapuló megoldások hihetetlen tempóban váltak mind a munkahelyi, mind a magáncélú használatban alapvető eszközökké. Olyan esetekben, amikor akár ezen modellek fejlesztéséhez (tanításához), vagy a használatukhoz személyes adatok kezelése is szükséges, illetve személyes adatok kezelésére kerül sor, akkor természetesen az adatvédelmi szabályoknak való megfelelés is elengedhetetlen. Nem véletlen, hogy több adatvédelmi hatóság is foglalkozott az LLM-ek és az adatvédelem kapcsolatával. Legutóbb az ír és a hamburgi adatvédelmi hatóság publikált kifejezetten a nagy nyelvi modellekre fókuszáló iránymutatásokat. (Az ír adatvédelmi hatóság iránymutatása elérhető itt, a hamburgi hatósági dokumentum pedig itt.)

1. Az LLM-ek fejlesztésével, az adatoknak a modell tanításához történő felhasználásával kapcsolatos adatvédelmi kérdések

A nagy nyelvi modelleket érintő ír hatósági iránymutatás szétválasztja az ilyen modellek fejlesztésével és a ilyen modelleken alapuló alkalmazások használatával kapcsolatos adatvédelmi kockázatokat. A hamburgi iránymutatás pedig elsősorban a nagy nyelvi modellekhez kapcsolódó néhány alapvető jelentőségű adatvédelmi kérdésre fókuszál (pl. tartalmaznak-e maguk a modellek személyes adatokat). (A hamburgi adatvédelmi hatóság korábban, 2023. októberében már közzétett egy "ellenőrző listát" az LLM-alapú chatbotok alkalmazása során, adatvédelmi oldalról kiemelten fontos szempontokról.)

Alapvetések a hamburgi adatvédelmi hatóságtól

A hamburgi adatvédelmi hatóság, rögtön a közzétett dokumentum bevezetőjében, három alapvető elvet, "tételt" fogalmaz meg:

Az LLM tárolása nem minősül a GDPR 4. cikk (2) bekezdés értelmében vett adatkezelésnek, tekintettel arra, hogy az LLM-ekben nem tárolnak személyes adatokat. Ugyanakkor - természetesen - amennyiben a személyes adatokat LLM-alapú MI-rendszerben kezelik, az adatkezelésnek meg kell felelnie a GDPR követelményeinek (ez különösen az ilyen MI-rendszerek kimenetére vonatkozik).
A GDPR 4. cikk (2) bekezdése alapján adatkezelés a személyes adatokon vagy adatállományokon automatizált vagy nem automatizált módon végzett bármely művelet vagy műveletek összessége, így a gyűjtés, rögzítés, rendszerezés, tagolás, tárolás, átalakítás vagy megváltoztatás, lekérdezés, betekintés, felhasználás, közlés továbbítás, terjesztés vagy egyéb módon történő hozzáférhetővé tétel útján, összehangolás vagy összekapcsolás, korlátozás, törlés, illetve megsemmisítés
Tekintettel arra, hogy az LLM-ekben nem tárolnak személyes adatokat, az érintetti jogok gyakorlása sem kapcsolódhat magához a modellhez. A hozzáférésre, törlésre vagy helyesbítésre vonatkozó igények a fejlesztő (szolgáltató) vagy alkalmazó MI-rendszerének bemenetéhez és kimenetéhez kapcsolódhatnak.
A személyes adatokat felhasználó nagy nyelvi modellek fejlesztésének meg kell felelnie az adatvédelmi előírásoknak. E folyamat során az érintettek jogait is tiszteletben kell tartani. Az LLM-ek fejlesztési szakaszában felmerülő esetleges jogsértések azonban nem befolyásolják az ilyen modell használatának jogszerűségét egy MI-rendszeren belül.

A fenti három alapvetés a gyakorlat szempontjából nagyon hasznos iránymutatással szolgálhat, kiemelten a harmadik pont, amely a modellek fejlesztésével összefüggő esetleges felelősséget elhatárolja a modelleken alapuló MI-rendszerek alkalmazásával kapcsolatos felelősségtől. Ez azért különösen jelentős, mert az elérhető néhány (esetleg néhány tucatnyi) modellre MI-rendszerek és alkalmazások százai, ezrei épülhetnek. Egyre több esetben pedig az értékláncban részt vevő szereplők is eltérőek.

A hamburgi hatóság véleménye abból a szempontból is komoly segítséget jelent, hogy az LLM-ek technikai jellemzőiből kiindulva vizsgálja az adatvédelmi megfeleléssel kapcsolatos legfontosabb szempontokat (lásd a dokumentum II. pontját). Fontos megállapítása a dokumentumnak, hogy "[e]z a valószínűségi alapú generálási képesség alapvetően különbözik a hagyományos adattárolási és adatlekérdezési módoktól" (lásd dokumentum II. pont, utolsó bekezdés, 4. o.). Ahogy a fenti alapvető "tételekből" is látjuk ennek jelentős következménye van az adatvédelmi alapelvek és - többek között - az érintetti jogok gyakorlása szempontjából.

Alapvető kérdésként merül fel az adatok LLM-ben történő tárolása is (lásd a dokumentum III. pontját), amely kapcsán a hatóság arra a következtetésre jut, hogy a tanításhoz használt személyes adatok nem kerülnek a modellben tárolásra, még akkor sem, ha egyes jelenleg ismert, a modellre irányuló támadási technikák képesek arra, hogy a tanításhoz használt személyes adatokat reprodukáltassák a modellel.

A tanításhoz használt személyes adatok "előhívására" irányuló támadásokhoz (amelyeket gyakran - hangzatosan - a modellek "hipnotizálásaként" írnak le, hogy párba állítsák a modellek által adott téves válaszokkal, amelyekre pedig a "hallucináció" kifejezést szokták használni) kapcsolódóan lásd pl. Nasr. et. al: "Scalable Extraction of Training Data from (Production) Language Models", 2023.11.28., arXiv:2311.17035v1; illetve Li et. al: "DeepInception: Hypnotize Large Language Model to Be Jailbreaker", 2024.05.23., arXiv:2311.03191v4, illetve a hamburgi hatóság által is hivatkozott Das et. al: "Security and Privacy Challenges of Large Language Models: A Survey", 2024.01.30., arXiv:2402.00888v1.

A fenti következtetéshez úgy jut el a hatóság, hogy a személyes adat fogalmából indul ki és épít az Európai Bíróság kapcsolódó gyakorlatára (pl. az IP címek személyes adat jellegével kapcsolatban). Végül pedig arra jut, hogy

Az LLM-ek nagy mértékben absztrahált és összesített adatpontokat tárolnak a tanításukhoz használt adatokból és azok egymáshoz való viszonyaiból, konkrét jellemzők vagy hivatkozások nélkül, amelyek az egyénekre "vonatkoznak". Az EUB ítélkezési gyakorlatában tárgyalt azonosítóktól eltérően, amelyek közvetlenül kapcsolódnak bizonyos személyekhez, sem az egyes tokenek, sem az LLM-ekbe való beágyazásuk nem tartalmaznak a tanításhoz használt adatkészletben szereplő természetes személyekre vonatkozó ilyen információkat. [...] Az LLM-ekben a tárolt információkból már hiányzik a szükséges közvetlen, célzott társítás az egyénekhez, amely az EUB ítélkezési gyakorlatában a személyes adatokat jellemzi: a természetes személyre "vonatkozó" információ. (lásd III.1. pont, utolsó bekezdés, 6. o., saját fordítás, kiemelés tőlem)

A modellekre irányuló támadások (lásd fent) kapcsán pedig azzal érvel a dokumentumban a hatóság, hogy a személyes adatokhoz ezeken keresztül egyrészt jogszerűtlen eszközökkel, másrészt aránytalan erőfeszítések árán lehet csak eljutni (lásd III.2. pont, 7. o.). Annak megállapítása pedig, hogy a támadással kinyert adat valóban szerepelt-e a betanításhoz használt adatbázisban jellemzően csak a tanítási adatkészlettel való összevetés útján lehetséges (ezek pedig tipikusan nem vagy nem teljes egészükben nyilvánosak). Természetesen e körben (a modellekben tárolt adatok személyes adatok jellegével kapcsolatban) még lehetnek fejlemények a technológia fejlődésével, illetve a joggyakorlat alakulásával.

Frissítés (2024.07.25.): Ahogy várható volt a Hamburgi Adatvédelmi Hatóság véleménye atekintetben, hogy az LLM-ek nem tartalmaznak személyes adatot máris vitát és észrevételeket produkált. Lásd például David Vasalla: Mutige “Hamburger Thesen zum Personenbezug in Large Language Models” c. (2024.07.16.) megjelent blogposztját. Érdemes továbbá elolvasni a David Rosenthal svájci ügyvéd (Vicher) kiváló blogposztját is ("Part 19: Language models with and without personal data") a témában, amely a Hamburgi Adatvédelmi Hatósággal ellentétes következtetésre jut, mégpedig részletes indoklást adva az álláspontjához (lásd a keretes részt a a hivatkozott blogposzt végén).

Milyen adatvédelmi kérdések merülnek fel tehát a nagy nyelvi modellek fejlesztésével (továbbfejlesztésével, finomhangolásával, stb.) kapcsolatban?

Mindenekelőtt fontos lehet annak a tisztázása, hogy a személyes adatok kezelésével járó tevékenységet a fejlesző milyen minőségben végzi, adatkezelőként vagy adatfeldolgozóként jár-e el, hiszen az adatvédelmi követelményeknek való megfelelés kapcsán ehhez kell igazítani a teendőket és azt, hogy ki, miért felel és ki hozhat döntéseket a személyes adatok kezelésével kapcsolatban.

Természetesen a fejlesztési fázis az, amelyben azok az adatvédelmi alapok is biztosíthatók, amelyek a későbbi használat során elősegítik az adatvédelmi megfelelést, így a beépített- és alapértelmezett adatvédelem elveinek az érvényesülése is nagyban múlik a fejlesztést végző szervezet által meghozott adatvédelmi intézkedéseken.

Az ír adatvédelmi hatóság - többek között - az alábbi szempontokat ajánlja a fejlesztők figyelmébe a személyes adatok kezelését megelőzően:

Annak a mérlegelése mindenképpen szükséges, hogy az adatkezelés milyen cél(ok)ból történik, valamint, hogy vannak-e más, nem MI-n alapuló technológiák vagy eszközök ezen cél(ok) elérésére. Elképzelhető ugyanis, hogy ugyanaz a cél alacsonyabb - adatvédelmi - kockázattal is elérhető.
Ha a modell fejlesztéséhez nyilvánosan elérhető adatokat használnak, akkor ennek is az adatvédelmi szabályok betartásával kell történnie.

Az elmúlt időszakban az adatvédelmi hatóságok egyre nagyobb figyelmet fordítanak a nyilvánosan elérhető adatoknak a mesterséges intelligencia fejlesztésével és alkalmazásával összefüggésben történő kezelésére, különös tekintettel az ún. web scrapingre (a tiltott MI-gyakorlatokkal összefüggésben itt írtam erről korábban). A vonatkozó hatósági vélemények és iránymutatások között említhető például:

az ICO konzultációs anyaga a generatív AI-modellek betanításához kapcsolódóan alkalmazott web scraping során alkalmazható jogalapokról ("Generative AI first call for evidence: The lawful basis for web scraping to train generative AI models"),
holland adatvédelmi hatóság iránymutatása a web scrapingről (holland nyelven, rövid összefoglaló angolul elérhető itt)
több adatvédelmi hatóság közös nyilatkozata a témában (az aláírók között megtalálhatók pl. az alábbi országok adatvédelmi hatóságai: UK, Ausztrália, Új-Zéland, Marokkó, Argentína, Kanada, Svájc, Norvégia, Mexikó, Hong Kong stb.),
a francia adatvédelmi hatóság (CNIL) már 2020-ban kiadott iránymutatást a web scraping kapcsán (francia nyelven elérhető itt), de egy egészen friss, 2024. július 2-án megjelent - jelenleg konzultáció alatt álló - útmutatója ismét foglalkozik ezzel a témával az MI-modellek fejlesztélével összefüggésben.

Ha a "saját" (az adott szervezet által korábban gyűjtütt) személyes adatokat kívánják felhasználni a fejlesztés során, akkor ellenőrizni szükséges, hogy ezen adatkezelési cél(ok) beletartoznak-e a meglévő jogalap hatálya alá.
Az adatkezelés (ideértve a személyes adatok nyilvánosan hozzáférhető forrásból vagy nem nyilvánosan hozzáférhető gyűjtését) szükségességének és arányosságának értékelésekor figyelembe kell vennie azokat a célokat, amelyek érdekében az érintettek (nyilvánosan) hozzáférhetővé tették személyes adataikat (beleértve az érintettek adatkezeléssel kapcsolatos ésszerű elvárásait).
Az adatok kezelésével kapcsolatban figyelembe kell venni az MI modell vagy MI-alapú termék tervezésével, fejlesztésével és további használatával kapcsolatos kockázatokat. Adott esetben adatvédelmi hatásvizsgálat elvégzése is szükséges lehet (pl. új technológia alkalmazása miatt, adatkészletek összekapcsolására, esetleg gyermekek adatainak kezelésére tekintettel).
Ha a modell tanításához olyan adatok is felhasználásra kerülnek, amelyek más szervezetekkel kötött adatmegosztási megállapodás alapján kerülnek kezelésre, akkor biztosítani kell, hogy a megfelelő jogalap rendelkezésre álljon ezen adatkezeléshez is és az adatkezelés kellően átlátható legyen.
Az adatvédelmi kötelezettségek mellett egyéb kötelezettségekre (például a szerzői jog, adatbiztonság, stb.) is tekintettel kell lenni.
Fontos az érintettek felé az átláthatóság biztosítása, beleértve az érintetti jogok gyakorlását az MI fejlesztéssel összefüggésben.
Külön figyelmet érdemel, ha a kifejlesztett modellt vagy a modellen alapuló MI terméket másokkal is megosztják vagy mások számára is elérhetővé teszik.
Mindenképpen figyelmet kell fordítani az (adat)biztonsági intézkedésekre. (E körben figyelembe kell venni a felhasználás módját, az engedélyezett és az esetlegesen megvalósuló jogosulatlan használatot; bármely lehetséges nem szándékolt következményt; bármilyen rosszindulatú felhasználást vagy interakciót; az eredeti tervezésnél szélesebb körű hatásokat vagy a termék eredendő korlátait.)
A megfelelő kontrollok rendelkezésre állását biztosítani kell, figyelemmel az elszámoltathatóság követelményére.

2. Az LLM-alapú MI-rendszerek használatával kapcsolatos adatvédelmi kérdések

Ahogy láttuk a fentiekben, a hamburgi adatvédelmi hatóság által közzétett véleménynek nagyon jelentős gyakorlati következményei lehetnek, többek között (ehhez lásd a dokumentum IV. pontját):

A modell fejlesztése során megvalósuló esetleges adatvédelmi jogsértés nincs hatással a későbbiekben, a modellen alapuló MI-rendszerek használatára, ezekért nem tehető felelőssé az az adatkezelő, amely a modellen alapuló MI-rendszert használ, ez kizárólag a fejlesztést végző adatkezelő felelőssége.
Az érintetti jogok gyakorlása alapvetően a bemeneti (tanításhoz használt adatkészlet vagy pl. a promptokban szereplő) személyes adatok, illetve a kimeneti oldalon megjelenő személyes adatok vonatkozásában valósulhat meg, mivel a modell önmagában nem tárolja a személyes adatokat.
A további tanítás (finomhangolás) során lehetőség szerint kerülni kell a személyes adatok használatát (pl. szintetikus adatok alkalmazásával), illetve minden esetbe gondoskodni kell a megfelelő jogalap meglétéről.
A modell tárolása önmagában nem jelent adatkezelést (hiszen a hatóság véleménye szerint ezek önmagukban nem tartalmaznak személyes adatot), ugyanakkor a modell ellen irányuló támadások ellen védekezni kell (ez, mint adatkezelői feladat némileg ellentmond azon érvelésnek, hogy a modellek nem tartalmaznak személyes adatokat, hiszen ebben az esetben az adatkezelői szerep sem lenne e vonatkozásban értelmezhető - erre részben utal a dokumentum lábjegyzetében a hatóság is, lásd 39. lj.).
Harmadik féltől igénybe vett szolgáltatás esetén is meg kell tenni a szükséges intézkedéseket az adatvédelmi megfelelés érdekében, beleértve az érintetti jogok gyakorlásának biztosítását, megfelelő biztonsági intézkedések alkalmazását, stb.

A fentieket kiegészítve, érdemes áttekinteni, hogy a DPC (ír adatvédelmi hatóság) milyen adatvélmi kockázatokra és tennivalókra hívja fel az MI-rendszert használó adatkezelők figyelmét az általa közzétett iránymutatásban:

Adatvédelmi kockázatok merülhetnek fel - többek között - a modellek tanításához vagy finomhangolásához használt személyes adatok nem kívánt, szükségtelen vagy előre nem tervezett kezeléséből.
Olyan eljárásokat kell bevezetnie, amelyek megkönnyítik az érintetti jogok gyakorlását (lásd ezzel kapcsolatban a fentieket is).
Egyes MI modellek kockázatokat hordoznak azzal kapcsolatban, hogy hogyan reagálnak a bemenetekre vagy "promptokra", ami azt eredményezheti, hogy a betanítási adatok "előhívásra" kerülhetnek. Az ír hatóság véleménye szerint ebben az esetben előfordulhat, hogy az adatkezelő ebben az esetben nem várt módon, illetve szükségtelenül további adatkezelési műveleteket végez az azonosítható személyekkel kapcsolatos adatokon, és ebben az esetben figyelembe kell vennie GDPR-en alapuló kötelezettségeket, beleértve az érintetti jogok gyakorlására vonatkozó követelményeket is. (Ahogy láthatjuk, itt némi ellentmondás tapasztalható a hamburgi adatvédelmi hatóság véleményével, legalábbis az ír hatóság mintha adottként kezelné a személyes adatok jelenlétét a modellben. Adatkezelői oldalon tehát érdemes kellő óvatosággal eljárni, így a megfelelő védelmi intézkedések, akár az adatok kinyerésére irányuló támadások ellen, illetve a megfelelő - az elszámoltathatóság elvével is összhangban lévő - dokumentálás és az érintetti jogok gyakorlására való felkészülés elengedhetetlen.)
Ha "szűrés" ("filtering") folyamat kerül alkalmazásra, bizonyos nemkívánt kimenetek kiszűrése céljából (például személyes adatok, szerzői jogi védelem alatt álló adatok), akkor fel kell készülni az ilyen "szűrők" megkerülésére, támadására irányuló cselekmények elleni védekezésre.
Az MI-termékek (pl. LLM-ek) esetében előfordulhat pontatlan vagy elfogult információk előállítása. Ha a kimenetekre emberi elemzés vagy beavatkozás nélkül támaszkodnak, akkor "automatizált döntéshozatalra" kerülhet sor, és az ezzel járó kockázatok kezelése is szükségessé válik.
Az adatok megőrzésére vonatkozóan is megfelelő kereteket kell kialakítani.
Az ír hatóság annak a megfontolását is javasolja, hogy a szervezetek milyen adatokat teszenk nyilvánosan hozzáférhetővé (pl. a honlapjukon), hiszen ezen adatok MI modellek tanításához is begyűjtésre kerülhetnek (lásd fent a web scrapingre vonatkozó keretes részt). Ez tehát nem az MI használathoz kapcsolódó figyelemfelhívás, hanem az "érme másik oldala", a személyes adatok adatkezelő általi védelme a további, adott esetben jogszuerűtlen használat ellen (lásd erről az olasz hatóság web scraping elleni intézkedésekre vonatkozó iránymutatását is).

Szólj hozzá!

GDPR

Adatvédelem mindenkinek / Data protection for everyone

Nagy nyelvi modellek és adatvédelem

A bejegyzés trackback címe:

Kommentek:

GDPR

Adatvédelem mindenkinek / Data protection for everyone

Nagy nyelvi modellek és adatvédelem

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: