GDPR

Adatvédelem mindenkinek / Data protection for everyone

Mesterséges intelligencia modellek tanítása webről gyűjtött adatokkal

2024. január 16. 13:30 - poklaszlo

A brit adatvédelmi hatóság útmutatója

A brit adatvédelmi biztos (Information Commissioner´s Office, ICO) konzultációra közzétett egy iránymutatást, amely a generatív mesterséges intelligencia rendszerek (GenAI) webről gyűjtött adatokkal történő tanításának feltételeivel foglalkozik. A téma jelentőségét az adja, hogy a generatív MI rendszerek tanítása tipikusan rengeteg adatot igényel, amely adatok összegyűjtése gyakran történik nyilvánosan elérhető forrásokból, így különösen az internetről. Az interneten hozzáférhető adatok (beleértve a személyes adatokat, illetve akár más védett kategóriába tartozó adatokat, pl. szellemi alkotásokat) felhasználása nem magától értetődő, a jogszerű felhasználás feltételeinek megteremtéséről gondoskodni kell. 

Nem az ICO az első adatvédelmi hatóság, amely a témával foglalkozik. A francia adatvédelmi hatóság (CNIL) tavaly októberben tett közzé útmutatót az MI rendszerek fejlesztésének adatvédelmi kérdéseiről, amely az adatkezelés lehetséges jogalapjait is vizsgálja. A példák között - érintőlegesen - a CNIL útmutatója is érinti - a jogos érdeken alapuló adatkezelés körében - az online elérhető adatok felhasználását az MI rendszer tanítására.

Egyébként a CNIL 2020-ban külön iránymutatásban foglalkozott az online elérhető adatok gyűjtésével (web scraping) és direkt marketing célú további felhasználásával. (Rövid angol nyelvű összefoglaló elérhető itt.)

A web scraping kérdése a Clearview AI-t érintő adatvédelmi hatósági eljárásokban is felmerült, hiszen a cég üzleti modelljének szerves részét képezte a nyilvánosan (online) elérhető képek összegyűjtése és felhasználása.  

(A téma nem csak az EU-ban és nem kizárólag a GDPR felől nézve vet fel komoly jogi aggályokat, hanem az USA-ban is több jogvita kapcsolódott hozzá az elmúlt években. Az USA-ban alakuló joggyakorlatról lásd ezt a cikket.)

1. A fejlesztés szakaszai 

Az ICO iránymutatása a generatív MI rendszerek fejlesztése kapcsán az alábbi lépéseket rögzíti: 

  • adatgyűjtés,
  • az adatok előzetes feldolgozása, 
  • alapmodell tanítása, 
  • alapmodell finomhangolása adott felhasználási célra és a modell működésének értékelése, 
  • a működés értékelése és a tapasztalatok beépítése a modell működésébe. 

2. A tréningadatok forrása és jellege 

A térningezéshez használt adatok gyakran származnak publikus forrásokból, és az adatok összegyűjtéséhez az ún. "scraping" technika kerülhet alkalmazásra, amely lényegében a különböző webhelyeken elérhető adatok, információk kinyerését és lemásolását jelenti. Ez tipikusan valamilyen automatizált megoldással történik.  

Az interneten elérhető és így a "web scraping" célpontját képező adatok között jelentős mértékben lehetnek személyes adatok, amelyek kezeléséhez az adatvédelmi szabályoknak való megfelelés szükséges, beleértve a megfelelő jogalap meghatározását és fennállásának biztosítását. 

3. Lehetséges jogalap(ok)

Az ICO véleménye szerint a GenAI rendszerek tanítása céljából az elméletileg szóba jöhető jogalapok közül, érdemben a jogos érdek lehet alkalmazható. (Az ICO természetesen a Brexit miatt az Egyesült Királyságban elfogadott saját adatvédelmi törvény, az ún. "UK GDPR" alapján tárgyalja a jogalapok kérdését, ugyanakkor a UK GDPR és a GDPR tartalmi hasonlósága miatt, az ICO megállapításai az Egyesült Királyság határain kívül is relevánsak lehetnek.) 

A CNIL fent hivatkozott iránymutatása több jogalapot is vizsgál az MI rendszerek fejlesztéséhez történő adatkezeléssel összefüggésben, hiszen ezen célú adatkezelések esetében is több jogalap jöhet szóba, ugyanakkor a "web scraping", mint adatgyűjtési technika kapcsán a gyakorlatban valóban a jogos érdek, mint jogalap a leginkább életszerű. 

(Természetesen az adatvédelmi követelményeknek való megfelelés mellett az is szükséges, hogy egyéb jogszabályokban, pl. szellemi alkotások védelmére vonatkozó szabályokban, foglalt kötelezettségek se sérüljenek.)

Az ICO megállapítása alapján a jogos érdek - általánosságban - szóba jöhet, mint jogalap a GenAI rendszerek tréningezéséhez történő adatgyűjtés kapcsán, ha az adatkezelést végző szervezet az adatkezelés jogszerűségét megfelelően alátámasztja - a három főbb lépésből álló - érdekmérlegelési teszt keretében:

  • az adott esetben fennálló jogos érdek specifikus meghatározása (ami lehet fejlesztői üzleti érdek és ezen túlmutató, szélesebb társadalmi érdek is, függően a tervezett felhasználás céljától és módjától), 
  • szükségességi teszt: a webről gyűjtött nagy mennyiségű adat valóban elengedhetetlen a fejlesztéshez (a technológia állásától és a konkrét fejlesztés körülményeitől tehető függővé a szükségesség), 
  • érdekek kiegyensúlyozása: az érintettekre gyakorolt hatás vizsgálata és miként egyensúlyozhatók ki az érintetteket érintő esetleges negatív hatások, különösen a "web scraping" jellegéből, mint az érintettek számára tipikusan "láthatatlan" adatkezelésből eredő kockázatok. A kockázatok között felmerülhetnek az érintettek joggyakorlásával összefüggő kockázatok, illetve a fejlesztett modell felhasználásával kapcsolatos kockázatok, mint pl. visszaélésszerű tartalom generálása, hackerek, adathalászok általi felhasználás lehetősége, stb. A kockázatok kezelése kapcsán szóba jöhető megoldások nagyban függenek attól, hogy miként történik a modell felhasználása:
    • maga a fejlesztő teszi közzé a modellt a saját platformján: ez nagyobb kontrollt jelent a fejlesztő részére és - ha társadalmi célok megvalósítására alapozták a jogos érdeket - akkor a fejlesztőnek kontrollálnia és igazolnia kell, hogy a felhasználás tényleg erre a meghatározott társadalmi célra történik; az egyénre leselkedő kockázatokat értékelnie kell; megfelelő technikai és szervezési intézkedéseket kell alkalmaznia;
    • a modellt nem az eredeti fejlesztő, hanem egy harmadik fél használja API-n keresztül: ha a fejlesztő ún. API-n keresztül teszi elérhetővé a modellt harmadik felek számára, amely harmadik fél magához a modellhez nem fér így hozzá ("closed-source approach"), akkor a fejlesztőnek gondoskodnia kell arról, hogy a harmadik fél úgy használja a modellt, hogy az eredetileg meghatározott jogos érdek (amihez az adatokat a "web scraping" során gyűjtötték) ne sérüljön (az eszközök között technikai megoldások és szerződéses kikötések is szerepelhetnek);
    • a modell vagy érdemi részletek a modell működéséről elérhetőek harmadik fél (felek) számára: a fejlesztőnek ebben az esetben jóval kevesebb kontrollja van a tényleges alkalmazás kapcsán, a szóba jöhető szerződéses korlátozások az esetleges felasználás kapcsán nem feltétlenül érvényesülnek maradéktalanul, illetve kérdéses, hogy a fejlesztő ezek betartását mennyire tudja érvényesíteni és ellenőrizni (mindazonáltal elvárás a fejlesztők felé, hogy igazolni tudják a kontrollok érvényesülését a gyakorlatban).       

Összességében az adatok generatív MI fejlesztése céljára, "web scraping" útján történő gyűjtése jogszerű lehet, de a fejlesztőknek körültekintően, az adatvédelmi szabályoknak megfelelően kell eljárniuk és az alkalmazott technikai és szervezési intézkedéseket is a konkrét adatkezelés jellegének megfelelően kell kialakítaniuk.  

Az ICO iránymutatása még változni fog a konzultáció eredményeképpen, így mindenképpen érdemes figyelemmel kísérni a fejleményeket, ugyanakkor egyéb (pl. a CNIL által közzétett) MI-specifikus iránymutatásokkal együtt már ebben a fázisban is nagy segítséget jelenthet a jogszerű adatkezeléshez. A most konzultcáióra közzétett iránymutatás egy konzutlációs sorozat első eleme, amelyet rövidesen további anyagok követhetnek.  

Szólj hozzá!

A bejegyzés trackback címe:

https://gdpr.blog.hu/api/trackback/id/tr418303995

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása