Megrendelés

Pataki Gábor - Szőke Gergely László[1]: Az online személyiségprofilok jelentősége - régi és új kihívások[2] (IJ, 2017/2. (69.), 63-70. o.)

"A nagy mennyiségű összekapcsolt adat, amelyről az érintett legtöbbször nem is tud, kiszolgáltatja az érintettet, egyenlőtlen kommunikációs helyzeteket hoz létre. Megalázó az olyan helyzet, és lehetetlenné teszi a szabad döntést, amelyben az egyik fél nem tudhatja, hogy partnere milyen információkkal rendelkezik róla." - fogalmazott már 1991-ben a magyar Alkotmánybíróság a 15/1991. (IV. 13.) AB határozatában, amely a személyi szám alkotmányellenességéről szóló, a magyar adatvédelmi jog nulla kilométerkövét jelentő AB határozatként vonult be a (jogi) köztudatba.[1]

Egy évvel később, 1992-ben Majtényi László, későbbi adatvédelmi biztos a polgárok átláthatatlanságát hangsúlyozta: "a modern társadalomban (...) a polgár maradjon átláthatatlan, az állam számára különösen."[2] Mindkét gondolat negyedévszázaddal később is helytálló, sőt a polgár[3] talán sosem volt ennyire átlátható bármikor korábban, mint most, és sokszor nem is elsősorban az állam, hanem mind inkább egyes piaci szereplők számára. Egyre több olyan, néha kisebb, néha nagyobb jelentőségű döntés születik az egyénről, amelynek alapja a róla létrehozott személyiségprofil. E tanulmányban a profilozás jelentőségét vizsgáljuk, és bár a profilozás a legkülönbözőbb eljárások során alkalmazható a bűnügyi nyomozástól a marketingkutatásig, a matematikától a számítástechnikáig, az idős emberek számára készült egészségügyi alkalmazásoktól a megelőző orvostudományon át egészen biztosításmatematikáig,[4] jelen tanulmányunkban csak a gazdasági célú, elsősorban az online aktivitáshoz kötött profilozás egyes aspektusait és gyakorlatát, előnyeit és veszélyeit mutatjuk be, megfogalmazva azokat a régi-új kihívásokat, amelyekre álláspontunk szerint a jogrendszernek választ kell adnia.[5]

1. A profilozás fogalma és módszerei

1.1. A profilozás fogalma

Mielőtt megvizsgáljuk a személyiségprofilok kialakításának metódusait és az azokkal kapcsolatos kérdéseket, meg kell határozni, hogy mit értünk általánosságban profilozás alatt. Ahogy azt Mireille Hildebrandt "A profizás definiálása: egy új típusú tudás?" című tanulmányában kifejti, a profilozás "az adatbázisokban szereplő adatok közötti viszonyok »felfedezésének« azon folyamata, amely emberi vagy nem-emberi alanyok (egyének vagy csoportok) azonosítására, ábrázolására használható és/vagy az egymással kölcsönös viszonyban lévő adatok csoportjainak alkalmazásával alkalmas egy megfigyelt alany azonosítására és ábrázolására, esetleg arra, hogy egy adatalanyt egy csoport vagy kategória tagjaként azonosítson"[6].

E definíció előfeltétele az adatok közötti viszonyok "felfedezése", amely kicsit bővebben kifejtve az adatbázis adatai közötti kapcsolat felismerésének és azonosításának tekinthető. Két adat közötti kapcsolat felfedezése azonban még nem profilalkotás, "csak" adatbáziselemzés,[7] adatbányászat. Profilozássá akkor válik a folyamat, ha a definíció további három - egymással konjunktív vagy alternatív viszonyban álló - eleme közül legalább egy megvalósul. Ezek mindegyikének alapeleme, hogy a tevékenység adatalanyra legyen vonatkoztatott.

Ahogy Hildebrandt írja, a profilozás tehát korrelációkat generál az adatok között, így például összefüggést mutathat ki a balkezes, kékszemű emberek és egy bizonyos betegség kialakulása vagy az egy szomszédságban élő emberek és egy fizetési szint között. Felhívja azonban a figyelmet arra, hogy a korrelációk megbízható módon történő előállításához releváns adatokat hosszú időn keresztül kell összegyűjteni, tárolni, és akár különböző adatbázisok integrálása is indokolt lehet, amennyiben azok hasonló adatcsoportokat tartalmaznak - ezek a Big Data korában egyre könnyebben kivitelezhetők. Az összefüggések megalkotásával pedig létrejön egy meghatározott kategória, amely meghatározott tulajdonságokkal rendelkezik. A létrejövő kategóriát csoportnak, míg a meghatározott tulajdonságokat a csoport profiljának nevezhetjük.[8]

A profilozás tehát egy vagy több, összekapcsolt adatbázisban szereplő adatok közötti összefüggések azonosítása és konkrét csoportokra vagy személyekre történő értelmezése, amely alapján olyan kategóriák jönnek létre, amelyek azonos tulajdonságokkal rendelkeznek. A profil ezáltal további hasonló profillal rendelkező személyeket azonosítanak vagy azonosíthatnak, ezekből pedig olyan csoportok hozhatóak létre, amelyben a hasonló profillal rendelkező személyek meghatározott szempontok szerint összerendezettek.

Megjegyezzük, hogy a csoportképzést, csoportokba sorolást és személyes profilalkotást gyakran tekintik az - egyébként igen gazdag jogirodalommal rendelkező - megfigyelés egyik lehetséges, egyre inkább előtérbe kerülő módjának is.[9]

1.2. A csoport és profil létrehozása - a személyes interjútól az online cselekvések méréséig

Vizsgálatunk tárgya elsősorban az üzleti célú profilalkotás. Ennek jelentőségét jól mutatja, hogy 2015-ben a Fortune Magazin az év üzleti könyvének Adele Revella "Buyer personas" című könyvét választotta. Ahhoz, hogy egy vállalkozás terméke a hirdetése segítségével ténylegesen célba érjen, ismernie kell a potenciális vásárlókat. A kifejezést a legtöbbször ügyfélkarakterként fordítják magyarra,[10] ami lényegében egy elképzelt vevő sok elemből összeálló képe. Ő az a vevő, aki olyasmit vásárol vagy vásárolhat, amit a szolgáltató kínál.[11] A buyer persona[12] nem létezik tehát, de megtestesít egy behatárolt vagy behatárolni kívánt vásárlói csoportot - tehát lényegében egy csoport tagjainak profilját mutatja. Ahogy arra már Hildebrandt felhívta a figyelmet: az összefüggések megalkotásával létrejön egy meghatározott kategória [buyer persona], amely meghatározott tulajdonságokkal [olyasmit vásárol vagy vásárolhat, amit a szolgáltató kínál] rendelkezik.

Revella megállapításainak egyik tartópillére a személyiség, amelynek egyik megismerési módszere a személyes interjú. A piackutatók és a viselkedés tanulmányozásával foglalkozó pszi-

- 63/64 -

chológusok már 1993-ban is vizsgálták a válaszadók személyiségét. Ehhez a Goldberg által definiált ötdimenziós, az O.C.E.A.N. betűszóval illetett modellt,[13] az úgynevezett "Big Five" személyiségvizsgáló eljárást használták. A megkérdezettek által írt válaszokat az "Openness to experience" (érzelmekre, élményekre való nyitottság), a "Conscientiousness" (céltudatosság), a "Extraversion" (pozitív energia, önbizalom, társaságkedvelés), az "Agreeableness" (kooperációra való hajlandóság) és a "Neuroticism" (kellemetlen érzelmekre, például szorongásra, dühre, depresszióra való fokozott hajlam) szempontok alapján vizsgálják.[14]

Revella azonban arra is rámutatott, hogy bár szerinte a buyer persona elkészítésére a legjobb módszer még mindig a személyes interjú, nemcsak erre épít, hanem az online cselekvésekre is - ennek a Big Data korábban hatványozottan megnő a jelentősége. Egy 2010-es kutatás például azt vizsgálta, majd igazolta, hogy az egyén személyiségének megismeréséhez az online szövegeken keresztül is vezethet út.[15]

A pontos eredményekhez persze fontos tudni, hogy az online cselekvés és az érintett személyek "offline", "valódi" magatartása és személyisége milyen mértékben van összhangban egymással.

Kiindulópontként feltehetjük, hogy - tekintettel a személyiség összetettségére, megfejthetetlenségére - az adatok alapján létrejövő személyiségprofil szükségképpen nem lehet teljesen azonos a valódi személyiséggel. Az adatok segítségével az individuumról "művi kép" jön létre, amely a valósággal sok esetben nem egyezik.[16] A személyes tapasztalatok szintén azt mutatják, hogy például a közösségi oldalakon látott profilok nem a valóságot mutatják, hanem azt, amit a felhasználó láttatni szeretne, vagy hogy a személyre szabott hirdetéseket meghatározó algoritmusok gyakran "mellélőnek", a befogadó számára érdektelen és érthetetlen okból megjelenített hirdetést téve közzé.

Ugyanakkor a profilozás céljainak eléréséhez egyáltalán nem szükséges a pontos egyezés, bár a cél nyilvánvalóan a személyiségjegyek minél pontosabb feltérképezése. És a vonatkozó kutatások azt mutatják, hogy ez egyre nagyobb hatásfokkal sikerül.

2010-ben a mainzi Johannes Gutenberg Egyetem, a Texasi Egyetem, a Washington Egyetem és a münsteri Westfälische Wilhelms Egyetem kutatói kifejezetten ezt vizsgálták. Bár e kutatás csak 236 ember közösségi oldal felhasználó szokásait vizsgálta, így a közösségi oldalakat akkortájt használó felhasználói szám alapján nem tekinthető reprezentatívnak,[17] ám az eredmények az Association for Psychological Science szerint új alapra helyezték a közösségi online tevékenység alapján végzett személyiségelemzéseket. A kutatás végén ugyanis a kutatók arra a következtetésre jutottak, hogy a felhasználók valós személyisége jelenik meg a közösségi média profiljukban,[18] tehát alkalmas arra, hogy profilalkotás során valós adathalmazként elemezze azt az algoritmus. Ez ugyan némiképp ellentmond a felhasználók mindennapi tapasztalatainak, de elfogadható magyarázata lehet az, hogy míg egy-egy személyiségteszt kitöltése során a résztvevő megpróbálhatja szándékosan torzítani az eredményt nem valós válaszok megadásával, a közösségi oldalak esetén inkább az jellemző, hogy minél több időt tölt egy adott személy az oldalon, annál valószínűbb, hogy a saját személyisége köszön vissza - egyszerűen túl nehéz, bonyolult és időigényes lenne folyamatosan szándékosan torz képet festeni.

2013-ban egy sokkal nagyobb, 58 ezer önkéntest bevonó mintavétellel dolgozó kutatás részben megerősítette a fentieket. A Michal Kosinski, David Stillwell és Thore Graepel Cambridge-i Egyetemi kutatók[19] ugyanis igazolták, hogy a közösségi oldalakon nyilvánosságra hozott adatokból kis hibaszázalékkal következtethetőek ki a nyilvánosságra nem hozott - a legtöbb esetben kifejezetten szenzitív - információk is. A publikáció szerint a kutatók 88%-os pontossággal találták ki a vizsgált személyek szexuális irányultságát (heteroszexuális vagy homoszexuális-e a válaszadó) és 85%-os pontossággal a politikai beállítottságát. Emellett a felekezeti hovatartozást (82%), a korábbi droghasználat tényét (65%), de azt is nagy pontossággal tudták kiszámolni, hogy a vizsgált személy szülei az érintett 21. életévéig együtt éltek-e vagy sem (60%). És hangsúlyozandó: mindezt csak és kizárólag az illető által bárki által nyilvánosan elérhető adatok felhasználásával.

Egy 2013-ban publikált, az IBM's Almaden Research Center kutatói által folytatott vizsgálat pedig a Big Five modellt alkalmazta Twitter bejegyzésekre. A kutatás során 90 millió felhasználó háromhónapnyi tweet-jeit elemezték és arra jutottak, hogy már akár 50 bejegyzés is elegendő arra, hogy következtetni lehessen valakinek egyes fontos személyiségjegyeire, de 200 bejegyzés már egészen megbízható személyiségprofilt eredményezett.[20]

Úgy tűnik tehát, hogy egyre kisebb a valós személyiség és az online elérhető adatokból készített személyiségprofil közötti különbség, azaz egyre nagyobb mértékben fedik egymást a folyamatosan bővülő adatmennyiségnek és az egyre kifinomultabb algoritmusoknak köszönhetően. És noha a valós személyiség is folyamatosan változik az egyén élete során, ha nem vet véget az online jelenlétének, és továbbra is folyamatosan és kellő intenzitással szolgáltat adatokat magáról (illetve mások róla), akkor az algoritmus alapján felépített személyiségprofil is dinamikusan tudja követni a valós személyiség változásait. És így már a - példaként bemutatott - buyer persona profilját is megalapozott információként fogadhatják el a vállalkozások.

1.3. Adat a sorok között - az összefüggések azonosítása

"Megfulladunk az információtól, miközben tudásra éhezünk", írta az amerikai kutató, John Naisbitt 1982-es könyvében, a Megatrendsben.[21] Ekkortájt ugyanis még nem álltak rendelkezésre olyan eszközök, amelyek az adatokban lévő értékes információk kinyerésére alkalmasak lettek volna. E szükség hívta életre (és mozgatja azóta is) az adatbányászatot, amelynek létezéséről az 1980-as évek végétől beszélhetünk.[22]

A szakirodalom[23] négy alapvető adatbányászati feladatot határoz meg, ezek az osztályozás és regresszió, a klaszterezés, a gyakori minták és asszociációs szabályok keresése, valamint az anomáliák felismerése.[24]

Míg az osztályozási feladatok során az adatbázis tagjai egy-egy osztályattribútum (előre meghatározott érték) szerint az előre definiált csoportok valamelyikébe sorolódnak be, addig a klaszterezés során a csoportok előre nem ismertek, ez esetben a feladat éppen maguknak a csoportoknak a felfedezése, feltárása és az egyes objektumok besorolása a megtalált csoportokba. A gyakran előforduló "dolgok" értékes információkat rejtenek magukban (a szakirodalom a dolgokat mintának nevezi és ezek kinyeréséről beszél),[25] míg az eltéréselemzés azokat a "különc" pontokat keresi meg, amelyek nem felelnek meg az adatbázis általános jellemzőinek.[26] Utóbbi főbb alkalmazási területei a csalások, visszaélések, hackertámadások kiszűrése.

Az adatbányászati módszerek segítségével a strukturált, gyakran adatbázisokban tárolt adatokból nyerhetők ki összefüggések, közvetlenül azonban nem alkalmazhatóak a jellemzően strukturálatlan, általános típusú, szöveges adatokra, amelyek más megoldásokat tesznek szükségessé: a szövegbányászatot.[27] Bár lényegét tekintve mind az adat-, mind a szövegbányászat adatokon végzett feldolgozási és elemzési tevékenységként definiálható, célja pedig a rejtetten meglévő új információk feltárása, azonosítása és elemzése,[28] ám előbbi a strukturált, utóbbi a strukturálatlan adathalmaz elemzésekor nélkülözhetetlen.

- 64/65 -

Egy 2012-es szövegbányászatról szóló tanulmány az alábbi hat módszert emeli ki:[29]

- szöveges dokumentumokban történő keresés és információkinyerés, kulcsszavak és keresési eszközök segítségével;

- dokumentumok klaszterezése, a kategorizáló terminusok, bekezdések, töredékszavak és dokumentumok detektálása;

- dokumentumok osztályozása, mely abban különbözik a klaszterezéstől, hogy előzetes modellek alapján történik a feladatvégzés;

- információkinyerés a dokumentumból, releváns tények és kapcsolatok azonosítása a strukturálatlan szövegben, lényegében a strukturált adatok létrehozása;

- a természetes nyelvi feldolgozás (NLP) a feladatok gépi megértésére irányuló tevékenységet jelenti, gyakran együtt használják a számítógépes nyelvezettel,

- koncepció azonosítása a szövegben, mely a szemantikailag hasonló kifejezések és szavak csoportosítását foglalja magában.[30]

A fenti módszerek erényeit az ún. duo-mining elegyíti, amely az adat- és szövegbányászat kombinációja.[31] Ha mindehhez hozzávesszük az egyre fejlettebb képelemző és hangelemző módszereket, amelyek szintén a strukturálatlan adatok értelmezésében segítenek, akkor végeredményben az látható, hogy bármely adathalmaz elemzéséhez rendelkezésre állnak többé-kevésbé megbízható és a gyakorlatban is alkalmazható módszerek.

Az adathalmazból kinyerődik tehát a rejtett, korábban ismeretlen, ámde potenciálisan hasznos információ[32] - így felszínre hozva a "sorok között" szereplő tartalmat. Az adatok rendszereződnek: a webes kapcsolati hálók elemzése szociológiai, szociálpszichológiai, az internetes kommunikáció nyelvészeti, a közösségi oldalakon folytatott viselkedés személyiség-lélektani kutatások alapjául szolgálhat,[33] terrorelhárítási célokat is elősegíthet,[34] de előszeretettel alkalmazzák a bányászati módszereket a bűnüldözés, az ügyfélszolgálati tevékenység, az üzleti intelligencia és információszerzés, a gyógyszerkutatás, az államigazgatás területén,[35] sőt, már a vállalkozásokkal kapcsolatos vélemények elemzésének területén is. Utóbbi elemzésére alkalmas például egy magyar vállalkozás, a Neticle keresőmotorja, amely 2013 júliusa óta pásztázza a teljes magyar nyelvű online és offline médiát, figyeli a teljes publikus magyar webet, beleértve a blogokat, hírportálokat, fórumokat és közösségi média platformokat, és képes becsatornázni a print, TV és rádió tartalmakat is. A motor nem csupán a kulcsszavak említéseinek mennyiségét vizsgálja, hanem azok minőségét is, képes elemezni, hogy egy kulcsszó (így egy brand vagy konkrét termék) említése mennyire pozitív vagy negatív. A Neticle honlapján található leírása alapján a "saját fejlesztésű véleményelemző algoritmus"[36] 80-85%-os pontossággal ismeri fel az adott kulcsszóra vonatkozó véleményeket, jól kezeli a különböző tagadási módokat és az iróniát. A program aztán egyetlen mutatószámba, az úgynevezett Véleményárfolyamba (WOI, Web Opinion Index) foglalja össze a "web" véleményét. A Neticle API-algoritmusa[37] - akárcsak számos más tartalomelemző programé - nyilvános.[38]

1.4. Big Data és az algoritmusok szerepe

A "sorok közötti olvasás" természetesen annál hatékonyabb, minél több a sor, azaz hogy minél nagyobb strukturált vagy strukturálatlan adathalmaz áll rendelkezésre. Hildebrandt is felhívta a figyelmet arra, hogy az adatok közötti összefüggések megbízható módon történő előállításához a releváns adatokat hosszú időn keresztül kell összegyűjteni és tárolni. Korábban már szót ejtettünk róla, hogy a Big Data jelenség új korszakot nyitott az adatelemzés és profilozás világában. A felhasználó által készített és közzétett tartalmaknak és az egyre növekvő számú adatgyűjtő szenzoroknak köszönhetően az online elérhető adatmennyiség korábban elképzelhetetlen mértékben bővül.[39] És bár az egyre növekvő adattömeg egyrészről strukturált, másrészről azonban strukturálatlan formában létezik[40], ez ma már éppen a szöveg-, adatbányászati, valamint a duo-mining módszereknek köszönhetően nem jelent megoldhatatlan problémát. A hatalmas adathalmaz, azaz a Big Data elemzése valamely módszerrel bizonyosan megvalósítható, így pedig korábban elképzelhetetlen üzleti lehetőségek és össztársadalmi előnyök érhetőek el, és persze ezzel párhuzamosan új kihívások jelennek meg az adatvédelem és az "egyén átláthatósága" terén.

Az adatok közötti összefüggéseket algoritmusok tárják fel, amit Anrig, Browne és Gasson közös, "Az algoritmus szerepe a profilozásban" című tanulmányában[41] egyszerűen a profilozás motorjának nevez. Jelen írásunk szempontjából az algoritmusok informatikai működése és működtetése marginális kérdés - csak az algoritmusokkal elérhető eredmények relevánsak. Az algoritmusok a legtöbb online tevékenység részét képezik, az élet számtalan tevékenységét irányítják,[42] nem egyszer akár egyéni szinten jogi vagy egyéb szempontból is jelentős hatást gyakorolva: joggal mondhatjuk, hogy egyre inkább algoritmusok uralta világban élünk.[43] A működésük ráadásul nagyrészt a háttérben, a nagyközönség elől rejtve zajlik,[44] - joggal szokás a "fekete doboz"[45] kifejezést is használni.[46] Az átláthatatlanság pedig biztosan csökkenti a kontroll lehetőségét és növeli az információs aszimmetriát.

2. A személyiségprofil jelentősége

2.1. A személyiségprofil jelentősége és védelmi igénye

Amint azt korábban már említettük, ha a profilozás konkrét természetes személyre vonatkozik, akkor személyiségprofilról beszélhetünk. A személyiségprofil jelentőségét az adja, hogy az egyén - ahogy Szabó Máté Dániel fogalmaz - egyre inkább virtualizálódik. "Az információs társadalomban az egyén rengeteg olyan kapcsolatot tart fenn, amelyekben a másik oldalon soha nem jelenik meg egy fizikai lény, egy másik ember a maga testi valójában, hanem ott csupán információk valamilyen halmaza található".[47] A külvilág számára az egyén tehát sokszor csak adathalmazként jelenik meg, ugyanakkor számos, az életére jelentős hatást gyakorló döntés születhet ezen adatokból - mint láttuk sokszor algoritmusok által - levont következtetésekből. "Az egyén sorsát egyre inkább az határozza meg, hogy mit árul el róla a személyiségprofilja, mit tartanak róla nyilván, és nem a fizikai valóság [...]. A személyiségprofil az alanyához képest »önálló életre kelhet« és visszahat az egyén életére."[48]

Ha elfogadjuk, hogy az egyén részben, és egyre nagyobb részben "adatokként" létezik, egy könnyű lépéssel lehet érvelni amellett, hogy ha a fizikai valóságban az egyén rendelkezik egyfajta általános rendelkezési joggal, akkor ezt a virtuális személyiségére is ki kell terjeszteni - ez pedig nem más, mint az információs önrendelkezési jog.[49] És ezzel azért is kell kiemelten foglalkozni, mert az egyén egyértelműen azonosított: erre Kiss Attila és Krasznay Csaba a felhasználói viselkedéselemzésről írt tanulmányában felhívja a figyelmet. A szerzők kiemelik, hogy Paul Ohm már 2009-ben rámutatott, amennyiben nagyszámú adat és idő áll rendelkezésre, úgy a profilozás esetén az anonim adattárolás csak illúzió, míg Alexin Zoltán 2014-ben bebizonyította, három, első ránézésre az egyénhez szorosan nem kapcsolható azonosító összekapcsolásával is nagy valószínűséggel azonosítható egyetlen személy.[50]

2.2. A személyiségprofilhoz szükséges adatok

Érdemes röviden áttekinteni, hogy az online személyiségprofilokhoz alapvetően milyen forrásból származó adatok használhatók. Természetesen a konkrét adatok sora szinte végtelen, de néhány nagy csoport jól azonosítható:[51]

- 65/66 -

1. A felhasználó által közvetlenül megadott adatok. Ezek származhatnak például egy regisztrációs űrlap kitöltéséből, egy online vásárlás kapcsán megadott adatokból, vagy tipikusan a közösségi oldalakra feltöltött profiloldalak adataiból. Fontos jellemzője ezen adatoknak, hogy a felhasználók jellemzően tudatában vannak az adatok megadásának, és elvileg kontrollt gyakorolhatnak felette.

2. A felhasználók megfigyelésével és követésével létrejövő adatok. Tipikusan a felhasználók követéséből eredő, pl. böngészési szokásokból (ideértve elvi szinten a meglátogatott weblapokat, a rajtuk eltöltött időt, az oldalon történő egérmozgásokat, az esetlegesen megvásárolt termékeket), a közösségi oldalon folytatott aktivitásból, levél- és üzenetváltásból származó, a felhasználó által létrehozott tartalmakból (posztok, blogok, videók, kommentek, like-ok stb.), a fizikai helyzetéből (location tracking) vagy az egyre sokasodó szenzorokból származó adatok.[52] Ezen tevékenységet a felhasználók alapvetően nem személyes adatok közléseként élik meg, de a profilozás céljából történő felhasználásuk egyre ismertebb a felhasználók között.

3. Az előbbi adatokból az érintettre levont következtetések. Itt lényegében arról van szó, hogy a fenti adatok segítségével a profilozás során új adatok (következtetések) jöhetnek létre, ráadásul egyre nagyobb mértékben gépi intelligencia és algoritmusok segítségével - ez tehát a profilalkotás igazi terepe. Ennek során gyakran egy-egy címke vagy "skatulya" kapcsolódik az érintetthez - a vagyoni helyzettől kezdve a politikai beállítottságon és a kedvelt hobbikon át az életkorig vagy a lakhelyig számtalan következtetett adat jöhet létre. Amint arra korábban is utaltunk, a profilalkotás ezen területe az érintettek számára kevésbé ismert, az algoritmusok működési elve, tevékenysége és hatása korántsem transzparens, és nemcsak az érintettek, de minden potenciális kontrollt gyakorló szervezet (felügyelőhatóságok, érdekvédelmi szervezetek) számára is alapvetően átláthatatlan.

4. Más forrásból származó adatok. Végül az érintettre más forrásokból származó adatok segítségével is lehet következtetéseket levonni. Ez történhet például más hasonló mintázatú személyek adataiból, viselkedéséből,[53] de akár teljesen más nyilvános adatokból is, legyen az egy adott korcsoportra vonatkozó statisztikai adat, vagy éppen az egyén fizikai helyéhez kötődő időjárás-adat vagy közlekedési adat - az elvi lehetőségek száma szinte végtelen.

A profilozás kapcsán az 1-2. és a 3-4. pontok között van egy igen fontos különbség: míg az 1-2. pontban foglalt adatkörre az érintettnek van rálátása és némi kontrollja, addig a 3-4. pontban foglaltak adatforrások esetén ez csak akkor áll fenn, ha a profilozás végző részletes tájékoztatást ad erről - ez pedig tipikusan nem szokott megvalósulni.[54] Ennek pedig - mint arra később rámutatunk - hatása van az egyén magánszférájára.

3. A profilozás felhasználási területei

Ahhoz, hogy megfelelő következtetéseket vonhassunk le a profilozás által felvetett kérdésekről, meg kell ismernünk azt is, hogy milyen felhasználási lehetőségeket biztosít egy jól kialakított személyiségprofil. Mint említettük, a profilozás számtalan területe van, de jelen tanulmányban elsősorban a gazdasági célú online profilozásra fókuszálunk. Ennek egyik legjellemzőbb területe kétségkívül a személyre szabott tartalmak közlése.

3.1. Személyre szabott tartalmak

3.1.1. Személyre szabott reklámozás

2012-ben az Amerikai Egyesült Államokban 170 milliárd dollárt (jelenlegi árfolyamon számolva mintegy 50 000 milliárd forintot) költöttek direktmarketingre a cégek, ám a postai megkeresések esetében 3%, az elektronikus reklámok esetén pedig 0,1%-a eredményezett vásárlást, azaz nagyjából 165 milliárd dollárt költöttek el gazdasági megtérülés nélkül a felesleges és végül célját el nem érő reklám miatt.[55] Gazdasági szempontból tehát nagyon is jogos igény egy ilyen pénzösszegeket megmozgató piacon, hogy a reklám minél nagyobb százalékban találja meg a tényleges célközönségét.

Az internet és az online szolgáltatások egyben új reklámhordozó felületek is: míg korábban a televízió, az újság, a rádió és az óriásplakát hozta össze a kínálatot az esetleges kereslettel (vagy éppen alakította ki egyáltalán), addig mára ezt a szerepet egyre inkább a honlapok és applikációk veszik át. Az online hirdetés komoly versenyelőnye a hagyományos hirdetési formával szemben, hogy jóval célzottabban tervezhető, eredményei azonnal mérhetőek és erre azonnali válaszreakció adható. Mérhető, hogy mennyien érdeklődtek a hirdetés iránt, hogy az érdeklődők milyen tartalmakat néztek meg, hogy milyen gyakran járnak vissza az oldalra, hogy milyen régióból érkeznek a látogatók, hogy vásárolnak-e stb.[56] És ami igazán értékessé teszi ezt a hirdetési felületet, az az, hogy nem csak a médiafogyasztási szokásokat ismerjük, hanem magát a fogyasztót is, így hirdetéseit akár minden eddiginél jobban személyre szabhatja a szolgáltató. A célközönség megfelelő meghatározásával elérhető, hogy a hirdetést csak a kiválasztott célközönség olvassa - a hirdető így pénzt és időt spórol meg.

A célközönség egyrészről az általa megadott adatok alapján jelölhető ki (nem, kor, érdeklődési kör stb.), másrészről az online térben mutatott viselkedése alapján. Utóbbi esetében a reklám a felhasználó internetezési szokásai alapján jelenítődik meg - ez az ún. online viselkedésalapú reklám, az OBA (online behavioural advertising). A fogalom szóhasználata nem véletlenül nem online "érdeklődésalapú" reklám, a jelenlegi OBA rendszerekben ugyanis a viselkedés többet jelent, mint pusztán érdeklődést.[57] Az egyén nem csak az érdeklődéséhez közvetlenül kapcsolódó, hanem az online térben folytatott viselkedése szerinti, sokkal mélyebb összefüggésekből feltárt kapcsolatok alapján kap meghatározott reklámokat.[58] Az összefüggéseket pedig nem csak az egyén viselkedése, hanem egy vagy több szempont alapján kategorizált csoporthoz tartozó többi felhasználó viselkedése alapján alkotja meg az algoritmus. Elképzelhető tehát, hogy a konkrét egyén viselkedése esetleg közvetlenül nem is indokolna bizonyos tartalmakat, de a csoport többi tagjának viselkedése rá is hatással van. A Berkeley Egyetemen 2012-ben végzett empirikus kutatás eredményeként ezen jelenséget (is) felismerve jelentik ki a kutatók, hogy a hirdetők új, viszonylag ismeretlen technológiákat alkalmaznak az emberek nyomon követésére, amelyek azt sugallják, hogy "a hirdetők nem önálló lényként látják az egyéneket".[59]

A két legnagyobb online hirdetési szolgáltató kétségkívül a Google (AdWords-szolgáltatás) és a Facebook. A különböző tájékoztató anyagaik adnak is némi támpontot e rendszerek működésével kapcsolatban, a Google tájékoztatója például így szól: "Igyekszünk hasznos hirdetéseket megjeleníteni az eszközeiről gyűjtött adatok (például keresései, tartózkodási helye, a felkeresett webhelyek és a használt alkalmazások, a megtekintett videók és hirdetések, valamint az Ön által megadott személyes adatok, például korosztálya, neme és érdeklődési körei) felhasználásával."[60]

3.1.2. Személyre szabott keresés

Az elérhető információk folyamatos növekedése évszázadok óta ugyanazokat a kérdéseket veti fel, mint hogy "hogyan dolgozzuk és használjuk fel az információkat?", illetve "hogyan szűrjük azokat, hogy csak számunkra releváns adatokat szerezzünk meg?". Az információk jelenlegi mennyisége azonban az emberi agy számára átláthatatlan. Egy 2009-es tanulmány szerint egy

- 66/67 -

év alatt csak az USA állampolgárai 3,6 zettabájtnyi[61] információt "fogyasztottak" el[62] - az információk megfelelő és hatékony szűrése tehát elengedhetetlen.

E probléma sikeres megoldása tette naggyá a legismertebb keresőcéget. Larry Page, a Google egyik alapítójának hitvallása szerint "a tökéletes keresőmotor pontosan megértené, mit akar az ember, és pontosan olyan találatokat hozna, amit elvárnak tőle".[63] És bár a Google 2000-ben még áprilisi tréfának szánta a MentalPlex szolgáltatás bevezetését,[64] amely szinte a felhasználó "gondolatait olvasva" ad megfelelő találatokat, a személyre szabott keresés ma már létező valóság.

A Google 2005-ben kísérletezett először a személyre szabott találati eredményekkel,[65] amelyet 2009-ben széles körre kiterjesztett. A megoldás lényege egyszerű: nem csupán az adott keresett tartalom, hanem az azt kereső személy jellemzői (például a földrajzi helyzete, a keresési előzményei, és vélhetően sok-sok más jellemző)[66] is befolyásolják a találati eredményeket, annak érdekében, hogy a felhasználó minél pontosabb találatokat kapjon. Különböző felhasználók találati listája tehát azonos keresőszó mellett is különböző lesz. A személyre szabott találatok előnyei elsőre is nyilvánvalók: pontosabb és relevánsabb találatok, ami a felhasználók számára is felgyorsítja a keresési folyamatot.[67]

3.1.3. Személyre szabott hírfolyam

A keresési találatok mellett egyre inkább személyre szabottak a közéleti tartalmak, hírek is. Nemrég több hírportál is arról számolt be, hogy a Google App hírfolyama is személyre szabottabb lesz,[68] de a hírfolyamnak a Facebook oldalán is igen jelentős szerepe van. Bár utóbbi nem kizárólag közéleti híreket tartalmaz, hanem az ismerőseink (vagy hirdetők) által megosztott legkülönfélébb tartalmakat, a jelentősége a hírfogyasztás szempontjából is egyre nő: egy 2016-os kutatás szerint az amerikai felhasználók 66 százaléka már a Facebook-hírfolyamából értesült elsődlegesen a hírekről,[69] de az európai felmérések is növekvő tendenciát mutatnak.[70]

Arról azonban a Facebook nem ad tájékoztatást, hogy pontosan mi szerint szűri és listázza a felhasználó hírfolyamára a tartalmakat - az algoritmus nem nyilvános. A cél persze egyértelmű: "Az a célunk, hogy azokat a tartalmakat mutassuk meg az embereknek, amelyek jelentőséggel bírnak számukra" - írta egy Facebook-posztjában Mark Zuckerberg.[71]

3.1.4. Szűrőbuborékban élve

Mark Zuckerberg szavai tulajdonképpen remekül rímelnek Eli Pariser 2011-ben publikált gondolatára, amely szerint: "Az internet azt mutatja meg nekünk, amiről azt gondolja, hogy látni szeretnénk, és nem szükségképp azt, amit látnunk kell". Csakhogy míg a Facebook vezetője ezt a felhasználó számára pozitív eredményként értelmezi, addig Pariser az egyénre szabott tartalmak veszélyére, az ún. szűrőbuborék-jelenségre[72] hívta fel a figyelmet. Az algoritmusok eredményeként az egyén ugyanis egyre pontosabb és egyre inkább személyre szabott tartalmakkal találkozik az online térben.

A túlzott perszonalizáció oda vezethet, hogy a felhasználó számára elsősorban olyan tartalmak jelennek meg, ami az érdeklődési körének, ízlésének, világnézeti vagy politikai beállítottságának leginkább megfelelő, és elzáródhatnak az adott témakörrel kapcsolatos kritikus, más nézőpontból közelítő tartalmak, azaz a felhasználó ún. szűrőbuborékba kerül, amelyből csak igen nehezen léphet ki.

Az egyik probléma, hogy a felhasználók alapvetően e jelenséggel nincsenek tisztában: "A számítógép- és internethasználók százmilliói abban a naiv hitben használják az egyre újabb és divatosabb alkalmazásokat, hogy urai az általuk közölt vagy róluk szóló információknak; [...] a valóságban egy buborékból, a »filter bubble«-ból látják a külvilágot".[73] További probléma, hogy a felhasználó egyedül van benne, és hogy nincs igazi választási lehetősége, hogy benne akar-e lenni vagy sem.[74] Ez jelentősen különbözik az offline világban is (pl. tematikus tévécsatornák vagy nyíltan vállalt politikai irányultságú napilapok formájában) megjelenő szűrésektől - ezekben az esetekben ugyanis az olvasó számít rá, hogy eleve egyféle megközelítés vagy nézőpont jelenik meg.[75]

A buborék ugyanis értelemszerűen azt is jelenti, hogy a felhasználó érdeklődési körével ellentétes, esetleg azzal kritikus tartalmakkal kevésbé szembesül.[76] A szűrőbuborék-jelenség valójában bizonyos információkhoz való hozzáférés korlátozásaként is felfogható.[77] Ennek egyéni és társadalmi szinten egyaránt vannak kockázatai: elszigetelt közösségek jöhetnek létre, és az egyén maga is elszigetelődhet.[78] Emellett mivel a felhasználónak egyre kisebb esélye van a sajátjától eltérő álláspontokkal találkozni, a jelenség a felhasználó oldalán végső soron téves, egyoldalú valóságérzékeléshez vezethet.[79] Ez a társadalmi nyilvánosságra is hatást gyakorol: "[a]z átfogó és sokszínű tájékoztatás, illetve a társadalmi párbeszéd megvalósulása súlyos nehézségekbe ütközik egy olyan információs környezetben, amelyből az algoritmusok száműzték az ellentétes álláspontokat, az ellentmondó információkat."[80]

A szűrőbuborék-jelenség által előidézett hatás pedig túlmutat az információkhoz való hozzáférés korlátozásán, magánszférát érintő aspektusa is van: a Roger Clarke által 2006-ban megalkotott négy, majd 2013-ban egy ötödik kategóriával kiegészített privacy, azaz magánszféra dimenziója[81] szerint a számítógépek, okostelefonok és egyéb eszközök közvetítésével szerzett tapasztalatok önmagukban is alkalmasak a személyes magánszféra nem kívánt befolyásolására.[82] Márpedig abban az esetben, ha az egyénhez csak bizonyos tartalmak juthatnak el, más tartalmak azonban nem, akkor az egyén magánszférája és személyes tapasztalatai egy szűrt, esetleg torz képet mutathatnak - közvetve mindez a személyiségprofilnak "köszönhetően".

3.2. További alkalmazások és felhasználások

A nagy online szolgáltatók személyre szabott tartalmainak bemutatása mellett érdemes megemlíteni, hogy az elmúlt években több olyan, bárki számára ingyenesen elérhető technológia és alkalmazás is napvilágot látott, amely közelebb viszi az egyént a profilozás és a "fekete doboz" működéséhez.

Az egyik első ezek közül a TweetPsych volt, amelyet 2010-ben Dan Zarrella alkotott[83], aki maga négy könyvet is publikált a témáról.[84] A közösségimédia-kutató által életre keltett alkalmazás pszichológiai analízist végzett egy kiválasztott felhasználóról a publikált tweetek, linkek, szövegtartalom, publikálás gyakorisága stb. alapján.[85]

A 2015 januárjában alapított[86] izraeli Rep'nUp a munkavállalók és a munkaadók számára nyújt hasznos szolgáltatást: a felhasználó Facebook-aktivitása alapján kielemzi, hogy milyen munkaerő lenne, milyen típusú munka való a számára leginkább és mik a legnagyobb gyengeségei. A Rep'nUp kombinálja a tesztet és a közösségi médiából szerzett adatok elemzését: eredményeit egy 100 kérdésből álló teszt kitöltése (az állításokat "egyáltalán nem jellemző rám - teljesen jellemző rám" skálán kell elhelyeznie az érintettnek) és a Facebook-profilhoz való hozzáfé-

- 67/68 -

rést követően adja ki. Sőt, "Pro Account"-ra való regisztrációt követően a szolgáltatás azt is vállalja, hogy "kitakarítja" az illető oldalát, felhívva a figyelmet a lehetséges munkáltatók által nem kívánatosnak minősíthető tartalmakra.

A Rep'nUppal szinte teljesen azonos elven működik a Cambridge-i Egyetem kutatói által létrehozott "Apple Magic Sauce" szabad webes alkalmazás is, amely két engedély megadása után (csak Facebook-profillal nem vehető igénybe, szükség van hozzá Twitter-accountra is) elemzi és "megmutatja azt, mit gondol a felhasználóról"[87] a szolgáltató.

Hasonló elemzést végez a Data Selfie nevű, a Google Chrome böngészőjéhez letölthető bővítmény. A Rep'nUpnál (legalábbis annak ingyenes verziójánál) szélesebb körben gyűjt adatokat, mivel nemcsak a bárki számára elérhető adatokból dolgozik, hanem továbbiakat is rögzít. A program folyamatosan monitorozza a használó Facebook-tevékenységét és ez alapján valószínűsíti a felhasználó személyiségére vonatkozó adatokat.[88] Az alkalmazás NLP-t (Natural language processing)[89] és ML-t (Machine Learning API)[90] használ az elemzéséhez, azaz a Data Selfie meghatározott nyelven arra is képes, hogy a szövegek (cikkek, üzenetek, bejegyzések) tartalmából is következtetéseket vonjon le.

A Data Selfie látható algoritmusa meg is mutatja, hogy pontosan milyen tevékenységet végez a közösségi oldalon a felhasználó. Az egyetlen beállítás, amit a felhasználó maga eszközölhet, az az, hogy egy-egy tartalom hány másodpercnyi nézése után regisztrálja azt az applikáció. A képernyő bal alsó sarkában ugyanis megjelenik egy számláló, ami másodpercre pontosan méri, hogy a felhasználó a hírfolyamában milyen hosszan nézett egy-egy tartalmat.[91] Ha ez az idő eléri a meghatározott értéket[92], a program rögzíti, hogy ki tette közzé a tartalmat és mikor történt a megtekintés. Emellett a tartalomból (is) leszűri a maga megállapításait.[93]

3.3. Személyes tapasztalat - empirikus találkozás az algoritmussal

Személyes tapasztalatok gyűjtése érdekében jelen cikk egyik szerzője maga is kipróbált két alkalmazást. A Rep'nUp alapján kiderült, hogy a Facebookra történő regisztrálása óta 1789 alkalommal lájkolt, 304 képet töltött fel és kereken 2100 baráttal rendelkezik. Személyiségét a Big Five módszer alapján értékelte a rendszer, és ez alapján arra jutott, hogy számára fontosak az érzelmek, tiszteli a status quo-t, barátságos, nyitott, pozitív és energikus. Ennél többet azonban csak a "Pro Account"-ra való regisztrációt követően árul(na) el az alkalmazás.

A Data Selfie alapján történő vizsgálathoz először létrehozott egy ál-Facebook-profilt, mert ő maga viszonylag ritkán lájkol és kattint mások által megosztott tartalmakra, de mivel ugyanebből a böngészőből használja a saját profilját is, utóbb megdöbbenve tapasztalta, hogy sokkal érdekesebb a kutatás a valós profiljára nézve.[94]

A bővítmény két hónapig tartó használata során 329,08 Facebookon eltöltött órát regisztrált,[95] és ez alapján rangsorolta a felhasználót, ugyancsak a Big Five megközelítést alkalmazva (hasonló, ám - a mintavétel nagyságát tekintve - jóval pontosabb eredményeket mutatva a Rep'nUp elemzéséhez képest). Szintén érdekes, hogy különleges személyes adatait (amelyet a szerző soha, egyetlen egyszer sem adott meg a közösségi oldalon) teljesen eltalálta: mind a vallási beállítottság, mind a politikai nézetekre helyes értéket mutatott (az összes lehetőség mellett egy-egy százalékos értéket ad meg a program, amely azt mutatja, hogy az adatok alapján melyik érték mennyire igaz a felhasználóra).

Emellett szeret/nem szeret csoportokra osztotta a vásárlással, valamint az egészséggel és életmóddal kapcsolatos preferenciákat, így a program (szinte végig helyesen) meghatározta, hogy a szerző mennyire szeret nyilvános helyen étkezni, edzőtermi tagsággal rendelkezni, kültéri programokon részt venni, befolyásolják-e a hirdetések, ha ruhát vásárol, a vásárlás során használja-e a bankkártyáját vagy például, hogy az ár-érték arányban a minőség, a kényelem vagy közösségi oldalakon olvasott értékelések hatnak-e rá a leginkább. Az adatok[96] egy .json fájlba exportálhatóak, amelyben aztán megtalálható minden tevékenység, ami az applikáció telepítése óta történt, így a teljes levelezés is, amit azóta a felhasználó a Messengeren[97] folytatott. Összességében megállapítható, hogy a program ijesztően pontos képet képes festeni a felhasználóról a közösségi aktivitása alapján.

4. Következtetések

A tanulmányban megvizsgáltuk a profilozás, azon belül elsősorban a gazdasági célú online profilozás jelenségét. Kitértünk a személyiségprofilok jelentőségére, megállapítva, hogy az folyamatosan nő, és az adatokban megjelenő "kép" joggal tekinthető az egyén személyiségének integráns részeként, kivetüléseként, ennek megfelelő jogi védelmi igénnyel. E gondolatok azonban korántsem újak, az adatvédelmi szabályozás európai megjelenése, az 1970-es évektől kezdődően sokszor felvetődtek.

A személyiségprofilok jelentősége azonban tovább nő. Egyrészt az adatok elképesztő bővülésének, másrészt az ezt kezelni képes újabb adat- és szövegbányászati megoldásoknak (összességében a Big Data jelenségnek) köszönhetően. Az online személyiségprofilok egyre több adatforrásból állnak össze, és egyre nagyobb az aránya azoknak az adatoknak, amelyeket a felhasználó nem tudatosan közöl, vagy egyáltalán nincs is tudatában annak, hogy a személyiségprofiljának részét képezi.

A vonatkozó kutatások és az egyes konkrét, bárki számára elérhető applikációk személyes kipróbálása pedig arról győzte meg a szerzőket, hogy ezek valóban elég nagy hatékonysággal működnek, azaz a valós személyiség és az online személyiségprofilok közötti különbség - bár teljes egybeesés elviekben nemigen lehetséges (igaz nem is szükséges) - egyre kisebb. Joggal gondolhatjuk, hogy a nagy technológiai vállalatok által használt megoldások ennél lényegesen jobb eredményeket érnek el. És azért csak "joggal gondoljuk", de nem tudjuk biztosan, mivel ezek működése (legalábbis részleteiben) nem látható a felhasználók számára. A mechanizmusok átláthatatlansága pedig biztosan csökkenti az érdemi kontroll lehetőségét, legyen szó az érintett vagy a társadalom (jogalkotó tevékenységben, jogalkalmazásban vagy éppen érdekvédelmi szervezetekben megnyilvánuló) kontrolljáról. Mindez persze végül épp az egyén átláthatóságához visz közelebb, amitől óva int minden adatvédelemmel foglalkozó szakirodalom, lassan fél évszázada.

Végül azt is láthatjuk, hogy a személyiségprofilok felhasználása igen nagy mértékben személyre szabott tartalmak (hirdetések, találati eredmények, hírfolyamok) közlésében realizálódik. Ez ugyan sokszor kifejezetten kényelmes megoldást eredményez a felhasználó oldalán, de ennek során az egyén könnyen be is zárhatja magát a "saját kis világába", a szűrőbuborékba, ahol csak a számára kedves tartalmakkal találkozik, megerősítve ízlésében és világnézetében, és egyre inkább kizárva az alternatív vagy újszerű megközelítéseket.

Látható tehát, hogy már annak az elsőre majdnem ártatlannak látszó, személyiségprofilokon és algoritmusokon alapuló dön-

- 68/69 -

tésnek is jelentős hatása lehet, hogy pontosan milyen tartalom jelenjen meg a felhasználó képernyőjén. Ám az automatizált döntések ennél szélesebb és egyre szélesedő körben határozzák meg az egyén helyzetét - legyen az egy hitelbírálat vagy egy online elérhető, személyre szabott kedvezmény (netán felár), de ha az algoritmusokkal támogatott döntéshozatal bűnüldözésben (bűnmegelőzésben?) vagy önvezető közlekedési eszközökben történő alkalmazását vagy a katonai célú felhasználásokat nézzük, a döntések hatása még sokkal jelentősebb lehet.

E tanulmány egy szélesebb körű kutatás részeredményeként született. Mindezen jelenségek ugyanis számos szabályozási kérdést is felvetnek. E kérdésekre a jogalkotó - elsősorban az adatvédelmi szabályozáson keresztül - részben választ is adott, vagy legalábbis igyekszik adni. Ennek egyik, vizsgálatunk fókuszául választott területe az új összeurópai adatvédelmi szabályozás, a GDPR,[98] amely a korábbinál részletesebb szabályokat állapít meg a profilozás és a gépi döntéshozatal területén. A nagy kérdés persze az, hogy a nagy online szolgáltatók vajon mennyiben felelnek meg e szabályoknak. Az erre irányuló kutatási eredményeket azonban egy másik tanulmányban foglaljuk össze. ■

JEGYZETEK

[1] A tanulmány "Az internetes forgalomirányító szolgáltatások szabályozási kérdései" című, 116551 számú OTKA-kutatás keretében készült, annak eredményeire épül. Emellett a jelen tudományos közleményt a szerzők a Pécsi Tudományegyetem alapításának 650. évfordulója emlékének is szentelik.

[2] Majtényi László: Az alkotmányos alapjogok és a kutatás szabadsága. in: Kresalek Gábor (szerk.): Levéltár és nyilvánosság (konferenciakötet), 1992. p. 57.

[3] Majtényi az állam és az egyén relációjában nevezi polgárnak az egyént, jelen kutatás témájában azonban sokkal pontosabb az egyén megnevezés.

[4] Hildebrandt, Mireille: Defining Profiling: A New Type of Knowledge. in: Hildebrandt, Mireille - Gutwirth, Serge (szerk.): Profiling the European Citizen, Springer Science + Business Media B.V., 2008. p. 17.

[5] A jelen tanulmány alapjául is szolgáló, "Az internetes forgalomirányító szolgáltatások szabályozási kérdései" című OTKA kutatás keretében vizsgáljuk a profilozás részletes jogi szabályozását és a forgalomirányítók vonatkozó joggyakorlatát is, de annak eredményeit egy másik, hamarosan megjelenő tanulmányban foglaljuk össze.

[6] Hildebrandt, Mireille: i. m. p. 19.

[7] Vö. a bűnelemzés fogalma: a bűnelemzés a bűnügyi és más, potenciálisan érdemleges adatok, vagyis a bűnügyileg releváns információk közötti kapcsolat felismerésére, azonosítására és azok értékelésére folytatott rendszeres, célirányos, összehangolt tevékenység [13/2001. (X. 2.) ORFK utasítás II. fejezet 1. cím 5. pont].

[8] Hildebrandt, Mireille: i. m. p. 22.

[9] Az adatok segítségével történő megfigyelést (surveillance) gyakran a "dataveillance" kifejezéssel illetik. Ld. Szabó Máté Dániel: Az információs hatalom alkotmányos korlátai. Miskolci Egyetem. 2012. p. 15.

[10] Pécsi Ferenc, tartalomstratéga, online kommunikációs szakértő alapján.

[11] Pécsi Ferenc: Miért is kellenek nekünk az ügyfélkarakterek? http://tartalommarketing.hu/miert-is-kellenek-nekunk-az-ugyfelkarakterek [2017. 11. 21.]

[12] Érdekességképpen mindenképpen idekívánkozik, hogy a persona, személyiség szó a görög maszk szóból származik.

[13] Goldberg, Lewis R.: The structure of phenotypic personality traits, American Psychologist 48/1. pp. 26-34.

[14] Meg kell említeni, hogy ma már a pszichológusok egyre inkább elfogadják, hogy a "Nagy Ötös" hiányos, és kiegészítik egy hatodik, független dimenzióval, az "őszinteség, becsületesség, szelídség" kontra "machiavellista" személyiség dimenziójával egy német-dán kutatópár Journal of Research in Personality-ben, 2015-ben publikált tanulmánya alapján. (Hilbig, Benjamin E. - Zettler, Ingo: When the cat's away, some mice will play: A basic trait account of dishonest behavior, Journal of Research in Personality 2015/57. pp. 72-88.)

[15] Yarkoni, Tal - Poldrack, Russel A. - Van Essen, David C. - Wager, Tor D.: Cognitive neuroscience 2.0: building a cumulative science of human brain function, Trends in Cognitive Sciences 14/11 pp. 489-496.

[16] "Az egyén sorsát egyre inkább az határozza meg, hogy mit árul el róla a személyiségprofilja, mit tartanak róla nyilván, és nem a fizikai valóság, amellyel a személyiségprofil sok esetben nem egyezik." In: Szabó Máté Dániel: i. m. p. 16.

[17] Különös figyelemmel arra, hogy a résztvevők minimum 17, maximum 22 évesek voltak és csak Egyesült Államokbeli (Facebook), valamint németországi (StudiVZ) felhasználók voltak.

[18] Back, Mitja D. - Stopfer, Juliane M. - Vazire, Simine - Gaddis, Sam - Schmukle, Stefan C. - Egloff, Boris - Gosling, Samuel D.: Facebook Profiles Reflect Actual Personality, Not Self-Idealization, Psychological Science 21/3. pp. 372-374.

[19] Kosinski, Michal - Stillwell, David - Graepel, Thore: Private traits and attributes are predictable from digital records of human behavior, Proceedings of the National Academy of Sciences 110/15. pp. 5802-5805.

[20] The Economist: No hiding place, Personality, social media and marketing. https://www.economist.com/news/science-and-technology/21578357-plan-assess-peoples-personal-characteristics-their-twitter-streams-no [2017.11.01.]

[21] Naisbitt, John: Megatrends: Ten New Directions Transforming Our Lives. Warner Books, 1982.

[22] Bodon Ferenc - Buza Krisztián: Adatbányászat. BME, 2013. p. 8.

[23] Például: Tan, Pang-Ning - Steinbach, Michael - Kumar, Vipin: Introduction to Data Mining. Addison-Wesley, 2006.

[24] Bodon - Buza: i. m. p. 22.

[25] Bodon - Buza: i. m. p. 255.

[26] Bodon - Buza: i. m. p. 25.

[27] Tikk Domonkos (szerk.): Szövegbányászat. TypoTex Kiadó, 2007. p. 21.

[28] Tikk Domonkos: i. m. p. 22.

[29] Miner, Gary - Delen, Dursun - Elder, John - Fast Andrew - Hill, Thomas - Nisbet Robert: Practical text mining and statistical analysis for non-structured text data applications. Academic Press, 2012. p. 32.

[30] Szijártó Lívia: Az internetes tartalmak elemzése alkalmazott pszichológiai módszerekkel. Hadtudományi Szemle IX./3. p. 201.

[31] Marutha Veni, R. - Praveena, M. - GanaPriya, V.: A Review on Duo Mining Techniques, International Journal of Science and Research 2/3. p. 127.

[32] Frawley, William J. - Piatetsky-Shapiro, Gregory - Matheus, Christopher J.: Knowledge discovery in databases: An Overview, AI Magazine 13/3. pp. 57-70.

[33] Szijártó Lívia: Különbségek az egyének és a csoportok között végzett profilozás területén. (T)error&Elhárítás 2014/II. p. 2.

[34] Szijártó Lívia: Az internetes tartalmak elemzése alkalmazott pszichológiai módszerekkel p. 204.

[35] Tikk Domonkos: i. m. p. 24.

[36] www.neticle.hu [2017. 11. 18.]

[37] API: application programming interface, egy program vagy rendszerprogram azon eljárásainak és azok használatának dokumentációja, amelyet más programok felhasználhatnak. Egy nyilvános API segítségével lehetséges egy programrendszer szolgáltatásait használni anélkül, hogy annak belső működését ismerni kellene.

[38] https://wiki.neticle.hu/ [2017. 11. 18.]

[39] Szőke Gergely László: Az európai adatvédelmi jog megújítása, Tendenciák és lehetőségek az önszabályozás területén. HVG-ORAC Lap- és Könyvkiadó Kft., 2016. p. 66.

[40] Amennyiben a strukturáltságot egy adattípus szerinti rendezettség alapján (pl. "1989-ben születettek adatbázisa") és nem az adat jellegét tekintve határozzuk meg, értsd: strukturálatlannak minősül így a videomegosztókon található videofájlok tömege, az internetre feltöltött fényképek halmaza vagy éppen közösségi oldalakon folytatott beszélgetésen során küldött üzenetek egésze.

[41] Anrig, Bernhard - Browne, Will- Gasson, Mark: The Role of Algorithms in Profiling. in: Hildebrandt, Mireille - Gutwirth, Serge (szerk.): Profiling the European Citizen, Springer Science + Business Media B.V., 2008. p. 65.

[42] Ausiello, Giorgio - Petreschi, Rossella: Preface. in: The power of algorithms, Springer-Verlag Berlin Heidelberg, 2013. p. 5.

[43] Steiner, Christopher: Automate This: How Algorithms Came to Rule Our World, Penguin Books, 2012.

[44] Schmidt, Rebecca: The Power of Algorithms: The Use of Algorithmic Logic and Human Curation at The Guardian. MA Thesis. 2015. p. 1.

[45] A Pro Publica Inc. "Break the black box" címmel indított kampányt a Facebook fekete dobozának megismeréséért - illetve azért, hogy a felhasználók tudatosabbak legyenek és átlássák, mi is történik az általuk láthatatlan fekete dobozban. Mint a "Mi az, amit tud rólunk a Facebook" című cikk szerzői, Julia Angwin, Terry Parris Jr. and Surya Mattu írják, ha a gépek egyre több döntést hoznak rólunk, akkor egyre fontosabb megérteni azokat az algoritmusokat, amelyekkel döntenek felettünk.

[46] Ez nem jelenti azt, hogy semmilyen információ nem áll rendelkezésre, a Google és a Facebook is nyújt valamennyi információt arról, hogy milyen adatokat milyen célokra használnak, de a tényleges működési elv a vállalkozások féltve őrzött üzleti titkát képezi.

[47] Szabó Máté Dániel: i. m. p. 31.

[48] Szabó Máté Dániel: i. m. p. 31.

[49] Szabó Máté Dániel: i. m. pp. 31-32. Az információs önrendelkezési jog elismerése ennél jóval régebbi, a 80-as 90-es évekre tehető fejlemény az adatvédelmi jogban, és sokan sokat írtak róla, de egyrészt Szabó Máté Dániel ezt jóval szélesebben értelmezi, másrészt kristálytisztán vezeti le a szükségességét a személyiségprofilok növekvő jelentőségéből. Jelen cikkben azonban a jogi szabályozás részleteire nem térünk ki.

[50] Kiss Attila - Krasznay Csaba: A felhasználói viselkedéselemzés kiberbiztonsági előnyei és adatvédelmi kihívásai. Információs Társadalom. 2017. XVII/1. p. 61.

[51] Az e tanulmányban továbbgondolt kiindulópontokat ld. Szőke Gergely László: i. m. p. 64.

[52] A megfigyelés (más forrásokban: követés) komplexitásáról, a megfigyelés technológiáiról és különösen a megfigyelés gazdasági és politikai ösztönző-mechanizmusairól ld. részletesen Langheinrich, Marc - Finn, Rachel, Coroama, Vlad - Wright, David: Qui Vadis Smart Surveillance? How Smart Technologies Combine and Challenge Democratic Oversight. in: Gutwirth, Serge - Leenes, Ronald - de Hert, Paul (szerk.): Reloadin Data Protection, Springer, 2014. pp. 151-182.

[53] Utóbbi két lehetőségre tekintettel a szakirodalom megkülönböztet direkt és indirekt profilozást (Jaquet-Chiffelle, David-Olivier: Reply: Direct and Indirect Profiling in the Light of Virtual Persons. in: Hildebrandt, Mireille - Gutwirth, Serge (szerk.): Profiling the European Citizen, Springer Science + Business Media B.V., 2008. pp. 41-43.

[54] Az online szolgáltatók profilozás kapcsán kialakított tájékoztatási gyakorlatáról és ennek jogi értékeléséről a profilozás szabályozását vizsgáló tanulmányban térünk ki részletesen.

[55] The Economist: No hiding place, Personality, social media and marketing. https://www.economist.com/news/science-and-technology/21578357-plan-assess-peoples-personal-characteristics-their-twitter-streams-no [2017. 11. 01.]

[56] Webler: Az Internetes hirdetések előnye. http://interneteshirdetes.blogspot.hu/2012/01/az-internetes-hirdetesek-elonye.html [2017. 03. 29.]

- 69/70 -

[57] Toubiana, Vincent - Narayanan, Arvind - Boneh, Dan - Nissenbaum, Helen - Barocas, Solon: Adnostic: Privacy Preserving Targeted Advertising. https://ssrn.com/abstract=2567076, 2010. p. 6. [2017. 10. 03.]

[58] Erről lásd bővebben: Toubiana, Vincent - Narayanan, Arvind - Boneh, Dan - Nissenbaum, Helen - Barocas, Solon i. m.

[59] Hoofnagle, Chris Jay - Soltani, Ashkan - Good, Nathan - Wambach, Dietrich James - Ayenson, Mika D.: Behavioral Advertising: The Offer You Cannot Refuse. Harvard Law & Policy Review 2012/273. p. 294.

[60] https://privacy.google.com/intl/hu/how-ads-work.html [2017.10.12] A Facebook szintén alkalmaz személyre szabott hirdetéseket ennek bemutatása szintén megtalálható a tájékoztató anyagok között: https://www.facebook.com/ads/about/?entry_product=ad_preferences [2017. 10. 12.]

[61] 1 zettabájt = 1 milliárd gigabájt

[62] Erről lásd bővebben: Jankowski, Krzysztof J.: Living in the Filter Bubble: Is What We Lose Something We Need to Preserve? https://ssrn.com/abstract=2982025 [2017. 11. 18.]

[63] Hercsel Adél: A nagyszerű nem elég (Sergey Brin és Larry Page, a Google alapítói). in: Baski Sándor - Hercsel Adél - Kömlődi Ferenc: Internet-milliárdosok, Szalay Könyvek, 2013. p. 101.

[64] A nyilvánvalóan viccnek szánt leírás szerint míg az átlagos keresőmotorok számára egy keresőszó begépelése szükséges, addig a MentalPlex használata során elegendő egy piros-kék forgó körre összpontosítania a felhasználónak (miután levette szemüvegét és sapkáját!), majd ezt követően a körre kattintva megtalálta a keresésének megfelelő találatokat. A keresési eredményeket az utolsó öt meglátogatott oldal adata, az egér mozgatásának sebessége és vektorai, az aktuális légnyomás, a levegő pára- és ózontartalma, a keresés pillanatának asztrológiai adatai, valamint a kereső személy aurája és agyhullámainak aktivitása alapján adta a szolgáltatás. Ld. https://archive.google.com/mentalplex/MP_faq.html [2017. 11. 18.]

[65] Ld. erről egy korábbi, Google által tett blogbejegyzést: Kamver, Sep: Search gets personal. https://googleblog.blogspot.hu/2005/06/search-gets-personal.html [2017. 11. 12.]

[66] Eli Pariser szerint mintegy 57 szempontot vizsgál. Pariser, Eli: The Filter Bubble. What the Internet Is Hiding from You. The Penguin Press, 2011. p. 2.

[67] Micarelli, Alessandro - Gasparetti, Fabio - Sciarrone, Filippo - Gauch, Susan: Personalized Search on the World Wide Web. In: Brusilovsky, Peter - Kobsa, Alfred -Nejdl, Wolfgang (szerk.): The Adaptive Web - Methods and Strategies of Web Personalization, Springer-Verlag, 2007. p. 224.

[68] Habók Lilla: Személyre szabottabb lesz a Google app hírfolyama, https://www.hwsw.hu/hirek/57541/google-feed-now-hirolvasas-hirfolya-hirek-olvasas.html [2017. 11. 19.]

[69] Gottfired, Jeffrey - Shearer, Elisa: News Use Across Social Media Platforms 2016. http://www.journalism.org/2016/05/26/news-use-across-social-media-platforms-2016/ [2017. 11. 19.]

[70] Polyák Gábor: A frekvenciaszűkösségtől a szűrőbuborékig. in: Tóth András (szerk.): Technológia jog - Új globális technológiák jogi kihívásai. Károli Gáspár Református Egyetem Állam- és Jogtudományi Kar, 2016. p. 125.

[71] https://www.facebook.com/zuck/posts/10103253901916271

[72] Pariser, Eli: The Filter Bubble. What the Internet Is Hiding from You. The Penguin Press, 2011.

[73] Székely Iván: Jog ahhoz, hogy elfelejtsenek és töröljenek, Információs társadalom, 2013, 13/3-4. p. 11.

[74] Több esetben a személyre szabott tartalmak kikapcsolhatók, a Google például megengedi a személyre szabott hirdetések kikapcsolását, és az is jól áttekinthető, hogy például milyen keresési előzményeket használ fel a keresési találatok személyre szabásához. Ezek kikapcsolása azonban egyrészt valóban rosszabb eredményeket hoz, másrészt sok esetben nincs is lehetőség a kikapcsolásra (pl. Facebook hírfolyam). Összességében a "kimaradás" egyre kevésbé reális opció a magánszférájukat féltő felhasználók számára.

[75] Pariser, Eli: i. m. pp. 9-10.

[76] A pszichológia "megerősítő torzításnak" nevezi a jelenséget.

[77] Jankowski, Krzysztof J.: i. m. p. 1.

[78] Vike-Freiberga, Vaira - Däubler-Gmelin, Herta - Hammersley, Ben - Pessoa Maduro, Luís M. P.: A free and pluralistic media to sustain European democracy. The Report of the High Level Group on Media Freedom and Pluralism, 2013. p. 27.

[79] Polyák Gábor: i. m. p. 129.

[80] Polyák Gábor: i. m. pp. 130-131.

[81] Clarke, Roger: What's ‘Privacy'? 2006, http://www.rogerclarke.com/DV/Privacy.html [2017. 11.]

[82] Székely Iván - Somody Bernadette - Szabó Máté Dániel: Biztonság és magánélet I., Az alkumodell megkérdőjelezése és meghaladása. Replika 103, 2017, 2017/3. p. 16.

[83] About Dan Zarrella (http://danzarrella.com/bio/)

[84] The Social Media Marketing Book (2009), Zarrella's Hierarchy of Contagiousness (2011), The Facebook Marketing Book (2011), The Science of Marketing (2013)

[85] A tweetpsych.com jelen tanulmány írásakor már nem működött - az oldalra kattintva előbb a számítógép vírusirtója jelzett és blokkolt adathalász tevékenységet, majd minden keresésre "error" hibaüzenetet küldött a honlap.

[86] https://finder.startupnationcentral.org/c/repnup

[87] Parsons, Jeff: Facebook has profiled your personality and here's how you can see what they think of you. http://www.mirror.co.uk/news/technology-science/technology/facebook-profiled-your-personality-heres-6395919 [2017. 10. 28.]

[88] Az eredményeket elviekben csak a felhasználó maga ismerheti meg. Az persze más kérdés, hogy mennyire bízhat egy felhasználó egy applikáció fejlesztőjében - ez a program ugyanis több információ gyűjt, mint ami egyébként bárki számára nyilvános. A programot egy DATA X nevű szervezet hozta nyilvánosságra, amelyről rövidebb kutatómunkát követően annyi derült ki, hogy egy vietnámi szülők gyermekeként Németországban született programozó, Hang Do Thi Duc által 2016 áprilisában alapított szervezetről van szó.

[89] Erről lásd bővebben: Prakash M. - Ohno-Machado, Lucila - Chapman, Wendy W.: Natural language processing: an introduction, Journal of the American Medical Informatics Association, 2011, 18/5. pp. 544-551.

[90] Erről lásd bővebben: Wagner, Janet: Top 10 Machine Learning APIs: AT&T Speech, IBM Watson, Google Prediction https://www.programmableweb.com/news/top-10-machine-learning-apis-att-speech-ibm-watson-google-prediction/analysis/2015/08/03?page=2 [2017. 11. 18.]

[91] A nézés vizsgálata nem a webkamera segítségével a szemmozgást figyelve történik (lévén ez a vizsgálatban érintett számítógépen szigetelőszalaggal le van takarva), hanem a képernyőn kalibrálva van egy terület, amit vizsgál az alkalmazás - ameddig ebben tartózkodik a tartalom, számol, majd ha a felhasználó továbbteker, a számláló nullázódik és a következő tartalomnál újraindul.

[92] Három lehetőség közül lehet választani: öt, tíz és tizenöt másodperc, az első az ajánlott és az alapbeállítás.

[93] Igaz, a szövegek és tartalmak elemzését (jelenleg) csak angol, német, francia, olasz, portugál, orosz, spanyol és svéd nyelven képes elvégezni a Data Selfie algoritmusa, míg a beviteli szövegek esetén az csak angol, spanyol, japán és arab nyelv támogatott. http://dataselfie.it/#/faq [2017. 11. 18.]

[94] A szerző eleinte egészen biztos volt benne, hogy a valós profil alapján nem áll majd rendelkezésre elegendő információ arra nézve, hogy érdemben működjön az elemzés, de ez gyorsan megdőlt - valószínűsíthetően az applikáció nem csak a saját adatokból, hanem az ismerősi körben gyűjtött adatokból is dolgozik.

[95] A hatalmas szám az akár a háttérben történő bejelentkezést is mutatja, nem csak a ténylegesen aktív másodperceket, ezért jöhetett ki a napi több mint ötórányi Facebookozás.

[96] A gyakran ismételt kérdések között azt tájékoztatást nyújtja a program, hogy adatokat nem tárol, azok lokálisan a számítógépen kerülnek csak mentésre. http://dataselfie.it/#/faq [2017. 11. 18.]

[97] Értve itt ezalatt csak a böngészőben történő Messenger-használatot, mert a Data Selfie nem köti össze sem a különböző számítógépek böngészőiben folytatott tevékenység adatait, valamint az egyéb eszközön (például a Messenger applikációján keresztül) történő aktivitást. Ehhez egy azonosító jelre (univerzális személyi szám, Google hirdetési azonosító) lenne szükség, illetve arra, hogy a DATA X valahol ténylegesen tárolja a felhasználó adatait és össze tudja kötni a két adatcsomagot a felhasználó alapján. Ezt azonban - a FAQ-ban adott tájékoztatás szerint - a DATA X nem teszi.

[98] General Data Protection Regulation (GDPR) - Az Európai Parlament és a Tanács (EU) 2016/679 rendelete (2016. április 27.) a természetes személyeknek a személyes adatok kezelése tekintetében történő védelméről és az ilyen adatok szabad áramlásáról, valamint a 95/46/EK rendelet hatályon kívül helyezéséről (általános adatvédelmi rendelet)

Lábjegyzetek:

[1] A szerző a PTE Állam- és Jogtudományi Karának adjunktusa, valamint a PTE SZKK Big Data kutatócsoportjának kutatója.

[2] A szerző a Pécsi Tudományegyetem Szentágothai János Kutatóközpont (PTE SZKK) Big Data kutatócsoportjának kutatója.

Tartalomjegyzék

Visszaugrás

Ugrás az oldal tetejére