A Big Data-jelenség, azaz a folyamatos és egyre nagyobb volumenű adattermelődés, adatraktározás és adatfelhasználás, valamint ennek a társadalomra gyakorolt hatásai a 2010-es évek eleje óta kerültek az érdeklődés középpontjába. Maga a Big Data kifejezés, és a hozzá kapcsolódó narratív keret is ekkortájt született.
A jelenség alapja az, hogy egyre több minden történik a világban úgy, hogy annak digitális nyoma marad. A közösségi hálózatokon és a keresőmotorokban (a "platformokon")[2] mi magunk, "önként és dalolva" adunk meg adatokat - magunkról és a külvilágról. Az egyre több szolgáltatástípust felölelő vagy a hagyományos, offline szolgáltatásokat olykor teljesen felváltó online szolgáltatások (online áruházak, bankok, szerencsejáték-oldalak stb.) nem csak az általunk megadott adatokat, hanem a szolgáltatásokkal kapcsolatos online cselekvéseinket is tárolják és elemzik. Végül, a dolgok internete ('Internet of Things, IoT), azaz az internetre kötött szenzorok, eszközök (a köztéri és az autópályakameráktól az online pénztárgépeken keresztül a mobiltelefonokig, amelyek maguk is - például helymeghatározásra alkalmas - szenzorok) nemcsak az online tér, hanem a valóságos külső világ történéseit is rögzítik egyre szélesebb körben: szó szerint ontják az adatokat. Egy triviális példa, hogy még az ún. "buta" mobiltelefonok is folyamatosan megosztják a felhasználó tartózkodási helyét, mivel az eszköz a legközelebbi GSM-toronnyal folyamatosan kommunikál bekapcsolt állapotban. De még olyankor is adatokat generálunk, amikor nem kommunikációs eszközt használunk, hanem egyszerűen csak elhaladunk egy autópálya-kamera előtt, vagy olyan boltban vásárlunk, amelyben online pénztárgép van.
- 23/24 -
Mindez összességében természetesen egészen elképesztő mennyiségű adatot jelent, amellyel a Big Data-ról szóló írások rendszerint hosszasan riogatják a békés olvasókat. Itt legyen elég annyi, hogy nemcsak az összes generált adat mennyisége felfoghatatlanul nagy, hanem még az egyetlen felhasználó által generált és tárolt mennyiség is egészen ijesztő, valahol 0,32 és 0,77 GB között van, naponta.[3]
Ugyanakkor itt valójában nem önmagában az adat mennyisége az új, hanem az, amit a Big Data segítségével meg lehet tenni. A már régebb óta gyűjtött és tárolt adatok, valamint az újonnan keletkezett adathalmazok segítségével és összekapcsolásával - részben a régebbről ismert matematikai és statisztikai eszközökkel, részben pedig teljesen új algoritmusokkal és módszerekkel - olyan következtetésekre és előrejelzésekre (predikciókra) nyílik lehetőség, amilyenekre eddig soha. A Big Data segítségével olyan mélyen beleláthatunk az emberek gondolkodásába, hogy az igen komoly adatvédelmi és privacy-problémákat vet fel. Ennek legijesztőbb része az, hogy ez a predikciós potenciál fokozottan alkalmas a finom, alig érzékelhető manipulációra ('nudging').[4]
A Big Data jelenségnek nincsen pontos definíciója. Több mint árulkodó, hogy Kate Crawford és Jason Schulz cikkükben az alábbi definíciót adják: "a Big Data egy általános, pontatlan kifejezés, amely a nagy adatállományok használatára utal az adattudományban és a prediktív analízisben."[5] Szerintük a kifejezésnek három aspektusa van: egyrészt egyfajta technológiára utal, amely a számítási pontosságot növeli, másrészt olyan módszerekre, amelyekkel ezeket a nagy adatállományokat tisztítani és összehasonlítani lehet, végül arra a hitre ('belief'), amely szerint ezekkel a módszerekkel pontosabb, objektívebb eredményeket lehet elérni. Hogy a helyzet még zavarosabb legyen, mindezek mellett olykor Big Data-"korszakról" is hallunk,[6] amellyel egy cezúrára utalnak az információs társadalom történetében.
A fokozódó adattermelődés a jogra is hatással van, de ez a hatás ugyanúgy ellentmondásos, mint minden más társadalmi szférában. Először is a legnagyobb probléma az, hogy a Big Data hatásai más hatásokkal együtt jelentkeznek, és ezek a hatások nehezen szálazhatóak szét. Így például a közösségi hálózatoknak az emberi érintkezésre - és ezen keresztül mondjuk a szólásszabadságra - gyakorolt hatása (lásd többek között visszhang-
- 24/25 -
szoba és a kaszkádhatás jelenségét[7]) széles körben ismert és tárgyal problémakör. Az szintén ismert, hogy a közösségi hálózatok - mintegy melléktermékként - amúgy elképesztő mennyiségű adatot is gyűjtenek, tárolnak és elemeznek. Világos, hogy az adattermelődés egyszerre előfeltétele - hiszen minden strukturálást végző algoritmus a nagy adathalmazokon fut -, valamint következménye - hiszen egyre több ember egyre több adatot ad meg - a közösségi hálózatoknak, ami megnehezíti az elemzést.
Ezért a Big Data és a jog kapcsolata is többféle aspektusból vizsgálható. Először is a Big Data egyszerre befolyásolja a jogot magát és a jogtudományt is, és mindkettőt kétféle módon: mind a jog, mind a jogra kívülről reflektáló jogtudomány egyszerre tekinti a Big Data jelenséget tárgyának (szabályozási tárgynak és vizsgálati tárgynak), és használja azt eszközül (a jogalkotáshoz és a jogalkalmazáshoz, illetve a tudományos kutatáshoz). Ez a kétszer két szempont négyféle tematikát határoz meg.
a) A Big Data, mint a jogi szabályozás tárgya. A Big Data ebben az összefüggésben elsősorban úgy jelentkezik, mint adatvédelmi probléma.
b) A Big Data, mint a jogalkotást és a jogalkalmazást segítő eszköz. A Big Data módszertanokat mind a jogalkotás, de szélesebb körben inkább a jogalkalmazás területén kezdték el alkalmazni. Jelen írás 3. pontja az utóbbival (a jogalkalmazásban használt Big Data alapú elemző- és előrejelző eszközök, valamint a törvényszéki alkalmazások témáját érinti.
c) A Big Data, mint a jogtudomány tárgya. Természetesen a jogtudományt is erősen befolyásolta a Big Data jelenség, és a százával születnek azok a jogtudományi munkák, amelyek ennek a jelenségnek különböző aspektusaival foglalkoznak.
d) A Big Data, mint a jogtudományi kutatások újszerű módszere. A Big Data módszertanok, elsősorban a nagy tömegű jogi szöveg elemzése kapcsán jól használhatók újszerű kutatási kérdések feltételére, és egy új személetmód érvényesítésére. Jelen írás 2. pontja ezt a témát dolgozza fel.
Mindenekelőtt érdemes leszögezni, hogy a tudósközösségen belül vita van, hogy a Big Data megközelítés a kutatásban egyáltalán jelent-e bármilyen újdonságot a korábbi statisztikai megközelítésekhez képest. Hiszen az adat csak adat[8] és ezek a kutatások első látásra valóban csak ebben különböznek a hagyományos statisztikai alapú kutatásoktól, hogy több, heterogénebb az adat, illetve az adatok eredetileg nem elemzés céljára, hanem más okból nyertek rögzítést. Az mindenképp igaz, hogy a Big Data elemzések módszertana alapvetően a statisztikából ismert módszertan. Ugyanakkor egy dologban biztosan van különbség: a Big Data kutatások egy sor olyan összefüggést tártak fel különböző adathalmazok közt, amelyekre a statisztikai elemzések nem lettek volna képesek. Azt is
- 25/26 -
érdemes ugyanakkor megjegyezni, hogy a jogi szövegek tekintetében ennek a vitának azért nincs sok relevanciája, mivel a jogtudományban a szövegeket adatként kezelő kutatások lényegében csak 2010 után jelentek meg, és már eleve a Big Data narrativa keretében.
A szövegek statisztikai alapú kutatásának alkalmazása a jogban azért kézenfekvő, mert a jog nagyrészt nem más, mint szövegek halmaza. A Big Data kutatásokat a jogban elsősorban az tette lehetővé, hogy az interneten hozzáférhetővé váltak nagy mennyiségben a jogi dokumentumok. Az angolszász jogrendszer sajátosságai miatt a jogesetek szövege a common law országokban évszázadok óta jogforrás, az utóbbi időben pedig több digitalizációs projekt is indult, hogy ezeknek a szövegeknek a géppel olvasható szövegei is hozzáférhetők legyenek. Ezen felül a 2000-es évek elejétől, általában az információsszabadság projektek és jogalkotás keretei között csaknem minden országban elkezdtek egyre több hivatalos dokumentumot, például a kormányzati és közigazgatási dokumentumokat, a különböző közigazgatási szervek normatív, és egyedi döntéseit, a papíralapú hivatalos lapokban történő közlés mellett, - vagy később már helyett - az internetre is feltenni.
Magyarországon a Big Data kutatásokhoz leggyakrabban használt adatbázis a birosag.hu-n található Bírósági Határozatok Gyűjteménye. Jogi hátterét a Bszi. jelenti, amely szerint a Kúria, az Ítélőtáblák és a közigazgatási és munkaügyi bíróságok - bizonyos kivételekkel - az előttük lefolytatott ügyekben hozott "érdemi" határozatokat, (azaz pl. a permegszüntető végzéseket nem) az ügyek előzményeivel együtt közzéteszik. Az adatbázis 2007 óta épül, és évente átlagosan 12 000 ítélet került bele, így jelenleg kb. 150 000 bírósági ítélet található benne, amelyek a magyar bíróságok mindennapjairól, a bíróságok érveléséről elég jó képet adnak.
A jogi szövegek Big Data módszertannal történő kutatása a számítógépes nyelvészet, és ezen belül az ún. korpusznyelvészetet területére esik.[9] A jogi korpusznyelvészet nem túl hosszú múltra tekinthet vissza, jóllehet a jogi nyelvi korpuszok voltak szinte az első szisztematikusan digitalizált, és a nagyközönség számára is hozzáférhető szövegkorpuszok, amelyek szövegkinyerőkkel, (keresőkkel) voltak ellátva.
A számítógépes nyelvészet viszont szinte a számítógéppel egyidőben született, és hosszú ideig a központi problémája a természetes nyelv számítógépes feldolgozása, (natural language processing - NLP) és ezen belül is olyan gyakorlati problémák megoldása volt, mint a különböző nyelvekről történő gépi fordítás, a számítógépes információkinyerés (information retrieval), illetve az ember-gép érintkezés (interfészek) fejlesztése.[10] A korpusznyelvészet a számítógépes nyelvészeten belül a nyelvészeti kutatások viszonylag
- 26/27 -
új ága.[11] Lényege, hogy tudatosan, (vagy véletlenszerűen) kiválogatunk egy - általában reprezentatív - szöveghalmazt, ("nyelvi adatokat") majd a nyelvészeti vizsgálatokat ezen a szöveghalmazon végezzük el számítógép segítségével. A korpuszok általában olyan szöveghalmazok, amelyek legalább 1 millió szót tartalmaznak, de nem ritkák a százmillió szövegszót tartalmazó adatbázisok sem.
Az általános korpusznyelvészet két legegyszerűbb elemzési módszere a szövegben található szavak, és a szövegben található mondatok különböző szempontú elemzése.[12] Ahhoz, hogy ezt a két legegyszerűbb korpusznyelvészeti feladatot végre lehessen hajtani, a szövegekben a szavakhoz, és a szövegekhez magukhoz is ún. annotációkat (címkéket, metaadatokat) kell fűzni. A kétféle elemzési módszerhez például egyfelől a szófaji (pl. hogy a szó ige, főnév stb.) másfelől mondattani szerepüket mutató (pl. hogy alany, állítmány stb.) címkézést kell elvégezni. A címkézés (a metaadatok, az adatokról szóló adatok) hozzáadása történhet teljesen kézzel, vagy teljesen géppel is, vagy vegyes módszerrel, amikor egy kisebb, kézzel feldolgozott mintát mutatunk meg a gépnek, amely ezután az ebben található szabályok alapján végzi el a teljes korpusz annotálását.
Biber és Reppen szerint[13] a korpusznyelvészet mint módszertan segítségével szinte minden nyelvészeti kutatási kérdés tanulmányozható, de a korpusznyelvészet maga is inspirál újfajta kérdések feltételére. A jogi korpusznyelvészet jó példát nyújt erre, hiszen a hagyományos korpusznyelvészethez képest a nagy méretű szöveges jogi adatbázisok, (pl. hatósági és bírósági határozatok) korpusznyelvészeti elemzésével prima facie jogtudományi (jogdogmatikai és jogszociológiai) jellegű kérdéseket is lehet vizsgálni inspirálóan újfajta szemszögből.
A Big Data kutatások emellett érintkeznek a statisztikával is. Amellett, hogy az adatok feldolgozásakor természetesen használják az olyan egyszerű statisztikai fogalmakat mint a statisztikai átlag, a szórás, a trend, vagy a medián, két módszerrel igen gyakran élnek, a korrelláció és a regresszióanalízis módszereivel. Mindkét módszerre jellemző, hogy bizonyos tényezők, változók közötti kapcsolat mérésére szolgálnak. A korrelláció két adat közötti kapcsolat számszerűsített mutatója. A regresszióanalízis pedig "olyan statisztikai eszköz, amely megkísérli előrejelezni egy változó értékeit egy, vagy több másik változó segítségével"[14]. Mindkét módszer alkalmazásával más fejezetekben foglalkozunk, de később ebben a fejezetben is említünk két kutatást, amely alkalmazta ezeket a módszereket.
A jogi szövegek több szempontból is különlegesek, és igen jó alapanyagot szolgáltatnak a Big Data jellegű kutatásokhoz, hiszen erősen strukturáltak, eleve rengeteg kísérő adatot tartalmaznak, és nyelvileg viszonylag homogének. Úgy is mondhatnánk, hogy bizonyos szempontból eleve adatként jönnek létre. Az, hogy a jogi szövegek legtöbbje erősen strukturált azt jelenti, hogy olyan szerkezeti egységek különülnek el benne, amelyeket a Big Data kutatások alkalmával igen jól lehet használni. Például szinte minden jogi do-
- 27/28 -
kumentumnak van címe, amely egy sor adatot eleve hordoz - a jogszabályok címében például szinte minden jogrendszerben megtalálható három adat: a jogszabály kibocsátó szerve, annak típusa, és a sorszám/évszám. A jogi dokumentumok belső struktúrái is kötöttek. Például a bírósági ítéletekben mindenhol megtalálható, - függetlenül a keletkezési országtól - a felek neve, az ügy száma, az eljáró bíró neve, a per tárgya, maga az érdemi döntés, és valamiféle szöveges indokolás, amely azután szintén tagozódhat további alegységekre, pl. a tényállás, a megelőző eljárás, a jogi alapot adó jogszabályok, és a jogi indokolás egységeire. További jellegzetessége a szövegeknek, hogy igen gyakran tartalmaznak hivatkozást más szövegekre, méghozzá, a jog világában szerencsére egységes formátumban. És a sort még folytathatnánk a struktúra-elemek, entitások, adatok sokaságával.
A jogi szövegek nyelvezete is kontrollált, azaz több szempontból is kötött, és ezt a jogi korpusznyelvészet ki is használja. Ha a jogi szöveg egy jogi fogalmat használ, akkor nem fog szinonimákat használni még akkor sem, ha ez stilisztikailag szegényes szöveghez vezet. Vagy: a bírák nem fogják szégyelleni ugyanazokat a szófordulatokat használni egy ítélet indokolásakor mint egy korábbi ítélet, hiszen az egyszer már bevált megoldásokat nemcsak takarékos, hanem célszerű is újra felhasználni. Emiatt a jogi szövegeken belül jól felismerhető szabályok vannak, amelyeket igen könnyű algoritmizálni, azaz a számítógép számára is hozzáférhetővé, felismerhetővé tenni. Ezek a szabályok nemcsak azonos nyelvi fordulatokra, hanem a korábban említett struktúra-elemekre és enititásokra is vonatkoznak.
Illusztrációként néhány szabály a magyar bírósági ítéletek köréből: ilyen szabály, hogy milyen struktúra elem után milyen másik következhet. Egy ítéletben előbb a technikai rész van, ezután a rendelkező rész, ezután az indokolás, majd a bírák aláírásai. Az is kötött, hogy egyáltalán milyen struktúra-elemek és milyen szófordulatok fordulhatnak elő a dokumentumban: például a másodfokú ítélet az első fokú ítéletről szól, és nem az ügyet dönti el. Bizonyos struktúra-elemek esetén behatárolt, hogy azok milyen értékeket vehetnek fel: például a másodfokú polgári ítéletek az első fokút hatályon kívül helyezhetik, megváltoztathatják, vagy helyben hagyhatják, de mást nem tehetnek vele, másféle eredményük nem lehet, ráadásul ezt mindig ugyanazzal a kifejezéssel, az ítéletnek ugyanazon a pontján teszik. A sort nagyon sokáig lehet folytatni. Úgy tűnik, hogy egy bírósági ítélet inkább adatok halmaza semmint valamiféle szabadszöveges dokumentum. Ez nagyban segíti a Big Data alapú, korpusznyelvészeti eszközökkel folytatott kutatásokat, és a különböző Big Data alapú gyakorlati alkalmazások kifejlesztését is.
A jogi Big Data kutatások ugyanis erre a jól strukturáltságra és kontrollált nyelvre építenek. Alapvetően három (jelenlegi) területet lehet megkülönböztethetni ezeknek a kutatásoknak a területén. 1. A nyelvészeti súlypontú (elsősorban inkább a nyelvészet terrénumára tartozó) kutatásokat. 2. A hagyományos dogmatikai tudomány, illetve a bírósági érvelésekben elrejtett dogmatika feltárását és kontrollját megvalósító, akár "számítógépes dogmatikának" is nevezhető kutatásokat, 3. végül azokat a kutatásokat, amelyek már - továbblépve az egyszerű leíró tudományon - a bírósági ítéletek jóslásával, azaz predikcióval is próbálkoznak. A nyelvészeti jellegű kutatások a jelen írás keretei közé nem férnének be, így itt ezeket nem ismertetem, a predikciós kutatásról pedig, mivel ez már
- 28/29 -
átvezet a jogalkalmazásban használt eszközökhöz, a következő (3.) alpontban szólok. Ebben a részben tehát a jogdogmatikai jellegű Big Data kutatásról beszélek.
A jogi Big Data kutatások egyik legfontosabb részét azok a kutatások képezik, amelyek valamilyen dogmatikai konstrukció, jogtudományi megállapítás valódi, a bírói gyakorlatban, a valóságos szövegekben történő előfordulását vizsgálják.
Ez a vizsgálat többféleképpen is történhet. A legegyszerűbb az, amikor bizonyos szavak, kifejezések, vagy épp valamilyen jogi instrumentumra történő hivatkozások előfordulásait nézzük meg.
Erre példaként egy korábban Lőrincz Viktor kollégámmal közösen lefolytatott kutatást említek meg. Ez annak próbált utánamenni, hogy a rendesbíróságok milyen gyakran idézik az Alaptörvény szövegét, mely szövegrészeket, (milyen szakaszokat), milyen ügytípusokban és milyen területi eloszlásban. A módszer az volt, hogy egy kereskedelmi célú jogi adatbázis forgalmazóját kerestük meg, aki egy olyan Excel táblázatot készített számunkra, amelyben azon rendesbírósági ítéletek voltak megtalálhatók, amelyekben hivatkozások voltak, az Alaptörvényre és/vagy az Ab határozataira. A táblázat tartalmazta az adott ítélet metaadatait is. (Eljáró bíróság, az ügy tárgya, a döntés meghozatalának éve, stb.) Ez a kutatás pontos képet festett nemcsak a rendesbíróságok Alaptörvény és Ab határozat "használatáról", hanem bizonyos mértékig a jogi kultúránk alkotmány(jog) hoz való viszonyáról is. Például kiderült, hogy "a legnépszerűbb Alaptörvényhelyek a bírói gyakorlatban a 28. cikk, (483 idézés), (az objektív teleologikus értelmezés szabálya) a IX. cikk (385 idézés) (a szólásszabadság-cikk), és a XXVIII. cikk (259 idézéssel) (a tisztességes eljáráshoz való jog)."[15] De kiderült az is, hogy a rendesbíróságok hivatkozásai a hálózatkutatásból régebb óta ismert, és számtalan más helyen is, (pl. a tudományos művek idézési mintázatából) is ismert eloszlási mintázatot mutatják.[16]
Ennél jóval komplikáltabb, és nemcsak jól felismerhető, adat-szerű paraméterek összeszámolására, hanem komolyabb szövegelemzésre, és főként az érveléseknek a perek kimenetelével való összefüggése vizsgálatára is tekintettel volt Macey és Mitts[17] kutatása. A két szerző a corporate veil piercing (a korlátozott felelősség áttörése a társasági jogban) amerikai bírói gyakorlatát vizsgálta meg egy 9380 ítéletből álló mintán. A módszertanuk a következő volt: először is az ítéleteket egy kisebb mintán három csoportba sorolták: olyanokra, amelyeknek a végeredménye a korlátolt felelősség áttörése volt, olyanokra, amelyekben a felelősséget a bíróság nem törte át, és olyanokra, amelyekben ugyan szerepeltek ezek a kifejezések, de az ügyek valójában nem a felelősség-áttörésről szóltak.
- 29/30 -
Ezután az ún. szózsák modellt (azaz bizonyos szavak és kifejezések együtt előfordulásának vizsgálatát) alkalmazva és erre előrejelzőként a naive Bayes algoritmust használva automatikusan besorolták a nagyobb minta ítéleteit is a három kategóriába. Így lett egy teljes, az ítéletek végeredményét (áttörte/nem törte át a felelősséget/irreleváns) tartalmazó halmazuk.
A következő körben regresszióanalízist[18] végeztek a két első halmazra, (összesen 5475 ítéletre) mégpedig 7435 szópár vonatkozásában. Azaz kiszámították, hogy mely szópárok gyakorolják a legnagyobb hatást a végeredményre, azaz melyeknek a legerősebb az összefüggése, (korrelációja) a végeredménnyel. A megkapott eredményt pedig a felelősségáttörés dogmatikai irodalmában található megállapításokkal vetették össze. Igen érdekes, és tanulságos következtetése a cikknek az, hogy az elméletben gyakran emlegetett alultőkésítettség, mint ok lényegében nem szerepel az érvek között.
A korábban már emlegetett Frank Fagan nagyon hasonló kutatást végzett a társasági jogutódlás során alkalmazott felelősség (successor liability) kérdéskörében. A kiinduló probléma is hasonló volt a felelősségáttörés problémájához: mind a bírósági gyakorlat, mind pedig a jogtudomány, (a dogmatikai tudomány, a "doctrine") bizonytalannak tűnt a jogintézmény, a felelősségi konstrukció alkalmazását illetően. Ebben az esetben a kutató előtt két út áll: vagy nekiáll elolvasni sok ezer ítéletet, és ezeket megpróbálni csoportokba rendezni, vagy számítógépes szövegelemzést végez. Utóbbinak, mondja Fagan nemcsak az az előnye, hogy időt lehet vele spórolni, hanem az óhatatlan szubjektivitást is ki tudja küszöbölni: hiszen az ember már valamilyen elméleti, módszertani, vagy doktrinális szemüvegen keresztül olvassa az ítéleteket.[19] Az elemzés ennél a kutatásnál három lépcsőben történt, a már tisztított adatbázison: előbb emberi kódolással tanítóadatot hoztak létre, majd a teljes mintát bekódolták gépileg az eredmények (a perek kimenetele) szempontjából, majd - eltérően a Macey és Mitts által lefolytatott gépi kutatástól, itt ún. topik modellezést hajtottak végre a bekategorizált ítélethalmazon. Ennek leegyszerűsítve az a lényege, hogy a gép kiválogatja a leggyakrabban együtt-előforduló szavakat, (még pontosabban ennél a kutatásnál kettős szavakat, ún. bi-gramokat, - pl. "unjust enrichment", összesen 17 500 darabot) és ez alapján besorolja a dokumentumokat a kutatás vezetője által megadott számú csoportba. Természetesen egy dokumentum soha nem fog kizárólag egy topikba tartozni, mindig csak %-os arányokról beszélhetünk. Világos, hogy ennek a módszernek az az előnye, hogy nincsen semmiféle előzetes szemüveg, kategóriarendszer, már a dokumentumok csoportosítása is a gépre van bízva. Ezután az egyes topikokon belül - hasonlóan az előző kutatáshoz - megnézték, hogy az egyes topikokban mely bi-gramok jelzik a legjobban előre az eredményt, a per kimenetelét. Ez alapján a szerző a bevett tudományos felosztás, (felelősség megállapítást eredményező okok) helyett egy új, már az adatokon nyugvó felosztást javasolt.
- 30/31 -
A tudományos célok mellett a Big Data alapuló módszertant, a számítógépes nyelvészet eredményeit és a korpusznyelvészet felismeréseit ma már nemcsak a tudomány, hanem részben piaci alapú szolgáltatások, és szoftverek is használják, részben pedig a törvényszéki nyelvészet (forensic linguistics) eszköztárába is bekerültek. Némelyek igen lelkesek ezekkel az új módszerekkel kapcsolatban, és a jelenlegitől radikálisan különböző jogrendszert vizionálnak.[20] Ebben az alfejezetben először egy olyan kutatással ismerkedünk meg, amely megkísérelte előre jelezni egy speciális területen a bírói ítéleteket, a második részben néhány gyakorlati, piaci alkalmazást ismerkedünk meg, a harmadik részben pedig néhány Big Data módszertan használó perbeli, törvényszéki alkalmazást villantok fel.
Elsőként egy olyan kutatást ismertetek röviden, amelynek kifejezetten az volt a célja, hogy olyan modellt állítson fel, amelynek segítségével az Emberi Jogok Európai Bíróságának ítéletei jó arányban előrejelezhetők.[21] Ez a kutatás alapgondolatát tekintve nem tért el a korábban említett két kutatástól, amennyiben szavak együtt előfordulásaiból igyekezett következtetést levonni, és a topikmodellezést is felhasználta, azonban a részleteket illetően a szerzők több ponton is komolyan továbbfejlesztették a fentebb található modelleket.
Egyrészt ebben a kutatásban nem a szakirodalomból ismert elméletek és csoportosítások kontrollja volt a cél, hanem kifejezetten előrejelzés, predikció adása. Így a kutatást inkább lehetne kísérletnek, mint empirikus kutatásnak nevezni. Másrészt a kutatásban az ítélet szövegét nem bi-gramokra, hanem n-gramokra, azaz nagyobb szócsoportokra osztották, amely pontosabb elemzést tesz lehetővé. Harmadrészt a kutatásban nem a szöveg egészét, hanem a szöveg egyes elemeinek a hatását is vizsgálták a kimenetelre vonatkozóan: azaz azt is mérték, hogy az ítélet mely részei jelzik a legjobban előre a végeredményt. És végül, de nem utolsó sorban a kutatás módszertana bonyolultabb volt, mint a két előbb említetté, mert az eszköztárba bevonták az ún. szupport vektor gép (support vector machine, SVM) módszertant is, amelynek az a lényege, hogy az n-gramokból egy n-dimenziós térben vektorokat képeztek, és a csoportosításhoz ezeknek a vektoroknak a koszinusz távolságát vették alapul.
A kutatásnak több meglepő, és több kevésbé meglepő következtetése volt. A meglepő, hogy az ítéletek szövegéből csaknem 80%-ban ki lehet következtetni a végeredményt. A kevésbé meglepő, hogy az ítéleteknek bizonyos részei jobban előre jelzik a végeredményt mint más részeik, így pl. az "eset körülményei" rész igen jó előre jelző erővel bír, míg más elemek nem, vagy alig bírnak ilyen erővel.
- 31/32 -
A predikció az a terület, amely a jog világát a legjobban felforgathatja. A százalékos valószínűségekben kifejezett előrejelzések a később ismertetett rendszereknek is részei. Az utolsó részben röviden reflektálok majd arra, hogy milyen következményei lehetnek annak, ha ezek a predikciós algoritmusok elterjednek.
A bírósági ítéletek és iratok elemzése, ezekből statisztikák, kimutatások készítése valószínűleg a jogászi munka egyik legunalmasabb része, pedig gyakran van rá szükség. Amikor a Big Data módszertanok ismertek lettek, az USA-ban több olyan szolgáltatás is elindult, amely a jogi forráskutatást segítő szokásos funkcióknál (keresés) többet próbáltak nyújtani. (A Lex Machina[22], Ravel[23] és a Premonition[24] a három legismertebb.)
Ez a többlet alapvetően kétféle lehet. Egyrészt, részben a már meglevő metaadatok felhasználásával, (pl. az ítéletekben található ügytípusok, és az ügyeket tárgyaló bírák, ítéletek egymásra történ hivatkozásai) mindenféle, addig nem használt statisztikákat vagy éppen vizualizációt képesek készíteni. Pl. az ügytípusok és a bírák összekombinálásából statisztika készíthető a bíró "portfóliójáról", azaz arról, hogy milyen ügyeket tárgyalt eddigi karrierje során, vagy egy jogterület bírói ítéleteinek hivatkozásaiból egy látványos hálózat rajzolható.
Másrészt, az ügyekből részben kézi, részben gépi módszerekkel olyan adatok is kinyerhetők, amelyeket az eredeti metaadatok nem tartalmaznak, és ezekből is készíthetők statisztikák. Ha mindez kiegészül egy - a fentebbi részben ismertetett - Big Data alapú gépi szövegelemzéssel, akkor ítéletek csoportjairól, vagy az eljárásban szereplő személyekről, (ügyvéd, az alperes, a felperes, a bíró) is lehet elemzést adni. Ha a szövegelemzés módszereit pedig nemcsak ítéletekre, hanem más dokumentumokra, (pl. beadványokra) is alkalmazzuk, (itt emlékeztetünk arra, hogy az USA-ban ezek is hozzáférhetők), akkor pl. egy ügyvédről még részletesebb és mélyebb profil készíthető.
A Big Data módszertanok másik gyakorlati felhasználási területe a nagyméretű (céges, szervezeti) jogi dokumentumhalmazok gépi, automatizált átkutatása, elemzése. Két tipikus oka van, hogy ilyenre kényszerülhet egy cég, szervezet, vagy annak jogi csapata: vagy mert pereskedni kényszerül, és kénytelen elektronikus dokumentum-feltárást végezni, (ez az ún. eDiscovery szoftverek világa), vagy egy cégfelvásárlás kapcsán kell a jogi dokumentumok teljes körű átvizsgálását elvégeznie. (Ezek az ún. legal due diligence szoftverek). Mindkét esetben dokumentumok százezreit kell átnézni, és adott esetben nemcsak tematikailag kiválogatni belőle egyes dokumentumokat, hanem pl. a due diligence esetén az is kérdés, hogy milyen szerződések térnek el a megszokott mintáktól, (pl. tartalmaznak másfajta felelősségi, vagy felmondási rendelkezést).
- 32/33 -
Mindkét terület esetén igaz, hogy szoftverek tucatjai állnak már rendelkezésre.[25] Ezek logikája általában hasonló, a korábban megismertekhez. Gépi tanulási fázis után képesek az automatikus klasszifikációra, dokumentum-kiválasztásra, vagy statisztikák készítésére. Mivel ezek kereskedelmi, üzleti célokat szolgálnak, további jellemzőjük, hogy igencsak borsos áruk van, cserébe viszont teljes körű támogatással rendelkeznek és széles körű lehetőségekkel, hogy egy cég, vagy iroda többi szoftveréhez integrálhatók, kapcsolhatók legyenek.
A Big Data módszertanok gyakorlati alkalmazásának másik ága a pereskedés során, a jogi eljárásokban alkalmazott Big Data alapú felhasználások. Ezek közül csak hármat említek meg, a szerzőazonosítást a plágiumellenőrzést és a "hétköznapi jelentés", azaz a nyelvhasználati módok bizonyítását.
A szerzőazonosítás, azaz ismeretlen eredetű szöveges üzenetek szerzőhöz kötése, mint nyelvész-szakértői tevékenység korábban is létezett, de a fentebb említett korpusznyelvészeti módszerekkel, különösen, ha azoktól a személyektől, akikre vonatkozóan szeretnénk a vizsgálatot lefolytatni kellő mennyiségű szöveg áll rendelkezésre, nagyon nagy bizonyossággal beazonosítható egy szöveg szerzője. Ennek alapja egyrészt az a tény, hogy az emberek nyelvhasználata hasonlóan egyedi, mint az ujjlenyomatuk, vagy a DNS-ük, és ráadásul hosszabb távon, nagyobb szövegkorpuszokban szinte lehetetlen eltérni tőle, mert a spontán nyelvhasználati mintázatok visszatérnek. Ugyanakkor van, hogy egészen kevés szöveg is elegendő nagy bizonyosságú kijelentések megtételéhez.[26]
A plágiumellenőrzés szintén az igazságügyi korpusznyelvészet egy új ága. Itt a szöveg eredetisége a kérdés, illetve az, hogy mekkora százalékban tartalmaz hivatkozás nélküli átvételeket más szövegekből. A hasonlítás történhet saját korpuszokkal, (pl. egy egyetem a korábbi szakdolgozatainak korpuszával vetheti egybe a szöveget), és/vagy a teljes internettel, mint korpusszal. A módszer a föntebbiekben megismertekből azt veszi át, hogy nem feltétlenül teljes szövegblokkokat, hanem általában 6-8 szavas szócsoportok előfordulását vizsgálja, és képes az átfogalmazásokat is valamilyen szintig kezelni.[27]
Végül egy igen érdekes új ágát említem meg a Big Data alapú, korpusznyelvészeti felhasználásoknak a jogban, amelynek tudományos és törvényszéki felhasználása is lehetséges. Igen gyakran előfordul, hogy egy szó "hétköznapi", esetleg egy bizonyos korszakban használt jelentését kell rekonstruálni, azaz a valódi, mindennapi nyelvhasználatot.[28] Ezt a feladatot is teljesen új dimenzióba helyezte az internet és a korpusznyelvészet, hiszen
- 33/34 -
lehetővé tette, hogy ne csak néhány, reprezentatív, vagy önkényesen kiválasztott dokumentum, hanem dokumentumok, és így használati példák százai, ezrei alapján lehessen, ráadásul a korábban megismert matematikai módszerekkel, pl. a SVM segítségével, a konkrét szó, vagy kifejezés használatát feltárni.
Ahogy arról fentebb már többször szó volt a Big Data-hoz nagyon nagy reményeket fűztek a 2010-es évek elején,[29] de mint minden hirtelen divatba jött jelenség esetén már most hallhatók szkeptikus hangok. A Big Data a tökéletesen kiszámítható, adat-alapú jog, és a tökéletesen objektív, szinte természettudományos jogtudomány ígéretét hordozza, hiszen látszólag nincsen szükség elméletekre, modellekre, hipotézisekre: a matematika, a számok objektív képet adnak, ezen felül az adatok igen pontos előrejelzéseket, sőt a jog "személyre szabását" is lehetővé teszik, hiszen az egyén pl. úgy tud szerződést összeállítani, hogy korábbi viselkedési mintázatait, szokásait, azaz teljes személyiség-profilját is figyelembe veheti.
Csakhogy, mondja pl. Devins et al.[30] ez három ok miatt sem valósulhat meg. Egyrészt, a jogi szövegek mögött mindig van egy elmélet, azok elmélettel terheltek, ("theory-laden") egyszerűen nincsen olyan, hogy elméletmentes vizsgálat, vagy szövegek elméletmentes elemzése. Amikor Big Data elemzésekre kerül sor, akkor is elméletek húzódnak meg a háttérben, legfeljebb kevésbé látványosan. A Big Data sem objektív. A második ok, hogy a jog, mint a nyelven keresztül működő szabályozó eszköz részben metaforákon, részben pedig a wittgensteini értelemben vett nyelvjátékokon keresztül érvényesül. Ennek a nyelvjátéknak része például az a gyakorlat, hogy amikor a bírák jogfejlesztést végeznek, olyan eseteket sorolnak analógiásan egy csoportba, amelyek "adatalapon", azaz az addigi gyakorlat alapján nem képeznének egy csoportot: a hallgatólagos jogfejlesztés, amely a bírói jog fontos sajátja, gyakran tudatos nyelvhasználati, jelentésbeli módosításokon, "trükközésen" keresztül zajlik. Korlátot jelent az is, hogy mivel a jog metafora, az adat pedig sűrítés, leegyszerűsítés, akkor ez a sűrítés lényegi információk elvesztésével járhat.
Végül a Big Data azon jellegzetessége, hogy nem kauzális, hanem statisztikai összefüggésekkel operál, teljesen idegen a jogtól, ahol pl. a felelősség konstrukciójának igen fontos része a kauzalitás. Ez a kauzalitás ugyanakkor ellentmondásos, hiszen az egyedi ítéletek szintjén viszont nem érvényesül, azaz a Big Data prediktív ereje a konkrét ítéletekre vonatkozóan egyszerűen illuzórikus a jog világában: a jog lényegében sztochasztikus
- 34/35 -
rendszer, ahol az egyes "molekulák", a jogi aktorok mozgását, (és ennek nyomán az egyes ítéletek kimenetelét) nem lehet megjósolni.
Ezek a kételyek megalapozottak. De ezek nagyobbrészt a Big Data jogalkalmazásban játszott szerepére, és különösképp a jósló erejére vonatkoznak. De a legtöbb Big Data kutató soha nem mondta azt, hogy normatív kérdéseket meg lehetne oldani adat-alapon, vagy hogy az egyedi, konkrét ügyben lehetne 100%-os előrejelzést mondani. Épp ellenkezőleg. Dyevre és szerzőtársai nemrég az alkotmányjogi adat-alapú kutatásokkal kapcsolatban is megerősítették ugyanezt.[31] Ugyanakkor múltbeli tendenciák feltárásához, a dogmatikai tudomány kontrolljához, meggyőző érvek szállításához, azaz a hagyományos jogtudomány kiegészítéséhez, valamint a jogalkalmazásban úgyszintén egy bíró profiljának a felrajzolásához, egy ügycsoport jellegzetességeinek, az ítéletekben található érvelési mintázatoknak stb. a feltárásához a Big Data módszerek nagyon is alkalmasak, és ezt az egyre terebélyesedő szakirodalom is szépen bizonyítja.
A Big Data egyik legfőbb előnye, hogy a statisztikai bázisú mesterséges intelligenciák építőköve lehet. Az ebben rejlő veszélyekre már egyre többen felhívják a figyelmet. Az Európa Tanács igazságszolgáltatás hatékonyságának értékelésével foglalkozó bizottság egy mérföldkőnek számító jelentést tett közzé 2018 decemberében, Európai Etikai Karta a Mesterséges Intelligencia Használatáról a Jogi Rendszerekben és Környezetükben címmel.[32] A dokumentum amellett, hogy öt etikai elvet fogalmaz meg a mesterséges intelligencia jogi felhasználásával kapcsolatban részletesen számba veszi azokat a szolgáltatásokat, amelyek ilyen aggályokat vethetnek fel, (és ezek közt gyakran emlegeti a fentebb idézett amerikai cégeket), valamint ajánlásokat tartalmaz a konkrét intézkedésekre is.
Az öt etikai elv, amelyet az anyag betartani javasol az alábbi:
a) Az MI rendszerek tervezése és használata során is be kell tartani az emberi jogokat.
b) Ezen belül különösen ügyelni kell arra, hogy a rendszerek semmilyen indokolatlan diszkriminációt ne alkalmazzanak.
c) Az MI rendszereknek csak ellenőrzött adatokkal és többszörösen ellenőrzött módszertannal lehet dolgozni.
d) Az adatfeldolgozásnak (MI alapú döntésnek) transzparensnek, érthetőnek kell lennie, és javasolt külső auditorok jóváhagyásának beiktatása.
e) A felhasználókat mindig tájékoztatni kell az MI rendszer jelenlétről, és kerülni kell az előíró, (szabályalkotó) MI-t, azaz hagyni kell, hogy a felhasználók a saját választásaikat követhessék.
- 35/36 -
Az anyag hangsúlyozza, hogy az MI-nek nagyon jótékony hatása lehet az igazságszolgáltatásban, hiszen a bírói gyakorlat egységesítésének irányába hathat, a kisebb ügyek esetén egy online platformmal kiegészülve jelenthet egyfajta automatizált "első fokot', a mérlegelési jellegű, de mennyiségi paramétereket figyelembe vevő ítélkezésnél, (pl. sérelemdíjak) kifejezetten segítheti az ítélkezést a nagy mennyiségű adatot végigpásztázó, elemző MI. Ugyanakkor nagy a veszélye annak is, hogy a technika a fejünkre nő, és pl. olyan esetek fordulnak elő, mint amilyen a Loomis ügyben történt az USA-ban.[33] Ebben az esetben egy belső, bírósági programot használt a bíró az előzetes letartóztatás feltételeinek mérlegeléséhez, és a program a fogvatartást javasolta, amit Loomis megfellebbezett. Így derült fény arra, hogy a bíróság nagyban támaszkodik egy MI (statisztikai elemzésen alapuló, Big Data alapú) programra, amelynek a belső működését azonban a bírák maguk sem ismerik kellőképpen. ■
JEGYZETEK
[1] Egyetemi docens, BCE, tudományos munkatárs MTA TK Jogtudományi Intézet
[2] "Platformtársadalom" alatt azt a jelenséget értjük, hogy az életünk egyre nagyobb részét szervezik bizonyos internetes oldalak, platformok. A nagy platformok: Google, Facebook, Amazon, Youtube. A fogalom José van Dyck-től, a Universiteit van Amsterdam kutatójától ered; lásd: José van Dyck-Thomas Poell-Martijn de Waal, De Platform savenleving, Amsterdam, 2016.
[3] Shaun Norris, How much digital data does an average digital user generate per day and per year?, Quora, 2016. november 9., http://www.quora.com/How-much-digital-data-does-an-average-digital-user-gener-ate-per-day-and-per-year# (letöltés: 2019. január 20.)
[4] Dirk Helbing-Bruno S. Frey-Gerd Gigerenzer-Ernst Hafen-Michael Hagner-Yvonne Hofstetter-Jeroen van den Hoven-Roberto V. Zicari-Andrej Zwitter, Will Democracy Survive Big Data and Artificial Intelligence?, Scientific American online kiadás, 2017. február 25., https://www.scientificamerican.com/article/will-democracy-survive-big-data-and-artificial-intelligence/ (letöltés: 2019. január 20.)
[5] Kate Crawford-Jason Schulz, Big Data and Due Process: Toward a Framework to Redress Predictive Privacy Harms, Boston College Law Review 2014, 96.
[6] Pl. Paul C. Ziopulos-Chris Eaton-Dirk deRoos-Thomas Deutsch-George Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, New York etc., 2012
[7] Cass Sunstein, Republic.com 2.0, Budapest, 2014.
[8] Eytan Adar, The Two Cultures and Big Data Research, I/S A Journal of Law and Information Society, 2015, 765-779
[9] Hanjo Hamann-Friedemann Vogel, Evidence-Based Jurisprudence Meets Legal Linguistics- Unlikely Blends Made in Germany, 2017 BYU L. Rev. 1473 - 1502; Frank Fagan, Big Data Legal Scholarship: Toward a Research Program and Practitioner's Guide, Virginia Journal of Law and Technology, 2016, 1-81
[10] Alexander Clark-Chris Fox-Shalom Lappin (szerk.), The Handbook of Computational Lingusitics and Natural Language Processing, Chichester, 2010.
[11] Szirmai Monika, Bevezetés a korpusznyelvészetbe, A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában, Budapest, 2005
[12] I.m. 38-43
[13] Duglas Biber-Randi Reppen, The Cambridge Handbook of English Corpus Linguistics, Cambridge, 2015
[14] Michael Patrick Allen, Understanding Regression Analysis, New York and London, 2015
[15] Ződi Zsolt-Lőrincz Viktor, Az Alaptörvény és az alkotmánybírósági gyakorlat megjelenése a rendes bíróságok gyakorlatában - 2012-2016, MTA Law Working Papers 2017/22., https://jog.tk.mta.hu/uploads/files/2017_22_Zodi_Lorincz.pdf (letöltés: 2019. január 20.)
[16] U.o. 37.
[17] Lonathan Macey-Joshua Mitts, Finding Order in the Morass: The Three Real Justifications for Piercing the Corporate Veil, Cornell Law Review, 2015, 99. és köv.
[18] "A regresszióanalízis olyan statisztikai eszköz, amely megkísérli előre jelezni egy változó értékeit egy, vagy több másik változó segítségével". (Michael Patrick Allen, Understanding Regression Analysis, New York and London, 2015, 3)
[19] Frank Fagan, From Policy Confusion to Doctrinal Clarity: Successor Liability from the Perspective of Big Data, Virginia Law Business Review 2015, 391-451, 404
[20] Daniel M. Katz, Quantitative Legal Prediction-or-How I Learned to Stop Worrying and Start Preparing for the Data-Driven Future of the Legal Services Industry, Emory Law Journal, 2013, 909 és köv., 914-15
[21] Aletras N,-Tsarapatsanis D,-Preo(iuc-Pietro D,-Lampos V., Predicting judicial decisions of the European Court of Human Rights: a Natural Language Processing perspective. PeerJ Computer Science 2:e93 https://doi.org/10.7717/peerj-cs.93 (letöltés: 2019. január 20.)
[22] Lex Machina - https://lexmachina.com/ (letöltés: 2019. január 20.)
[23] Ravel - https://home.ravellaw.com/ (letöltés: 2019. január 20.)
[24] Premonition - https://premonition.ai/ (letöltés: 2019. január 20.)
[25] Capterra Data Discovery Software 2019 - https://www.capterra.com/data-discovery-software/ (letöltés: 2019. január 20.); Capterra Virtual Data Rooms Software 2019 - https://www.capterra.com/virtual-data-room-software/ (letöltés: 2019. január 20.)
[26] Krzysztof Kredens-Malcolm Coulthard, Corpus Linguistics in Authorship Identification In: PeterM. Tiers-ma, Lawrence M. Solan, (szerk.) The Oxford Handbook of language and Law, Oxford, 2012, 504-516., 508
[27] David Woolls. Detecting Plagiarism In: Tiersma-Solan 517-529
[28] Ld. pl. Neal Goldfarb, A Lawyer's Introduction to Meaning in the Framework of Corpus Linguistics, 2017 Brigham Young University Law Review 2017, 1359
[29] Daniel M. Katz, Quantitative Legal Prediction-or-How I Learned to Stop Worrying and Start Preparing for the Data-Driven Future of the Legal Services Industry, 62 Emory Law Journal, 2013, 914-15, 909
[30] Caryn Devins-Teppo Felin-Stuart Kauffman-Roger Koppl, The Law and Big Data, Cornell Journal of Law and Public Policy, 2017, 357-413
[31] Arthur Dyevre, András Jakab, Giulio Itzcovich, Iudex calculat: Why Constitutional Scholars Should Surmount their Allergy to Numbers, Verfassungsblog 2019. https://verfassungsblog.de/iudex-calculat-why-constitutional-scholars-should-surmount-their-allergy-to-numbers/ (letöltés: 2019. Január 20.)
[32] Francesco Contini-Francesco De Santis-Jean Lassègue-Dory Reiling-Aleą Zavrąnik, European Ethical Charter on the Use of Artificial Intelligence in Judicial Systems and their environment adopted by the CEPEJ during its 31st Plenary meeting, Strasbourg, 2019), CEPEJ(2019)14, http://rm.coe.int/ethical-charter-en-for-publication-4-december-2019/16808f699c (letöltés: 2019. január 20.)
[33] Loomis v Wisconsin, www.scotusblog.com/case-files/cases/loomis-v-wisconsin/ (letöltés: 2019. január 20.)
Lábjegyzetek:
[1] A szerző egyetemi docens, BCE, tudományos munkatárs, MTA TK Jogtudományi Intézet.
Visszaugrás