Ződi Zsolt: A Google, a jogi adatbázisok és a szöveg számítógépes uralásának három módja (IJ, 2011/5. (46.), 175-178. o.)

Keresés a Google előtt

A Google az internetes keresés világában olyan drámai javulást hozott, amelyet túlzás nélkül hasonlíthatunk ahhoz, amit a gőzgép feltalálása jelentett a közlekedésben. Módszere mégsem előzmények nélküli, és a jogi adatbázisok illetve a jogesetgyűjtemények elektronikus szövegkezelési módszereiből is sok mindent átvett. Nagyméretű szöveges számítógépes adatbázisok, sőt vonalon keresztül, (on-line), távolról elérhető jogi adathalmazok ugyanis már a hatvanas, hetvenes évek óta léteznek, és ezekben is lehetséges volt az ún. szabadszöveges keresés.

Az internet megszületése után azonban hamar kiderült, hogy az itt használt módszerek nem alkalmazhatóak erre a világra. Tanulmányomban igyekszem bemutatni, hogy a Google attól sokkal jobb mint a többi kereső, mert a szövegek kontrollálását lehetővé tevő, és a jogi szövegek manipulálásának területén már régebben létező háromféle módszert, és egyben hagyományt egyesít. Szövegeket megérteni és értelmezni, tágabb összefüggésekben megragadni csak az ember képes. Mégis, a Google azzal, hogy a hagyományos metaszövegek, a jog világban megjelent, majd a tudomány-metriában sikert aratott ún. hivatkozás-tárak, és a ’60-as évek számítástechnikája által kifejlesztett teljes szövegű gépi indexek módszereit egyszerre alkalmazza, egyre jobban imitálja az emberi megértést.

A múlt század elejének Amerikájában, amikor a publikált jogesetek mennyisége elérte majd meghaladta a milliós nagyságrendet,1 egy releváns ítélet kikeresése a jogász számára igencsak komplikált feladatot jelentett. Több száz kötetre rúgó jogeset-gyűjtemények sorakoztak az ügyvédi irodák polcain, amelyeknek a puszta látványa is elborzasztó volt. A bennük történő kereséshez a jogász használhatta a többféle tárgyszójegyzéket, (jogi kifejezéseket és "természetes" kifejezéseket tartalmazóakat), a névmutatókat, amelyek az alperesek és a felperesek nevei mellett a perek szinte minden szereplőjét felölelték, valamint azt a hierarchikus, a könyvtári tizedes osztályozáshoz hasonló fát (a Key Number System-et), amelyet West kiadó talált ki még a tízes években.2 Ha ezek segítségével aztán sikerült valamilyen támpontot, egy árva kis ítéletet előbányászni, akkor egyfelől az ebben található hivatkozások mentén, másfelől az ún. citator-okban, (hivatkozás-tárakban) utánanézhetett annak, hogy az adott ítéletnek mi volt az utóélete. Ezzel az ítélet "fontosságát", vagy ahogy a jogászok hívták "autoritását" ellenőrizhette le. A citatorok a 19. század közepe óta voltak használatban Amerikában, és táblázatos formában tartalmazták nemcsak azt, hogy hol, milyen gyűjteményben, folyóiratban, könyvben, hanem azt is hogy milyen összefüggésben (semleges, egyetértő, negatív stb. kontextus) emlegetik az adott bírói határozatot. Ezek közül a leghíresebb az 1875-től Frank Shepard által megjelentetett Shepard Citator volt.3

Amikor aztán a számítógép (amit a kor amerikai népszerűsítő kisfilmjeiben gyakorta neveznek "elektronikus agynak") az ötvenes években megjelenik, majd kicsit később szélesebb körben hozzáférhetővé válik, az Amerikai Ügyvédi Kamara, (American Bar Association, ABA) szinte azonnal felállít egy bizottságot hogy vizsgálja meg annak lehetőségét, hogyan lehetne az új géppel az irdatlan mennyiségű jogi szövegben történő keresést könnyebbé tenni.

Ez a bizottság egy lapot indított,4 amelyben aztán a hatvanas évek közepéig sorra jelentek meg az USA különböző pontjain zajló - nem feltétlenül mindig jogi - gépi szöveg-feldolgozási kezdeményezések ismertetései. Az egyik lapszámban például a légierő egyik tisztje ismerteti a LITE projektet, amely a katonai repülőgépekhez tartozó dokumentáció feldolgozására indítottak, és amely a keresést ún. teljes szövegű, gépi indexszel oldja meg. Ennek lényege, hogy a gép - eltérően az addig szokásos kézi módszerektől, amelyek a szövegben előforduló fontos kifejezések helyét veszi leltárba - minden szó minden előfordulási helyéről készít egy hatalmas táblázatot. A keresőkérdésre ezután ebben a táblázatban keresi ki az adott kifejezést, és megmondja, hogy az mely dokumentum melyik helyén van, majd, ha kell, elő is veszi, meg is mutatja az adott dokumentumot. A jogászok eleinte berzenkednek ettől a módszertől. Azzal érvelnek, hogy az efféle buta, mechanikus leltár nem tükrözi a szavak igazi értelmét, így a jogeseteken belüli kontextusuk, szerepük és fontosságuk sem látható. Ha az "autó" szóra keresünk, akkor a gép pontosan ugyanezt a mintázatot fogja keresni, és nem lesz képes a Ford, vagy a Buick szavakat kiadni. Ha meg a Ford szót ütjük be meg fogja találni az összes ilyen nevű embert is. És ha valaki a trust (kb. alapítvány) jogintézményére kíváncsi, akkor a rendszer a "bizalom" jelentésű karaktermintázatot is rendre megjeleníti majd. Ezért a lapban eleinte a többségi vélemény az, hogy a számítógép csakis úgy lehet segítségére az embernek, hogy a már létező, és az emberi megértésen, szövegsűrítésen alapuló indexeket (pl. a Key Number System-et) dolgozzák fel a segítségével.

Ezzel azonban csaknem egy időben egy bizonyos Horty nevű jogászprofesszor azt a feladatot kapja a University of Pittsburgh-ön, hogy keresse ki a az összes pennsylvaniai jogszabályból a "retardált gyermek" kifejezést, mert azt a jogalkotó valamilyen kevésbé stigmatizálóra5 kívánja cserélni. A professzor többszöri kudarc után a számítógéphez fordul segítségért: begépelteti az összes szóba jöhető jogszabály szövegét, és leindexeli géppel; pont úgy, ahogy a katonák a repülőgépek műszaki dokumentációjával tették. Célja az, hogy később majd ezt az adatbázist más hasonló problémák megoldásához is lehessen használni. Meglepetést okoz, hogy a jogászok - tudomást szerezve az adatbázisról - elkezdenek hozzá fordulni különböző kérésekkel. Emiatt aztán egyre több szöveg kerül a rendszerbe, és egy idő után az egészet üzleti alapokra helyezik. A dolog remekül működik: kiderül, hogy a buta és mechanikus teljes szövegű gépi index igenis jól használható - minden hibája ellenére. Aztán amikor néhány év múlva az ohio-i ügyvédi kamara is elindít egy esetjogi adatbázis-építési projektet, Horty professzor módszerét veszi alapul. A rendszert már eleve olyanra tervezik, hogy a jogász közvetlenül is tudjon a központi géppel, telefonvonalon keresztül érintkezni, és szavakat a teljes szövegű indexben keresni. (A Horty-féle rendszerben a kérdéseket még szabadszövegesen adták be, papíron, amelyet egy erre kiképzett ember "fordított le" a gép nyelvére.6) Kiderül, hogy az emberek által készített indexek és szöveg-sűrítmények lehet, hogy okosabbak a gépinél, és a teljes szövegű, mechanikus szótár használatával sok a meddő, használhatatlan találat, de ezeket a szakember könnyedén képes kezelni. Hiszen a jogásznak van egy szakmai előismeret-halmaza, amellyel egyfelől jól tudja a keresőkérdéseket finomítani, másrészt a találatok közül - ugyanezzel a szakmai tudással - könnyen ki tudja válogatni a jókat, a relevánsakat. És aztán még mindig ott vannak a hivatkozás-tárak is, amelyek végső soron az esetek súlyát, fontosságát, autoritását megmutatják. A kézzel készített tárgyszavaknál ugyanakkor ez a módszer annyiban jobb, hogy az előbbiek esetén az ember hibázhat: rossz helyre sorolhatja az ítéletet. De még ha nem is téved: sokszor nem veszi észre, vagy nem tartja lényegesnek egy ítélet bizonyos aspektusait, s ez esetben ebből a szemszögből az ítélet láthatósága elvész.

A teljes tartalom megtekintéséhez jogosultság szükséges.

A Jogkódex-előfizetéséhez tartozó felhasználónévvel és jelszóval is be tud jelentkezni.

Az ORAC Kiadó előfizetéses folyóiratainak „valós idejű” (a nyomtatott lapszámok megjelenésével egyidejű) eléréséhez kérjen ajánlatot a Szakcikk Adatbázis Plusz-ra!

Ződi Zsolt: A Google, a jogi adatbázisok és a szöveg számítógépes uralásának három módja (IJ, 2011/5. (46.), 175-178. o.)

Keresés a Google előtt

Tartalomjegyzék

Kiadó

Tematikus oldalaink

Jogterületek

Képzések

Folyóiratok

Kapcsos nagykommentárok

Jogkódex

Újdonságok

Akciós termékek

Books in Foreign Languages

ELTE könyvek

NMHH könyvek

Kiadói hírek

Tallózó

Vásárlás