Megrendelés

Zöldné Roska Marietta[1]: Elektronikus dokumentumok archiválása (IJ, 2005/1., (5.), 19-24. o.)

Bevezetés

Az elektronikus dokumentumok számának exponenciális emelkedése következtében, szerte a világon egyre növekvő igény alakul ki az elektronikus archiválás iránt mind a piaci, mind a közszolgálati területen. A dokumentumok keletkezése, aktív élete ma már számítógépen történik, nyilvánvaló, hogy hosszabban történő elektronikus tárolásuk iránt is fokozott igény mutatkozik.

A cikkben röviden bemutatjuk az archiválás fő stratégiáit, a létező archiválási modellekből, pedig az általunk legfontosabbnak tartott két modellt ismertetjük. Ahhoz, hogy az adott feladatra jól használható és az igényeket tökéletesen kielégítő rendszert tudjunk specifikálni illetve, választani, ismerni kell a modellek követelményrendszerét, valamint a vonatkozó szabványokat. Komoly kutatói közösségek nemzetközi projektek keretében dolgozzák ki az archiválási modelleket, itt az európai modellt a MoReq-et és az időközben szabványossá vált OAIS (NASA) modellt ismertetjük. A modellek specifikációjának ismertetésekor nem térünk el az adott modell által használt fogalmi rendszertől. Az általunk helyesnek tartott terminológiát az irodalomban felsorolt "Minősített elektronikus archiválás szabályozási javaslata" c. tanulmányunkban tettük közzé.

Végezetül két piacvezető cég archiválási rendszere kerül vázlatos ismertetésre, amelyek a hivatkozott modellek alapján kerültek kialakításra.

Az archiválás stratégiái

Az archiválásban jártas szakértők két lehetséges stratégiát javasolnak a hosszú távú elektronikus archiválásra. Az első módszer szerint oly módon próbálják meg garantálni az elektronikus adatok használhatóságát, hogy azok eredeti formátumban való tárolása mellett biztosítják a szükséges hardver és szoftver eszközöket a későbbi elérhetőséghez. Ezt a megközelítést általában "emulációs" technikának nevezik. Ha például egy adott szöveg valamilyen szövegszerkesztő program aktuális verziójával lett szerkesztve és archiválva egy szintén aktuális operációs rendszerrel működő környezetben, akkor a szövegszerkesztő rendszer "emulációjával" biztosítják, hogy az eredeti szöveg később is olvasható maradjon. Ehhez természetesen a hardver és szoftver eszközök teljes készletének rendelkezésre kell állnia, hogy az archívumok teljes elektronikus adatkészlete használható legyen. Archivációs intézetek kutatói kimutatták, hogy ez a stratégia nemcsak nagy erőfeszítéseket és befektetést kíván, de komoly kockázattal is jár. Ezért mások alternatív megoldást javasolnak, a hangsúlyt a "migrációra" helyezve. Ezen módszer szerint nem a dokumentum eredeti formátumban való tárolása a cél, hanem épp ellenkezőleg, az információ ismételt frissítése, új formátumban való mentése, ezáltal biztosítva a dokumentumok olvashatóságát az újabb és újabb hardver és szoftver környezetekben. Az archivációs lánc végén az eredeti dokumentum, mint olyan nem feltétlenül található meg, de az eredeti információtartalom használhatósága garantálható.

A két stratégia pártján állók között komoly viták folytak az egyes módszerek előnyeiről, de friss kutatási eredmények, például a "Cedars" és a "CAMiLEON" projektek szerint a két technika kombinálható, és a hátrányok kiküszöbölhetők. Egyik ilyen megközelítés, ha mind a bitkészletet, mind a meta-adat készletet eredeti formájában megőrizzük, ezáltal lehetővé téve a későbbi értelmezést. A kombináció segítségével remélhetőleg elkerülhetők a két különböző technika alkalmazásával fellépő bonyodalmak, úgymint az információvesztés a migráció esetén, valamint annak veszélye, hogy az emuláció során később reprodukálhatatlan lesz az eredeti környezet. A problémakör megoldása során egyre kevésbé a migráció-emuláció ellentéten van a hangsúly, hanem új, összetett, nyitott megoldások felvetésén.

A digitális aláírás technikája fontos szerepet tölt be az elektronikus dokumentumok archiválásakor. Az európai jog jelenlegi állapotában látható, hogy egyedül a digitális aláírás technológiája biztosíthat ún. "minősített" elektronikus aláírásokat. Ezen új jogi környezet eredményeképpen az archiválók egyre gyakrabban találkoznak a digitális aláírásokkal elektronikus dokumentumok részeként. Ennek a kérdéskörnek a részletes tárgyalása -terjedelme miatt - nem képezi a jelen cikk tárgyát.

Archiválási modellek

Számos archiválási projekt keretében már több mint egy évtizede különböző archiválási modellek kialakítása kezdődött meg. Mára már két jelentős modellre hivatkoznak, az egyik az Európai Bizottság által is kezdeményezett MoReq modell (Model requirements for the management of electronic records - Model követelményrendszer az elektronikus iratok kezeléséhez), a másik a NASA által kezdeményezett, és 2003 áprilisára ISO szabvánnyá vált OAIS (Open Archival Information System - Nyílt Archiválási Információs Rendszer) modell.

A MoReq modell

Az elektronikus iratkezelés módjára vonatkozó követelmény specifikációval kapcsolatos

- 19/20 -

igény először az 1996-ban a DLM (Donnéés lisibles par Machine - Számítógéppel olvasható adatok) Fórumon jelent meg, mint a Fórum 10 akció pontjának egyike. Ezt követően az Európai Bizottság Enterprise DG IDA programja indította el ezen specifikáció kidolgozását.

A munka 2000-ben indult és 2001 elején fejeződött be. A kidolgozást a Cornwell Affiliates plc. kis szakértői csoportja végzete, amely csoportot több ország, és ellenőrző szervezet (mind a magán, mind állami szektorból) szakértőiből alakult bizottság felügyelte.

A modell specifikáció célja és hatásköre

A jelen specifikáció az elektronikus iratok kezelésére vonatkozó modell követelményeket írja le, rövid neve az angol elnevezés után MoReq. A specifikáció az elektronikus iratkezelő rendszerek (ERMS - Electronic Record Management System) funkcionális követelményeivel foglakozik.

A specifikáció egyformán alkalmazható a magán és állami szektor szervezeteire, amelyek EMRS-t kívánnak bevezetni, vagy meglévő rendszert akarnak értékelni.

Miközben a specifikáció a funkcionális követelményekre koncentrál, elismeri, hogy nem funkcionális követelményeknek is van hatásuk az ERMS sikerére, hasonlóan bármilyen más informatikai rendszerhez. A nem funkcionális követelmények azonban rendkívül különbözőek a különféle környezetekben. Ennek megfelelően azonosításra kerülnek, de leírásuk vázlatos.

Más, szorosan kötődő követelmények, mint pl. a dokumentumkezelés, és a fizikai iratok (pl. papír dokumentumok, és mikrofilmek) elektronikus kezelése szintén tárgyalásra kerülnek, de kevésbé részletesen. Például a specifikációban megtalálhatók a fizikai iratok kezelésére vonatkozó követelmények, de nem tartalmazza az összes kapcsolódó funkcionalitást, amely a fizikai elhelyezkedés követésére, vonalkódokra, stb. vonatkozik.

Az olyan kapcsolódó témák, mint pl. a digitálissá alakítás, és más elektronikus irat produkáló módszer nem tartoznak a specifikáció hatáskörébe. Hasonló módon nem törekszik az implementáció módjának meghatározására.

A specifikáció megírásakor feltételezték, hogy nem csak adminisztrátorok, levéltárosok, hanem hivatalnokok, operatív személyzet is felhasználója lesz a rendszernek. Mivel a specifikáció "modell" követelményeket tartalmaz, nagymértékben általános lesz.

Nem foglalkozik platform specifikus, vagy szektor specifikus témákkal. Mivel moduláris jellegű, az egyes felhasználói közösségek hozzá illeszthetik saját funkcionalitás igényüket saját követelményeiknek megfelelően.

Az ERMS (Electronic Record Management System) definíciója

Az elektronikus iratkezelés komplex tevékenység, széles körű funkcionalitás jó implementálását követeli meg. Ezen igények teljesítéséhez speciális szoftverre van szükség. A szoftver lehet egyedi szoftver csomag, szoftver csomagok integrált rendszere, egyedi fejlesztésű szoftver, vagy ezek kombinációja, de minden esetben szükség lesz kiegészítő manuális eljárásokra, illetve kezelési irányelvekre. Az ERMS jelleg szervezetről szervezetre más lesz. A jelen specifikáció nem tételez fel semmit az egyes ERMS implementációk megoldásairól. A specifikáció alkalmazóinak egyedileg kell meghatározni, hogyan realizálják a funkcionalitást, hogy megfeleljenek a követelményeknek.

A specifikáció alkalmazható:

• Potenciális ERMS felhasználók által, tender kiírás készítésére,

• Létező rendszer auditálására, ellenőrzésére ERMS felhasználók által,

• Oktató intézmény által, képzések, oktatások referencia anyagaként,

• Akadémiai intézmények számára, tanterv forrásaként,

• ERMS szállítók, fejlesztők által segédletként, a rendszer kialakításhoz útmutatónként,

• Szolgáltatók által, a nyújtandó szolgáltatásra vonatkozó útmutatóként,

• Kiszervezett szolgáltatás felhasználói által, a szolgáltatást specifikálásához.

A specifikáció a felhasználhatóság szempontjának figyelembevételével készült, a szándék folyamatosan a gyakorlati alkalmazhatóság volt.

A specifikáció hangsúlyai és korlátai

A specifikáció a pragmatikusság, és alkalmazhatóság szem előtt tartatásával készült. Elődleges célja az, hogy gyakorlati segítséget nyújtson szervezeteknek a digitális és hagyományos iratok kezelésével kapcsolatos igények kielégítésében. A munka során a hagyományos archiválási, levéltári tudomány és dokumentum kezelés diszciplínája lett alapul véve, olyan módon értelmezve, hogy alkalmas legyen az elektronikus megoldás alkalmazására is. Így a MoReq tehát mind elektronikus, mind hagyományos iratok kezelőinek igényeit kielégítik.

A MoReq mind az elektronikus, mind a hagyományos iratok kezelőinek igényeit kielégítik.

A specifikációban foglalt követelmények megvalósításakor olyan rendszernek kell létre jönnie, amely az elektronikus iratokat a megfelelő mértékű megbízhatósággal és integritással kezeli, azáltal, hogy kombinálja a elektronikus módszerek és a hagyományos elméletek előnyeit. Ezen pragmatikus megközelítés példája a dokumentumkezelés, a munkafolyamat irányítás, a metaadat, és más kapcsolódó technológiák követelményeinek figyelembe vétele.

Amint a hatáskörben említésre került, a specifikáció a követelmények egy széles skáláját fedi le, különböző országok, különböző iparágak, különböző követelményeit. A kiterjedt hatáskör szándékos, de jelentős korlátozást is okoz, hiszen egy széles körű specifikáció nem illeszkedhet pontosan, módosítás nélkül bárhová. Az egyes országoknak saját hagyományaik, nézeteik, dokumentumkezeléssel kapcsolatos elvárásaik vannak. Egyes esetekben ezeket figyelembe kell venni a specifikáció alkalmazásakor, különösen, ha egy új rendszer meghatározásáról van szó.

Továbbá, ez a munka nem foglalkozik az iratok kezelésének gyakorlati aspektusaival. Szándékos az, hogy csak az iratok számítógépekkel való kezelésével foglakozik. A specifikáció nem foglalkozik a irat kezelés filozófiájával, archiválás elméletével, döntéshozással, a kezelés felügyeletével, stb., ezen témakörök más dokumentumokban vannak leírva, melyek egy része a MoReq 1-es függelékben található listán szerepel. Például, a specifikáció számos helyen említi, hogy bizonyos funkciók alkalmazását csak egy adminisztrátor végezheti. Ez nem azt jelenti, hogy a stratégiai döntéseket az adminisztrátornak kell meghozni, de azt viszont jelenti, hogy csak ők lehetnek azok a felhasználók, akik jogosultak ezeket a döntéseket megvalósítani az ERMS-en keresztül.

Végül, a specifikáció tudatosan felhasználó orientált, amennyire lehet, olyan terminológiát használ, amilyet az elektronikus iratok kezelésével foglalkozók használnak.

A specifikációban szereplő követelmények modellül szolgálnak. Nem tekinthetők valamennyi ERMS implementáció számára kötelező előírásként, bizonyos követelmények nem lesznek alkalmazhatók egyes környezetekben. Különböző üzleti szférák, különböző léptékek, különböző szervezeti formák, és más tényezők további specifikus követelmények bevezetését okozhatják. Tehát a specifikációt adaptálni kell alkalmazása előtt. A specifikáció úgy készült, hogy akár elektronikus, akár hagyományos formában is alkalmazható.

- 20/21 -

Az ERMS követelmények áttekintése

A cikk terjedelmi korlátai miatt nem részletezzük a specifikáció azon, egyébként fontos részeit, amelyek az osztályozási séma, az irányítás és biztonság, a megőrzés, és selejtezés, az iratok felvétele, a hivatkozások, a keresés, visszakeresés, megjelenítés, a nem funkcionális követelmények és a meta-adat követelmények témaköreit érintik. Ugyanakkor részletesen kifejtjük azokat a fogalmakat, melyek a modell működésének megértéséhez alapvetően szükségesek.

Irat, és elektronikus irat

A DLM Fórum irányelvei szerint egy iratot úgy tekintjük, mint ami a követezőkből áll:

• Tartalom,

• Struktúra,

• Környezet,

• Megjelenítés.

A tartalom egy vagy több fizikai, és/vagy elektronikus irat formájában áll rendelkezésre, melyek az irat információtartalmát hordozzák. Az iratok olyan formában vannak tárolva, hogy lehetővé tegyék a leendő felhasználók számára maguk és környezetük megértését. Ebből következik, hogy az irat az őt alkotó dokumentumok tartalmán túl információt tartalmaz a dokumentumok környezetére és struktúrájára vonatkozólag. A megjelenítés függ az iratok tartalmától, struktúrájától, és (elektronikus iratok esetében) a megjelenítő szoftvertől.

A fizikai iratok alkalmazási körében (világában) az iratok hatalmas többsége papíron létezik, és kötegeket (files) alkot, fizikailag köteteket tartalmaz, melyek irattartókban találhatók. Eljárási szabályok alkalmazása szükséges ahhoz, hogy a felhasználók ne változtathassák meg az iratok tartalmát, vagy helyzetét egy kötegen belül.

Hasonló koncepciók érvényesek az elektronikus iratok esetében is. Az irat egy vagy több elektronikus dokumentumot tartalmaz. Ezek a dokumentumok lehetnek szöveg-feldolgozási dokumentumok, elektronikus levelek (e-mail), táblázatok, mozgó, vagy állóképek, vagy bármilyen más típusú elektronikus objektumok. A dokumentumok akkor válnak irattá, amikor felvételre kerülnek egy ERMS rendszerbe. Felvételkor az iratok osztályozásra kerülnek, tehát az osztályozási séma szerint kódok rendelődnek hozzájuk, melyek mutatják, hogy milyen osztályhoz tartoznak, ezzel téve lehetővé az ERMS általi kezelhetőségüket.

Elektronikus állomány és kötet

A papír iratok papír kötegekben (file) kerülnek tárolásra, mégpedig papír irattartókban (dosszié). A papír kötegekből struktúrát, vagy más néven osztályozási sémát állítanak össze.

Egy ERMS-ben az elektronikus iratok úgy kezelhetők mintha elektronikus kötegekbe (file) lennének gyűjtve, és elektronikus iratgyűjtőkben (dosszié) lennének tárolva. Szigorúan véve az elektronikus kötegeknek (file) és iratgyűjtőknek nem kell a valóságban létezni, képzetesek, abban az értelemben, hogy nem tartalmaznak semmit, a valóságban az iratok metaadat attribútumait tartalmazzák. Továbbá sok esetben az elektronikus rendszerben nem szükséges megkülönböztetni a köteget (file) és az irattartót (dosszié). Azonban ezek a részletek általában nem láthatók az ERMS felhasználói számára. Az ERMS rendszer lehetővé teszi felhasználói számára, hogy úgy tekintsék és kezeljék az iratgyűjtőket, mintha valóban fizikailag tartalmaznák a hozzájuk rendelt dokumentumokat. Ezt a felhasználó centrikus szempontot követi a tárgyalt specifikáció. Ennek megfelelően a specifikáció azt írja le, hogy az elektronikus kötegek (files) iratokat tartalmaznak, az egyszerű érthetőség kedvéért. Megjegyzendő azonban, hogy amíg ez a specifikáció az elektronikus kötegek (file) kezelésével kapcsolatos funkcionális követelményeket írja le, nem írja elő annak módját, ahogy ezeket implementálni kell.

Bizonyos esetekben a kötegek (file) mechanikusan kötetekre bomlanak, előre meghatározott konvenció szerint. A mechanikus kifejezés az jelenti, hogy a kötetekre bontás nem az intellektuális tartalom, hanem csupán méret, iratok száma, vagy időtartományok szerint történik. Ez a gyakorlat a papír alapú dokumentumok kezeléséből származik, mégpedig a kezelhető méret, és súly biztosítása érdekében. Ezt a gyakorlatot természetesen az elektronikus iratok esetében is folytatni lehet, az értékelés, átvitel, vagy egyéb kezelési szempontból érdekes méret miatt.

Amíg a kötegek (file) és a kötegek kötetei közötti megkülönböztetés tiszta, a következmények nem azok. Ez azért van, mert a következmények függenek az aktuális implementációs megfontolásoktól. A lehetséges változatok az alábbiak:

• bizonyos kötegek (file) korlátos időn belül lezárásra kerülnek, és ennek megfelelően a kezelésükre szolgáló egységek is (még ha a köteg számos kötet tartalmaz is). Példa erre a egy kis méretű beszerzés kötege, vagy egyetlen projekt kötege,

• bizonyos kötegeknek (file) az élettartama korlátlan, és így a kezelés egysége célszerűen a kötet. Például az egy földrajzi területre vonatkozó iratok összessége, vagy olyan köteg (file) amelyik időre nem érzékeny információkat tartalmaz, vagy számlákat tartalmazó köteg, amelyben minden évben új kötet kerül megnyitásra.

Osztályozási séma

A iratok kezelése a kötegeket (file) strukturált módon állítja össze, és a helyes gyakorlatból az következik, hogy ezek szerkezete feleljen meg az üzleti tevékenységnek. Az összeállítás megjelenítését osztályozási sémának nevezzük. Az osztályozási séma általában egy hierarchiát képez, annak ellenére, hogy van, amikor thesaurus támogatja és egyáltalán nincs benne hierarchia. A specifikáció további része a hierarchikus nézetre koncentrál.

Hasonlóan ahhoz, hogy a kötegek (file), amelyek csupán iratok aggregációi, úgy tűnnek, mintha fizikailag léteznének, az osztályozási hierarchia magasabb szintjei is fizikailag létezőnek tűnnek, habár alacsonyabb szintek aggregációi csupán. A kötegekhez (file) hasonlóan követelményeket határoz meg, anélkül, hogy a megvalósítás módjával foglalkozna.

Osztály

Ebben a specifikációban az osztály fogalmat arra használjuk, hogy a hierarchia egy adott pontjából induló és az alatta elérhető összes köteget (file) jelöljük vele. Az osztály fogalma eszerint megfelel a csoportnak, sorozatnak, alcsoportnak, alsorozatnak, stb.

Vizuálisan egy hierarchia egy osztálya megfelel a fastruktúra egy ágának. Az osztály ennek megfelelően más osztályokat tartalmazhat. A specifikáció nem tesz kísérletet arra, hogy hogyan készüljön az osztályozási séma, viszont az irodalomban található erre vonatkozó információ.

ERMS - elektronikus iratkezelő rendszer

Az ERMS alapjában véve egy alkalmazási rendszer melynek feladat az elektronikus iratok kezelése, noha fizikai iratok kezelésére is alkalmas lehet. A tárgyalt specifikáció kifejezetten az elektronikus iratok kezelését célozza. Egy ERMS gyakran szorosan kapcsolódik egy elektronikus dokumentumkezelő rendszerhez. Műszaki szempontból nézve az ERMS iratokat (amelyek nem a számítástechnikai értelemben vett iratok), az EDMS (Electronic Document Management system) pedig dokumentumokat (amelyek nem iratok) kezel. Azonban, sok esetben, a napi működésben nem mindig lehet megkülönböztetni működésüket (a nyújtott funkcionalitást).

Iratok felvétele

A dokumentumok, melyek az üzleti tevékenység során keletkeznek, vagy beérkeznek, akkor válnak irattá, amikor bekerülnek, illetve felvételre kerülnek az ERMS rendszerbe. A felvétel során az iratok osztályozásra kerülnek, tehát kódok

- 21/22 -

rendelődnek hozzájuk, annak megfelelően, hogy milyen osztályhoz tartoznak, ezzel lehetővé téve kezelésüket, továbbá egyértelmű azonosító is hozzárendelésre kerül.

Sok esetben a dokumentumok, amelyek létre jönnek, és felvételre kerülnek, egy üzleti folyamathoz kapcsolódnak, mint például egy munkairányítási (workflow) rendszerben. Például, amikor egy számla kiállításra kerül, feltétlenül egy iratnak kell felvételre kerülnie.

Más esetekben lehet az az irányelv, hogy minden dokumentum, ami egy üzleti esethez tartozik, legyen irat, függetlenül attól, hogy nem vesz részt az üzleti folyamatban.

Megint más esetben előfordulhat, hogy a felvétel folyamatát, egy felhasználó explicit intézkedése váltja ki. Annak meghatározása, hogy mely dokumentumokat kell iratként felvenni, a szabályozási környezet, a üzleti és könyvviteli követelmények, és a fel nem vétel kockázata alapján lehet meghatározni. Példa erre, az, hogy egy emlékeztető, amely stratégiai döntésekkel foglalkozik, egy adott szervezet esetében lehet olyan dokumentum, amit iratként fel kell venni (amíg egy lényegtelem összejövetel emlékeztetője viszont nem). A tárgyalt specifikáció mindezen esetekkel foglalkozik. Más szóval a MoReq specifikáció egy általános célra szolgáló hivatali rendszert ír le, nem csak egy iratkezelő rendszert, amely egy adott specifikus célra szolgál, illetve egy adott levéltáros, vagy adminisztrátor egyedi munkavégzésére szolgál.

Felhasználói szerepkörök

A specifikáció két fajta felhasználót különböztet meg:

• Felhasználó: tetszőleges személy, akinek jogosultsága van az ERMS alkalmazáshoz való hozzáférésre. Gyakorlatban ez olyan személyeket jelent, akik iratokat készítenek, fogadnak, ellenőriznek, és/vagy felhasználnak, és azok, akik az ERMS-t adminisztrálják,

• Adminisztrátor: felhasználó, aki az ERMSben tárolt iratokat, és magát az ERMS-t és a csatolt adatbázist kezeli.

A gyakorlatban, egy szervezetben több ilyen jogosítványokkal rendelkező személy lesz, illetve várható, hogy egyes szervezetek további jogosultságokat, szerepköröket fognak definiálni.

OAIS modell

A NASA a nemzetközi űrkutatási központok munkatársaiból szervezett munkacsoporttal kezdett munkához. 1990-ben már az ISO TC20/SC13 munkacsoporttá váltak, melynek feladata a hosszú távú archiválást biztosító szabványos modell kialakítása volt. A NASA a munkába bevonta a Federal Geographic Data Committee -t és a NARA -t (National Archives and Records Administration) is. A munkában résztvevők köre fokozatosan bővült, beleértve a tradicionális irattározással foglalkozók körét is. Az OAIS-ban meghatározott archívum olyan "szervezet", amely olyan emberekből és szervezetekből áll, akik feladata az információ megőrzése és elérhetővé tétele egy adott közösség számára. A dokumentumban meghatározott kötelezettségnek kell eleget tennie, ez különbözteti meg az OAIS archívumot a többitől. A modell kialakításánál más referenciamodelleket is tanulmányoztak, mint amilyen például az ISO "Seven Layer" Communications Reference Model, az ISO Reference Model for Open Distributed Processing és az ISO TC211 Reference Model for Geomantics.

A modell az archiválási folyamatot funkcionális egységekre osztja. (Ingest = bevitel, storage = tárolás, access = hozzáférés, és preservation planning = megőrzéstervezés), interfészeket definiál a funkcionális egységek között, valamint meghatározza az archiválásban használható adatosztályokat.

A funkcionális modelleket és interfészeket adatfolyam ábrával, az adatosztályokat UML (Unified Modeling Language) formális modellel specifikálja.

A legjelentősebb elektronikus archiválási projektek mind az OAIS modellt tekintik kiindulási alapnak, a világ legnagyobb - 29 országot magába foglaló - projektje, az "Interpares" is az OAIS modellből indul ki.

Az elektronikus archiválás megvalósításának kiindulópontjául ezt a modellt alkalmazta számos könyvtár. pl. a Holland könyvtár is, a tradicionális levéltárak, mint például a US National Archives. Ugyancsak ezt a modell alkalmazza számos tudományos adatközpont, mint például a National Space Science Data Center.

A modell "Open" kifejezése azt jelenti, hogy a modell, illetve a szabvány nyílt fórumokon kerül kialakításra, bevonva az irattárosokat, felhasználókat, egy sor érintett nemzetközi szervezetet, és szabadon bárki számára hozzáférhető, illetve felhasználható.

Az "Information" bármilyen átadható tudást takar, függetlenül annak megjelenési formájától (fizikai, vagy digitális), az adatok információtárolási, és megjelenítési módjait jelenti.

Az "Archival Information System" együttesen jelenti, a hardvert, szoftvert, és azokat az embereket, akik az adatok beviteléért, tárolásáért és az információ hozzáférhetőségéért felelősek.

A modell keretül szolgál a hosszú távú elektronikus archiválási koncepció megértéséhez, és alkalmazásához. Hosszú távon elegendő hosszú időtartamot értünk ahhoz, hogy közben technológiai váltások is történjenek.

Lehetővé teszi a létező és a jövőbeni archívumok architekturális, és működési összehasonlítását. Alapját képezi további kapcsolódó szabványoknak és az archiválási funkciók teljes körét felöleli. A modell semmilyen implementációra vonatkozó előírást nem tartalmaz.

Az OAIS modell környezeti kapcsolatai

Producer szerepkör: azok a személyek vagy kliens rendszerek, amelyek az archiválandó információt szolgáltatják.

Management szerepkör: a globális OAIS irányelvnek, egy általánosabb irányelv tartományon belüli meghatározásáért felelős szerepkör. A Management szerepkör nem foglalja magában az OAIS operatív irányítását, amely szerepkör az OAIS belső adminisztratív funkciója.

Consumer szerepkör: azok a személyek, vagy kliens rendszerek, amelyek igénybe veszik az OAIS szolgáltatásait a számukra érdekes információk magtalálására és kinyerésére. A szerepkörön belül létezik egy speciális célcsoport, akiknek a megőrzött információt értelmezni is kell tudni.

Az OAIS Információ definiálása

Data Object: az információt hordozó adatobjektumok.

Representation Information: a reprezentáció módja.

Information Object: az adatokból kapható információ.

Az OAIS rendszerben (is) az adatobjektumoknak a reprezentáció felhasználásával történő értelmezése (interpret) alapján nyerhető (yield) a szükséges információ.

Információs Csomag definiálása (Information Package Definition)

Az információs csomag kéttípusú információból áll:

• a tartalom információból (Content Information), és

• az archiváló leíró információból (Preservation Description Information)

Két említett komponenst a Packaging Information fogja össze egy egységgé, és biztosítja az azonosíthatóságát.

Az OAIS modellt egy információs és egy funkcionális modell alkotja. A modellek leírásánál formális modellezési eljárást alkalmaznak, és amennyire lehet implementáció függetlenek, maradnak.

- 22/23 -

Információs modell

Általános alapelvek:

• Definiálni kell az "információs objektumok" azon osztályait, melyek a hosszú távú tároláshoz, és az archívumhoz, való hozzáféréshez szükséges információkat ábrázolják.

• Az osztály definícióknak implementáció függetlennek kell lenniük.

• A z UML nyelv (Unified Modeling Language) részhalmazát kell használni.

Az UML jelölési mód

Osztály (class): azonos jellemzőkkel bíró valós világbeli tárgyak, események, dokumentumok, műveletek, stb. modellje.

Számosság (multiplicity): az osztályok közötti kapcsolatokban érintett objektumok lehetséges előfordulásait jellemző szám (lehet nulla, vagy tetszőleges pozitív egész szám, vagy ezekből képzett intervallum, vagy ezeket reprezentáló más jelölés).

Aggregáció (aggregation): objektumok integrálásával előálló összetett objektum létrehozása.

Asszociáció (association): objektumok közötti kapcsolat.

Specializáció (specialisation): az általánosból, a jellemzők bővítésével történő osztályalkotás. Asszociáció osztály (assocation as class): objektumok közötti kapcsolatot reprezentáló osztály.

Információs objektum

Az információs objektumot az alábbi komponensek alkotják:

• Information Object: információ objektum.

• Data Object: adat objektum.

• Representation Information: a megjelenítést meghatározó információ.

• Physical Object: egy fizikai objektum (hagyományos adathordozó).

• Digital Object: digitális vagy elektronikus objektum

Bit Sequence: bitsorozat.

Megjelenítési információ (Representation Information)

A fizikai objektumot kísérő megjelenítési információ kiegészítő jelentést adhat. A digitális objektumot, vagy bitsorozatot kísérő megjelenítési információ szintén kiegészítő jelentéssel bír, tipikusan a biteket olyan ismert adattípusokká alakítja, mint amilyen a karakter, az egész és valós számok, vagy egy magasabb szintű jelentéssel társul, amely komplex belső kapcsolatokat ír le. Részei:

• Representation Information: a megjelenítési információ.

• Structure Information: a szerkezetet leíró információ.

• Semantic information: a szemantikus, tehát az értelmezést leíró információ.

• Other Representation Information: egyéb megjelenítési információ.

AZ OAIS-ban használt információk típusai

Az OAIS-ban definiált információ típusok rendszerezését a következő alfejezetek ismertetik.

Tartalom információ (Content Information)

A tartalom információ az archiválás elsődleges objektuma. A tartalom információ az az információ, amit az archiváláskor meg kell őrizni. Annak az eldöntése, hogy mit definiálnak tartalom információnak nem mindig magától értetődő, ezért az archiváló ügyfelekkel is konzultálni kell esetenként. A tartalom információ adat objektuma lehet digitális vagy fizikai objektum.(pl. mikrofilm).

Archiválást leíró információ (Preservation Description Information)

A leíró információk az alábbiak lehetnek:

• Eredetinformáció: a tartalominformáció forrását írja le, kinek a tulajdona és melyek az előzmények.

• Kontextus információ: leírja a tartalominformáció kapcsolatát más információkhoz, az információs csomagon kívül.

• Referencia információ: egy vagy több azonosítót, illetve azonosítók rendszerét jelenti, amellyel a tartalominformációt egyértelműen azonosítja.

• Állandósági információ: a tartalominformációt védi a dokumentálatlan változtatástól.

Leíró Információ (Descriptive Information)

Dokumentumok, vagy alkalmazások inputjaként szolgáló adatokat tartalmaz, melyeket hozzáférési eszközöknek hívnak.(Access Aids). A hozzáférési eszközöket az ügyfelek használják az OAIS-ból nyerhető információk elérésére.

Egységleíró, szervező információ (Packaging Information)

Az egységleíró, szervező információk azok az információk, melyeket ténylegesen, vagy logikailag egy speciális médián azonosítható egységként meghatározzák az összetartozó, egy egységet képező információját,. Egységleíró, szervező információra példák a könyvtár struktúrák, vagy fájlnevek.

Az OAIS archiválási információs csomag (AIP), logikai modell

Az információ hosszú idejű megőrzésével kapcsolatban kialakított koncepcionális séma az archiválási információ csomagot alkalmazza. Az információ csomag lényegében egy befoglaló objektum, amelyik a korábban ismertetett módon két fajta információcsomagot, a tartalom csomagot és a megőrzési leíró csomagot foglalja magában. Az információs csomaghoz két további információ objektum csatlakoztatható, a befoglaló információ, valamint a csomag leírás.

A nevezett objektumok logikai kapcsolatát egy UML diagram írja le.

A diagram adatobjektumai az alábbiak:

• Package Description: az információcsomag leírása.

• Archival Information Package: archiválási információ csomag.

• Packaging Information: befoglaló információ, a hozzáférést, azonosítás végző információ,

• Content Information: az archiválandó tartalom.

• Preservation Description Information: az archivált anyag tulajdonságait leíró megőrzési információ.

A modellben található kapcsolatok típus szerint az alábbiak:

Aggregáció: az archiválási információs csomag két komponenst tartalmaz, a tartalom, és a megőrzési információ objektumokat. Asszociációk:

• Az információ csomag leírása alapján meghatározható az archiválási információs csomag (az asszociáció két irányban navigálható).

• Az archiválási információs csomag felépítése, azonosítása a befoglaló információ alapján történhet (az asszociáció két irányban navigálható).

• A tartalom információ részletesebb jellemzését a megőrzési leíró információ szolgáltatja.

Archiválási Információs Csomag (Archival Information Package) típusai

Az archiválási információs csomag két különböző típusú objektumból épülhet fel:

• Az archiválási információs egység (Archival Information Package) egyetlen tartalom objektumot foglal magában.

• Az archiválási információ gyűjtemény (Archival Information Collection) több archiválási információs csomagot foglal magában, a tartalom objektumban.

Az OAIS modell hat funkcionális komponenst foglal magában, melyek az alábbiak:

- 23/24 -

• Beadvány fogadása archiválásra

• Ingest: ez az egység fogadja az ügyfelektől az archiválásra benyújtott információs anyagokat (SIP), és előkészíti azok tárolását, és további menedzselését az archiválási rendszerben.

• Archív tárolás

• Archival storage: az objektum gondoskodik az Archiválási információs csomag (AIP) tárolásához, karbantartásához szükséges szolgáltatásokról és a dokumentumok visszakereshetőségéről.

• Adatkezelés

• Data management: az objektum gondoskodik a leíró információkban (DIP) lévő adatok értelmezéséről és kezeléséről. A leíró információ azonosítja és dokumentálja az archív állományt, és a belső archiválási adminisztratív adatokat.

• Adminisztráció:

• Administration: ez az egység végzi a teljes archiváló rendszer adminisztrációját.

• Megőrzéstervezés:

• Preservation planning: ez az egység követi az OAIS környezetét és tervezi az OAIS-ban tárolt információk hosszú távú elérhetőségét abban az estben is, ha az eredeti számítógépes környezet elavulttá válik.

• Hozzáférés:

• Access: a hozzáférési objektum támogatja a fogyasztókkal, felhasználókkal (Consumer) történő kommunikációt, kezeli a lekérdezések fogadását, a védett információkhoz való hozzáférés ellenőrzését, a kért információkhoz való hozzájutást.

Technológiai megoldások

A következőkben két piacvezető archiváló rendszer felépítését mutatjuk be. Az egyik rendszer az EMC[2] cég Centera Content Addressed Storage, a másik az IBM Content és Record Management rendszere. Nem ismertetjük részletesen két rendszert, csupán azok általános technikai felépítését vázoljuk.

E két rendszerre rengeteg archiváló szoftver épül, amiket más cégek fejlesztettek ki általában partneri együttműködéssel. Várható, hogy a tárgyalt technológiai architektúrák az archiválás szolgáltatóknál is megjelennek. Mindkét technológiánál látható, hogy az archiváló alkalmazás és a tároláskezelés elkülönülnek egymástól. Az elkülönülés felületében már jelentős különbségek vannak. A rekord menedzsment elhelyezése is különbözik. Az archiválás módjában is mások az elképzelések az archiválási időtartam növekedésével.

EMC[2] archiváló rendszerek

Az EMC[2] korunk legdinamikusabban fejlődő disk arrays szállítója. Hatalmas tároló kapacitást alakítanak ki, magas rendelkezésre állás mellett úgy, hogy a tárolótér nagysága nem lassítja jelentősen a tárolt adatok kezelését. (peta byte-okról van szó). Felismerve, hogy az ilyen jellegű termékek az elektronikus archiválásban kiválóan alkalmazhatók, a cég kifejlesztette Centera családját, ami olyan speciális disk array terméket jelent, aminek archiváló alkalmazásokhoz illeszthető API-ja van. Az EMC[2] jelentős piaci sikereket ért el e termékkel az utóbbi években.

Technológiájuk két sarokpontra épül a nagy megbízhatóságú fokozatosan bővíthető diszk rendszerek kialakítására és a tárolt anyagok tartalom orientált címzésére. Ez utóbbival kívánják azt megvalósítani, hogy a hatalmas tároló felületeken a tartalmak kezelése (pl.: keresése, mozgatása) ne lassuljon le. A magas rendelkezésre-állást évekig, akár évtizedekig is, biztosítottnak látják architektúrájukban, ezért nincs továbbmentő rendszerük, ami nem jelenti azt, hogy az adatokat DVD-re vagy mágnesszalagra nem lehet kimenteni.

Az API, az alkalmazás gépén fut (több platformú változat áll rendelkezésre). A Centera tartalom menedzser diszk sorokat tartalmaz, aminek kiépítésére mindenhol a kettőség jellemző: A lemezek tükrözése, nagyteljesítményű hálózati kapcsolatok kettőzése. A további (földrajzi) biztonság érdekében távoli tükrözés is biztosítható hálózaton keresztül. Az archiváló alkalmazás anyag letárolási kérelmekor, az API és a tartalom menedzser által közösen megvalósított rekord menedzsment során XML alapú leíró file képződik, aminek egyik eleme a tárolandó dokumentum tartalmából képzett úgynevezett "tartalomcím". Az így létrehozott leíró file egyrészt a tartalom menedzserbe kerül, másrészt ennek újbóli tartalomcím képzettje visszakerül az alkalmazáshoz. Az alkalmazás a kapott kulcsot a tartalmak további kezelésére használhatja (pl.: lehívás) Az így megvalósított indirekt tartalomcímzés teszi lehetővé az alkalmazás számára a tartalmak célirányos (gyors) és flexibilis elérését.

IBM archiváló rendszerek

Az IBM tradicionális szállítója a különféle elektronikus archiváló rendszereknek. Az elektronikus archiválás területén a Content Manager és a Record Manager a két élvonalbeli termékük, amikhez archiváló és egyéb ügyviteli alkalmazások kapcsolódhatnak. A kapcsolatok alkalmazás - szerver és WEB alapúak is lehetnek. A Record Manager a DoD 5015 szabvány alapú rekordkezelést valósítja meg.

A rekord és tartalom menedzsment önállóan tud kommunikálni az alkalmazásokkal. A termékek portál kapcsolatra is fel vannak készítve, így közvetlenebb Intranet és Extranet alkalmazáskapcsolatok jöhetnek létre. Egyedi hitelesítésre a rekord és tartalom menedzser is lehetőséget ad. A két menedzser együttműködését hangsúlyozottan az alkalmazásokon keresztül valósítják meg, de lehetőség van a közvetlen együttműködésre is. Rengeteg elkülönült eszköz képezi a teljes tartalom menedzsmentet (Library Server, Object Server, TextSearch Server, Image Server, stb.) A tartalom menedzser két fő részre osztható: DB2 alapú adatbázis rendszerre és tároló menedzsere (Tivoli Storage Manager) A TSM kiterjedt tároló eszközkezelést tesz lehetővé többféle adattároló típus kezelésével.

Irodalomjegyzék

1. Electronic Signatures and Trusted Archival Services; Jos Dumortier & Sofie van den Eynde K.U.Leuven - ICRI

2. Minősített elektronikus archiválás szabályozási javaslata. COMPTIFEX-Z Kft, dr. Jóri András, Szabadváry Zsolt, Szőke András

3. "Cedars" (CURL Exemplars in Digital Archives) is a digital preservation project in the context of eLib phase .http://www.leeds.ac.uk/cedars/index.

4. CAMiLEON stands for Creative Archiving at Michigan & Leeds: Emulating the Old on the New.: http://www.si.umich.edu/CAMILEON/

5. Elektronikus archiválás követelményrendszere. EDIPORT Kft

6. ISO "Reference Model for an Open Archival Information System" (OAIS) Tutorial Presentation. Don Sawyer, NASA/National Space Science Data Center (NSSDC), Lou Reich, Computer Sciences Corporation (CSC)

7. Requirements for Electronic Records Management Systems. Great Britain Public Record Office 2002 revision: final version.

8. Dublin Core Metadata Element Set, Version 1.1, Reference Description

9. Guidelines on best practices for using electronic information; DLM Forum

10. Producer-Archive Interface Methodology Abstract Standard. CCSDS 651.0-R-1, NASA, Red Book, April 2003.

11. Building a National Strategy for Digital Preservation: Issues in Digital Media Archiving; Council on Library and Information Resources. Washington, D.C. and Library of Congress. April 2002

12. Procedures Manual for the Consultative Committee for Space Data Systems. CCSDS A00.0-Y-7.4. Yellow Book. Issue 7.4 (interim update). Washington, D.C.: CCSDS, January 2001

13. Preserving Digital Information: Report of the Task Force on Archiving of Digital Information Washington, D.C.: Commission on Preservation and Access, May 1996.

14. Unified Modeling Language. Version 1.1. Cupertino, CA: Rational Software Corporation, September 1, 1997.

15. The Data Description Language. EAST Specification (CCSD0010) Recommendation for Space Data System Standards, CCSDS 644.0-B-2. Blue Book. Issue 2. Washington, D.C.: CCSDS, November 2000.

16. Data Entity Dictionary Specification Language (DEDSL). Abstract Syntax (CCSD0011) Recommendation for Space Data System Standards, CCSDS 647.1-B-1. Blue Book. Issue 1. Washington, D.C.: CCSDS, June 2001. ■

Lábjegyzetek:

[1] A szerző villamosmérnök és villamosmérnök menedzser, egyetemi tanulmányait a Budapesti Műszaki Egyetemen végezte, emellett az École National d'Administration Európai Uniós szakértője. Pályafutása során ipari kutatóintézetben szoftverfejlesztéssel, majd 1994-től az innovatív elektronikus kormányzati projektek megtervezésével és végrehajtásával foglalkozott.

Tartalomjegyzék

Visszaugrás

Ugrás az oldal tetejére