[Bioladat] biológiai metaadatok - merre?

Bán Miklós banm at vocs.unideb.hu
2015. Jan. 31., Szo, 16:44:24 CET



Kedves lista,


A biológiai adatbázisokhoz kapcsolódó metaadatok kérdése már jó ideje
foglalkoztat. Mostanra pedig különböző okok miatt igencsak megérett
a kérdés, hogy milyen adatszerkezet irányba érdemes menni?

A biológiai adatbázisokhoz kapcsolódó metaadatok bármilyenek lehetnek,
tulajdonképpen egy katalógus cédulát jelentenek, az adatbázis főbb
paramétereivel. Ezek teljességgel érdektelenek azok számára akik a saját
adataikkal dolgoznak, mert mindent tudnak róluk többnyire. Persze ha
valaki mások által gyűjtött adatsoron dolgozik, akkor azért fel szoktak
merülni kérdések, hogy pl. mit jelent az oszlop amiben azok a három
betűs rövidítések vannak, vagy a gyűjtés protokoll hogy is volt
pontosan, stb. Ezekre a kérdésekre leginkább úgy lehet válaszolni ha az
ember megkérdezi az adatbázis összeállítóját, vagy ha ő sem tudja,
akkor az adatok gyűjtőjét (feltéve ha lehet tudni, hogy kikről van szó
és élnek). Az adatbázisokhoz kapcsolódó katalógus a metaadat pontosan
erre való - leírni az olyan kapcsolódó információkat amik nem részei az
adatsornak, de megkönnyítik, vagy éppen lehetővé teszik az elemzéseket.
Tipikusan tartalmazni szokták például azoknak az embereknek az
elérhetőségét akik összeállították az adatsort/metaadatot, gyűjtési
módszereket vagy a rövidítések feloldását.
Elég sok ökológiai témájú adatbázis keletkezik hazánkban is. Itt
nemcsak a nemzeti parkok 5-600ezer rekordszámú faj előfordulási
adatbázisaira gondolok, vagy a célzottan ökológiai és biodiverzitással
foglalkozó kutatások adatsoraira, hanem például a viselkedésökológiai
terepmunkák nagy részletességű adatbázisaira is, amik többnyire csak
egyetlen szempontból kerülnek elemzésre és egyébként más
célra elérhetetlenek.
Az ökológiai témájú adatbázisok elérhetősége nem egyszerű kérdés habár
vannak törekvések nyílt adatbázisok létrehozására, hazai és nemzetközi
szinten is. Ezzel szemben az adatbázisokhoz kapcsolódó metaadatok
létrehozásának éppen a teljes publikusság az értelme, mert azért
készülnek, hogy mások ha netán használni akarják az adatokat, akkor
ehhez rendelkezzenek a megfelelő háttérismeretekkel. Éppen ezért nem
kérdéses, hogy a metaadatok létrehozása hasznos dolog, miközben
nincsenek vele olyan gondok, hogy esetleg valaki valamilyen módon
visszaélne a szerzett információval, mert a metaadatok az adatbázisok
adatait nem tartalmazzák.
Az egyes adatbázisokból származtatott és kiegészítő metaadatokból
metaadat katalógusokat lehet létrehozni és a katalógusokhoz keresőket
lehet illeszteni amivel már is elkészült egy digitális adatbázis, ami
olyan mint egy könyvtári kereső. Ilyen ökológiai metaadatbázisok
léteznek - főleg nyugati országokban. Ezek az adatbázisok elég jól
átjárhatók egymás között aminek az eredménye, hogy világszéles
keresések hajthatók benne végre. Amiért pedig átjárhatók egymás között
ezek a metaadatbázisok, az az, hogy van néhány sztenderd amit
követnek. Azaz vannak széles körben elfogadott metaadat formátumok
ökológiai adatokra amiket a nagy metaadat keresők ismernek és ezekben
könnyen és ingyen lehet elérhetővé tenni a metaadatokat.

Én úgy tudom, úgy látom, hogy ennek egyelőre Magyarországon nincs sem
gyakorlata sem általánosabban iránya.

Ezzel a levéllel egy szélesebb körű beszélgetést szeretnék elindítani,
egyrészt azért hogy terjesszem a metaadatok létrehozásának
gondolatiságát, másrészt, hogy megindítsam egy széles körű
állásfoglalás kialakulását arról, hogy milyen sztenderd metaadat
formátumot érdemes használni azért, hogy hazai viszonylatban a
leginkább egyszerűvé tegyük egymásnak a metaadataink használatát.

Az általam ismert elterjedt formátumok pl. ABCD*, EML** xml alapú
szöveges állományok. Az xml formátumok rugalmassága nagyon nagy,
ellenben nem triviális előállítani és olvasni, emiatt fontos kérdés,
hogy az adott xml (vagy nem xml) metaadat formátumhoz milyen egyedi
szoftverek vannak és milyen szoftverek támogatják, mit tudunk hozzá mi
fejleszteni? 

Szerintem különösen fontos kérdés a zárt adatbázisok esetén a metaadat
katalógusok elkészítése. Itt leginkább a Nemzeti Parki adatbázisokra
gondolok amikből el lehet kérni ugyan adatokat, ha az ember szeretne
feldolgozni valamit belőlük, de ehhez egyrészt tudni kellene, hogy
egyáltalán milyen adatok vannak, másrészt jó lenne tudni, hogy azok
alkalmasak e számunkra. 

Fontos kérdés, hogy mekkora munka a metaadatok előállítása. A nagyon
részletes formátumokkal több munka van, de persze cserébe jobban
használhatók. Viszont főleg a már meglévő adatbázisokhoz előállítani
részletes metaadatokat nem kis feladat, mert nem lehet teljesen
automatizálni. Ennek ellenére szerintem a zárt adatbázisok esetén
még az automatizált metaadat állományok létrehozása is érdekes lehet,
mert legalább azokon keresztül megtalálható, hogy vannak bármilyen
adatok az adott témában.

E levelet kifejezetten vitaindítónak szánom a témában, ezért
ötleteket, véleményeket, tapasztalatokat, ellenvetéseket és kritikát is
szívesen várok válaszként, hogy át tudjuk a témát beszélni!


Üdv, Bán Miklós



Hivatkozások a szövegben:
*	http://www.tdwg.org/standards/115/
**	https://knb.ecoinformatics.org/#tools/eml


További metaadat leírások:
Biological Metadata Profile: 
http://www.fgdc.gov/standards/projects/FGDC-standards-projects/metadata/biometadata
Darwin Core: 
http://www.tdwg.org/standards/450/
ISO-19115
http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53798
Dublincore:
http://dublincore.org/


Egyéb hivatkozások:

Rövid összefoglaló leírás biológiai metaadat sztenderdekről:
http://www.nlbif.nl/en/infrastructure/publishing-data/standards

Metaadat sztenderdek:
http://sdl.syr.edu/?page_id=32

Biodiverzitás információ sztenderdek:
http://www.tdwg.org/

http://www.dcc.ac.uk/resources/subject-areas/biology
http://gfbio.biowikifarm.net/wiki/Data_exchange_standards,_protocols_and_formats_relevant_for_the_collection_data_domain_within_the_GFBio_network


Egy könyv ami érinti a különböző sztenderd használatát:
Spatial Database for GPS Wildlife Tracking Data:  A Practical Guide to
Creating a Data Management System with PostgreSQL/PostGIS and R
Ferdinando Urbano,Francesca Cagnacci, Springer 2014


-- 
Miklós Bán
MTA-DE "Lendület" Behavioural Ecology Research Group
Department of Evolutionary Zoology, University of Debrecen
H-4010 Debrecen, Egyetem tér 1.
Phone:  +36 52 512-900 ext. 62356
http://zoology.unideb.hu/?m=Miklós_Bán
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


More information about the Bioladat mailing list