marc2rdf revisited

Prosjektet marc2rdf (som nå er et prosjekt støttet av NB) har fått ny ham.

I flere år har det blitt jobbet med konvertering fra MARC (bibliografisk format primært for fysiske bøker) til RDF (ressurs-beskrivelsesformat for alt som kan representeres på nett). Dette har vært store manuelle prosesser og mye prøving og feiling underveis. Alt av konverteringsbehov deichmanske bibliotek har funnet de siste årene har nå blitt samlet i en webapp:

https://github.com/digibib/marc2rdf

schematics

Arkitekturen over applikasjonen. Et eller flere bibliotek høstes via OAI og mappes/konverteres til egen graf i RDF-storen. Sparql-regler og høstingsregler sørger for forbedret innhold

 

Denne har nå surret og gått gjennom sommeren og ser ut til å ha nådd et akseptabelt stabilitetsnivå. Webappen har tre moduler:

  • mapping    (selve mappingen fra marc til rdf)
  • rules            (sparql-regler for generering av verk, forfatterinstanser, relasjoner, etc.)
  • harvesting (høsting av eksterne lenker til coverart etc.)
Webappen høster katalogposter via protokollen OAI-PMH, enten fra et datospenn eller daglig. Den bruker valgt mapping i applikasjonen og konverterer postene til RDF og, etter ønske, lagrer resultatet i RDF og/eller legger det direkte inn i RDF-storen. I tillegg   vil det kjøres valgte Sparql-regler (Rules) på det konverterte datasettet og alternativt høstes ekstra data (e.g. coverart) til de nye dataene.

Fordelene

Den store fordelen med denne applikasjonen er at den syr sammen alle de manuelle funksjonene til én (=daglig oppdatering) og gjør det enklere å vedlikeholde et RDF-datasett ved siden av det gamle, så lenge dette er i bruk. I tillegg blir det enklere å jobbe med mappingen når du kan teste den live mot en post fra et OAI-depot og få resultatet direkte. Det samme med ekstern høsting. Det må presiseres at dette ikke er et fancy verktøy for enkle drag-n-drop løsninger, men et samlende verktøy for å administrere kompliserte katalogoppgaver og sette opp rutiner for daglig oppdatering.

Bli med

Vi har satt opp en instans på en ekstern server som per idag tjener Deichmanske bibliotek, NorBok (Bibsys) og Lillehammer folkebibliotek.
Vi oppfordrer herved bibliotek som vil prøve ut ny formidling av sine kataloger til å kaste seg på dette prosjektet. Ta gjerne kontakt med oss for hjelp til installering/oppsett evt. for å bli med i vår felles database.
Eksempler på nye prosjekter som baseres på dette nye katalogformatet er Aktive hyller og Bokanbefalinger.

Noen snapshots fra applikasjonen:

oai_settings

Oppsett av et bibliotek (bibsys) som skal høstes fra

mapping

mapping fra MARC til RDF i egen editor

 

mapping_result

Test av resultat fra mapping

conversion

live testkonvertering på post hentet via OAI og resultat. Det er også mulig å laste opp binær marc eller sette igang en konvertering av et datospenn

 

Om Benjamin Rokseth

ikt-konsulent i Digitalt bibliotek på Deichman, server- og linuxnerd og nedsauset i semantisk web