Name: Asgeir, aka "asgeirr"

Bio: Bibliotekar ved Deichmanske bibliotek. Avdeling for kunnskapsorganisering

Posts by asgeirr:

    RDF Linked data cataloguing at Oslo Public Library

    juli 6th, 2014

    This post was originally published as an article in SCATnews no. 41, the Newsletter of the Standing Committee of the IFLA Cataloguing Section.

    The new public library in Oslo will be a digital discovery center where the presentation of the physical collection will merge with digital content and user generated content. This calls for new ways of describing both physical and digital content, and for new ways of working with cataloguing in the library. To get there, the library has decided to drop their integrated library system and to drop MARC as cataloguing format. Instead we will use RDF linked data as the primary cataloguing format, starting already in 2015.

    For more than 25 years the present proprietary integrated library system has been the main tool for library staff as well as the core for most end-user services at Oslo Public Library. All software development is in the hands of system vendors, and the vendors also control the data within the system. 2015 marks the end of this era, as the library will switch to the open source library system Koha. But instead of just switching from one integrated library system to another, the idea is to use Koha as one of several modules in an extended system. Koha will handle core functionality like circulation and patron database, but search and browsing for end-users as well as the cataloguing module for library staff will be FRBR oriented and based on RDF linked data.

    The staff at Oslo Public Library has worked with catalogue data as linked data since 2010. The first experiments were about identifying works and expressions represented in the library catalogue and using the FRBR model to link the manifestations in the library collection to those works and expressions. Later the library developed the tool MARC2RDF for harvesting catalogue records from the library catalogue and converting them to RDF linked data, as well as running scripts for adding a FRBR-like structure to the catalogue and enriching bibliographic catalogue data with information harvested from external online sources. Since 2011 the library has maintained a full linked data version of the catalogue, data.deichman.no, where RDF data have been exposed and made available for querying. This linked data «shadow catalogue» has been vital for the creation of two new digital end-user services, developed from 2012 to 2013: A service that collects book reviews from Norwegian libraries in one database, describe them with metadata and link them to works and manifestations in the linked data catalogue, so that users can look up reviews by using metadata that describe books (e.g. «10 latest reviews of fantasy books for kids» or «10 latest reviews of books about sports»). The second service, the «Active shelf» is a physical device that patrons can use to look up information about books collected from multiple online sources. The service also includes features like «Similar books» and «More books by the same author» the users can browse in a touchscreen interface to discover new books they might be interested in. Both these services are fueled by library metadata in the linked data format, and none of them would have been possible to make by the use of ordinary MARC records. The opportunity to add FRBR functionality has been one of the most immediate advantages of using linked data as metadata format. This has made it possible to connect a book review to all the different editions of a book, and this is what makes it possible to show «More books by the same author» as a lucid list of unique works on the Active shelf, rather than the kind of messy lists of multiple editions of the same book we are used to from the online catalogue. This is implemented by using scripts that construct identifiers for works and link them to manifestations based on certain logical rules applied to catalogue metadata. But as long as the linked data are produced by converting MARC records, there will always be a limitation to how expressive the data can be. Any information that is not contained in or can be derived from MARC records we are going to miss out on. As we want our future online catalogue search and other end-user services to appear smart and usable, we have decided to move away from MARC cataloguing altogether, and rather use RDF linked data as core metadata format. Only in this way can we get the kind of expressive and uniform metadata that we want.

    A public library is a library for the public. As catalogue data is an important resource for the library’s end-user services, the public library cataloguer should keep in mind that it is the public, the patrons, the data should be made to facilitate. This was of course always the case, but traditionally in a more indirect manner. Cataloguers have produced catalogue data as a tool for librarians, so that they in their turn could use them to assist the patrons. This is usually not the case anymore. Patrons search the online catalogue themselves, or they use software applications that use catalogue data to help them find what they want or to discover new things. Nevertheless, cataloguing rules, classification schemes and metadata formats still tend to be «librarian readable» and a mystery to most patrons. Also, cataloguing standards and practice, as part of their function is to organize collections so that each object has its one right place according to one particular set of rules, tend to accommodate one «preferred» type of need for information. Cataloguing for the public should avoid making assumptions about what patrons will be interested in or in what their motivation for being interested in it would be. It should simply focus on making the data as rich and expressive as possible, so that it can be applied and combined in as many ways as possible.

    It is a bit depressing that library cataloguing in 2014 still is pretty much about typing, and that much of the focus in cataloguing is on strings, names and words. Cataloguing should be about linking resources, not typing; and the identity of the things we describe should be determined by unique identifiers, rather than by the strings that label them. Two decades after the arrival of the World Wide Web and four decades after the relational database, it is rather remarkable that library cataloguing still focus so much on words and text. Instead of registering a person as the author of a book, we make the record contain an entry for the author’s name. Instead of registering the topic of a document, we add an entry for the topic term. This is not a good way to describe information resources, and conceptually it just seems plain wrong. A person’s name is a property of that person, not of the books he or she has written. The name shouldn’t be part of the description of the book at all, and it definitely shouldn’t be part of the description twice (as is the case now, since we register names both as main or added entries and in statements of responsibility). Instead the resource that is the book should be linked to other resources that represent the person that wrote the book and the concept that is a topic of the book. Then the person’s name and the labels that describe the concept should be part of the descriptions of those resources. The search index for the book should of course contain indirectly connected text strings such as names for persons and labels for topics, so that people can find the book by searching for those strings. But a search index should be something different from a resource description, and the building of search indexes should be a job for machines, not humans.

    We are of course fully aware that we are not the only ones in the library world who see the need for new ways of thinking about cataloguing. So why don’t we wait for the library standards for linked data cataloguing that are bound to come sooner or later? Well, first of all there is the suspicion that «sooner» might be slightly less likely than «later». The new Oslo Public Library is opening in only four years, and we simply don’t have the time to wait and see what happens in the meantime. We also fear that a standard constructed to facilitate all kinds of libraries, with their different types of collections and their diversity in character and quality of legacy data, will have a lot more complexity to it than we really need, possibly on expense of value gained from a simpler model. The real gain here lies in linking to and making use of resources outside of the library and outside of the library world. We are also in doubt whether new library specific standards is the right way to go at all; after all there already exist specialized ontologies and vocabularies to describe almost everything we need to say something about. Why would we need one unified model to describe everything? And why should we assume that the opinions or choices made by specialists within the different fields would be inferior to those made by library generalists? Finally, if the emerging standards for library linked data cataloguing do prove to be useful and valuable in the future, we will have a better starting point for implementing them than most other libraries. RDF linked data are flexible and easy to adjust, and the more expressive they are, the better the starting point.

    When the library sector wants to introduce a new way of doing things, it is usually a very thorough and rather slow process. We have to consider implications for all the different types of libraries with their different types of material. And then we usually feel that we have to be absolutely sure we have thought of and planned for every kind of eventuality and exception that could occur, and that we have got everything just right, before we can start using it. Consequences of a method like this can be that the final result is overcomplicated and hard to understand and use, that we sacrifice valuable functionality as a precaution against threats that later turn out not to be all that pressing, or that the development takes so long that the product is already outdated when it is finally ready for use. We might have something to learn from modern software development methods, where it is a goal to implement and start using a system as soon as possible. Then further development, adjustments and the adding of new features is based on the needs that arise during the actual use of the system, rather than on the needs we think we are going to have when we think about what the system should be like in advance. This speeds up the process and reduces the risk of choosing solutions that are unnecessary, impractical or too complicated.

    One of our strongest incentives for switching formats and changing cataloguing practice is that we are able to. We realize that we are in a very fortunate position at Oslo Public Library. As a public library, our main task is to offer content that is of current interest, rather than conserving an existing historical collection. The library’s content policy states that the library’s focus on content should be based on a «just in time» principle, rather than on a «just in case» principle: Instead of letting the collection we have decide what kind of library we get, we should let the kind of library we want decide what our collection should be like. We can apply a similar way of thinking to our catalogue data: Instead of letting the nature of our old data dictate our choices of formats and cataloguing practice, we can focus on how we ideally would like to register metadata, and then let that dictate our choices of formats and data models. The old data can be converted and adjusted to fit our models as well as possible, and will gradually make up a smaller and less significant part of the catalogue.

    6 Comments "

    Underverk, flettverk og kraftverk : bibliotekkatalogen som verksted

    oktober 3rd, 2013

    FRBR-modellen ble lansert allerede for 15 år siden, for å tilføre bibliografiske data informasjon om relasjoner mellom kulturelle uttrykk på forskjellige plan. Fortsatt ikke realisert

    Flere av prosjektene vi har gjennomført på Deichman de siste årene har basert seg på bibliotekets katalogdata og på det å ta disse i bruk på nye måter. Vi har da ikke brukt MARC-poster direkte, men en konvertert og behandlet versjon av katalogen i RDF-format. En av de viktigste tingene vi på denne måten har kunnet tilføre dataene, er egne ID-er for verk på et overordnet nivå, slik at vi kan identifisere hvilke utgivelser i samlingen som er utgaver av samme verk. Denne muligheten er avgjørende for digital formidling av bibliotekets samling. En base for bokanbefalinger ville vært langt mindre verdt hvis hver anbefaling bare kunne knyttes til én bestemt utgave av den omtalte boka. På samme måte ville funksjoner som «Flere bøker av forfatteren» på de aktive hyllene være meningsløse hvis de foreslo en rekke andre utgaver av den boka du allerede hadde sett på.

    Det samme kan sies om de digitale versjonene av mer tradisjonelle bibliotektjenester, som muligheten til å bestille og reservere materiale hjemmefra. Hvorfor skal en bruker som vil lese Victoria av Knut Hamsun måtte velge mellom titalls ulike utgaver for å få plassert en reservering? Selvfølgelig må det være mulig å velge utgave for de lånerne som av en eller annen grunn har spesielle preferanser, men hvorfor skal alle andre tvinges til å velge? Er man uheldig, kan man komme i skade for å reservere en utgave uten ledige eksemplarer, eller en hvor det ledige eksemplaret ikke er på plass, noe som vil medføre at låneren må vente, selv om det finnes ledige eksemplarer av andre utgaver av samme bok.

    Problemstillingen er godt kjent i biblioteksverdenen, og FRBR-modellen (Functional Requirements for Bibliographic Records) ble lansert allerede på 1990-tallet som en løsning på nettopp slike spørsmål. Men modellen er dessverre fortsatt ikke kommet til uttrykk gjennom bibliotekenes katalogiseringsregler og metadataformater. Det betyr i praksis at bibliotekene per i dag ikke har beskrivelser av sine samlinger som er egnet for digital formidling og presentasjon på web.

    For tiden venter bibliotekene på nye standarder som skal dekke disse behovene, samtidig som de ivaretar alt eldre standarder har tatt hånd om, og som derfor nødvendigvis må bli omfattende, komplekse og tidkrevende å utvikle. Samtidig ser vi at enklere FRBR-lignende modeller blir tatt i bruk hos kommersielle web-baserte formidlingstjenester utenfor biblioteket, rett og slett fordi de er helt nødvendige for kvaliteten på tjenestene. Sosiale litteratur-websider som Bokelskere, LibraryThing og GoodReads, har alle måttet komme opp med konkrete og praktiske løsninger på slike problemer, fordi tjenestene deres ville vært verdiløse uten dem. Hvem ville gå til LibraryThing for å finne leservurderinger av «Huckleberry Finns eventyr», hvis vurderingene var fordelt mellom de mange tusen ulike utgavene denne romanen er kommet ut i? Hvem ville ha gått til filmdatabasen IMDb hvis man ved å søke på en filmtittel, ikke fikk opp informasjon om filmen i seg selv, men om alle de forskjellige utgivelsene av DVD-er og videokassetter?

     

    Skjult potensial i katalogpostene

    Når jeg søker etter «Victoria» av Knut Hamsun og får 23 treff i bibliotekskatalogen, trekker jeg ikke den slutningen at Knut Hamsun har skrevet 23 bøker med denne tittelen. Jeg skjønner at det er snakk om ulike utgaver av én og samme bok. Dette skjønner jeg fordi jeg kan supplere opplysningene i katalogen med kunnskap og logikk jeg selv besitter. Informasjon om verk finnes ikke eksplisitt i katalogen, men vi kan trekke slik informasjon ut av de opplysningene som ligger der, ved å anvende regler som tilfører nettopp denne kunnskapen og logikken. Alle utgaver av én bok vil for eksempel ha samme forfatter. De vil ikke nødvendigvis ha samme tittel, siden det kan være snakk om oversettelser eller utgaver med modernisert språk, men katalogpostene angir som regel originaltitler i slike tilfeller. Ved hjelp av opphavspersoner, titler og originaltitler, kan vi avdekke slektskapet mellom to manifestasjoner av samme verk på tre forskjellige måter:

     

    1. Dokumentene har samme opphavsperson og samme tittel. Ingen av dem har opplysning om originaltittel.
      • «Kruttårnet» av Jens Bjørneboe (1969)
      • «Kruttårnet» av Jens Bjørneboe (1974)
    2.  

    3. Dokumentene har samme opphavsperson og samme originaltittel.
      • «Powderhouse» av Jens Bjørneboe (2000). Originaltittel: «Kruttårnet»
      • «Der Pulverturm» av Jens Bjørneboe (1995). Originaltittel: «Kruttårnet»
    4.  

    5. Dokumentene har samme opphavsperson. Det ene dokumentet har originaltittel, og denne er identisk med det andre dokumentets tittel.
      • «Powderhouse» av Jens Bjørneboe (2000). Originaltittel: «Kruttårnet»
      • «Kruttårnet» av Jens Bjørneboe (1969)

    Med andre ord: Har du to bøker som heter det samme og er skrevet av samme forfatter, er det sannsynligvis snakk om to manifestasjoner av samme verk. Dette er ikke noe blendende resonnement, snarere en selvfølgelighet. Men det er en selvfølgelighet som så langt dessverre har vært fullstendig fraværende i bibliotekkatalogene og i bibliotekenes web-baserte tjenester. Og om logikken er enkel, så er effekten av å få den eksplisitt uttrykt i katalogen stor.

     

    Relasjoner mellom verk

    I tillegg til å identifisere hvilke verk dokumentene i biblioteksamlinga er manifestasjoner av, gir behandling av katalogdata også mulighet til å finne og uttrykke relasjoner mellom forskjellige verk:

    • Fagboka «Nora Nora» av Margareta Wirmark handler om skuespillet «Et dukkehjem» av Henrik Ibsen
    • Spillefilmen «Ti kniver i hjertet» av Marius Holst er basert på romanen «Gutten som ville være en av gutta» av Lars Saabye Christensen
    • Barneboka «Flukten fra vikingene» av Torill Thorstad Hauger er en oppfølger til «Røvet av vikinger»
    • Romanen «Kransen» av Sigrid Undset er en del av trilogien «Kristin Lavransdatter»
    • Samlingen «Skjebneanekdoter» av Karen Blixen inneholder fortellingen «Babettes gjestebud»

    Når relasjonene mellom verkene først er formalisert i katalogen, kan vi også la dem komme til uttrykk mellom manifestasjonene i samlingen. Bibliotekbrukeren som har lånt en DVD, kan få vite at vi har boka filmen er basert på, andre bøker av samme forfatter eller filmer basert på andre bøker av denne forfatteren.

     

    Men: katalogpostene gir ikke alltid all nødvendig informasjon

    Det er mye å tjene på å tilføre denne typen eksplisitt informasjon til bibliotekkatalogen. Problemet er at vi er begrenset av den informasjonen som ligger i MARC-postene, som strengt tatt ikke er laget for denne bruken. Postene danner et utmerket grunnlag i de tilfellene hvor én utgivelse svarer til ett verk, men vi merker raskt at informasjonen ikke strekker til for unntakene.

      • Manglende informasjon om hvorvidt en utgivelse har verkshøyde eller ikke
        Eksempel: Gabriel Scott. «Tante Pose ; Fant ; Josefa»
        Tre romaner samlet i ett bind. Hovedtittel er en sammenføyning av de tre verkstitlene, mens de enkelte romanene er registrert som analytiske biinnførsler. Men det framgår ikke på noen måte av katalogposten om samlingen i seg selv er å betrakte som et selvstendig verk. I dette tilfellet er sammenstillingen av de tre romanene gjort av utgiverne, lenge etter forfatterens død. Det blir derfor søkt å snakke om denne utgivelsen som et eget verk. Eksempler i retningslinjene for Normarc kan tyde på at indikatorene til felt for opplysninger om tittel og ansvarshavende kan brukes til å uttrykke slik informasjon, men det er ingen praksis for dette.

     

      • Opphavsperson og tittel identifiserer ikke verk entydig
        Eksempel: Ingvar Ambjørnsen. «Jesus står i porten»
        En novellesamling av Ambjørnsen, hvor de enkelte novellene er registrert med analytter. I dette tilfellet er novellene utgitt samlet av forfatteren selv, og det er derfor naturlig å betrakte både samlingen og den enkelte novelle som verk. En av novellene har tittelen «Jesus står i porten», samme tittel som samlingen den er en del av. Her er altså ikke opplysninger om forfatter og tittel tilstrekkelig til å skille mellom to ulike verk.

     

      • Originaltitler kan være ulike
        Eksempel: Daniel Defoe. «Moll Flanders»
        Noen ganger kommer bøker ut med ulike titler på originalspråket, og får også ulike opplysninger om originaltitel i oversatte utgaver. De fleste utgaver av denne romanen heter enkelt og greit «Moll Flanders». Andre utgaver har en lengre tittel: «The fortunes and misfortunes of the famous Moll Flanders». Men den opprinnelige tittelen fra 1722 er intet mindre enn:

        «The Fortunes and Misfortunes of the Famous Moll Flanders, &c. Who was Born in Newgate, and during a Life of continu’d Variety for Threescore Years, besides her Childhood, was Twelve Year a Whore, five times a Wife (whereof once to her own Brother), Twelve Year a Thief, Eight Year a Transported Felon in Virginia, at last grew Rich, liv’d Honest, and died a Penitent. Written from her own Memorandums.»

     

      • Manglende mulighet til å knytte bibliografisk informasjon til analytter
        Eksempel: Arne Garborg. «Læraren ; Den burtkomne faderen»
        Et skuespill og en roman, flere ganger utgitt samlet i ett bind. Katalogposten kan ved hjelp av analytiske biinnførsler uttrykke at bindet inneholder disse to verkene, og den kan også uttrykke at bindet inneholder både et skuespill og en roman. Men siden litterær form registreres på overordnet dokumentnivå, og ikke på den enkelte analytt, lar det seg ikke gjøre å få fram hvilket av verkene som er et skuespill og hvilket som er en roman.

     

      • Originaltitler mangler for deler av utgivelse
        Eksempel: Gunilla Bergström. «Albert Åberg : de tre første historiene»
        En samleutgave som inneholder de tre bøkene «Du er en luring, Albert Åberg», «God natt, Albert Åberg» og «Heng i, Albert Åberg», som alle er tidligere utgitt hver for seg. For de enkeltstående utgivelsene kan vi bruke de svenske originaltitlene til å identifisere verket. Men når historiene inngår som deler av en samlet utgivelse, er det ikke lenger rom i dataformatet til å knytte originaltittel til den enkelte delen.

     

      • Originaltittel mangler for relatert verk
        Eksempel: «The Three musketeers». Film av Stephen Herek
        Filmatisering av Alexandre Dumas’ roman «De tre musketerer». Relasjon til verket filmen er basert på er uttrykt med biinnførsel på forfatteren med romanens norske tittel. Men identifiseringen av romanen som verk avhenger av den franske originaltittelen «Les trois mousquetaires». Denne framgår ikke av katalogposten.

     

      • Utilstrekkelig informasjon om serier
        Eksempel: Ursula K. Le Guin. «Trollmannen fra Jordsjø» (Gyldendal, 2004)
        Her er det relevant å snakke om verk på to nivåer. På den ene siden er romanen et verk i seg selv, men den inngår også i en serie som samlet sett utgjør et mer omfattende verk. MARC-formatet lar oss registrere opplysninger om serier; i dette tilfellet har boka to serieangivelser: «Jordsjø-krøniken» og «Lunapocket». Den første sier noe om hvilken serie verket inngår i, mens den andre bare gjelder denne spesielle utgivelsen. Det finnes ingen måte å lese ut av posten hvorvidt en serieangivelse beskriver en reell verksserie eller en ren forlagsserie. En engelsk utgave av samme bok ville dessuten ha en helt annen angivelse av Jordsjø-serien, med engelsk serietittel. Vi kan altså ikke bruke MARC-feltet for serieangivelse til å etablere verks-IDer for serier. Det finnes riktignok rikere muligheter for å angi serietilhørighet i MARC, men disse er lite brukt i praksis.

     

    Hva gjør vi?

    Vi har sett at vi kan tilføre bibliotekkatalogen stor merverdi ved å etablere egne instanser for verk og relatere disse til hverandre og til de enkelte dokumentene i samlinga. Det å kunne identifisere verk og gruppere ulike manifestasjoner er en forutsetning for at vi skal kunne bruke katalogdata i digital formidling av biblioteksamlingen på en tilfredsstillende måte. Vi har videre sett at selv om bibliotekenes katalogdata er manifestasjonsorienterte, og ikke eksplisitt beskriver verk, så framgår ofte den nødvendige informasjonen implisitt. Ved å behandle katalogdataene etter visse logiske regler, kan vi konstruere verks-IDer og informasjon om verk fra dette utgangspunktet. Samtidig har vi sett at denne metoden har begrensninger. Den informasjonen som ikke går fram av katalogpostene må vi nødvendigvis gå glipp av. Behandling av data fra MARC-poster er derfor ikke tilfredsstillende som en endelig løsning når alt kommer til alt.

    Fortsatt er mange av basistjenestene til biblioteket avhengige av katalogdata i MARC-format; samtidig ser vi klare fordeler ved å kunne basere nye tjenester på katalogdata i et mer fleksibelt format, som RDF. Men hvis vi enn så lenge må ha data i begge formater, virker det ikke uhensiktsmessig å ta utgangspunkt i det mest begrensede formatet for å produsere de mer uttrykksfulle beskrivelsene? Virker det ikke mer fornuftig å starte i den andre enden: å produsere data i det best egnete formatet, og så heller bruke disse som grunnlag for å opprette enklere poster for de tjenestene og grensesnittene som er fortsatt er avhengige av MARC-formatet? Det er krevende å produsere gode metadatabeskrivelser av f.eks. film eller musikk ved hjelp av et generelt metadataskjema som MARC, som egentlig er utviklet for å beskrive bøker. Og det er begrenset hvor godt de ferdige dataene kan tolkes tilbake til film- eller musikkspesifikk informasjon i etterkant. Da virker det mer hensiktsmessig å produsere gode og presise beskrivelser i metadataskjemaer som er spesielt tilpasset disse typene uttrykk, og så heller bruke dette som grunnlag til å produsere flatere beskrivelser i et mer generelt format. Man kan alltids behandle konverterte MARC-data og resonnere seg fram til informasjon som ikke framgår eksplisitt fra MARC-postene, slik vi har gjort for å identifisere og relatere verk. Men det er ikke til å unngå at man før eller siden vil havne i situasjoner hvor det mindre uttrykksfulle formatet blir en feilkilde eller forårsaker unødvendige begrensninger for hva som er mulig å få til. Det å lage flate avbildninger av en tredimensjonal gjenstand er en langt mer overkommelig oppgave enn å rekonstruere tredimensjonale gjenstander ut fra et todimensjonalt bilde.

    I tillegg er tiden moden for en endring av fokuset i selve katalogiseringsprosessen. Katalogisering bør i mindre grad handle om å beskrive fysiske objekter, og i større grad om å beskrive de inneholdte verkene. Bibliotekkatalogen er ikke lenger bare et arbeidsredskap for bibliotekarene for å organisere og finne fram i en fysisk samling; den er en tjeneste som vi yter til sluttbrukerne. Da er det helt avgjørende at det går an å orientere seg og finne informasjon med en verksorientert tilnærming. Dette forutsetter at verkene representeres som egne instanser i bibliotekkatalogene, med egne unike identifikatorer. Data som beskriver verket på et overordnet plan hører hjemme her, i stedet for at vi registrerer de samme opplysningene i mange forskjellige katalogposter. Så kan man i neste omgang beskrive relasjoner mellom verk og knytte verk til de enkelte utgavene, for å gi sluttbrukere navigasjonmuligheter og tilgang til objektene i samlingen. Slik kan bibliotekkatalogen utgjøre et godt grunnlag for formidling og tilgjengeliggjøring av biblioteksamlingene i en digital tid.

     

    3 Comments "

    Active shelves

    oktober 16th, 2012

     

    These days Oslo Public Library is completing the first prototype for the active shelves information service. The active shelf is an interactive physical device that lets users look up and explore library books. In the long term, the project aims to produce a service that could be an integrated part of the actual bookshelves in the library, as well as a mobile app the user can use from his own smartphone or tablet.

    The project has run parallel to the Book reviews project, and it demonstrates an interesting way of utilizing the information libraries produce about their books. The active shelf uses a mix of bibliographic catalogue data, book reviews and data from external web services, to collect and display information about any book a user places on the shelf. The user can read book reviews, and browse through other books by the same author or books that are assumed to be similar in some way, to get ideas about other books he or she might be interested in.

    The shelf has a built-in RFID reader, that identifies the book and triggers the application that collects information about it. Initially the application queries the local RDF store for bibliographic data, book reviews and lists of related books. Some of this information is used further, to retrieve additional information from external source APIs, such as online bookstores, literature databases and social websites for book lovers. The user can operate a touchscreen interface to browse reviews and ratings, or to be guided on to other books that might be interesting.

    The shelf, on the right side of the screen, identifies the book.

     

    The active shelf application uses the SPARQL query language to query an RDF version of the library catalogue. If we were to base a service like this on established library protocols and formats, we simply couldn’t do it.  There is no room in the MARC data format to connect our catalogue records to the kind of information we want to display to the user, and library specific protocols, such as  Z39.50 and SRU, don’t allow us to query our data in the ways we need. The traditional purpose of the library catalogue is to help the user locate books in the library, not to present and market books to the user. Sadly this hasn’t changed too much as the catalogue has moved online, and this is still reflected in the library technology standards.

    The RDF linked data format and the SPARQL query language not only allow us to connect catalogue data with other data and query them in new ways. They also allow us to process our data to find connections and derive new information that adds value to the catalogue. We can identify which books are editions of the same work, so that we don’t have to list all editions of each book when the user looks for related titles. And we can make new connections between books, based on similarities between the metadata describing them, so the application can suggest other titles that might be interesting.

    The prototype is currently being tested internally at the library, while it is given the final touches. It will be unveiled and made available for visitors in the library in November, when we start running user tests. In the first phase of the project we have chosen to focus exclusively on books and audiobooks, but in the event of an extension of the project, it is of course interesting to look at similar services for other kinds of library material, like music and movies. Another interesting direction in which to run with this ball, would be to look at the possibility for including the same kind of functionality in a mobile app. The user of an app like this could receive the same kind of information on his smartphone by scanning barcodes from the books.

    3 Comments "

    Book reviews

    oktober 9th, 2012

    The book reviews project at Oslo Public Library aims to collect book reviews produced in Norwegian libraries, and to make them easily accessible for reuse.

    The online library catalogue may be a helpful tool for library users to search for books by title, author or subject. It is not as good a tool for finding information about books they are interested to know more about. The catalogue records will expose bibliographic facts like names of publishers, physical descriptions and ISBN numbers. But what is this book like? Is it any good? This is the kind of information the catalogue won’t provide. Also it is the kind of information many library users hope to find in the library and on our webpages.

    The lack of information like this might seem understandable. After all, producing this kind of subjective information about books is a very time consuming job. But the fact is that libraries already produce information just like this, it just isn’t put to very good use. In most libraries employees write lots of book reviews. Altogether that adds up to lots and lots of book reviews. Book reviews are published at web sites and in blogs, they are printed on paper to promote exhibited books, they are read aloud to visitors and co-workers in the library… And after having been exposed once, they are typically forgotten. What a shame.

    So the problem isn’t that libraries don’t produce or own this kind information about their books. But they lack a good system for sharing and reusing reviews. Also they lack a good way for linking reviews to the books they describe. A book review blog post may contain a link to the matching catalogue record, so that a reader can locate or reserve the book, but there is no room in the library catalogue for linking the other way. There is no field in the MARC metadata format to link a book to a review.

    The Book reviews project at Oslo Public Library aims to collect book reviews from many libraries in one database, and to make them easily accessible, so that they can be looked up and reused whenever someone needs them. A user, in or outside of the library, should be able to fetch reviews through an open web service API or through RSS feeds, so that he can easily incorporate book reviews into websites, blogs, info screen services or application software.

    The collected reviews are stored as open linked data in the library’s RDF store at http://data.deichman.no. The reviews are described with metadata, and linked to books in a linked data version of the library catalogue. This flexible format allows us to enrich the catalogue data with things like links to book reviews. It also allows us to link different editions of one book together, so that you can find the same book review no matter if it is the paperback or the hardback edition you are looking up.

    As part of the project, we are also developing a web application for putting together and distributing lists of reviews, based on catalogue metadata. You could for example compose a list of reviews of books by a particular author, or you could make a search for reviews of children’s fantasy books, and export the resulting list as an RSS feed to be displayed in your blog.

    During 2012 the project has run as a preliminary work, supported by the Norwegian National library. An attempt at getting an overview of the production of book reviews in Norwegian libraries, suggested that we are talking about quite considerable amounts. In the first phase of the project we focused on six different sources for reviews: Five different services from Oslo Public library, as well as the now discontiued national Opening the book project, Ønskebok. So far this adds up to a total of nearly 4000 reviews. In an extension of the project we aim to cooperate with other libraries to gain more material, and we expect that the total number of reviews will at least double.

    1 Comment "

    data.deichman – Deichman-data i ny drakt

    februar 24th, 2012

    I forbindelse med prosjektene Bokanbefalinger og Aktive hyller, har det blitt arbeidet mye med konvertering av bibliotekkatalogen til RDF-format. Dette er et arbeid vi jobbet med allerede i 2010, i forbindelse med Pode-prosjektet. Det arbeidet som foregår på området nå er langt mer detaljert og grundig, og gir langt flere muligheter, enn den litt mer forsøksvise konverteringen vi gjorde for et og et halvt år siden.

    RDF er et format som gjør dataene våre virkelig maskinlesbare. Der maskinlesbarhet i forbindelse med MARC-formatet betyr at en datamaskin kan lese, lagre og behandle tegnene i en katalogpost, betyr maskinlesbarhet i RDF at en datamaskin kan lese selve betydningen av dataene våre. I korthet handler en konvertering til RDF om å «oversette» katalogpostene til sett av enkeltstående opplysninger, der vi bruker unike identifikatorer for både det vi vil si noe om og for de opplysningene vi vil gi.

    I Pode-prosjektet brukte vi XSL-transformasjoner til å gjøre slik konvertering. Dette viste seg å være en tung og kompleks arbeidsmåte, hvor det virkelig gjaldt å holde tunga rett i munnen. Vi bruker nå i stedet et Ruby-program sammen med en mappingfil i yaml-format i dette arbeidet. Dette gir oss en langt mer oversiktlig arbeidssituasjon, hvor det også er langt lettere å gjøre endringer og rettinger. I utgangspunktet er konverteringen utført på en eksport av hele katalogen; så håndteres tilvekst, endringer og slettinger ved hjelp av OAI-PMH-protokollen. Kode og dokumentasjon er tilgjengelig her:

    https://github.com/digibib/marc2rdf

     

    Modell for katalogdata i RDF-format

     

    «Elsk og berik med drøm, alt stort som var»

    Greier vi å tenke nytt uten å glemme det vi kan fra før? Vi er ikke det første biblioteket i verden som konverterer katalogdata til RDF. Her har det blant annet skjedd ting i Sverige, Ungarn, Tyskland og Storbritannia. Men der mye av arbeidet ellers har fokusert på å sortere ut de mest vesentlige opplysningene i katalogen, har vi i større grad prøvd å få med oss «alt». Katalogiserere i bibliotekene gjør et grundig og uvurderlig arbeid, og vi som jobber i bibliotek vet at det er avgjørende å ha tilgang til langt flere opplysninger enn tittel, forfatternavn, emneord og ISBN. Vi har derfor ønsket å ta med oss så mye som mulig av informasjonen i katalogen over i RDF-formatet, og å uttrykke det så presist og korrekt som mulig. Vi har systematisk jobbet oss gjennom NORMARC-formatet, felt for felt, og tatt stilling til hvordan dataene skal tolkes og hvordan innholdet best mulig kan uttrykkes.

    Samtidig er det et poeng at den RDF-iserte katalogen ikke bare blir et annet datasett som sier akkurat det samme som katalogen på et annet språk. Katalogiseringsreglene og MARC-formatet bærer preg av at de er utformet for å få et best mulig resultat innenfor visse begrensninger, og en del av disse begrensningene er kanskje ikke like relevante nå som de var da reglene ble utformet. I tillegg er mange av reglene preget av de både skal beskrive dokumenter og hjelpe til med å lokalisere dem.  Hvis vi tar med de gamle reglene og den gamle tankegangen over i det nye formatet, får vi også med oss de gamle begrensningene som en nisse på lasset. RDF-formatet er friere og gir flere muligheter enn MARC, og det må vi selvfølgelig utnytte.

    Et konkret eksempel: Hva betyr det når en katalogpost forteller at Jon Bing er forfatter av boken Oslo 2084, mens Tor Åge Bringsværd bare er medforfatter? Denne distinksjonen mellom funksjonsbetegnelser har ikke egentlig noe som helst med funksjonen til de to personene å gjøre. Saken er at vi egentlig ikke har noe felt for forfatter i MARC; vi bruker i stedet et felt for hovedordningsord, en term som sier noe om hvor en bok skal plasseres i samlingen. En fysisk bok kan bare befinne seg ett sted, følgelig kan katalogposten bare ha ett hovedordningsord. Jon Bings navn står nevnt først av de to på tittelbladet, og derfor får han alene æren av å stå som forfatter, mens Bringsværds rolle blir redusert til «medforfatter». Når vi uttrykker dette i RDF, trenger vi ikke forholde oss til slike kunstige, ikkefunksjonelle distinksjoner. Vi lager i stedet ganske enkelt én opplysning som sier at boken har forfatter Jon Bing og en annen opplysning som sier at boken har forfatter Tor Åge Bringsværd. Det er ingen konflikt mellom disse påstandene.

    Et annet eksempel som krever at vi tenker på en annen måte enn vi vanligvis gjør innenfor katalogiseringen, er tilfeller der informasjonen i postene er flertydig og kontekstavhengig. Ta denne biinnførselen som et eksempel:

    *700 0 $a King, Stephen
           $d 1947-
           $e forf.
           $j am.
           $t Rita Hayworth and Shawshank Redemption

    Hva er forbindelsen mellom kortromanen Rita Hayworth and Shawshank Redemption og det katalogiserte dokumentet i dette tilfellet? Det kommer helt an på sammenhengen biinnførselen opptrer i. Hvis det katalogiserte dokumentet er en bok, betyr opplysningen at kortromanen utgjør en del av dokumentet. Men hvis det katalogiserte dokumentet er en DVD, betyr biinnførselen at filmen er basert på historien som kortromanen forteller. Riktig tolkning forutsetter at leseren vet noe om hva en tekst og en film er, og om hvordan de kan forholde seg til hverandre. Tolkningen forutsetter med andre ord en menneskelig leser.

    Begge disse eksemplene sier noe om begrensninger i hva vi kan uttrykke ved hjelp av katalogiseringsreglene og MARC-formatet. Det første har å gjøre med hvordan reglene har den dobbelte funksjonen å både skulle beskrive og å lokalisere dokumenter. Begreper som hovedordningsord og biinnførsel er ikke noe vi har funnet opp primært for å beskrive bøker, film eller musikk; funksjonen er å organisere fysiske samlinger og å velge oppslagsmuligheter i kortkataloger. Det andre har å gjøre med graden av maskinlesbarhet: Når det kreves menneskelig common sense-kunnskap for å forstå dataene riktig, kan de ikke sies å være reelt maskinlesbare.

     

    Fabio – «FRBR light»

    Ett av vokabularene vi bruker i RDF-datasettet er FabioThe FRBR aligned bibliographic ontology. Dette vokabularet gir oss mulighet til å uttrykke noe av det nyttige funksjonelle i FRBR-modellen, uten de strenge formelle kravene denne modellen har. Blant annet gir det oss muligheten til å assosiere manifestasjoner direkte med verk, uten å gå veien via uttrykksnivået. Vi har brukt opplysninger om titler, originaltitler og opphavspersoner til å finne forbindelser mellom ulike manifestasjoner av samme verk. Verkene får sine egne instanser i datasettet, med koblinger til alle utgaver og oversettelser. Slike koblinger er avgjørende i prosjektene Bokanbefalinger og Aktive hyller, siden vi ønsker å gi knytte den samme informasjonen til alle utgaver av ett verk. Verksinstansene opptrer også som emne for eller del av andre verk. Når boka Dyret i mennesket har Ibsens Peer Gynt som emne, så er det selve verket vi snakker om, og ikke én bestemt utgave av det.

     

    Nye muligheter med RDF og SPARQL

    SPARQL er et spørrespråk for data i RDF-format. Ved hjelp av SPARQL kan vi gjøre alle vanlige søk og oppslag i katalogdata; i tillegg får vi mye nytt med på kjøpet.

    CCL-søk gir oss mange muligheter til å kombinere opplysninger og lage avanserte og spesifikke søk, men det er én begrensning man aldri slipper unna: Uansett hvordan du søker, får du katalogposter tilbake. Sagt på en annen måte: Man kan spørre om hva som helst, men bare så lenge spørsmålet innledes med ordene «Hvilke bøker…».

    Det lar seg for eksempel ikke gjøre på noen lett måte å besvare spørsmål som «Hvilke emner har vi nynorske romaner om?» eller «Hvilke norske forfattere har skrevet bøker om andre verdenskrig», til tross for at katalogen inneholder all nødvendig informasjon. For å besvare slike spørsmål må man først søke etter hvilke bøker som er romaner på nynorsk eller hvilke bøker som handler om andre verdenskrig og er skrevet av en norsk forfatter. Så må man selv gå gjennom hele lista av poster for å finne de unike emneordene eller forfatternavnene.

    En annen begrensning med CCL-søk er at de ikke kan inneholde ukjente størrelser. Det går for eksempel ikke an å formulere et CCL-søk slik at man med utgangspunkt i en boktittel kan få returnert alle andre titler som er skrevet av samme forfatter. Da må man først søke opp den kjente boken, finne navnet på forfatteren ut fra posten, for så å sende et nytt søk. Dette er ikke spesielt plagsomt, men hva om svaret man vil finne avhenger av flere ukjente størrelser? Spørsmål som «Hvilke romaner har vi som vi også har filmatiseringen av på DVD?» er det håpløst å kunne besvare med hjelp av vanlige søkeverktøy. Med SPARQL kan man spørre på følgende måte:

    Gi meg alle par av dokumenter, dokument-1 og dokument-2, som er sånn at:

    • dokument-1 er en roman i bokform
    • dokument-2 er en film på DVD
    • dokument-1 er skrevet av forfatter X og har tittel Y
    • dokument-2 er basert på et litterært verk av forfatter X, med tittel Y

     

    Veien videre

    Det gjenstår en del arbeid med koblinger av verk og manifestasjoner. Her har vi støtt på noen utfordringer som gjør at den foreløpige strukturen har en del mangler. Vi har foreløpig heller ikke fått på plass en metode for å håndtere de konsekvensene endringer i katalogen får for verksstrukturen, etter hvert som de skjer. Vi ønsker også å gjøre en innsats med å berike og koble sammen våre katalogdata med data fra eksterne datakilder. Dette er noe som kan være svært verdifullt i de pågående prosjektene. Her har blant annet BIBSYS og NTNU-bibliotekets prosjekt Rådata nå! gjort et arbeid med personautoriteter som vi kan trekke mye nytte av.

    Se de nye Deichman-dataene på http://data.deichman.no/

    2 Comments "