Projekt ‘Dansk Google’ er nu afsluttet

Sakset fra www.deff.dk

DEFF-projektet ”Udvikling af forretningsmodel for udnyttelse af digitaliserede bøger” – også kaldt ‘Dansk Google’ – er netop afsluttet. Projektet er udført af Det Kongelige Bibliotek, Statsbiblioteket, Aarhus Universitetsforlag og Publizon A/S.

Planen var at digitalisere alle bogudgivelser fra Aarhus Universitetsforlag. Der var 3 selvstændige formål med dette:

  1. Forretningsmodel og jura: At afprøve en forretningsmodel som gør det muligt for både forlag og biblioteker at få glæde af de samme scanninger, og få afklaret en række juridiske problemstillinger i forhold til copyright
  2. Digitaliseringsprocessen: At teste selve digitaliseringsprocessen mellem bibliotek, forlag og scanningsleverandør
  3. Anvendelse af data til søgning: At få testet hvorvidt fuldtekstdata teknisk set kan integreres i bibliotekernes søgemaskiner, og få et første fingerpeg om nytteværdien for brugerne.

Den juridiske afklaring kom til at tage rigtig lang tid, da projektet blev et af de første til at afprøve mulighederne i de såkaldte aftalelicenser, som blev mulige med revisionen af ophavsretsloven i sommeren 2008. Aftalen med Copydan faldt endeligt på plads i maj 2010, og fra sommeren 2010 til sommeren 2011 er den praktiske del af projektet blevet gennemført med scanning og OCR-læsning af ca. 260.000 sider fra ca. 1.000 bøger. Efterfølgende er teksten fra de digitaliserede bøger blevet testet i søgemaskinerne hos Det Kongelige Bibliotek og Statsbiblioteket.

Vigtige erfaringer til fremtidig digitalisering

Projektholderne har konstateret, at det faktisk er muligt at bruge aftalelicens til at gennemføre en fælles digitalisering. Den anvendte model for samarbejde vil formentlig ikke kunne overføres direkte til andre projekter, men vi har gjort en række erfaringer, som kan bruges i det videre arbejde med lignende projekter. Målet var at skabe værdi, ikke kun for bibliotekerne, men også for forlaget. En konklusion er dog, at digitalisering ikke i sig selv medfører, at forlaget kan sende e-bøger på markedet.

Det kræver yderligere investeringer at forvandle de digitaliserede bøger til e-bøger, og investeringer kræver forventning om efterfølgende indtægter. Forlaget har arbejdet med forskellige modeller for videreudnyttelse men har endnu ikke fundet den rette. Det skyldes bl.a., at markedet for akademiske e-bøger i Danmark endnu er ikke tilstrækkeligt udviklet til at bære større investeringer.

Udfordringer for søgesystemerne

Det har også vist sig teknisk muligt at integrere de digitaliserede fuldtekster i søgesystemerne hos Det Kongelige Bibliotek og Statsbiblioteket. Til gengæld ligger der en stor udfordring i at få fuldteksterne til at resultere i bedre søgninger. Søgesystemerne søger i mange millioner poster, som primært indeholder bibliografiske metadata.

Når man så på en lille del af disse poster, nemlig ca. 1.000 poster, tilføjer bogens fulde tekst som metadata, så giver det en ubalance, som kan være svær at håndtere for søgesystemerne. Bøgerne med fuldtekst dukker ofte op i toppen af søgeresultaterne, og ofte foran andre poster, som for de fleste brugere er mere relevante. Andre gange kan søgningerne i fuldteksterne faktisk resultere i gode og relevante søgeresultater.

Behov for flere erfaringer

Der er behov for videre eksperimenter med at finjustere søgemaskinernes rankeringsalgoritmer for at kunne afgøre værdien af digitaliserede fuldtekster i bibliotekets søgninger. Samtidig er der også behov for undersøgelser af, hvordan søgningerne passer til brugernes måde at søge på.

Læs eller download projektrapporten fra rapportarkivet