Annoterede tekstdatabaser: Databasemodeller og Søgesprog i Kontekst af Kaj Munk Arkivet

Project Details

Description

Ulrik Petersen er cand.mag. i humanistisk datalogi og B.Sc. i datalogi og matematik, og har beskæftiget sig med datalingvistik i snart et årti. Han er ansat som ph.d.-stipendiat ved Kaj Munk Forskningcentret (KMF). Hans forskning indenfor tekstdatabasesystemer skal understøtte KMF’s arbejde med at gøre Kaj Munk-arkivet tilgængeligt på web’en, ikke mindst med hensyn til avancerede søgninger i Kaj Munk-arkivet. Forsknigen foregår i samspil med HCI-forskerskolens forskere. Målet med hans forskning er at udvikle teorier, metoder og principper for, hvorledes man kan lave avancerede – men alligevel let tilgængelige – søgninger i store mængder tekst, herunder Kaj Munk arkivet. De ønskede resultater gerne skulle være så generelle, at de ville kunne anvendes på andre store mængder tekst. Helt konkret er målet, at kunne lave søgninger, der er mere præcise end dagens teknologi tillader det f.eks. i form af Googles søgemaskine. Målet er i sidste end at kunne lave generelle teorier, metoder og principper for semantiske søgninger, som vil kunne muliggøre søgninger på Internettet med en præcision, som hidtil ikke er set. De samme principper vil kunne anvendes til at søge i andre store mængder information, f.eks. andre forfatterarkiver, lovtekster, avisartikler, bogsamlinger, rigsarkiver, kirkebøger, med videre. Det siger sig selv, at der er store økonomiske interesser knyttet til udviklingen af sådan et Information Retrieval system. Ulrik Petersens forskning vil gå i to retninger, som begge mødes til sidst i en kommende version af dette site. Den ene retning er automatisk analyse af Kaj Munk-teksternes semantik (mening og betydning). For eksempel vil man kunne søge på ordet "sogn", og så blive præsenteret muligheden for også at søge på relaterede ord såsom "kirke", "kirkegaard", "by" og "forsamlingshus" – også selv om ordet "sogn" måske ikke lige forekommer i et givent dokument. Dette skal gøres igennem et dialogbaseret søgeinterface, som trinvist forhandler med brugeren om, hvilken betydning, der menes. Dette ønskes tilvejebragt gennem en automatisk analyse af teksterne, der inddrager både syntaks og semantik. Der skal laves både morfologiske, leksikalske, syntaktiske og semantiske analyser af teksterne. Det er målet, at såkaldte "klynger" af ord ("clusters") skal "opdages" automatisk gennem forskellige slags analyser af teksterne, og at begrebshierarkier ("ontologier") skal spille en væsentlig rolle i søgningerne. Disse begrebshierarkier skal også kunne "opdages" eller "afdækkes" automatisk. Den anden retning, hvori Ulrik Petersens forskning vil gå, er udviklingen af et søgesprog og en lagringsmodel for annoteret tekst (d.v.s. tekst plus informationer om teksten), som kan understøtte søgninger i Kaj Munk-teksterne. Ulrik Petersens forskning er allerede kommet langt i den henseende, idet han allerede før sin ansættelse har udviklet et softwaresystem, som kan meget af det, som der fordres af det ønskede søgesystem. Dette softwaresystem kaldes "Emdros" og har en hjemmeside på http://emdros.org. Emdros er et "industrial-strength" databasesystem, som har vist sit potentiale ved at have tiltrukket foreløbigt to kunder fra industrien, der har købt licenser. En del af Ulrik Petersens forskning bliver således at videreudvikle Emdros, således at systemet til fulde kan understøtte søgningerne i Kaj Munks tekster på Kaj Munk Forskningscentrets hjemmeside. Emdros er bl.a. blevet præsenteret på konferencen COLING 2004.
StatusActive
Effective start/end date19/05/2010 → …

Funding

  • <ingen navn>