Artikel från Göteborgs universitet

Den här artikeln bygger på ett pressmeddelande. Läs om hur redaktionen jobbar.

23 november 2004

Olika sätt att förbättra åtkomsten till elektroniskt lagrade svenska texter

Doktorsavhandling i biblioteks- och informationsvetenskap av Per Ahlgren

Hur man med rimlig precision ska kunna söka och återvinna material på Internet eller i större databaser är ett problem som studeras inom ämnesområdet informationsåtkomst (“information retrieval”). Forskning inom detta område har främst gällt engelskspråkig text. Denna avhandling rör texter på svenska.


Avhandlingen behandlar olika sätt att automatiskt indexera (innehållsbeskriva) dokument i stora databaser för att förbättra möjligheterna till sökning och återvinning. Problemet att andra varianter av ett ord, än den variant användaren placerar in sin sökfråga, kan förekomma i dokumenten studerades. I studien testades metoder avsedda att motverka detta problem.


En testsamling bestående av 161336 svenska tidningsartiklar användes i studiens experiment. Fem olika metoder testades. Tre av dessa involverade transformering av ordformer till deras grundformer. Denna transformering skedde under indexeringen av tidningsartiklarna och resulterade i index bestående av ords grundformer. Två av de tre nämnda metoderna använde uppbrytning av sammansättningar vid indexeringen. Ett program för morfologisk analys av svenska ord utförde såväl transformeringen ifråga som uppbrytningen av sammansättningar. En fjärde metod avsåg att gruppera relaterade ord genom förkortning av orden i en sökfråga. Förkortningen av ord utfördes av en sökexpert. I en femte metod, studiens kontrollmetod, gjordes inget för att motverka problemet med förekomst av varianter av sökfrågeord i tidningsartiklarna.


Avhandlingens huvudsakliga slutsats är att såväl den nämnda transformeringen av ordformer till deras grundformer (tre metoder) som förkortningen av ord i sökfrågor var effektiva i den meningen att åtkomsten till relevanta tidningsartiklar förbättrades, i jämförelse med kontrollmetoden. Vidare gäller att de tre metoderna baserade på transformering av ordformer till deras grundformer var nästa lika effektiva som den metod, som involverade förkortning av ord. Resultatet ger stöd för att åtkomsten till svenska dokument kan förbättras avsevärt om en metod för transformering av ord till deras stammar tillämpas vid indexering samt på de ord som ingår i användares sökfrågor.

Avhandlingens titel: The effects of indexing strategy-query term combination on retrieval effectiveness in a Swedish full text database
Avhandlingsförfattare: Per Ahlgren , tel. 033-101195(bost.), 033-435 4065(arb.)
e-post:.per.ahlgren@hb.se
Fakultetsopponentens namn: Fil. dr Jussi Karlgren, Kista
Tid och plats för disputation: Fredagen den 17 december 2004 kl. 13.15, Stora Hörsalen, Högskolan i Borås, Allégatan 1, Borås

Kontaktinformation
Svenbo Johansson, avdelningsdirektör
Samhällsvetenskapliga fakultetskansliet
Besöksadress: Skanstorget 18
Postadress: Box 720, 405 30 Göteborg
tel. 031-773 1022
fax 031-773 1940

Nyhetsbrev med aktuell forskning

Visste du att robotar som ser en i ögonen är lättare att snacka med? Missa ingen ny forskning, prenumerera på vårt nyhetsbrev!

Jag vill prenumerera