Nya sökmetoder på Internet ger bättre täckning
Katarina Blom beskriver i sin doktorsavhandling nya metoder för informationssökning på Internet med bättre precision och täckning.
Informationssökning handlar om att söka efter information i mycket stora databaser. En användare tillhandahåller en sökfråga och söksystemet returnerar relevanta dokument till sökfrågan.
En sökmotor på Internet är ett bra exempel på ett informationssökningssystem. Dagens enorma tillgång på elektronisk information omvandlar informationssökning till ett gigantiskt beräknings problem. Sökmotorn Googles databas innehåller till exempel mer än tre miljarder webbsidor som snabbt och effektivt behöver genomsökas för att finna de som är relevanta till användarens sökfrågor. Vid högtrafik, skickar användare över hela världen mer än 3000 sökfrågor per sekund till sökmotorn.
Inte nog med att användarna förväntar sig att få ett snabbt svar på sina sökfrågor – de förväntar sig också att svaret ska motsvara deras förväntningar. De vill inte ha för många icke relevanta träffar (de vill ha hög precision) och de vill hitta alla för frågan relevanta dokument (de vill ha god täckning).
Behovet av söksystem som snabbt söker igenom mycket stora datamängder och som returnerar ett svar med hög precision och god täckning är stort.
– Jag har undersökt och anpassat en klass av metoder, Krylov metoder som vanligtvis används i helt andra beräkningssammanhang, till informationssökning, säger Katarina Blom.
– Med hjälp av numerisk linjär algebra har jag skapat en informationssökningsmodell. En modell som kan användas för att beskriva många andra, redan befintliga, metoder. I avhandlingen presenterar jag inte den optimala sökmetoden eller det optimala söksystemet, utan jag har snarare avsett att introducera en teknik för hur man kan bygga söksystem och pekat på möjliga vägar inom området.
Metoderna som utvecklats är enkla att tolka matematiskt och de är relativt enkla att tillämpa. Metoderna visar också mycket god prestanda jämfört med befintliga metoder i de experiment som utförts – god prestanda både för precision och täckning, men också för hur snabbt svaret kan ges.
– Jag hoppas att mitt arbete skall inspirera till fortsatta studier kring möjligheterna att använda linjär algebra för utveckling av informationssökning, avslutar Katarina Blom.
Avhandlingen “Information Retrieval Using Krylov Subspace Methods” försvarades vid en offentlig disputation på Chalmers under våren 2004.
Kontaktinformation
Mer information
Katarina Blom, Datavetenskap, Chalmers och Göteborgs universitet,
tel 031- 772 1060,
e-post: blom@math.chalmers.se