Tema

Språket inget problem när datorn sammanfattar

Dagens överflöd av digital information gör det omöjligt för oss att manuellt sålla och välja vad vi ska ta till oss. På de stora världsspråken finns program för automatisk textsammanfattning. För små språk har kostnaderna tidigare lagt hinder i vägen men nu har KTH-forskaren Martin Hassel utvecklat en språkoberoende textsammanfattare.

Automatisk textsammanfattning innebär att en dator sammanfattar en längre text till en kortare, fri från överflödig information. I sin avhandling presenterar Martin Hassel en modell för hur en språkoberoende textsammanfattare kan sättas samman genom att grundläggande språkteknologiska verktyg kombineras. Det gör det möjligt att till en rimlig kostnad utveckla program för automatisk textsammanfattning även för små språk.

– Det största hindret när det gäller mindre språk är att det saknas datamängder som är ämnade för språkteknologisk forskning. Det saknas också ofta resurser för att bygga upp sådana datamängder eftersom det är tidskrävande och dessutom många gånger kräver mycket manuellt arbete, säger Martin Hassel.

Likväl behövs automatisk textsammanfattning för dessa språk för att tämja den konstant ökande mängden elektroniskt producerad text. Martin Hassel har fokuserat på automatisk sammanfattning av text med så liten mänsklig insats som möjligt. De resurser som används bör i så hög grad som möjligt redan existera och behöver inte vara skapade för automatisk textsammanfattning. Helst bör de ha kommit till som en naturlig del av en litterär process.

– Sammanfattningssystemet bör utan större ansträngning kunna sättas samman med hjälp av ett mindre antal mycket grundläggande språkteknologiska verktyg. Det ger en textsammanfattare som är nära nog språkoberoende, så att den lätt kan flyttas mellan olika språk, säger Martin Hassel.

Den forskning han lägger fram i sin doktorsavhandling berör i huvudsak tre datorsystem; ett för nära nog språkoberoende sammanfattning – HolSum, ett för insamlande av stora textmängder – KTH News Corpus, och ett för utvärdering av sammanfattning – KTH eXtract Corpus. KTH News Corpus gör det möjligt att bygga en modell över språket utan tillgång till texter framtagna för språkteknologisk forskning.

Istället samlar man in och använder texter som redan finns producerade för andra ändamål, för att bygga den modell som textsammanfattaren HolSum använder. Programmet har en inbyggd kvalitetskontroll för sammanfattningarna.

– HolSum gör en innehållslig bedömning av sammanfattningen som en helhet innan den presenteras för användaren, förklarar Martin Hassel.

Utvärderingar av HolSum har utförts både med väl etablerade datamängder och utvärderingsmetoder, för engelska, och med data- och utvärderingsmängder insamlade specifikt för detta ändamål, för svenska.

– HolSumtekniken ser mycket lovande ut för framtiden och ett företag har redan visat intresse för att kommersialisera tekniken när den finslipats ytterligare. Nu hoppas jag att fler forskare använder och utvecklar den så att människors informationssökande i framtiden inte ska behöva begränsas av vilken del av världen man bor i, säger Martin Hassel.

Tid: måndag 11 juni 2007, kl. 13.15
Plats: Sal E2, Lindstedtsvägen 3, KTH Campus Valhallavägen, Stockholm

Avhandlingens titel: Resource Lean and Portable Automatic Text Summarization

Kontaktinformation
Kontakt: Martin Hassel, 08-790 6634, xmartin@csc.kth.se

Språket inget problem när datorn sammanfattar

 lästid ~ 2 min