Tema

Hur hanterar man språklig flertydighet i datasammanhang?

En viktig del av förståelsen av ett språkligt uttryck ligger i att avgöra ”vem som gör vad mot vem”. Med syntaktisk analys kan man undersöka hur vi som språkbrukare gör den här kopplingen mellan ett språkligt uttryck och dess betydelse. I datalingvistik arbetar man med att utföra automatisk syntaktisk analys. Lilja Øvrelid behandlar i sin avhandling hur man kan handskas med flertydighet i skandinaviska språk.

Att skilja mellan olika typer av satsdelar är en viktig komponent i denna process. I det avseendet bjuder de nordiska språken vissa utmaningar eftersom de har möjlighet till variation i ordföljden, samtidigt som den morfologiska markeringen är begränsad. Subjektet i en mening kan till exempel placeras både före och efter verbet (jfr Ida läste igår och Igår läste Ida), utan att subjektsfunktionen markeras formellt (jfr Ida läste boken och Boken ligger på bordet där boken har samma form oberoende av om det är subjekt eller objekt).

Lilja Øvrelid undersöker i sin avhandling vilka språkliga faktorer som bidrar till att man kan göra skillnad mellan olika typer av satsdelar som subjekt och objekt. Hon använder sig av generaliseringar som gäller för en rad språk om hur vi människor gör detta. En av de faktorer som har visat sig ha betydelse är animathet, som i huvudsak uttrycker huruvida något är levande eller inte. Ordet doktorand refererar till exempel till något animat, nämligen en människa, medan avhandling betecknar ett inanimat objekt.

Øvrelid hävdar att den nära kopplingen mellan betydelse och språkligt uttryck kan utnyttjas vid bruket av datadrivna metoder. Stora mängder språkliga data analyseras automatiskt med hjälp av så kallade maskininlärningstekniker. Avhandlingsförfattaren undersöker hur den semantiska egenskapen animathet kan tillämpas automatiskt, och därefter hur denna och andra språkliga faktorer påverkar automatisk syntaktisk analys av svenska.

Resultaten visar att en rad faktorer som är viktiga för mänsklig språkförståelse också bidrar till bättre automatiska system. Vidare visar resultaten att datadrivna metoder kan användas för att studera mänskligt språkbruk och de faktorer som bidrar till syntaktisk analys.

Avhandlingens titel: Argument Differentiation. Soft constraints and data-driven Models.
Disputationen äger rum lördagen den 31 maj 2008 kl. 10.15.
Plats: Lilla hörsalen, Humanisten, Renströmsgatan 6, Göteborg

Kontaktinformation
För ytterligare information kontakta Lilja Øvrelid, e-post: lilja.ovrelid@svenska.gu.se

Hur hanterar man språklig flertydighet i datasammanhang?

 lästid ~ 1 min