Tema

Ny språkteknik ska hjälpa datorn skilja ”rock” från ”rock”

För att fungera korrekt behöver digitala verktyg kunna förstå om det är musiken eller klädesplagget som avses med ordet ”rock”, och om det med ”damm” menas en vattensamling eller smuts i hörnen. Datorer som använder mänskligt språk kan automatiskt lära sig de olika betydelserna av ord med fler än en innebörd.

Språket är centralt för digitala verktyg som används i allt från apparater som ger röstkommandon till en digital assistent, till automatiserade sammanfattningar av dagens nyhetsartiklar. Men för att verktygen ska fungera som de ska måste de underliggande datorsystemen räkna med en semantisk modell som ger datorn information om varje ords betydelse. Det kan vara extra svårt när det gäller ord med fler än en betydelse.

Nuvarande semantiska modeller, som använder sig av större kvantiteter av text för inlärning, tenderar att ge ord enbart en betydelse. På så vis sammanfogas de olika innebörder som ett ord kan ha till en enda.

– I min avhandling visar jag dels att det är möjligt att anpassa sådana semantiska modeller till att lära sig flera betydelser av ett enda ord, och även att dessa modeller förbättras när de data som används för inlärning av ordbetydelse inte enbart består av text utan även av språkresurser som lexikon, säger Luis Nieto Piña, doktorand vid Göteborgs universitet.

Bättre sätt för semantiska modeller

Semantiska modeller som informerar datorn om ords betydelser är avgörande i de flesta system som hanterar språk: automatisk översättning av text, nyhetssammanfattningar, sentimentanalys av kundrecensioner, chattbots som ger kundservice och så vidare.

– Avhandlingen erbjuder förbättrade sätt för sådana system att förstå ordbetydelser. Det kan förbättra systemens prestanda och därmed användarupplevelsen.

Alla som någon gång översatt en text till ett annat språk via en automatisk översättningstjänst på internet vet hur fel det kan bli.

– Vanligt förekommande automatiska översättningsfel som ”Sven åt filen” översatt till den engelska meningen som ”Sven ate the file” skulle kunna undvikas genom att använda modeller som presenteras i avhandlingen.

Maskininlärning vid utveckling av lexikon

– Dessutom kan dessa nya modeller ge en möjlighet att använda moderna maskininlärningstekniker för att bearbeta lexikon. I praktiken innebär det att forskare som ansvarar för att utveckla lexikon kan automatisera vissa uppgifter och minska sitt manuella arbete.

Syftet med Luis Nieto Piña avhandling har varit att erbjuda bättre modeller för ordbetydelse, för forskare och utvecklare inom språkteknologi.

– Förhoppningen är att de här modellerna ska förbättra nuvarande och framtida applikationer som arbetar med språk, för att göra våra vardagsliv lite lättare.

Avhandlingen:

Splitting rocks: Learning word sense representations from corpora and lexica

Kontakt:

Luis Nieto Piña, luis.nieto.pina@gu.se

Vi finns där du är @forskningsnyhet

Ny språkteknik ska hjälpa datorn skilja ”rock” från ”rock”

 lästid ~ 2 min