Tema

När datorer lär sig människospråk måste regler brytas

Datorers styrka ligger i att de alltid följer regler i form av de instruktioner de är programmerade med. Detta är också deras svaghet när det kommer till att bearbeta människors språk, enligt en avhandling vid Umeå universitet.

– Vi människor använder språk på ett inte alltid helt entydigt sätt, men givet sammanhanget tenderar vi att förstå varandra ändå. För en dator är vi dock i grunden helt obegripliga, säger Anna Jonsson, Institutionen för datavetenskap vid Umeå universitet.

Hon fortsätter:

– Ett annat problem är att språk är oändliga, och att en dators minnesutrymme är ändligt. Det vi som jobbar med språkbearbetning gör är att försöka använda det ändliga utrymmet för att täcka en så stor del av ett språk som möjligt.

Datorer kommunicerar via så kallade formella språk – språk som följer ett ändligt antal logiska regler. Trots att människospråk också följer vissa grammatiska regler så är dessa regler föränderliga och inte strikt nödvändiga för att vi ska förstå varandra, vilket ju är målet med mellanmänsklig kommunikation.

Datorn behöver bättre språkanalys

För att en dator ska kunna analysera människors språk behövs ändliga modeller som representerar aspekten som ska analyseras. Två centrala aspekter är syntax och semantik: syntax är orden som används och deras ordning medan semantik avser mening – vad en specifik text vill förmedla. I en dator representeras syntaktiska analyser som datastrukturen träd medan semantiska analyser fångas i form av datastrukturen graf.

Språkanalysmodeller måste också kunna utvärderas. För det behövs data i form av människospråk: med den kan modellens analyser poängsättas genom jämförelse med data. I sin avhandling utvecklar Anna Jonsson en metod som extraherar de högst poängsatta syntaktiska analyserna från en existerande språkanalysmodell.

– Vad gällande de semantiska analyserna har forskningen inte kommit lika långt. Därför har vi valt att utveckla en egen modell för semantisk analys, och jag hoppas och tror att vår modell kommer att vara betydelsefull i forskningen om semantisk språkbearbetning, säger Anna Jonsson.

Avhandling:

Best Trees Extraction and Contextual Grammars for Language Processing. (Svensk titel: Extrahering av optimala träd samt kontextuella grafgrammatiker för språkbearbetning)

Kontakt:

Anna Jonsson, Institutionen för datavetenskap, Umeå universitet, aj@cs.umu.se

Vi finns där du är @forskningsnyhet

När datorer lär sig människospråk måste regler brytas

 lästid ~ 2 min