Tema

Så tränas AI att snabbt analysera historiska dokument

Genom maskininlärning kan AI tränas att snabbare analysera handskrivna historiska dokument som kyrkböcker, domböcker och mantalslängder. Forskare från Blekinge Tekniska Högskola har utvecklat metoder som gör träningsprocessen fyra gånger så effektiv.

Idag är det lätt för allmänheten att komma åt äldre handskrivna dokument. De finns ofta som högupplösta bilder hos olika myndigheter och blir lättåtkomliga via internet. Behovet att analysera bilder och dokument är därför ett växande område och har fått mycket uppmärksamhet på senare år.

Utvecklingen har framför allt drivits framåt av kraftfulla AI- och maskininlärningstekniker som neurala nätverk, även kallat deep learning. Utmaningen med denna teknik är dock att det krävs mycket data för att träna nätverken och att de är beräkningskrävande.

Svårt analysera gamla dokument

Att analysera historiska handskrivna dokument är speciellt utmanande eftersom texten kan ha blivit blekt, dokumentet skadat eller att text från baksidan syns igenom.

Florian Westphal har i sin avhandling i datorsystemteknik vid Blekinge Tekniska Högskola tittat på två utmaningar när det gäller deep learning: dels hur beräkningarna kan göras mer effektiva, dels hur man kan göra själva träningen mer effektiv till exempel genom att inte träna på all data utan enbart träna vissa delar.

Snabbare träningsprocess

Han har utvecklat tekniker och metoder som kan göra träningsprocessen nästan fyra gånger snabbare och som gör det möjligt att reducera mängden träningsdata med upp till två tredjedelar – utan att noggrannheten går förlorad. Han har även tagit fram en metod där användaren ger återkoppling till systemet interaktivt under träningsprocessen för att effektivisera den.

De nya teknikerna är generella men Florian Westphal har specialiserat dem för tillämpad analys av digitaliserade historiska handskrivna dokument, till exempel kyrkböcker, mantalslängder och domböcker.

Avhandling:

Data and Time Efficient Historical Document Analysis

Kontakt:

Florian Westphal (engelsktalande), institutionen för datavetenskap, Blekinge Tekniska Högskola, BTH, florian.westphal@bth.se

Vi finns där du är @forskningsnyhet

Så tränas AI att snabbt analysera historiska dokument

 lästid ~ 1 min