Det finns flera anledningar till varför en parallellställd (eller åtminstone jämförbar) korpus av lättlästa texter och texter skrivna på standardsvenska är användbar. Den kan exempelvis användas till att studera textkomplexitet, att jämföra vilka parametrar som skiljer sig åt mellan lättlästa texter och icke-lättlästa texter. Den kan även användas som träningsdata för system som på automatisk väg vill förenkla text. Ett problem med den senare typen av tekniker är att de kräver mycket data för att träna sina modeller, och detta är naturligtvis problematiskt i ett mindre språk som svenskan.
Som ett steg i att försöka närma oss ett system för automatisk textförenkling har vi vid Linköpings universitet samlat in en korpus bestående av kommuners och myndigheters lättlästa webbsidor, samt innehållet från deras ordinarie webbsidor. Vi har även parallellställt texterna på meningsnivå i syfte att hitta meningspar med olika komplexitet, men samma semantiska innehåll. Vi har testat tre olika algoritmer för parallellställning och utvärderat dessa, både mot en guldstandard bestående av manuellt annoterade meningar och i en webbenkät där personer fick bedöma meningsparen avseende semantisk likhet.
Den vinnande algoritmen ("Maximum Alignment") användes för att parallellställa meningar från de insamlade texterna från kommuner och myndigheter, vilket gav en korpus bestående av 59 513 meningspar.
Korpusen finns tillgänglig via projektets webbsida:
https://www.ida.liu.se/~arnjo82/diginclude/corpus/max06.txt