Datorlingvistikgruppen vid Uppsala universitet bedriver forskning och utveckling inom flera områden relaterade till SWE-CLARIN. Under 2016 har vi valt att fokusera på ett huvudprojekt som vi lägger mer resurser på, parallellt med ett antal mindre projekt som vi fortsätter att bedriva.
Huvudprojektets långsiktiga mål är att möjliggöra automatisk kvantitativ analys av texter för språkvetare och andra humanister och samhällsvetare på webben. Vi har utvecklat en webbaserad tjänst SWEGRAM som inkluderar automatisk lingvistisk uppmärkning på ord- och meningsnivå, alltifrån tokenisering, meningssegmentering, normalisering av felstavade ord och annotering av ord med ordklass och morfologisk information till uppmärkning av syntaktisk struktur i form av dependensrelationer. Den lingvistiska annoteringen kan sedan användas för automatisk statistisk sammanställning av olika lingvistiska särdrag i texter, såsom antal ord och meningar i en text, genomsnittlig teckenlängd, ordklassfördelning eller olika läsbarhetsmått.
Fig. 1: SWEGRAM: webbaserat verktyg för automatisk lingvistisk annotering och kvantitativ analys av svenska.
Det webbaserade verktyget för annotering och kvantitativ analys har vi utvecklat och testat på elevtexter skrivna på nationella prov i svenska och svenska som andraspråk för olika årskurser. Vi har också skapat en lingvistiskt annoterad korpus bestående av elevtexterna med en omfattning på drygt 1,5 miljoner ord, automatiskt annoterad på morfo-syntaktisk nivå (Megyesi et al, 2016).
Projektet bedrivs i samarbete med Anne Palmér och andra forskare i svenska vid Institutionen för nordiska språk vid Uppsala universitet. För närvarande arbetar vi med att identifiera lingvistiska särdrag som kännetecknar elevtexter för olika årskurser.
Fig. 2: Exempel på potentiella felstavningar.
Vi förbättrar också normaliseringsverktyget för att hitta potentiella felstavningar och rätta dessa för att passa olika sorters texter (t.ex. elevtexter eller historiska texter). Vår förhoppning är att de lösningar som vi tagit fram är så generella och enkla att de kan användas av alla som är intresserade av textlingvistisk forskning av olika slag.
Sidoprojekt
Sidoprojekten drivs i huvudsak med egen finansiering och i anknytning till existerande projekt inom gruppen.
Informationssökning i historiska texter: Projektet bedrivs i samarbete med Historiska institutionen vid Uppsala universitet och syftar till att stödja informationssökning i historiska dokument vad män och kvinnor försörjde sig på under perioden 1500 – 1800. Under 2016 fokuserar vi på utvärderingen av den automatiska extraktionen tillsammans med historikerna.
Informationsutvinning ur historiska handskrifter: Projektet bedrivs i samarbete med projektgruppen q2b (from quill to bytes) med forskare från bildanalys, datorlingvistik och nordiska språk och handlar om extraktion av såväl innehållsinformation som metadata (t.ex. igenkänning av skribent) i historiska handskrifter.
Swedish word processing (SWORD): Projektet bedrivs i samarbete med flera andra grupper inom SWE-CLARIN och syftar till att dokumentera och standardisera lingvistisk analys på ordnivå för svenska, inklusive tokenisering, ordklasstaggning, morfologisk analys och lemmatisering. Under 2016 fokuserar vi på tokenisering, vilket hittills resulterat i ett bidrag till SLTC i Umeå.
Kontrastiv undersökning av nominalfraser i översatta texter: Projektet bedrivs i samarbete med översättningsvetenskap (Institut für Angewandte Sprachwissenschaft sowie Übersetzen und Dolmetschen på Universtität des Saarlandes i Saarbrücken) och syftar till att göra en kontrastiv undersökning av nominalfraser i engelska texter och deras tyska översättningar med stöd av språkteknologisk analys. Resultatet av analysen ska ligga till grund för såväl översättningsteoretiska slutsatser som förbättringar av system för maskinöversättning.
Beata Megyesi, Jesper Näsman, and Anne Palmér. The uppsala corpus of student writings: Corpus creation, annotation, and analysis. In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Paris, France, may 2016. European Language Resources Association (ELRA).