Swe-Clarin tillhandahåller språkteknologiska verktyg och digitaliserade material, som öppnar nya möjligheter för forskning. Flera av våra medlemmar har under årtionden utvecklat avancerade analysverktyg och omfattande text- och talsamlingar på både svenska och minoritetsspråk. Swe-Clarin bygger vidare på arbetet till förmån för det bredare forskarsamhället. Vi skapar också en Katalog som gör att forskare kan orientera sig bland resurserna (inklusive användningsområden och tekniska specifikationer).
Verktyg – ett urval
Språkteknologiska verktyg är användbara för att analysera data i all forskning som rör språkets form och innehåll. Verktygen gör det till exempel lättare att identifiera namn och platser i texter, känna igen talmönster eller berika källor med annotering. De kan med expertstöd anpassas till specifika forskningsfrågor och kopplas samman med andra verktyg och sedan tillgängliggöras för återanvändning av andra forskare inom Swe-Clarins infrastruktur.
Korp är ett korpusverktyg och korpusinfrastruktur med fokus på analys av språklig form. Bland annat "ordbilder" visualiserar ett sökt ord i relation till andra ord som det står i relationer till – till exempel visas subjekt och objekt som är utmärkande för ett verb. Korp används internationellt och utvecklas av Språkbanken Text, som även tillhandahåller en användarhandledning.
Strix är ett korpusverktyg med fokus på dokument- och innehållsbaserad analys. Strix, som utvecklas av Språkbanken Text, stödjer avancerade interaktioner med stora textmängder för när- och fjärrläsning. Verktyget erbjuder filtreringsfunktionalitet och ett läsläge som kan markera alla metadata i texten.
SWEGRAM är ett annoteringsvertyg för att märka upp och analysera texter på både svenska och engelska. Texter kan laddas upp och annoteras på olika språkliga nivåer. SWEGRAM, som utvecklas vid Uppsala universitet, kan ta fram statistik om bland annat meningslängd, antal ord, läsbarhetsmått och ordklasser.
Sparv är ett annoteringsverktyg som kopplar ihop flera språkteknologiska resurser i en arbetsprocess. Det har en nättjänst som möjliggör vidare annotering och berikning av material från andra parter. Sparv förutsätter språkteknologisk kompetens för användning. En användarhandledning finns på Språkbanken Texts webbplats.
Material – ett urval
Swe-Clarin tillhandahåller omfattande digitaliserade material – textsamlingar och -korpusar, ljud- och videoinspelningar, lexikala resurser, et cetera. De är såväl historiskt som samtida och berikade med bland annat språklig annotering för avancerad analys. För att ge en bild av mångsidigheten visas här ett urval från resurserna hos Språkbanken Text med fokus på press, offentlig förvaltning, litteratur, liksom sociala medier.
Aftonbladet 1860-talet och Inrikes tidningar från 1820-talet är exempel på material ur tidningskorpusen Kubhist2 (cirka 5 miljarder ord), som är baserad på tidningar och tidskrifter som Kungliga biblioteket tillgängliggör digitalt. Fokus är på 1800-talet och materialet görs även tillgängligt som individuella titlar uppdelade på årtionden.
Idun (1887–1917) är en korpus med texter ur veckotidning riktad till en kvinnlig läsekrets. Inledningsvis var fokus på det husliga, men innehållet orienterades mot samhälleliga aktualiteter. Våra resurser rymmer även andra kvinnotidningar, däribland Hertha och Kvinnornas Tidning.
Statens offentliga utredningar innehåller utredningar från regeringens departement. Språkbanken Text tillhandahåller även en rad andra dokumentserier från Riksdagens öppna data, däribland Utskottens betänkanden och utlåtanden och Riksrevisionens granskningsrapporter.
Nordiska museets frågelistor sammanställer de frågelistor som museet sänt ut till fasta meddelare i hela landet sedan 1920-talet. Listorna är intressanta för forskare som söker kunskaper om olika företeelser och de lämpar sig för bland annat etnologiska studier av berättelser och berättande.
August Strindbergs romaner från Nationalutgåvan av författarens verk. I Språkbanken Texts material ingår även August Strindbergs brev, liksom verk av andra namnkunniga författare från litteraturhistorien.
Bibeln från 1917, även kallad Gustav V:s bibel, är en av flera bibelöversättningar som tillhandahålls av Språkbanken Text. Essaias Tegner den yngre var en av de inblandade översättarna. Även tillgängliga är översättningen från 1873 och Nya Testamentet i Gustav Vasas bibel.
Flashback: Politik ingår i Swe-Clarins material från diskussionsforumet Flashback. Utöver politik finns diskussionstrådar om dator och IT, droger, hem, bostad och familj, samhälle, sex, vetenskap och humaniora, et cetera. Materialet uppdateras regelbundet.
Svensk diakronisk korpus innehåller svenska texter som sträcker sig från fornsvenskan och fram till idag, fördelade över en mängd olika texttyper med allt ifrån bibeltext och poesi till skönlitteratur och bloggtext.