Svensk text

SND-ID: ext0278-1.

Åtkomst till data via

Hemsida

Skapare/primärforskare

Peter Dahlgren - Göteborgs universitet orcid

Forskningshuvudman

Göteborgs universitet - Institutionen för journalistik, medier och kommunikation (JMG) rorId

Beskrivning

Samling med språkresurser på svenska speciellt anpassat för att snabbt och enkelt kunna läsas in av programspråk som Python, R eller dylikt. Bland språkresurserna finns namn på kvinnor (förnamn), män (förnamn), städer, kommuner, län, huvudstäder, länder, nationaliteter, yrken, myndigheter, massmedier med mera.

Syftet är att samla svenska resurser som är fria att använda, finns i flera öppna standardiserade format (exempelvis CSV och JSON), har en enkel datastruktur som enkelt kan maskinläsas, består av små filer utan onödigt krimskrams och har exempelkod (R och Python) för att snabbt kunna användas.

Materialet utökas och uppdateras kontinuerligt under öppna licenser.
Metod och utfall

Dataformat / datastruktur

Datainsamling
Geografisk täckning

Geografisk utbredning

Geografisk plats: Sverige

Administrativ information

Ansvarig institution/enhet

Institutionen för journalistik, medier och kommunikation (JMG)

Ämnesområde och nyckelord

Forskningsområde

Språkteknologi (språkvetenskaplig databehandling) (Standard för svensk indelning av forskningsämnen 2011)

Publikationer

Upphovsrätt

Särskild upphovsrätt (t.ex. Creative Commons) för respektive material beskrivs på https://github.com/peterdalle/svensktext

Hemsida

CLARIN Virtual Collection Registry

Lägg till i samling

En virtuell samling är kopplad till ett specifikt forskningsändamål och innehåller länkar till dataresurser i olika digitala arkiv. Samlingen är lätt att skapa, få åtkomst till och citera.

Read more about virtual collections on the CLARIN website.