Hoppa till huvudinnehåll
sweclarin logo
Sök | English
Start
English
  • Start
  • Om oss
  • Våra resurser
  • Samarbeta med oss
  • Aktuellt
  • Om Swe-Clarin
  • Katalog
  • Kontakt
  • Dokument
  • CLARIN.EU
  • Logga in

Tillbaka till sökresultat

Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

SND-ID: 2021-256

  • Beskrivning
  • Data och dokumentation

Skapare/primärforskare

Peter M. Dahlgren - Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG) orcid

Beskrivning

Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt.

Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme.

De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se

... Visa mer..
Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt.

Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme.

De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se och vlt.se.

På grund av upphovsrätt är hela texten inte tillgänglig utan har omvandlats till en så kallad document-term matrix (i long format) som innehåller frekvensen av alla ord för varje artikel (totalt 80 miljoner ord). Varje artikel innehåller också omfattande metadata som extraherades från artiklarna (URL, dokumenttitel, artikelrubrik, författare, publiceringsdatum, redigeringsdatum, språk, avsnitt, taggar, kategori) och metadata som härleddes av enkla heuristiska algoritmer (sidtyp , artikelgenre, betalvägg). Visa mindre..

Språk

Engelska

Svenska

Huvudman, medverkande och finansiering

Forskningshuvudman

Göteborgs universitet

Ansvarig institution/enhet

Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG)

Finansiering

  • Finansiär: Myndigheten för samhällsskydd och beredskap (MSB)
Skyddsvärde och etikprövning

Data innefattar personuppgifter

Nej

Metod och tidsperiod

Analysenhet

Mediaenhet: Text

Population

Nyhetsartiklar

Tidsdimension

Longitudinell

Urvalsmetod

Hela populationen/total räkning
Artiklarna samlades in genom web scraping av alla länkar på 19 svenska nyhetssajter varannan timme, dag och natt. Verktyget för web scraping är publicerat med öppen källkod och finns tillgängligt på: https://github.com/peterdalle/mechanicalnews

Tidsperiod(er) som undersökts

2021-01-01 – 2021-04-26

Geografisk täckning

Geografisk utbredning

Geografisk plats: Sverige

Ämnesområde och nyckelord

Forskningsområde

Media, Språk och lingvistik, Folkhälsa (CESSDA Topic Classification)
Språkteknologi (språkvetenskaplig databehandling), Medievetenskap (Standard för svensk indelning av forskningsämnen 2011)

Nyckelord

covid-19, journalistik, förstasidor, artiklar, nyheter

Publikationer

Sortera på namn | Sortera efter år

Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från namn. I L. Truedson & J. Lundqvist (Red.), Vitt eller brett? – vilka får ta plats i medier och på redaktioner. Stockholm: Institutet för mediestudier.
ISBN: 978-91-987098-0-3

Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade metoder för insamling och analys av stora mängder text- och mediedata. Göteborg: Institutionen för journalistik, medier och kommunikation (JMG), Göteborgs universitet.
ISSN: 1101-4679

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Dataset
Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

Ladda ner data

News articles and front pages corona pandemic 2020–2021.zip (455.82 MB)

Tillhörande dokumentation

README.pdf

Beskrivning

Datasetet består av följande:
article_metadata.csv (53 MB): Filen innehåller information om varje nyhetsartikel, en artikel per rad. Totalt finns det 677,151 observationer och 17 variabler.

article_text.csv (236 MB): Filen innehåller id till varje nyhetsartikel och anger hur många gånger ett specifikt ord används i en nyhetsartikel. Filen innehåller 80,090,784 observationer and 3 variabler i long format.

frontpage_timestamps.csv (175 MB): Filen anger när varje nyhetsartikel hittades på första

... Visa mer..
Datasetet består av följande:
article_metadata.csv (53 MB): Filen innehåller information om varje nyhetsartikel, en artikel per rad. Totalt finns det 677,151 observationer och 17 variabler.

article_text.csv (236 MB): Filen innehåller id till varje nyhetsartikel och anger hur många gånger ett specifikt ord används i en nyhetsartikel. Filen innehåller 80,090,784 observationer and 3 variabler i long format.

frontpage_timestamps.csv (175 MB): Filen anger när varje nyhetsartikel hittades på första sidan (hemsida och huvudsektioner) på nyhetssidorna. Filen innehåller 45,337,740 observationer och 4 variabler i long format.

Mer information om innehållet i filerna finns i README-filen. Där finns även R-kod för användning av data. Visa mindre..

Version 1

2021-11-02
https://doi.org/10.5878/d18f-q220

Citering

Peter M. Dahlgren. Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG) (2021). Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021. Svensk nationell datatjänst. Version 1. https://doi.org/10.5878/d18f-q220

Ladda ner citering

Dataformat / datastruktur

Text

Skapare/primärforskare

Peter M. Dahlgren - Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG) orcid

Nyckelord

covid-19, nyheter, förstasidor, artiklar

Datainsamling

  • Insamlingsmetod: Övrigt
  • Tidsperiod(er) för datainsamling: 2019
  • Datakälla: Kommunikation: Offentlig

Variabler

17

Antal individer/objekt

677151

Licens

Creative Commons  Erkännande 4.0 Internationell (CC BY 4.0)

Tillgänglighetsnivå

Åtkomst till data via SND
Data är fritt tillgängliga

Användning av data

Att tänka på vid användning av data som delas via SND

Hemsida

KRISAMS (Kriskommunikation och samhällsförtroende i det multipublika samhället)

CLARIN Virtual Collection Registry

Lägg till den här resursen i en virtuell samling

En virtuell samling är kopplad till ett specifikt forskningsändamål och innehåller länkar till dataresurser i olika digitala arkiv. Samlingen är lätt att skapa, få åtkomst till och citera.

Du kan läsa mer om virtuella samlingar på CLARIN:s webbplats

Publicerad: 2021-11-02
Ladda ner metadata

Ladda ner metadata

  • DataCite
  • DDI 2.5
  • DCAT-AP-SE 2.0
  • JSON
  • JSON-LD

Ladda ner data

Du vill ladda ner Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021 från SND:s forskningsdatakatalog. Innan du kan göra det behöver du ta del av följande information.

När du använder data som tillgängliggörs via SND bör du tänka på att:

  • Förse alla publikationer som på något vis baseras på data med en referens till dessa data. I referensen (eller citeringen) bör beständig identifierare (ex. DOI) och hänvisning till skapare/primärforskare finnas med. Detta gäller oavsett publikationsform.
  • Följa rådande forskningsetiska principer. SND hänvisar till Vetenskapsrådets rapport God forskningssed (2017).
  • Varken SND eller forskningshuvudmannen för data tar ansvar för hur data och tillhörande dokumentation används, inte heller för tolkningar eller slutsatser baserade på data.

Citering av data

Du väljer själv vilket referenssystem du vill använda för att referera till data. Det viktiga är att citeringen innehåller tillräcklig information för att den korrekta versionen av data ska kunna hittas.

Det dataset du nu laddar ner kan exempelvis citeras så här:

Peter M. Dahlgren. Göteborgs universitet, Institutionen för journalistik, medier och kommunikation (JMG) (2021). Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021. Svensk nationell datatjänst. Version 1. https://doi.org/10.5878/d18f-q220

Publikationer

Rapportera publikationer som bygger på data hämtade via SND:s forskningsdatakatalog till request@snd.gu.se.

Spara den här informationen Ladda ner data

Medintressenter

CLARIN ERIC
Nationella språkbanken
Vetenskapsrådet

Medlemmar

Språkbanken Text, GU
Språkbanken Tal, KTH
Språkbanken Sam, Isof
Centrum för digital humaniora, GU
Datorlingvistikgruppen, UU
Humanistlaboratoriet, LU

Humlab, UmU
Institutionen för lingvistik, SU
Kungliga biblioteket
NLPLab, LiU
Riksarkivet

Kontakta oss

info@sweclarin.se