Hoppa till huvudinnehåll
sweclarin logo
Sök | English
Start
English
  • Start
  • Om oss
  • Våra resurser
  • Samarbeta med oss
  • Aktuellt
  • Om Swe-Clarin
  • Katalog
  • Kontakt
  • Dokument
  • CLARIN.EU
  • Logga in

Tillbaka till sökresultat

Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

SND-ID: SND 1037

  • Beskrivning
  • Data och dokumentation

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Beskrivning

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olik

... Visa mer..
I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus

Syfte:

Syftet med studien är att undersöka om det är möjligt att identifiera olika talares inställning i diskursen genom att tillhandahålla en analytisk resurs för detta och därefter utvärdera nivån av enighet mellan olika talare i diskursen. Visa mindre..

Språk

Engelska

Huvudman, medverkande och finansiering

Forskningshuvudman

Linnéuniversitetet

Ansvarig institution/enhet

Linnéuniversitetet, Institutionen för datavetenskap

Finansiering

  • Finansiär: Vetenskapsrådet
  • Diarienummer hos finansiär: 2012-5659
Skyddsvärde och etikprövning
Metod och tidsperiod

Analysenhet

Mediaenhet: Text

Tidsperiod(er) som undersökts

2015-06-01 – 2016-05-31

Geografisk täckning
Ämnesområde och nyckelord

Forskningsområde

MEDIA, KOMMUNIKATION OCH SPRÅK, Språk och lingvistik, Informationsteknik (CESSDA Topic Classification)
Språkteknologi (språkvetenskaplig databehandling), Jämförande språkvetenskap och allmän lingvistik, Studier av enskilda språk (Standard för svensk indelning av forskningsämnen 2011)

Nyckelord

blogtexter, modalitet, attityd, opinion, bedömning, känsloyttring, evidentialitet, positionering, subjektivitet, textannotering, värdering

Publikationer

Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.

Dataset
Brexit Blog Corpus (BBC)

Ladda ner data

brexit_blog_corpus.xlsx (151.42 KB)
brexit_blog_corpus_raw.zip (6.76 MB)

Beskrivning

BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Do

... Visa mer..
BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Downing Street. URL:erna som hämtades filtrerades så att endast engelska sidor som beskrivs som bloggar valdes. Varje nedladdad dokument delades upp i sententiella uttalanden, varav 2 200 uttalanden valdes slumpmässigt för analysen. Den slutliga storleken på korpusen är 1 682 uttalanden, 35 492 ord (169 762 tecken utan mellanslag). Varje uttalande innehåller mellan 3 och 40 ord med en medellängd på 21 ord.


För dataannoteringsförloppet användes verktyget the Active Learning and Visual Analytics (ALVA) (https://doi.org/10.1145/3132169 och https://doi.org/10.2312/eurp.20161139). Två annotatorer, varav den ena är en professionell översättare med licentiatexamen i engelsk lingvistik och den andra har en doktorsexamen i beräkningslingvistik, utförde annoteringarna oberoende av varandra.


Datasetet kan laddas ned i två olika format: antingen som Excel-fil eller i ett rådatabasformat (ZIP-arkiv) som kan vara användbart för analytiska ändamål och maskininlärning, till exempel med Python-biblioteket scikit-learn. Excel-filen innehåller ytterligare en variabel (utterance word length). ZIP-arkivet innehåller en uppsättning kataloger (t.ex. "contrariety" och "prediction") som motsvarar inställningskategorierna. Inuti varje sådan katalog finns två kataloger som motsvarar annoteringar som tilldelar eller inte tilldelar respektive kategori som uttalanden (t.ex. inom den överliggande kategorin "prediction" finns det två underliggande kataloger, där den ena heter "prediction" och innehåller uttalanden som märkts med denna kategori, och "no" som innehåller resterande uttalanden). Inne i katalogerna finns det textfiler som innehåller individuella uttalanden.


Vid användande av data från den här studien önskar primärforskaren att citering också görs till publikationen: Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060 Visa mindre..

Version 1.0

2017-10-13
https://doi.org/10.5878/002925

Citering

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). Brexit Blog Corpus (BBC). Svensk nationell datatjänst. Version 1.0. https://doi.org/10.5878/002925

Ladda ner citering

Dataformat / datastruktur

Text

Skapare/primärforskare

Andreas Kerren - Linnéuniversitetet orcid

Carita Paradis - Lunds universitet, Språk- och litteraturcentrum orcid

Datainsamling

  • Tidsperiod(er) för datainsamling: 2015-06-01–2016-05-31
  • Datakälla: Forskningsdata

Variabler

8

Antal individer/objekt

1682

Tillgänglighetsnivå

Åtkomst till data via SND
Data är fritt tillgängliga

Användning av data

Att tänka på vid användning av data som delas via SND

Hemsida

Hemsida

Kontakt för frågor om data

Andreas Kerren

CLARIN Virtual Collection Registry

Lägg till den här resursen i en virtuell samling

En virtuell samling är kopplad till ett specifikt forskningsändamål och innehåller länkar till dataresurser i olika digitala arkiv. Samlingen är lätt att skapa, få åtkomst till och citera.

Du kan läsa mer om virtuella samlingar på CLARIN:s webbplats

Publicerad: 2017-10-16
Senast uppdaterad: 2019-01-15
Ladda ner metadata

Ladda ner metadata

  • DataCite
  • DDI 2.5
  • DCAT-AP-SE 2.0
  • JSON
  • JSON-LD

Ladda ner data

Du vill ladda ner Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC) från SND:s forskningsdatakatalog. Innan du kan göra det behöver du ta del av följande information.

När du använder data som tillgängliggörs via SND bör du tänka på att:

  • Förse alla publikationer som på något vis baseras på data med en referens till dessa data. I referensen (eller citeringen) bör beständig identifierare (ex. DOI) och hänvisning till skapare/primärforskare finnas med. Detta gäller oavsett publikationsform.
  • Följa rådande forskningsetiska principer. SND hänvisar till Vetenskapsrådets rapport God forskningssed (2017).
  • Varken SND eller forskningshuvudmannen för data tar ansvar för hur data och tillhörande dokumentation används, inte heller för tolkningar eller slutsatser baserade på data.

Citering av data

Du väljer själv vilket referenssystem du vill använda för att referera till data. Det viktiga är att citeringen innehåller tillräcklig information för att den korrekta versionen av data ska kunna hittas.

Det dataset du nu laddar ner kan exempelvis citeras så här:

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). Brexit Blog Corpus (BBC). Svensk nationell datatjänst. Version 1.0. https://doi.org/10.5878/002925

Publikationer

Rapportera publikationer som bygger på data hämtade via SND:s forskningsdatakatalog till request@snd.gu.se.

Spara den här informationen Ladda ner data

Ladda ner data

Du vill ladda ner Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC) från SND:s forskningsdatakatalog. Innan du kan göra det behöver du ta del av följande information.

När du använder data som tillgängliggörs via SND bör du tänka på att:

  • Förse alla publikationer som på något vis baseras på data med en referens till dessa data. I referensen (eller citeringen) bör beständig identifierare (ex. DOI) och hänvisning till skapare/primärforskare finnas med. Detta gäller oavsett publikationsform.
  • Följa rådande forskningsetiska principer. SND hänvisar till Vetenskapsrådets rapport God forskningssed (2017).
  • Varken SND eller forskningshuvudmannen för data tar ansvar för hur data och tillhörande dokumentation används, inte heller för tolkningar eller slutsatser baserade på data.

Citering av data

Du väljer själv vilket referenssystem du vill använda för att referera till data. Det viktiga är att citeringen innehåller tillräcklig information för att den korrekta versionen av data ska kunna hittas.

Det dataset du nu laddar ner kan exempelvis citeras så här:

Andreas Kerren, Carita Paradis. Linnéuniversitetet, Institutionen för datavetenskap (2017). Brexit Blog Corpus (BBC). Svensk nationell datatjänst. Version 1.0. https://doi.org/10.5878/002925

Publikationer

Rapportera publikationer som bygger på data hämtade via SND:s forskningsdatakatalog till request@snd.gu.se.

Spara den här informationen Ladda ner data

Medintressenter

CLARIN ERIC
Nationella språkbanken
Vetenskapsrådet

Medlemmar

Språkbanken Text, GU
Språkbanken Tal, KTH
Språkbanken Sam, Isof
Centrum för digital humaniora, GU
Datorlingvistikgruppen, UU
Humanistlaboratoriet, LU

Humlab, UmU
Institutionen för lingvistik, SU
Kungliga biblioteket
NLPLab, LiU
Riksarkivet

Kontakta oss

info@sweclarin.se