Skip to content

🇾đŸ‡Ș Swedish

This is an overview of all the datasets used in the Swedish part of ScandEval. The datasets are grouped by their task - see the task overview for more information about what these constitute.

Sentiment Classification

SweReC

This dataset was published in this B.Sc. thesis and is a manually annotated dataset of Swedish reviews from both Trustpilot and Reco.se.

The original dataset contains 10,757 reviews. We use a split of 1,024 / 256 / 2,048 samples for training, validation, and testing, respectively.

Here are a few examples from the training split:

{
  "text": "JĂ€ttebra och rekommenderas till alla",
  "label": "positive"
}
{
  "text": "Lugnt och trevlig stÀmning, inte för bullrigt. god mat, lite mer variation hade önskats pÄ de varma rÀtterna. trevlig personal, dock missade de att ta dryckesbestÀllningar frÄn oss vilket var ett litet minus. överlag trevlig stÀlle.",
  "label": "neutral"
}
{
  "text": "Extremt dÄlig mottagning - bÄde gsm och 3g? samtalen bryts hela tiden och sÄ tar dom betalt för en ny uppkopplingsavgift varje gÄng.",
  "label": "negative"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 12
  • Prefix prompt:
    Följande Àr recensioner och deras sentiment, som kan vara 'positiv', 'neutral' eller 'negativ'.
    
  • Base prompt template:
    Recension: {text}
    Sentiment: {label}
    
  • Instruction-tuned prompt template:
    Recension: {text}
    
    Klassificera sentimentet i recensionen. Svara med 'positiv', 'neutral' eller 'negativ'.
    
  • Label mapping:
    • positive âžĄïž positiv
    • neutral âžĄïž neutral
    • negative âžĄïž negativ

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset swerec

Named Entity Recognition

SUC 3.0

This dataset, also known as the Stockholm-UmeÄ Corpus 3.0, was published here and is a manually NER-annotated dataset, based on Swedish texts from the 1990s. The dataset does not follow the CONLL format, so we convert it into that format using the following mapping:

  • animal âžĄïž MISC
  • event âžĄïž MISC
  • inst âžĄïž ORG
  • myth âžĄïž MISC
  • other âžĄïž MISC
  • person âžĄïž PER
  • place âžĄïž LOC
  • product âžĄïž MISC
  • work âžĄïž MISC

The dataset consists of 74,245 samples, which we split into 1,024 / 256 / 2,048 samples for training, validation, and testing, respectively.

Here are a few examples from the training split:

{
  "tokens": array(['Det', 'lÄter', 'som', 'en', 'vÀstanflÀkt', 'jÀmfört', 'med', 'den', 'i', 'filmen', 'förkÀttrade', 'biljÀtten', 'General', 'Motors', ',', 'som', 'fristÀllt', '35000', 'jobbare', 'i', 'staden', 'Flint', ',', 'Michigan', '.'], dtype=object),
  "labels": array(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'B-LOC', 'O'], dtype=object)
}
{
  "tokens": array(['En', 'liknande', 'kunskapsteoretisk', 'grundfrÄga', ',', 'fast', 'i', 'mer', 'modernt', 'sofistikerad', 'form', ',', 'nÄr', 'oss', 'nu', 'frÄn', 'Paris', ':'], dtype=object),
  "labels": array(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O'], dtype=object)
}
{
  "tokens": array(['-', 'DessvÀrre', ',', 'sa', 'man', ',', 'vi', 'har', 'ingen', 'Björn', 'Eriksson', 'pÄ', 'passagerarlistan', '.'], dtype=object),
  "labels": array(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'I-PER', 'O', 'O', 'O'], dtype=object)
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 8
  • Prefix prompt:
    Följande Àr meningar och JSON-ordböcker med de namngivna enheter som förekommer i den givna meningen.
    
  • Base prompt template:
    Mening: {text}
    Namngivna entiteter: {label}
    
  • Instruction-tuned prompt template:
    Mening: {text}
    
    Identifiera de namngivna enheterna i meningen. Du ska outputta detta som en JSON-ordbok med nycklarna 'person', 'plats', 'organisation' och 'diverse'. VÀrdena ska vara listor över de namngivna enheter av den typen, precis som de förekommer i meningen.
    
  • Label mapping:
    • B-PER âžĄïž person
    • I-PER âžĄïž person
    • B-LOC âžĄïž plats
    • I-LOC âžĄïž plats
    • B-ORG âžĄïž organisation
    • I-ORG âžĄïž organisation
    • B-MISC âžĄïž diverse
    • I-MISC âžĄïž diverse

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset suc3

Linguistic Acceptability

ScaLA-sv

This dataset was published in this paper and was automatically created from the Swedish Universal Dependencies treebank by assuming that the documents in the treebank are correct, and corrupting the samples to create grammatically incorrect samples. The corruptions were done by either removing a word from a sentence, or by swapping two neighbouring words in a sentence. To ensure that this does indeed break the grammaticality of the sentence, a set of rules were used on the part-of-speech tags of the words in the sentence.

The original full dataset consists of 1,024 / 256 / 2,048 samples for training, validation and testing, respectively (so 3,328 samples used in total). These splits are used as-is in the framework.

Here are a few examples from the training split:

{
  "text": "U-lÀnderna mÄste ta en genvÀg för att komma i fatt.",
  "label": "correct"
}
{
  "text": "Undra att vi blev lite undandragna.",
  "label": "incorrect"
}
{
  "text": "Det Àr ocksÄ att viktigt ha tillrÀckligt korta dubbar.",
  "label": "incorrect"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 12
  • Prefix prompt:
    Följande Àr meningar och huruvida de Àr grammatiskt korrekta.
    
  • Base prompt template:
    Mening: {text}
    Grammatisk korrekt: {label}
    
  • Instruction-tuned prompt template:
    Mening: {text}
    
    BestÀm om meningen Àr grammatiskt korrekt eller inte. Svara med 'ja' om meningen Àr korrekt och 'nej' om den inte Àr.
    
  • Label mapping:
    • correct âžĄïž ja
    • incorrect âžĄïž nej

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset scala-sv

Reading Comprehension

ScandiQA-sv

This dataset was published in this paper and was automatically created from the Swedish part of the MKQA dataset. The MKQA dataset is based on the English Natural Questions dataset, based on search queries from the Google search engine. The questions and answers were manually translated to Swedish (and other languages) as part of MKQA, and the contexts were in ScandiQA-sv machine translated using the DeepL translation API. A rule-based approach was used to ensure that the translated contexts still contained the answer to the question, potentially by changing the answers slightly.

The original full dataset consists of 6,810 / 500 / 500 samples for training, validation and testing, respectively. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively (so 3,328 samples used in total). All validation samples in our version also belong to the original validation set, and all original test samples are included in our test set. The remaining 1,548 test samples in our version was sampled from the original training set.

Here are a few examples from the training split:

{
  "context": "I Freedom Cry fÄr spelaren ta rollen som Adéwalé, en frigiven slav frÄn Trinidad som blev Edward Kenways kvartermÀstare och senare medlem i Assassin Order. BerÀttelselÀget utspelar sig 15 Är efter hÀndelserna i Assassin's Creed IV: Black Flag dÀr Adéwalé har blivit en trÀnad lönnmördare och finner sig sjÀlv skeppsbruten i Saint-Domingue, dÀr han stÀlls öga mot öga med nÄgot av det mest brutala slaveriet i VÀstindien. DLC:n Àr skriven av Jill Murray, som skrev Liberation och Aveline-innehÄllet för Black Flag. I februari 2014 meddelades att Freedom Cry skulle slÀppas som en fristÄende titel till PlayStation 4 och PlayStation 3 den 18 februari 2014 för Nordamerika och den 19 februari 2014 för Europa. Det slÀpptes för PC den 25 februari 2014.",
  "question": "NÀr slÀpptes assassin's creed freedom cry?",
  "answers": {
    "answer_start": array([637]),
    "text": array(['18 februari 2014'], dtype=object)
  }
}
{
  "context": 'Political history of the United Kingdom (1945–present)\nÅr 1950 orsakade Koreakriget ett nytt tungt tryck pĂ„ statskassan för militĂ€ra utgifter. Detta orsakade en bitter splittring inom Labourpartiet.  De konservativa gjorde Ă„tstramningspolitiken till en viktig frĂ„ga i parlamentsvalet 1950. Labour förlorade det mesta av sin stora majoritet. SvĂ€ngningen var 3,6 % mot dem och de förlorade 78 platser, vilket gav Attlee en knapp majoritet i parlamentet. Ett Ă„r senare förlorade Labour dock parlamentsvalet 1951 trots att det fick fler röster Ă€n i valet 1945, och faktiskt fler röster Ă€n det konservativa partiet.',
  "question": 'Hur mÄnga Är har det varit sen 1940?',
  "answers": {
    "answer_start": array([388]),
    "text": array(['78'], dtype=object)
  }
}
{
  "context": 'Data link layer\nOSI-modellen\nper skikt\n\n\n\n\n7.  Applikationslager[visa]\n\n\nNNTP\nSIP\nSSI\nDNS\nFTP\nGopher\nHTTP\nNFS\nNTP\nSMPP\nSMTP\nSNMP\nTelnet\nDHCP\nNetconf\nmer....\n\n\n\n\n\n\n\n\n6.  Presentationslager[visa]\n\n\nMIME\nXDR\n\n\n\n\n\n\n\n\n5.  Sessionsskikt[visa]\n\n\nNamngiven pipe\nNetBIOS\nSAP\nPPTP\nRTP\nSOCKS\nSPDY\n\n\n\n\n\n\n\n\n4.  Transportlager[visa]\n\n\nTCP\nUDP\nSCTP\nDCCP\nSPX\n\n\n\n\n\n\n\n\n3.  NÀtverksskikt[visa]\n\n\nIP\n\nIPv4\nIPv6\n\n\nICMP\nIPsec\nIGMP\nIPX\nAppleTalk\nX.25 PLP\n\n\n\n\n\n\n\n\n2.  DatalÀnkskiktet[visa]\n\n\nATM\nARP\nIS-IS\nSDLC\nHDLC\nCSLIP\nSLIP\nGFP\nPLIP\nIEEE 802.2\nLLC\nMAC\nL2TP\nIEEE 802.3\nFrame Relay\nITU-T G.hn DLL\nPPP\nX.25 LAPB\nQ.921 LAPD\nQ.922 LAPF\n\n\n\n\n\n\n\n\n1.  Fysiskt lager[visa]\n\n\nEIA/TIA-232\nEIA/TIA-449\nITU-T V-serien\nI.430\nI.431\nPDH\nSONET/SDH\nPON\nOTN\nDSL\nIEEE 802.3\nIEEE 802.11\nIEEE 802.15\nIEEE 802.16\nIEEE 1394\nITU-T G.hn PHY\nUSB\nBluetooth\nRS-232\nRS-449\n\n\n\n\n\n\n\n\n\nv\nt\ne',
  "question": 'Vilket lager av osi-modellen Àr uppdelad i tvÄ delskikt?',
  "answers": {
    "answer_start": array([0]),
    "text": array(['Data link layer'], dtype=object)
  }
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 4
  • Prefix prompt:
    Nedan följer texter med tillhörande frÄgor och svar.
    
  • Base prompt template:
    Text: {text}
    FrÄga: {question}
    Svar pÄ max 3 ord: {label}
    
  • Instruction-tuned prompt template:
    Text: {text}
    
    Besvara följande frÄga om texten ovan med högst 3 ord.
    
    FrÄga: {question}
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset scandiqa-sv

Knowledge

MMLU-sv

This dataset is a machine translated version of the English MMLU dataset and features questions within 57 different topics, such as elementary mathematics, US history and law. The translation to Swedish was done by the University of Oregon as part of this paper, using GPT-3.5-turbo.

The original full dataset consists of 269 / 1,410 / 13,200 samples for training, validation and testing, respectively. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively (so 3,328 samples used in total). These splits are new and there can thus be some overlap between the original validation and test sets and our validation and test sets.

Here are a few examples from the training split:

{
  "text": "Varför Àr tidpunkten för monumental byggnation vid Ceibal signifikant?\nSvarsalternativ:\na. Det motsÀger hypotesen att den monumental byggnationen av Maya i huvudsak inspirerades av Olmekerna.\nb. Det bekrÀftar att invÄnarna i Ceibal inspirerades av Olmekerna för att bygga stora plattformar.\nc. Det motsÀger hypotesen att utvecklingen av monumental byggnation bland Maya var en intern process.\nd. Det bekrÀftar att Olmekerna, som byggde de flesta Maya-monumenten, inspirerades av egyptierna.",
  "label": "a"
}
{
  "text": "Vilken populationsstatistik visar födelsetalet vid vilket en befolkning precis fÄr tillrÀckligt med födslar för att ersÀtta förÀldrarna och kompensera för tidiga dödsfall?\nSvarsalternativ:\na. RÄ födelsetal\nb. ErsÀttningstal\nc. Dödlighetstal\nd. Total fertilitetstal",
  "label": "b"
}
{
  "text": "En subenhet av DNA och protein som bestÄr av 134-baspar lÄnga strÀckor av DNA som omger en proteinoktomer kallas (a)\nSvarsalternativ:\na. histon\nb. kromatin\nc. nukleosom\nd. solenoid",
  "label": "c"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Följande Àr flervalsfrÄgor (med svar).
    
  • Base prompt template:
    FrÄga: {text}
    Svar: {label}
    
  • Instruction-tuned prompt template:
    FrÄga: {text}
    
    Besvara följande frÄga med 'a', 'b', 'c' eller 'd'.
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset mmlu-sv

Unofficial: ARC-sv

This dataset is a machine translated version of the English ARC dataset and features US grade-school science questions. The translation to Swedish was done by the University of Oregon as part of this paper, using GPT-3.5-turbo.

The original full dataset consists of 1,110 / 297 / 1,170 samples for training, validation and testing, respectively. We use a 1,024 / 256 / 1,024 split for training, validation and testing, respectively (so 2,304 samples used in total). All new splits are subsets of the original splits.

Here are a few examples from the training split:

{
  "text": "En typ av fÄgel i Afrika Àter blodsugande insekter frÄn stora dÀggdjur. Vilket ord beskriver bÀst relationen mellan fÄgeln och dÀggdjuren?\nSvarsalternativ:\na. mutualism\nb. parasitism\nc. neutralism\nd. kommensalism",
  "label": "a"
}
{
  "text": "Mr. Pratt gör en vetenskaplig demonstration. Han blÄser upp en ballong, placerar den i en frys och tar sedan ut den efter 10 minuter. Vilket alternativ beskriver bÀst ballongens volym nÀr den Àr i frysen och efter att den har tagits ut och Äter tillÄtits att vÀrmas upp?\nSvarsalternativ:\na. expanderar i frysen och kontraherar sedan nÀr den blir varmare igen\nb. kontraherar i frysen och expanderar sedan nÀr den blir varmare igen\nc. expanderar i frysen och hÄller sedan den volymen nÀr den vÀrms upp\nd. kontraherar i frysen och hÄller sedan den volymen nÀr den vÀrms upp",
  "label": "b"
}
{
  "text": "En elev tillsÀtter vatten och rengöringsmedel till en kopp med jord. Blandningen skakas och tillÄts sÀtta sig. Eleven observerar att silt-partiklar förblir uppsuspenderade lÄngt efter att de andra partiklarna bildar lager pÄ botten av behÄllaren. Den mest troliga förklaringen Àr att silt-partiklarna Àr\nSvarsalternativ:\na. organiska.\nb. upplösta.\nc. mindre tÀtt packade.\nd. rör sig snabbare.",
  "label": "c"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Följande Àr flervalsfrÄgor (med svar).
    
  • Base prompt template:
    FrÄga: {text}
    Svarsalternativ:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    Svar: {label}
    
  • Instruction-tuned prompt template:
    FrÄga: {text}
    Svarsalternativ:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    
    Besvara följande frÄga med 'a', 'b', 'c' eller 'd'.
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset arc-sv

Common-sense Reasoning

HellaSwag-sv

This dataset is a machine translated version of the English HellaSwag dataset. The original dataset was based on both video descriptions from ActivityNet as well as how-to articles from WikiHow. The dataset was translated by the University of Oregon as part of this paper, using GPT-3.5-turbo.

The original full dataset consists of 9,310 samples. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively (so 3,328 samples used in total).

Here are a few examples from the training split:

{
  "text": "[header] Hur man hittar de perfekta brudtÀrneklÀnningarna [title] Internet Àr en underbar resurs för att hitta brudtÀrneklÀnningar. [step] Vi rekommenderar ocksÄ att blÀddra genom populÀra bröllopstidningar, sÄsom brudens och moderna brudtÀrnets tidningar. Rekommenderat Àr att bruden gÄr och handlar med en eller tvÄ av sina brudtÀrnor och ser vilka stilar de gillar.\nSvarsalternativ:\na. NÀr du har begrÀnsat urvalet kan du sedan fÄ input frÄn dina andra brudtÀrnor om du önskar det. [title] Vilka Àr de senaste trenderna i brudtÀrneklÀnningar? [title] A-linje klÀnningar som ser bra ut pÄ alla olika kroppsformer och storlekar Àr mycket populÀra.\nb. TyvÀrr kan du inte handla lika ofta som om du letade efter matchade brudtÀrnor. [title] NÀr du vÀljer din brud, vÀlj tre olika stilar: [step] Klipp lÀngd, klipp tjocklek och frÄn de flesta \"för-skjutna\" stilarna till de grundlÀggande.\nc. Medan varje brud Àr annorlunda, alla Àr bÄde olika och har olika smaker. [title] Se om bruden har en favoritlook för sin bröllopsklÀnning.\nd. [title] Börja söka efter idéer eller allmÀnna Äsikter om sÀrskilda bröllopsklÀnningar. [step] Försök att inte bli för stel och sök bara efter nÄgra klÀnningar som du tror kan fungera bra tillsammans.",
  "label": "a"
}
{
  "text": "[header] Hur man gör en pedikyr [title] Ta bort all befintlig fÀrg med nagellacksborttagare. [step] TÀck toppen pÄ din nagellacksborttagare med en bomullstuss, vÀnd snabbt upp och ner den och omedelbart upp och ner igen för att applicera lite av produkten. Gnugga sedan nagellacksborttagaren över dina tÄnaglar för att ta bort fÀrgen.\nSvarsalternativ:\na. [title] LÄt dina tÄnaglar blötlÀggas i vatten i 10 till 20 minuter. [step] Vatten kan göra dina naglar vitare genom att lösa upp andra föreningar, sÀrskilt syror.\nb. [substeps] Flytta bomullstussen i smÄ, cirkulÀra rörelser om du har svÄrt att ta bort fÀrgen. [title] Fyll en fotspa eller en balja med varmt vatten.\nc. [substeps] Om du inte har nagellacksborttagare kan du övervÀga att anvÀnda den vita nagellacksborttagaren frÄn föregÄende steg för en enklare applikation. [title] TÀck dina hÀnder med bandage eller tejp med canvas-lining.\nd. [title] AnvÀnd aceton pÄ dina tÄnaglar. [step] Aceton kan verkligen hjÀlpa till att ta bort gammalt nagellack frÄn dina naglar.",
  "label": "b"
}
{
  "text": "Han fortsÀtter att klippa grÀset. Kameran fokuserar pÄ det rinnande vattnet igen. Den gÄr tillbaka till mannen som klipper grÀset. sedan\nSvarsalternativ:\na. den gÄr tillbaka till filmen av mannen som klipper jord.\nb. ÄtervÀnder till honom och dem som pratar igen.\nc. vÀxlar tillbaka till det rinnande vattnet.\nd. mörk himmel igen.",
  "label": "c"
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 5
  • Prefix prompt:
    Följande Àr flervalsfrÄgor (med svar).
    
  • Base prompt template:
    FrÄga: {text}
    Svarsalternativ:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    Svar: {label}
    
  • Instruction-tuned prompt template:
    FrÄga: {text}
    Svarsalternativ:
    a. {option_a}
    b. {option_b}
    c. {option_c}
    d. {option_d}
    
    Besvara följande frÄga med 'a', 'b', 'c' eller 'd'.
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset hellaswag-sv

Summarization

SweDN

This dataset was published in this paper and are based on news articles from the Swedish newspaper Dagens Nyheter, with the summaries being the first paragraph of the article (and that paragraph being removed from the article).

The original dataset consists of 29,800 / 4,530 / 3,750 samples for training, validation and testing, respectively. We use a 1,024 / 256 / 2,048 split for training, validation and testing, respectively (so 3,328 samples used in total). All the new splits are subsets of the original splits.

Here are a few examples from the training split:

{
  "text": "Ett överraskande ras pÄ den ryska lastbilsmarknaden har gjort att Scania blivit frÄnsprunget av konkurrenten Volvo som ökat sina leveranser, skriver Dagens Industri. Bakom Scanias tapp pÄ 24 procent ligger bland annat problem med tillstÄnden för att producera Euro-3 lastbilar i fabriken i S:t Petersburg. Men det rÀknar Scanias Rysslandschef Hans Tardell med att ta tillbaka under Äret. Konkurrenten Volvo, som ökat leveranserna med 40 procent och orderingÄngen med 68 procent jÀmfört mot första kvartalet 2011, hoppas kunna vÀxa ytterligare.  ",
  "target_text": "Ett överraskande ras pÄ den ryska lastbilsmarknaden har gjort att Scania blivit frÄnsprunget av konkurrenten Volvo som ökat sina leveranser, skriver Dagens Industri."
}
{
  "text": "Scenen som beskrivs i Ă„talet kunde vara hĂ€mtad ur en skrĂ€ckfilm. Den dĂ„ tolvĂ„riga flickan har berĂ€ttat hur hon försĂ„gs med handbojor och kedjades vid en krok i taket. Enligt Ă„talet ska hon Ă€ven ha fĂ„tt ett koppel kring halsen och piskats. Åklagaren menar att det handlar om ett utdraget förlopp. – En tolvĂ„rig flicka ska inte sitta fastsatt i en krok i taket, sĂ€ger Ă„klagare Daniel Veivo Pettersson, som nu har Ă„talat en 25-Ă„rig man för grov vĂ„ldtĂ€kt mot barn. I veckan berĂ€ttade TT att sju mĂ€n dömts för att vid olika tillfĂ€llen ha utsatt samma flicka för sexuella övergrepp. MĂ€nnen fick kontakt med flickan via forum pĂ„ nĂ€tet och tjatade sig till trĂ€ffar med henne. En av mĂ€nnen band och vĂ„ldtog henne i en skog. 25-Ă„ringen blir nu den Ă„ttonde mannen som Ă„talas för övergrepp. – Man hĂ€pnar nĂ€r man hör hennes berĂ€ttelse. Hon Ă€r mycket trovĂ€rdig och vi har Ă€ven kunnat styrka Ă„talen mot mĂ€nnen genom teknisk bevisning som chattkonversationer och i nĂ„got fall fanns dna pĂ„ en kondom och pĂ„ en bh, sĂ€ger Daniel Veivo Pettersson. Vid en husrannsakan i 25-Ă„ringens hem i Stockholm, dĂ€r vĂ„ldtĂ€kten ska ha begĂ„tts under hösten 2013, hittades kedjor, handbojor, koppel och en piska. Enligt flickan hade delar av övergreppen filmats. Polisen misstĂ€nkte att filmerna kunde ha sparats i en sĂ„ kallad molntjĂ€nst, och Ă„klagaren fick ta hjĂ€lp av Microsoft i USA. – Det drog ut pĂ„ tiden, men tyvĂ€rr hittade vi inte det vi letade efter. Han har raderat en hel del information i sin dator, sĂ€ger Daniel Veivo Pettersson. 25-Ă„ringen Ă„talas dessutom för ytterligare en vĂ„ldtĂ€kt pĂ„ flickan, eftersom han misstĂ€nks ha vĂ„ldtagit henne pĂ„ en toalett. Mannen Ă€r tidigare dömd för övergrepp pĂ„ en annan minderĂ„rig flicka, och Ă„klagaren har nu begĂ€rt honom hĂ€ktad i sin frĂ„nvaro. – Han kan vara hemma, men han kan Ă€ven vara utomlands. Om han hĂ€ktas i sin utevaro kommer han att efterlysas, sĂ€ger Daniel Veivo Pettersson. 25-Ă„ringen försvaras av advokat Thomas Bodström. Han vill inte berĂ€tta om 25-Ă„ringen kommer nĂ€rvara vid hĂ€ktningsförhandlingen, men han sĂ€ger: – Han nekar till samtliga brott, Ă€r helt oskyldig och det finns ingen grund för hĂ€ktning. Enligt Ă„klagaren misstĂ€nks flickan ha utsatts av ytterligare minst en man som polisen inte har lyckats identifiera. MĂ€nnen i hĂ€rvan 37-Ă„ring, Östergötland: VĂ„ldtĂ€kt mot barn och barnpornografibrott – fem Ă„rs fĂ€ngelse. 26-Ă„ring, Dalarna: Sexuellt ofredande – skyddstillsyn. 29-Ă„ring, Stockholmstrakten: VĂ„ldtĂ€kt mot barn (tvĂ„ tillfĂ€llen) – tre Ă„rs fĂ€ngelse. 26-Ă„ring, Stockholmstrakten: VĂ„ldtĂ€kt mot barn – tvĂ„ och ett halvt Ă„rs fĂ€ngelse. 27-Ă„ring, Stockholmstrakten: Grov vĂ„ldtĂ€kt mot barn och vĂ„ldtĂ€kt mot barn (fyra tillfĂ€llen) – sju Ă„rs fĂ€ngelse. 55-Ă„ring, Östergötland: Utnyttjande av barn för sexuell posering (elva tillfĂ€llen) och sexuellt ofredande (tvĂ„ tillfĂ€llen) – Ă„tta mĂ„naders fĂ€ngelse. 19-Ă„ring, VĂ€stra Götaland: VĂ„ldtĂ€kt mot barn – Ă„tta mĂ„naders fĂ€ngelse (domen Ă€r överklagad). 25-Ă„ring, Stockholmstrakten: Åtalad för grov vĂ„ldtĂ€kt mot barn och vĂ„ldtĂ€kt mot barn. ",
  "target_text": "Den tolvÄriga flickan kedjades vid en krok i taket och vÄldtogs. En 25-Ärig man har nu Ätalats för grov vÄldtÀkt mot barn, men det Àr oklart var han Àr. Sju mÀn dömdes nyss för övergrepp pÄ samma flicka."
}
{
  "text": "Det Ă€r Gröna partiets ledare Jill Stein som har uppmanat valkommissionen i delstaten Wisconsin att rĂ€kna om rösterna, det skriver Reuters och Wisconsins valkommission. Valkommissionen skriver att man ”rĂ€knar med att omrĂ€kningen börjar inom en vecka efter det att Steins kampanj har betalat avgiften omrĂ€kningen, som vi fortfarande hĂ„ller pĂ„ att berĂ€kna”. En omrĂ€kning ska vara genomförd före den 13 december. Delstaten vanns av Donald Trump med 47,9 procent av rösterna mot Hillary Clintons 46,9 procent och gav honom 10 elektorsröster. Skillnaden mellan de tvĂ„ kandidaterna var 23.000 röster. Jill Stein har tidigare sagt att hon Ă€r beredd att Ă€ven försöka fĂ„ rösterna i Michigan och Pennsylvania omrĂ€knade. Om hon ska begĂ€ra en omrĂ€kning ocksĂ„ i dessa tvĂ„ delstater mĂ„ste den begĂ€ran inkomma under nĂ€sta vecka, skriver NBC News. Jill Stein. Foto: AP För att fĂ„ till stĂ„nd en omrĂ€kning mĂ„ste Gröna partiet ha pengar nog att driva en sĂ„dan. Enligt Washington Post har partiet lyckats samla in 4,5 miljoner dollar som ska tĂ€cka juridiska omkostnader och annat som har med en eventuell omrĂ€kning att göra i de tre delstaterna. Enligt tidningen kommer det sannolikt att behövas sammanlagt mellan 6 och 7 miljoner för att genomföra en omrĂ€kning. Om Clinton skulle gĂ„ segrande ur en omrĂ€kning i Wisconsin skulle detta Ă€ndĂ„ inte innebĂ€ra nĂ„gon skillnad nĂ€r det gĂ€ller utgĂ„ngen av presidentvalet. Skulle Clinton vinna Ă€ven i Michigan och Pennsylvania skulle det dĂ€remot betyda en annan utgĂ„ng av valet. Även om fĂ„ tror att en omrĂ€kning skulle betyda nĂ„got i praktiken, Hillary Clinton har redan erkĂ€nt sig besegrad, sĂ„ skulle en omrĂ€kning i hennes favör i Wisconsin och Pennsylvania ge henne 30 elektorsröster medan Trump förlorar lika mĂ„nga. Om sĂ„, rent hypotetiskt, skulle bli fallet, skiljer bara 10 elektorsröster till Trumps fördel – och dĂ„ Ă„terstĂ„r Ă€nnu Michigans röster att slutrĂ€knas. Skulle Clinton vinna Ă€ven dem sĂ„ har hon flest antal elektorsröster. Jill Stein har i en intervju sjĂ€lv sagt att hon inte begĂ€r en omrĂ€kning för att gynna nĂ„gon av kandidaterna utan för att ”amerikanerna inte blev sĂ€rskilt glada över utgĂ„ngen av valet”. Sett till enbart rösterna, och inte till elektorerna, leder just nu Hillary Clinton med 48,1 procent av rösterna mot Donald Trumps 46,6 procent. I antal röster leder Clinton med 2.012.331 röster. ",
  "target_text": "Valkommissionen i Wisconsin i har fÄtt en uppmaning om att rösterna i presidentvalet ska rÀknas om. Wisconsin har nu börjat förbereda en omrÀkning. Och det kan bli fler."
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 1
  • Prefix prompt:
    Nedan följer artiklar med tillhörande sammanfattningar.
    
  • Base prompt template:
    Artikel: {text}
    Sammanfattning: {target_text}
    
  • Instruction-tuned prompt template:
    Artikel: {text}
    
    Skriv en sammanfattning av artikeln ovan.
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset swedn

Unofficial: Schibsted-sv

This dataset was published here and features summaries of news articles from Schibsted Medias Swedish newsroom, from Aftonbladet.

The original dataset has 528 / 96 / 89 samples for training, validation and testing, respectively. We use these splits as-is.

Here are a few examples from the training split:

{
  "text": "Richard Jomshof blir upprörd och vĂ€grar svara pĂ„ frĂ„gor: SD-toppen Richard Jomshof vĂ€grar kommentera kritiken efter pĂ„hoppet pĂ„ Daniel Riazat (V).  NĂ€r Aftonbladet möter honom i riksdagen blir han upprörd och gĂ„r ivĂ€g. – Jag uppskattar inte skjutjĂ€rnsjournalistik, det Ă€r ett oseriöst sĂ€tt att jobba, sĂ€ger han.  Justitieutskottets ordförande Richard Jomshof (SD) fĂ„r hĂ„rd kritik för sitt uttalande att V-ledamoten Daniel Riazat borde flytta frĂ„n Sverige.  Flera i den politiska oppositionen dömer ut det som rasistiskt. Även i Tidöpartierna hörs protester.  Ӏr man svensk medborgare sĂ„ Ă€r man. Skamligt var ordet!” skriver L-politikern Jan Jönsson i ett uttalande pĂ„ X.  ”Ta det med pressavdelningen” Aftonbladet var pĂ„ plats utanför justitieutskottets möte i riksdagen vid lunchtid pĂ„ tisdagen. Jomshof anlĂ€nde först av alla ledamöter, tio minuter innan mötet inleddes, men ville inte svara pĂ„ frĂ„gor.  – Du fĂ„r ta det med pressavdelningen. Varför vill du inte svara, det Ă€r ju du som har skrivit de hĂ€r tweetsen? – Du fĂ„r ta det med pressavdelningen. Du kan lĂ€sa min senaste tweet förresten, sĂ„ kan vi utgĂ„ frĂ„n den. Varför tycker du att han borde lĂ€mna Sverige? – Börja med att lĂ€sa min tweet, det framgĂ„r vĂ€ldigt tydligt dĂ€r. ”Uppskattar inte skjutjĂ€rnsjournalistik” InlĂ€gget som Jomshof syftar pĂ„ lades upp kort innan justitieutskottets möte. Jomshof gĂ„r dĂ€r till nytt angrepp mot Riazat. Han anklagar honom för att ha ett ”sunkigt” beteende, att vara oförskĂ€md och komma med aggressiva pĂ„hopp pĂ„ politiska motstĂ„ndare.  Mötet med justitieutskottet varade en timme, nĂ€r Richard Jomshof kom ut frĂ„n salen var upprörd över Aftonbladets nĂ€rvaro. Detta trots att media brukar bevaka mötena och att ledamöterna i utskottet ofta tar tillfĂ€lle att ge intervjuer efterĂ„t.  – För det första, vill ni prata med mig sĂ„ gĂ„r ni till pressavdelningen. Jag uppskattar inte skjutjĂ€rnsjournalistik, det Ă€r ett oseriöst sĂ€tt att jobba. TvĂ„, jag har inget mer att tillĂ€gga Ă€n det jag lagt ut pĂ„ plattformen X. DĂ€r framgĂ„r det tydligt vad det hĂ€r handlar om. Tre, ett tips i all vĂ€nlighet, ni kan ju prata med Riazat sjĂ€lv, om hans oförskĂ€mdheter och aggressiva beteende, om varför han inte vill ta politiska motstĂ„ndare och kvinnor i hand. Nu tĂ€nker jag gĂ„ och Ă€ta lunch, sĂ€ger Jomshof.  Busch: Jag Ă€r ganska osugen Daniel Riazat kallade igĂ„r Richard Jomshofs uttalande för rasistiskt och uppmanar statsminister Ulf Kristersson (M) att ta avstĂ„nd. Aftonbladet har sökt Kristersson, hans pressekreterare ber att fĂ„ Ă„terkomma om statsministern har möjlighet att uttala sig. Vice statsminister Ebba Busch (KD) var fĂ„ordig nĂ€r hon fick frĂ„gor om det pĂ„ tisdagen.  – Jag Ă€r ganska osugen pĂ„ att bidra till det rubrikspelet, sa hon i samband med en utfrĂ„gning i riksdagen.  Vice ordförande i justitieutskottet, Ardalan Shekarabi (S), har tidigare krĂ€vt Jomshofs avgĂ„ng. Han uppmanar företrĂ€dare för regeringen att sluta ge Jomshof stöd.  – TyvĂ€rr Ă€r det ett konsekvent beteende han har. Han verkar för splittring, motsĂ€ttningar och i vissa fall hat mot folkgrupper. Han anvĂ€nder den plattform som ordförande i justitieutskottet medför till att bedriva den typen av agitation, sĂ€ger han.  Aftonbladet har sökt Sverigedemokraternas pressavdelning. De ber om att fĂ„ frĂ„gorna till Richard Jomshof pĂ„ mejl och att fĂ„ Ă„terkomma senare. Aftonbladet har sökt Daniel Riazat. VĂ€nsterpartiets pressavdelning ber att fĂ„ Ă„terkomma. ",
  "target_text": "SD-toppen Richard Jomshof vÀgrar kommentera kritiken för sitt pÄstÄende att VÀnsterpartiets riksdagsledamot Daniel Riazat borde lÀmna Sverige. MÄnga inom den politiska oppositionen kallar uttalandet rasistiskt NÀr Jomshof konfronteras med frÄgor frÄn Aftonbladet vid ett utskottsmöte i riksdagen, blir han upprörd och gÄr ivÀg utan att svara pÄ frÄgorna. Han hÀnvisar till SD:s pressavdelning."
}
{
  "text": "Fredrik Bolanders uttalande i ”Robinson” fĂ„r kritik: ”Skriver att jag Ă€r en mansgris”: Kvinnor Ă€r bra pĂ„ att stĂ€da, laga mat och hĂ„lla ordning.  Killar vill Ă€ta mat, Ă€r starkare och bĂ€ttre. Fredrik Bolanders uttalande i ”Robinson” har fĂ„tt mĂ„nga att reagera. – Jag vet att folk stör sig pĂ„ sĂ„dana uttalanden, det Ă€r ju ett sĂ„dan samhĂ€lle vi lever vi, sĂ€ger han. – Om jag hade fĂ„tt bestĂ€mma hade det varit en kvinna i laget för de Ă€r ju bra pĂ„ att laga mat, de Ă€r bra pĂ„ att hĂ„lla ordning och stĂ€da. DĂ€r har vi det negativa med att inte ha en kvinna i laget. Vi mĂ€n vill ju Ă€ta sĂ„klart. Uttalandet frĂ„n ”Robinson”-deltagaren Fredrik Bolander, 40, har fĂ„tt mĂ„nga att reagera, bland annat pĂ„ ”Robinsons” sociala medier.  Ändringen i ”Robinson” 2024 I Ă„rets sĂ€song delas kvinnor och mĂ€n upp i olika lag.  NĂ€r programledaren Anders Lundin, 65, frĂ„gar Bolander om han tror att det ger kvinnorna en större chans att vinna i Ă„r fĂ„r han ett snabbt svar.  – Nej, det blir en kille som vinner i Ă„r. Killar Ă€r ofta lite starkare och bĂ€ttre Ă€n tjejer. Flera deltagare reagerar pĂ„ uttalandet i programmet. Tjejerna protesterar högljutt och Gustav Jacobson, 27, gör en förskrĂ€ckt min.  Bolander sĂ€ger Ă€ven i programmet att han inte gĂ„r sĂ„ bra ihop med kvinnor och feminister. – Jag Ă€r vĂ€ldigt manlig i mig sjĂ€lv, och jag har en vĂ€ldigt manlig jargong, och tycker att det ska vara jĂ€mlikt men man ska ocksĂ„ förstĂ„ vem som Ă€r mannen i huset. ”Skriver att jag Ă€r en mansgris” NĂ€r Aftonbladet pratar med Bolander samma dag som ”Robinson” har premiĂ€r berĂ€ttar han att han redan fĂ„tt reaktioner och meddelanden frĂ„n tittare.  – De skriver att jag Ă€r en mansgris och att jag har fel kvinnosyn. Samtidigt Ă€r han medveten om att det han sĂ€ger om kvinnor triggar folk.  – Jag Ă€lskar att provocera. Det Ă€r klart att jag gillar att se reaktioner, det vill jag ju, sĂ€ger Bolander.  Han fortsĂ€tter:  – Jag vet att folk stör sig pĂ„ sĂ„dana uttalanden, det Ă€r ju ett sĂ„dan samhĂ€lle vi lever vi. SĂ„ det var roligt att köra lite tvĂ€rtom tĂ€nkte jag. Fredrik Bolander om reaktionerna Just uttalandet om att det behövs en kvinna för att stĂ€da och laga mat i killarnas lag Ă€r det han fĂ„tt mest reaktioner pĂ„.  – MĂ„nga som skrivit Ă€r ju inte jĂ€tteglada. Vad skriver folk? – Att vi lever i 2024 och man ska inte vara sĂ„ och alla ska vara lika och allt det dĂ€r. Men samtidigt sĂ„, man gör ju det man Ă€r bra pĂ„? Men mĂ€n kan vĂ€l ocksĂ„ vara bra pĂ„ att laga mat och stĂ€da? – Jo men vi har ju mycket annat att göra? Som att trĂ€na med stenar? – Exakt. Pumpa muskler och trĂ€na, vi mĂ„ste tĂ€nka pĂ„ hur vi ser ut, vi mĂ„ste se solbrĂ€nda ut och det tar tid. Det hĂ€r Ă€r ju ett uttalande som upprör mĂ„nga. KĂ€nner du att du kan stĂ„ för det uttalandet? – Det dĂ€r Ă€r en svĂ„r frĂ„ga. Jag sĂ€ger sĂ„ hĂ€r; man fĂ„r se lite under programmets gĂ„ng om det Ă€r nĂ„got jag stĂ„r för eller inte. SĂ„ kan jag sĂ€ga. MĂ„nga undrar ocksĂ„ om du Ă€r seriös eller skojar? – Det Ă€r det som Ă€r frĂ„gan, skojar jag eller Ă€r jag seriös? Det svarar jag inte pĂ„. Varför inte? – Antingen kanske jag stĂ„r för det senare eller sĂ„ gör jag inte det. Det fĂ„r ni se. ”Robinson” sĂ€nds söndagar klockan 21.00 samt mĂ„ndag till torsdag klockan 19.30 pĂ„ TV4 och pĂ„ TV4 play. ",
  "target_text": "\"Robinson\"-deltagaren Fredrik Bolander har hamnat i blÄsvÀder efter sina uttalanden om kvinnor och mÀn, och fÄr kritik pÄ sociala medier. Han pÄstÄr att kvinnor Àr bra pÄ att laga mat och stÀdning medan mÀn Àr starkare och bÀttre, och detta upprörde andra deltagare och tittare. Bolander sÀger att han Àlskar att provocera, men vÀgrar svara pÄ frÄgan om han skÀmtar eller Àr seriös."
}
{
  "text": "Polisen om den övergivna diplomatbilen: ”Vi undersöker immunitetsfrĂ„gan”: En diplomatbil lĂ€mnades övergiven pĂ„ ett tĂ„gspĂ„r i centrala Stockholm i helgen. Fordonet tillhör Etiopiens ambassad som har bett om ursĂ€kt för vansinnesfĂ€rden. Men nĂ€r Aftonbladet knackar pĂ„ Ă€r de fĂ„ordiga.  – Vi Ă„terkommer sĂ„ fort det gĂ„r, sĂ€ger en anstĂ€lld pĂ„ ambassaden. Det var natten till söndag som minibussen krockade pĂ„ tvĂ€rbanans spĂ„r vid Alviks strand i Stockholm. ”VĂ„r ambassad ber om ursĂ€kt för olyckan och besvĂ€ren den orsakat. Vi har startat en internutredning för att ta reda pĂ„ hur olyckan ska ha skett”, skriver Etiopiens ambassad i Stockholm i ett mail till Aftonbladet. I övrigt har de inte kommenterat hĂ€ndelsen och nĂ€r Aftonbladet knackar pĂ„ hos ambassaden Ă€r svaret kort. – Vi hĂ„ller pĂ„ att jobba med det. Vi Ă„terkommer sĂ„ fort det gĂ„r, sĂ€ger en anstĂ€lld pĂ„ ambassaden. Men nĂ€r vill de inte svara pĂ„. 17 300 kronor i obetalda böter TĂ„gtrafiken var tillfĂ€lligt avstĂ€ngd under söndagsmorgonen och bilen fick bĂ€rgas med hjĂ€lp av en spĂ„rtraktor. Den har troligtvis kört upp pĂ„ spĂ„ret vid Gröndal, enligt SL. DĂ€r kör bilar och spĂ„rvagnar pĂ„ gatan innan rĂ€lsen viker av pĂ„ en egen banvall. – DĂ€refter ska den i sĂ„ fall ha kört tvĂ„ kilometer pĂ„ kross och makadam innan den krockat med en stolpe, sĂ€ger Claes Keisu, pressansvarig pĂ„ SL. Minibussen har ocksĂ„ obetalda böter pĂ„ 17 300 kronor, enligt Transportstyrelsen.  ”Har skett en gĂ„ng tidigare” Den hĂ€r typen av felkörning sker cirka tio gĂ„nger om Ă„ret. Under februari skedde det tvĂ„ gĂ„nger, just vid Gröndal. Vanligtvis upptĂ€cks misstaget tidigt och dĂ„ brukar föraren kunna backa tillbaka pĂ„ vĂ€gen. – Det hĂ€r fordonet har lite högre markfrigĂ„ng sĂ„ det kan förklara att den kunnat ta sig lĂ€ngre, sĂ€ger Claes Keisu. Men att bilen lyckats ta sig sĂ„ lĂ„ngt Ă€r vĂ€ldigt ovanligt. – Vad vi vet har det bara skett en gĂ„ng tidigare. 2012 var det en ÅlĂ€nning med sin familj som kom upp pĂ„ banan i Hammarby sjöstad och körde hela vĂ€gen till Gullmarsplan, sĂ€ger Keisu. Föraren ska dĂ„ ha kört uppemot en kilometer pĂ„ spĂ„ret. ”Vi undersöker immunitetsfrĂ„gan” Polisen har inlett en förundersökning om vĂ„rdslöshet i trafik. Det Ă€r fortfarande oklart om nĂ„gon kan Ă„talas.  – Vi undersöker immunitetsfrĂ„gan, sĂ€ger Nadya Norton, presstalesperson vid Stockholmspolisen. ”Utredningen fĂ„r visa om personen som körde bilen hade immunitet eller inte. Om en person har immunitet kan denne inte lagföras i Sverige”, skriver förundersökningsledaren, Timmy Malmgren, i ett mail till Aftonbladet. Diplomater fĂ„r inte straffas i landet de arbetar i, enligt internationella överrenskommelser. – Jag har inga uppgifter om nĂ„gon Ă€r misstĂ€nkt i Ă€rendet, sĂ€ger Nadya Norton. Hade fest under kvĂ€llen KvĂ€llen innan bilen hittades pĂ„ tĂ„gspĂ„ret ska Ambassaden anordnat en fest i sina lokaler. ”Vi pĂ„ Ambassaden för Demokratiska förbundsrepubliken Etiopien pĂ„ vĂ„ning 3 kommer att ha ett event pĂ„ lördag den 2. Observera att vi kommer ha gĂ€ster. Vi hoppas att vi inte stör er, kĂ€ra grannar. Tack för er förstĂ„else”, skriver de pĂ„ en lapp som sitter i fastighetens hiss.",
  "target_text": "En bil frÄn Etiopiens ambassad lÀmnades övergiven pÄ ett tÄgspÄr i centrala Stockholm under helgen, vilket ledde till tillfÀlligt avstÀngd tÄgtrafik. Ambassaden har bett om ursÀkt och pÄbörjat en intern utredning för att ta reda pÄ hÀndelseförloppet. En polisutredning Àr igÄng för vÄrdslöshet i trafik, men det Àr oklart om nÄgon kan Ätalas pÄ grund av diplomatisk immunitet."
}

When evaluating generative models, we use the following setup (see the methodology for more information on how these are used):

  • Number of few-shot examples: 1
  • Prefix prompt:
    Nedan följer artiklar med tillhörande sammanfattningar.
    
  • Base prompt template:
    Artikel: {text}
    Sammanfattning: {target_text}
    
  • Instruction-tuned prompt template:
    Artikel: {text}
    
    Skriv en sammanfattning av artikeln ovan.
    

You can evaluate this dataset directly as follows:

$ scandeval --model <model-id> --dataset schibsted-sv