”Velfærdsstaten” er skabt af mennesker, der ikke har virkelige helte; og som derfor har skabt et system, der har til formål at gøre verden årsagsløs, sådan at man (tror man) slipper for at forholde sig til alle de udfordringer, virkeligheden konfronterer en med. (Simon Espersen, Et samfund uden forbilleder)

søndag den 17. august 2008

Statistisk junk fra politiken.dk

I flg. en artikel bragt af politiken.dk står Dansk Folkeparti til en fremgang, således at de ved valg i dag vil få 29 mandater. En netop foretagen meningsmåling viser nemlig, at 16,1% vil stemme på partiet mod 14,4% ved sidste måling.

Nu nævner artiklen desværre ikke noget om hvor stor en stikprøve, undersøgelsen baserer sig på. Så derfor har jeg været inde på Catinets hjemmeside i håb om der at finde svaret. Desværre kan jeg ikke finde den seneste prøve, men jeg kan finde den fra sidst med de 14,4%. Og her viser det sig, at den er baseret på interview med 1013 personer, så mon ikke den nye undersøgelse også bygger på 1013 personer.

Hvis jeg antager det, så bygger Politikens artikel altså på, at 163 respondenter har sagt, at de vil stemme på DF mod 146 respondenter sidste gang. Altså en stigning på 17. Intuitivt virker det ikke af meget, og selv med en smule helt primitiv sandsynlighedsregning på gymnasieniveau er det da heller ikke svært at indse, at stigningen ikke er statistisk signifikant (se nedenfor). Men ønsker man ikke at grave sin gamle sandynlighedesregning frem, så kan man også bare læse på Catinets hjemmeside, at usikkerheden på resultatet er +/- 2,7%

Så kære journalist, som har begået nyheden. Der er ingen statistik evidens for, at Dansk Folkeparti reelt er gået frem. Hele din artiklen er og bliver dit eget gætværk.


PS

En simpel medtode til sandsynlighedesregning er at antage, at den første måling er 100% sikker. Det er den selvfølgelig ikke, men det gør bare, vi kommer til at undervurdere den samlede usikkerhed på resultatet. Så derfor sættes sandsynligheden for at en tilfældigt udtrukket person vil stemme DF til 14,4%, og endelig bruges så binomialfordelingen til at finde sandsynligheden for at 163 eller flere vil stemme DF, når der udtages en stikprøve på 1013.

Sandsynligheden er 5,9% for dette, og det er under alle omstændigheder for meget til, at man med statistiks belæg kan sige, at flere vil stemme DF.

3 kommentarer:

Anonym sagde ...

God og rigtig pointe! - journalister aner vist ikke ret meget om statistik.... :-)

Kasper Olsen, PhD

Anonym sagde ...

Statistisk junk fra Thomas.
Påfaldende, at statistikrevseren netop harselerer over DF´s statistiske fremgang. Den slags forekommer ikke over et socialistisk parti. I målingen angives + og - 2.7% usikkerhed, hvorimod Thomas har en usikkerhed på 5,9%; hvor der glemmes, om det er + og -. Sidstnævnte er noget sjusk og udtryk for langt større usikkerhed end i førstnævnte opgørelse. Dertil, de helt små partier som ny alliance og enhedslisten har så få stemmer, at det var der, indsigelse kunne gøres.
Endelig kunne det jo være, at DF da havde 2,7% eller måske 5,9% flere stemmer end angivet.

Thomas sagde ...

@ anonym
Du misforstår budskabet.

I mit indlæg harselerer jeg ikke mod DF men mod misbrug af en menigsmåling. Der er nauturligvis både usikkerhed på resultatet for DF og for de andre partier, men jeg finder det specielt relevant at kommentere vedr. DF, da Politikens hovedkonklusion jo netop går ud på, at DF har haft fremgang pga. af udlændingesagen.

Men som jeg forklarer i mit indlæg, så kan man altså ikke konkludere noget om det på baggund af meningsmålingen. Den er simpelthen for usikker.

De 2,7% som Catinet opgiver kan ikke direkte sammenlignes med mine 5,9%. Det er to forskellige ting.

En stikprøve kan aldrig være helt sikker (mere om det nedenfor). Så man kan enten prøve at kompensere for dette ved at opgive et interval som med de 2,7%. Eller hvis man som Politiken drager en konklusion ud fra tallene, kan man angive konklusionens sikkerhed. Det er det sidste jeg gør med de 5,9%.

Jeg siger, at selvom den reelle tilslutning til DF måske slet ikke er øget siden sidst, så er sandsynligheden for alligevel at få den angivne stigning (ene og alene pga. den nye stikprøves usikkerhed) 5,9%. Derfor er der ingen talmæssig basis for at konkludere, at DF er gået frem pga. udlændingesagen.

En stikprøve kan aldrig blive helt sikker, idet man jo strengt taget kun ved, hvad de adspurgte vil stemme. Svarer eksempelvis 163 ud af 1013, at de vil stemme DF, så ved man strengt taget kun, at mindst 163 vil stemme DF og at mindst 850 ikke vil stemme DF. Og det det giver så et temmelig stort spillerum på langt mere end +/- 2,7%.

Så når når Catinet alligevel kan sige, at usikkerheden "kun" er +/- 2,7%, så er det fordi at man med den slags intervaller (konfidensinterval) aldrig redegør for hele usikkerheden men måske kun for 98% af usikkerheden (der er ikke helt faste regler for dette).

For hvis der virkelig kun var 163 personer i alt, som ville stemme DF, så ville det jo være temmelig usandsynligt, at lige netop alle disse 163 kom med i en stikprøve på 1013. Og tilsvarende, hvis alle vælgere på nær 850 ville stemme DF, så ville det jo også være temmelig usandsynligt, at lige netop alle 850 skulle komme med i stikprøven. Så den slags meget usandsynlige ekstremer ser man bort fra.

Når man således ser bort fra de mest usandsynlige ekstremer, kan man angive et interval i stil med de +/- 2,7%.

På samme måde er det også, hvis man vil vise, at DF er steget i tilslutning. Så skal stigningen (og/eller stikprøven) være så stor, at det er et helt usandsynligt ekstrem, hvis stigningen kun skulle skyldes stikprøvens usikkerhed.

Det er rigtigt, at usikkerheden er forskellig på små og store partier. I absolutte tal (f.eks. en stigning på X % af vælgerne) er små partier mest sikre, medens det i relative tal (en stigning på Y % af partiets hidtidege størrelse) er store partier, som er mest sikre. Når Catinet opgiver en usikkerhed på +/- 2,7% dækker den for små partier det meste af usikkerheden og lidt mindre for de store.