Lögn, ... och statistik




There are three kinds of lies: lies, damned lies, and statisticTillskrivs av Mark Twain brittiske premiärministern Benjamin Disraeli.
(Referenser till internet nedan är kontrollerade 2016-10 eller senare.)

I typisk (kvantitativ) forskning ställer man upp en hypotes, insamlar ett antal tillgängliga eller experimentella data (utfall) och gör en statistisk analys (varvid hypotesen prövas). Att den senare är förenad med svårigheter och fallgropar såg vi redan i avsnittet Beteendeekonomi/Vi har svårt tänka statistiskt. Statistiken kan också medvetet användas på ett missledande sätt för att stärka svaga argument. Dock ska sägas för undvikande av missförstånd: statistik är rätt brukat ett kraftfullt och mycket nyttigt verktyg (precis som en hammare).

Korrelation (samvariation)

Om antalet utfall är tillräckligt stort kan ett statistiskt samband mellan variabler fastställas, dvs korrelation eller samvariation (uttryckt som s.k. korrelationskoefficient). Ett sådant samband får inte tolkas som ett orsakssamband (kausalitet). Det finns i media många exempel på hur korrelation mellan två variabler felaktigt tolkats som orsakssamband. Ofta finns en tredje (kanske dold eller okänd) variabel, som orsakar påverkan på de båda studerade variablerna. Även om sådana dolda faktorer kan vara svåra att upptäcka bör man anstränga sig att leta efter dem och inte genast acceptera ett budskap om direkta orsakssamband.

Ex 1. En amerikans medicinsk artikel slog larm om ökning av cancer bland mjölkdrickare. Man hade sett att cancer var vanligt bland högkonsumerande stater men sällsynt i t ex Indien och vissa sydstater i USA. Det finns antagligen flera orsaksfaktorer men en räcker för att förklara: cancer inträffar oftast relativt sent i livet. Det visade sig att i länderna med hög mjölkkonsumtion var också livslängden längre. (Fr [Stukat1993], s 56).

Ex 2. I ett antal kommuner i Tyskland räknade man ut en korrelationskoefficient mellan antal storkar och nativiteten. Koefficienten fick ett ganska högt värde. Alltså: i kommuner med fler storkar föddes fler barn. Verklig orsaken var att storkarna trivdes bättre i landsortskommuner, där det också var vanligare med fler barn. (Fr [Stukat1993], s 56).

Även om man kan bli lurad av statistiska kurvor måste vi komma ihåg att rätt använda är de av stor betydelse. Ibland är tydlig statistik en nödvändig motvikt mot vår tendens att generalisera från enstaka händelser (jämför avsnittet Beteendeekonomi/Vi har svårt att tänka statistiskt, avsnitt Tillgänglighet i minne ... leder till fel slutsats). Men det behövs god insikt för att ställa upp förklarande hypoteser om orsakssamband, när några faktorer samvarierar i tiden. Finns det möjligen andra underliggande faktorer som bättre förklarar orsaker? Att försöka förstå orsaker ger bättre beslutsunderlag än att bara gå på samvariation.

I exempel 2 ovan inser vi att korrelation (samvariation) inte är samma sak som orsakssamband. Men kommer vi ihåg detta när vi ser mindre uppenbara fall? T ex, hur tolkar vi samvariationen när vi redan har en övertygelse om eller i alla fall en känsla av orsakssamband?


Övning: Läs igenom artikeln i DN Debatt 160827 (Jerzy Sarnecki om ev. koppling invandring - brottsnivå). Uppenbarligen - om man ska tro angivna kurvor - begås allt färre mord i Sverige och allt färre utsätts för brott. Detta trots ökad andel utrikes födda. Samtidigt framgår i texten att invandrare är överrepresenterade bland de personer som misstänks eller lagförs för brott. Överrrepresentationen är cirka 2.5 ggr och har varit ungefär så sen 1970-talet. Det finns dock andra samvarierande faktorer, som kan vara intressanta. T ex är överrepresentation för försörjningsstödsmottagare 6 ggr bland personer registrerade för brott.
Fråga 1: Vilka andra faktorer än födelseland skulle ev. kunna ligga närmare en förklaring till att invandrare är överrepresenterade när det gäller brott (mottagning av försörjningsstöd?, integrationssvårigheter?, relativ fattigdom?, kön?, ålder?, DNA?, kultur? trauma? ...)?
Fråga 2: Vilka fakta i artikeln tar man troligen fasta på och sprider vidare beroende på om man a priori är invandrarfientlig, invandrarvänlig eller neutral?

Kausalitet (orsakssamband)

Om man på "säkert" sätt vill fastställa orsakssamband behöver man göra experiment, där man kan styra den hypotetiskt orsakande variabeln. T ex kan man dela upp experimentet i två delar, där i ena delen ingår den hypotetiskt orsakande variabeln, i den andra inte. Vid sådana experiment krävs stor noggrannhet med bl.a. s.k. dubbelblindhet. Ibland är det dock av etiska eller praktiska skäl inte möjligt göra sådana experiment.

Ex 3: Antag att ett läkemedelsföretag internt är väl medvetet om att ett visst av dess läkemedel inte är effektivare än placebo (och kanske sämre om man jämför med placebo med biverkningar, aktiv placebo, d.v.s. som läkemedelskonsumenten tror på). Om ett sådant företag hade kriminell läggning så skulle det kunna göra ett stort antal små försök, publicera de som visar "bra" resultat och hemlighålla de andra. De publicerade resultaten skulle då visa att läkemedlet är bättre än placebo och därmed lura både läkare och allmänhet.

Ex 4: Antag att det tänkta läkemedelsföretaget enl. ex. 3 har hypotesen att dess läkemedel är något effektivare än åtminstone passiv placebo. Det kan då i stället göra ett stort försök (i st för många små), där man jämför med passiv placebo. Om dess hypotes stämmer redovisar företaget (med bistånd av statistisk expertis) resultatet, som då formellt "korrekt" visar att läkemedlets effekt jämfört med placebo är "statistiskt signifikant". Se not 2.

Ex 5. Antag att man funnit att

1) mättat fett i kosten orsakar hög kolesterolnivå

2) hög kolesterolnivå korrelerar med hjärtinfarkt.

Frestande men felaktig slutsats från 1) och 2) är nu att

3) mättat fett i kosten orsakar hjärtinfarkt

Det skulle ju kunna finnas en okänd orsaksfaktor, som påverkar både kolesterolnivå och risken för hjärtinfarkt och som gör att dessa korrelerar med varandra, t ex stress.

Flera samverkande orsaksfaktorer

I verkliga fall är samband ofta mycket komplicerade, dvs det finns flera orsaksfaktorer som leder till en viss verkan. Ibland handlar det dessutom om ömsesidig växelverkan mellan flera faktorer.

Orsaker till sjukdomar försöker man ofta kvantifiera i %. Då skulle man kunna tro att summan av %-talen för de olika ingående orsaksfaktorerna borde bli 100% men ingalunda; summan kan bli större än 100%. Ibland krävs flera faktorer för att en sjukdom ska bryta ut. Redan om man tar bort en faktor så reducerar man sjukdomsfallen med 100%. Antag att en andra faktor har samma egenskaper. Då blir summan 200%. Det går alltså inte att på trivialt sätt fördela %-talen mellan olika faktorer.

Ex 6. Alla nyfödda i Sverige testas för fenylketonuri (PKU = phenyl-ketone-uria) via ett stick i hälen. Sjukdomen är 100% genetisk: har man inte genen så slipper man sjukdomen. Sjukdomen kan också sägas bli orsakad till 100 % av en miljöfaktor: fenylalanin. Utan sådan i kosten slipper man också sjukdomen till 100 %. Se not 1.

Ex 7. Hur stor del av människans intelligens är genetisk resp. miljöbetingad? Man skulle i ett första försök kunna låta enäggstvillingar växa upp på olika håll och testa skillnader i intelligens p g a miljöskillnader som uppmäts i undersökningen. Om man hypotetiskt i ett andra försök hade kunnat jämföra enäggstvillingar, som man utsätter för mycket större skillnader i intellektuell stimulans skulle man kommit fram till att intelligensen är mer miljöbetingad och mindre genetisk i försök 2 än i försök 1. Med andra ord var frågan fel ställd. Hämtat fr. [Hansson2007], s 97.

Ex 8. Hämtat från artikel skriven av Murray och Lopez 1999. Föreställ dig (förenklat) en modell av en viss sjukdom S, som kräver sammanfallande av tre faktorer, t ex högt blodtryck, alkohol och rökning, för att dödsfall ska inträffa. Om någon av dessa tre orsaker inte finns så hindras dödsfall. Ett dödsfall kan alltså hänföras till varje faktor var för sig förutsatt att att övriga två riskfaktorer finns.T ex den som har intressen i blodtrycksmediciner kan då göra en studie (som engagerar rökande alkoholister) som visar att sjukdomen S till 100% är hänförlig till högt blodtryck (alla med medicin överlever, alla utan dör). Ett (livslångt) intagande av blodtrycksmediciner "botar" sjukdomen och rekommenderas alltså. Anm: I verkliga fall handlar det oftast om att sjukdomsutbrott är beroende av komplexa kombinationer av intensiteter för de olika faktorerna. Hypotetiska exemplet är förstås ytterst förenklat, men visar ändå en del av svårigheterna att utan att vilseleda tilldela %-tal till orsaksfaktorer.

När det gäller människans egenskaper, handlar det alltså om samspel mellan arv och miljö. Man kan inte utan vidare fördela och kvantifiera orsaker som %-tal. Det viktiga är att försöka förstå det ofta komplicerade samspelet mellan olika faktorer.


_______________________________________________________
Direktlänk till nästa sida: Makt styr kunskapsbildning eller länk tillbaka till överordnad sida Vetenskap, sanning och makt

_____________________________________________

Not 1: Varför föds visst antal barn med PKU? [Frostegård2013], s 274, spekulerar i att denna egenskap/mutation knappast skulle överleva om den inte har haft överlevnadsvärde. Man kan väl hävda att genetiska faktorer egentligen är miljörelaterade dom också - fast bakåt i tiden och i en annan tidsskala.
Not 2: Innan man som individ bestämmer sig för att låta sig behandlas med en viss medicin finns det givetvis mer än "statistisk signifikans" att ta hänsyn till. Se t.ex. den viktiga distinktionen mellan Absolute Risk and Relative Risk.