Ofte når vi leser gjengivelser av snurrige sammenhenger og snodige årsaker, står vi overfor et vanlig problem i statistisk analyse. Nemlig det som går ut på å skille mellom årsakssammenheng (kausalitet) og samvariasjon (korrelasjon). Gang på gang går journalister i den fella, og lager store oppslag med sensasjonelle overskrifter, som ofte gir debatt på helt feil grunnlag.
Når overskriften er «Kvinner med høy utdanning får oftere brystkreft» er det en slik feilslutning vi står overfor. Høy utdanning er neppe årsaken, men det samvarierer. For kvinner med høy utdanning får barn senere, og årsakssammenhengen går på hvor tidlig du får barn. Jo tidligere du får barn, og jo flere barn du får, jo mindre er sannsynligheten for å få brystkreft (kausalitet). Hvor tidlig eller sent du får barn, samvarierer gjerne med hvor lang utdannelse du har tatt (korrelasjon). I tilfellet med brystkreft var uttalelsen tillagt avdelingsdirektør i helsestatistikk ved Folkehelseinstituttet, Heine Strand. Jeg håper virkelig ikke det var han som hadde kommet med uttalelsen, men journalisten som hadde misforstått eller rett og slett vridd artikkelen feil.
Påstand: Høy musikk forårsaker kviser.
Ungdom hører på høy musikk. Ungdom får kviser. Ergo forårsaker høy musikk kviser.
Nei. Hormoner forårsaker kviser. Kviser samvarierer med en tendens til å ville høre på høy musikk.
Problemet med å tro at du har funnet en årsak, når du egentlig har funnet en samvariasjon er at du kan sette inn helt feil tiltak, fordi du trekker feil konklusjoner. Det er konsekvenser som er langt mer alvorlige enn at du får noen snurrige nettdebatter på tøysete grunnlag.
Et eksempel som er trukket frem i boken «The tiger that isn’t» er det med at det eldste barnet i en søskenflokk gjerne har høyere IQ enn yngre søsken. Undersøkelser har vist at det er slik. Teoriene har gått på at det skyldes at det første barnet får mest oppmerksomhet fra foreldrene, det neste barnet får mindre og så videre. Det høres jo ut som en plausibel forklaring. Men kan det være andre forklaringer?Jo, det kan det. Det er nemlig slik at det ofte i familier med lavere sosioøkonomisk status at du finner de store barneflokkene. Det er en mer sannsynlig årsak, enn kun det faktum at det er flere søsken. Det er ikke i seg selv det å ha søsken som gir lavere IQ-score, det er det at familier med lav sosio-økonomisk status får flere barn.
Når jeg jobber med slike statistiske sammenhenger for prognoseformål, bruker jeg følgende metodikk:
- Analyser historiske data, og se om du finner signifikante sammenhenger historisk
- Spør deg om sammenhengen er logisk, altså om det er rimelig å tro at det ligger en årsakssammenheng her. Er det vanskelig å finne en logisk sammenheng, er det muligens en «tilfeldig» samvariasjon du står overfor
- Vil den historiske sammenhengen også gjelde i fremtiden?
Først om alle de tre tingene er til stede, kan du mene at dette er en sammenheng du kan legge vekt på. Og når man leser om de rareste konklusjoner i mediene, er det på sin plass å se etter logikken, som i eksempelet med brystkreft og høy utdannelse.