Sannsynligvis vil han gjøre det igjen

Arkivert som Statistisk analyse av i 2007 0 kommentarer

Du og jeg er ikke gjennomsnittsmennesker. Ingen vi kjenner er det, til det er mennesket for mangefasettert. Det kan vi sikkert være enige om, men likvel bruker vi diverse gjennomsnitt for å beskrive virkeligheten, og kommer frem til noen stereotypier som beskriver den. Så sier vi at slik er

  • kvinner
  • menn
  • nordmenn
  • innvandrere
  • gamle
  • unge

eller slik er

  • voldteksforbryteren
  • morderen
  • bankraneren

og så videre.

Det som er saken er at gjennomsnitt er gode til å beskrive grupper, spesielt store grupper. Men til å beskrive, eller predikere, enkeltmennesker fungerer det veldig sjelden like bra. Strengt tatt kan det bare brukes om variasjonen mellom individene i populasjonen er lav.

Et eksempel på to serier med gjennomsnitt 50:

1. 00 25 50 75 100
2. 48 49 50 51 052

I den første serien er det stor variasjon, i den andre er det liten variasjon. Det ser du med et blikk. I større serier er det vanskeligere, og da beregnes noe som heter standardavvik1. For serie 1 er det 35, for serie 2 er det 1,4.

En serie bestående av 0 og 100 har forøvrig også et gjennomsnitt på 50.

I Economist fant jeg en artikkel som omhandler hvordan gjennomsnitts-betraktninger brukes i domstolene i USA og England. Der brukes de blant annet til å se på gjentakelsesfaren for personer som har begått alvorlige forbrytelser. I USA handler det om avgjørelser som kan bety liv eller død. I Storbrittania brukes det til å avgjøre om forvaring skal brukes. Hvordan det er i Norge, vet jeg ikke, men jeg ser ikke bort fra at lignende betraktninger kan brukes her. Man gjør en risiko-prediksjon. Basert på ting som alder, relasjoner, kriminell historie og hvilken type offer de har valgt. Om noen plasseres i en gruppe der en høy andel har gjentatt kriminelle handlinger, antar man at risikoen for at det enkeltindividet skal begå nye kriminelle handlinger, er lik den gruppen har.

Stephen Hart m.fl. på University of British Colombia, gjennomgikk noen av testene som brukes for å studere hvorvidt de faktisk predikerer godt også for enkeltindivider. Sannsynligheten for at seksualforbrytere ville begå nye overgrep var satt til 36% innenfor en periode på 15 år. Forskerne fant utfallsrommet faktisk var mellom 30% og 43%, på 95% konfidensnivå. Ved bruk av standard statistiske metoder for å overføre gruppedata til individnivå fant de at på et 95% konfidensnivå var utfallsrommet mellom 3% og 91%. Det er jo omtrent som å si at det er umulig å si noe.

Det blir helt meningsløst å bruke et så stort mulighetsområde til å predikere noe som helst. Og når det så styrer menneskers livsskjebne, for ikke å snakke liv og død, er det livfarlig.

Ellers leste jeg i Magasinet i helgen at Jan Erik Kristiansen på SSB kommer med bok snart. Den heter «Tall kan temmes!», handler om statistikk og bruk av statistikk og er delvis rettet mot journalister.

«Jeg tar vel ikke for hardt i hvis jeg sier at journalister ikke er de skarpeste knivene i skuffen når det gjelder tall«, sier Kristiansen.

*humre*

Videre sier han at det i hovedsak er to grupper som lyver med statistikk: journalister og politikere. Journalisten for å dramatisere og lage nyheter, og politikeren for å tilpasse statistikken til sin politiske agenda. Men ikke alt er av vond vilje. Noen ganger er det mangel på kunnskap og forståelse. Som når man ukritisk bruker gjennomsnitt for å beskrive virkeligheten. Her kan forhåpentligvis boken hjelpe.

  1. Gjennomsnittlig avvik fra gjennomsnittet eller stdev.jpg []

Emner: , ,

Legg igjen en kommentar