La oss si at vi er en kameratgjeng på 5, som en dag lurer på hva som best beskriver vår typiske alder. Vi er 19, 32, 22, 23 og 22 år gamle, så hvordan går vi frem?

Modus, median og gjennomsnitt

Modus er den verdien flest deler, og som vi ser er det to stk. som er 22 år gamle, mens ingen andre verdier gjentas to ganges. Modus er altså 22.

En annen mulighet er å finne medianen som er verdien til enheten i midten, om vi sorterer oss etter alder. I så fall blir 22 medianen også, for nr. 3 i rekken er da 22 år gammel (19, 20, 22, 22, 32).

Siste mulighet er å finne gjennomsnittet. Her må vi regne litt, men det er enkelt: vi legger sammen alle observasjonene, og deler det på antall observasjoner. Regnestykket blir altså 19+20+22+22+32, som deles på 5, siden vi er fem stk. Det blir 115/5, som gir oss en gjennomsnittsalder på 23 år.

Nå skal jeg være litt slem, men jeg håper dere kan tilgi meg. Jeg skal nemlig vise et par formler, og forklare hvordan man leser dem. Det er fullt mulig å forklare utregningen av gjennomsnitt slik jeg nettopp gjorde, men det er mye mer effektivt å vise det som en formel. Når utregningen blir mer avanserte vil det bli enda viktigere å kunne lese slike formler, og jeg lover: det er ikke vanskelig, selv om det ser skremmende ut!

La oss starte helt enkelt med de elementene vi kommer til å se i formelen:

x_i er symbolet for en observasjon. i’en er egentlig et tall, og når vi regner så er det i’en som sier hvilken observasjon vi ser på. Om vi f.eks. ser på observasjonene vi hadde i stad (19, 32, 22, 23 og 22), så er x_1 = 19, x_2 = 32, x_3 = 22, x_4 = 23, x_5 = 22.

\bar{x} er gjennomsnittet for x_i

n er antallet observasjoner vi har. I vår serie med aldre er n=5.

Det siste symbolet er kanskje mest skummelt, men det er ikke vanskelig, så vær så snill og bli med.

\sum betyr rett og slett summer, og sier bare at vi skal legge sammen alt som følger etter. Det er ofte et par andre tegn over og under symbolet, men de er heller ikke så kryptiske som de kan virke ved første øyekast.

\sum_{i=1}^n her sier n’en oss hvor mange verdier vi skal legge sammen, og i’en hvilken observasjon vi starter med.

\sum_{i=1}^n x_i betyr altså at vi skal legge sammen alle observasjonene våre.

Da er vi faktisk så og si i mål, og når vi bare legge til at summen skal deles på antall observasjoner, får vi følgende formel for å finne gjennomsnittet:

\sum_{i=1}^n = \frac{x_i}{n}

Alternativt kan vi skrive den slik (dette vil dere se oftere): \sum_{i=1}^n = \frac{1}{n} x_i

Kvartiler

Til sist skal jeg kort vise hvordan vi kan dele observasjonene våre i fire deler. Vi finner det vi kaller kvartiler til denne inndelingen, og vi har 3 av dem.

Første kvartil er punktet mellom medianen og den lavest observasjonen, og deler dermed de 25% laveste verdiene fra de 75% høyeste. Medianen er et annet ord for den andre kvartiler, for denne deler de 50% laveste fra de 50% høyeste verdiene. Tredje kvartil er da, naturlig nok, verdien mellom medianen og den høyeste verdien.

La oss si at vi har personer med følgende aldre: [18, 20, 20, 21, 22, 25, 28, 29, 30, 31, 34]

Vi har 11 verdier, og det betyr at n=11.

For å finne første kvartil deler vi n+1 på 4, og får 3.

Medianen/andre kvartil finner vi ved å dele n+1 på 2, og vi får 6.

Tredje kvartil får vi enten ved å multiplisere første kvartil med tre, eller formelen \frac{3(n+1)}{n}, og begge metoder gir oss 9. 

Kort til slutt: hva om vi ikke får hele og pene tall med disse metodene? Medianen er enten et helt tall, eller midt imellom to observasjoner. Om medianen f.eks. er enhet nr. 9,5, må vi se på enhet 9 og 10, og finne snittet av disse. Om nr. 9 er 20 år gammel, og 10 er 22 år, blir medianen \frac{20+22}{2}, som gir oss en median på 21 år.

Kvartilene kan enten bli hele tall (og da er vi ferdige), eller de kan ha desimalene 0,25, 0,5 eller 0,75. Om det er 0,5 følger vi samme metode som for medianen.

Om første kvartil er 3,25, må vi igjen se på enhetene over og under. Om nr. 3 er 10 år gammel og nr 4 er 14 år gammel, tar vi 25% (siden det er er 0,25) av denne differansen og legger til verdien for enhet 3.

Differansen er 4 år (14-10) og når vi tar 25% av dette får vi 1 år (4*0,25). Da tar vi verdien for enhet nr. 3, og legger til det ene året. Første kvartil blir 11 år.

La oss så si at tredje kvartil er 9,75. Enhet 9 er 30 år og enhet 10 er 34 år. Vi følger nå samme metode, men vi legger til 75% av differansen, siden kvartilet endte på 0,75. Differansen er 4 år (34-30), og 75% av dette er 3 år. Enhet 9 er 30 år, og når vi legger til det forrige svaret blir tredje kvartil 33 år.

Her er huskereglene:

  • 0,25: Ta verdien til enheten under og legg til 25% av differansen til enheten over
  • 0,5: Ta verdien til enheten under og legg til 50% av differansen til enheten over
  • 0,75: Ta verdien til enheten under og legg til 75% av differansen til enheten over

Video

Ta en titt på denne videoen, hvor jeg bruker det vi har har sett: