Statistik

G R AT I S ST U D I E B Ø G E R

STATISTIK
DAVID BRINK

GRATIS STUDIEBØGER
WWW.BOOKBOON.COM

David Brink

Lær nemt! Statistik
- Kompendium

Download gratis bøger på ventus.dk / BookBooN.com

Lær nemt! Statistik - Kompendium
© 2006 David Brink & Ventus Publishing ApS
ISBN 87-7681-012-7


Lær Nemt! Statistik Indholdsfortegnelse

Indholdsfortegnelse
1. Forord 11

2. Sandsynlighedsregningens grundbegreber 12
2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse 12
2.2 Betinget sandsynlighed 12
2.3 Uafhængige hændelser 14
2.4 Inklusions-eksklusionsformlen 14
2.5 Binomialkoefficienter 16
2.6 Multinomialkoefficienter 17

3. Stokastiske variable 18
3.1 Stokastiske variable, definition 18
3.2 Fordelingsfunktion 18
3.3 Diskret stokastisk variabel, punktsandsynligheder 19
3.4 Kontinuert stokastisk variabel, tæthedsfunktion 19
3.5 Kontinuert stokastisk variabel, fordelingsfunktion 20
3.6 Uafhængige stokastiske variable 20
3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion 21

4. Middelværdi og varians 22
4.1 Middelværdi af stokastisk variabel 22
4.2 Varians og spredning af stokastisk variabel 22
4.3 Eksempel (udregning af middelværdi, varians og spredning) 22
4.4 Vurdering af middelværdi μ og spredning σ på øjemål 23
4.5 Additions- og multiplikationsformler for middelværdi og varians 23
4.6 Covarians og korrelationskoefficient 24
Klik på reklamen

We have ambitions. Also for you.
SimCorp is a global leader in financial software. At SimCorp, you will be part of a large network of competent
and skilled colleagues who all aspire to reach common goals with dedication and team spirit. We invest in our
employees to ensure that you can meet your ambitions on a personal as well as on a professional level. SimCorp
employs the best qualified people within economics, finance and IT, and the majority of our colleagues have a
university or business degree within these fields.

Ambitious? Look for opportunities at www.simcorp.com/careers

www.simcorp.com


4


5. De store tals lov 25
5.1 Chebyshev’s ulighed 25
5.2 De store tals lov 25
5.3 Den centrale grænseværdisætning 25
5.4 Eksempel (punktsandsynligheder konvergerer mod φ) 26

6. Beskrivende statistik 27
6.1 Median og kvartiler 27
6.2 Gennemsnit 27
6.3 Empirisk varians og empirisk spredning 27
6.4 Empirisk covarians og empirisk korrelationskoefficient 28

7. Statistisk testteori 29
7.1 Nulhypotese og alternativ hypotese 29
7.2 Signifikanssandsynlighed og signifikansniveau 29
7.3 Fejl af type I og II 29
7.4 Eksempel 29

8. Binomialfordelingen Bin(n, p) 30
8.1 Parametre 30
8.2 Beskrivelse 30
8.3 Punktsandsynligheder 30
8.4 Middelværdi og varians 30
8.5 Signifikanssandsynligheden for test i binomialfordelingen 31
8.6 Normalapproksimationen til binomialfordelingen 31
8.7 Estimatorer 32
8.8 Konfidensintervaller 33

Combining our
unique individual talents
to do amazing things
Klik på reklamen

If you want to find out more about international career
opportunities in British American Tobacco please visit
www.bat.com or for career opportunities in the Nordic
countries please contact our Nordic Head Office in
Copenhagen, Vibeke Scharffenberg, +45 39 55 63 00

BRING YOUR DIFFERENCE


5


9. Poissonfordelingen Pois(λ) 34
9.1 Parametre 34
9.2 Beskrivelse 34
9.5 Additionsformel 35
9.6 Signifikanssandsynligheder for test i Poissonfordelingen 35
9.7 Eksempel (signifikant stigning af salg af Skodaer) 35
9.8 Binomialapproksimationen til Poissonfordelingen 36
9.9 Normalapproksimationen til Poissonfordelingen 36
9.10 Eksempel (signifikant fald i antal klager) 36
9.11 Estimatorer 37
9.12 Konfidensintervaller 38

10. Den geometriske fordeling Geo(p) 39
10.1 Parametre 39
10.2 Beskrivelse 39
10.3 Punktsandsynligheder og halesandsynligheder 39

11. Den hypergeometriske fordeling HG(n, r, N) 40
11.1 Parametre 40
11.2 Beskrivelse 40
11.3 Punktsandsynligheder og halesandsynligheder 41
11.5 Binomialapproksimationen til den hypergeometriske fordeling 41
11.6 Normalapproksimationen til den hypergeometriske fordeling 41
Klik på reklamen


6


12. Multinomialfordelingen Mult(n, p1,..., pr) 43
12.1 Parametre 43
12.2 Beskrivelse 43
12.4 Estimatorer 43

13. Den negative binomialfordeling NB(n, p) 44
13.1 Parametre 44
13.2 Beskrivelse 44
13.5 Estimatorer 44

14. Eksponentialfordelingen Eks(λ) 45
14.1 Parametre 45
14.2 Beskrivelse 45
14.3 Tæthed og fordelingsfunktion 45

15. Normalfordelingen 46
15.1 Parametre 46
15.2 Beskrivelse 46
15.3 Tæthed og fordelingsfunktion 46
15.4 Standardnormalfordelingen 47
15.5 Regneregler for Φ 48
15.6 Estimation af middelværdien μ 48
15.7 Estimation af variansen σ2 48
15.8 Konﬁdensinterval for middelværdien μ 49
15.9 Konﬁdensinterval for variansen σ2 og spredningen σ 49
15.10 Additionsformlen 49

www.zepto.dk/studie

6%
Klik på reklamen

I STUDIERABAT PÅ
BÆRBARE PC’ER, LCD
TV OG TILBEHØR

..eller tjek www.zepto.dk/studie


7


16. Fordelinger knyttet til normalfordelingen 50
16.1 χ2-fordelingen 50
16.2 Student’s t-fordeling 51
16.3 Fisher’s F-fordeling 52

17. Test i normalfordelingen 53
17.1 En stikprøve, kendt varians, H0 : μ = μ0 53
17.2 En stikprøve, ukendt varians, H0 : μ = μ0 (Student’s t-test) 53
17.3 En stikprøve, ukendt middelværdi, H0 : σ2 = σ02 54
17.4 Eksempel 55
17.5 To stikprøver, kendte varianser, H0 : μ1 = μ2 56
17.6 To stikprøver, ukendte varianser, H0 : μ1 = μ2 (Fisher-Behrens) 57
17.7 To stikprøver, ukendte middelværdier, H0 : σ12 = σ22 57
17.8 To stikprøver, ukendt fælles varians, H0 : μ1 = μ2 58
17.9 Eksempel (sammenligning af to middelværdier) 58

18. Variansanalyse 60
18.1 Formål 60
18.2 k stikprøver, ukendt fælles varians, H0 : μ1 = . . . = μk 60
18.3 To eksempler (sammenligning af middelværdier i 3 stikprøver) 60

19. Chi-kvadrat χ2 63
19.1 χ2-test for fordelingslighed 63
19.2 Normalfordelingsantagelse 63
19.3 Standardiserede residualer 64
19.4 Eksempel (kvinder med 5 børn) 64
19.5 Eksempel (folketingsvalg) 66
19.6 Eksempel (dødsfald i det preussiske kavaleri) 67

Hvornår har du
sidst talt med dine
forældre?
Klik på reklamen

Måske kan det betale sig at tage en snak
med dem om fordelene ved forældrekøb.

På home.dk kan du beregne hvad det vil
koste ved et forældrekøb, og læse mere
om fordelene for dig og dine forældre


8


20. Kontingenstabeller 69
20.1 Definition, metode 69
20.2 Standardiserede residualer 70
20.3 Eksempel (studieretning og politisk orientering) 70
20.4 χ2-test for 2 × 2-tabeller 72
20.5 Fisher’s eksakte test for 2 × 2-tabeller 72
20.6 Eksempel (Fisher’s eksakte test) 73

21. Fordelingsfri test 74
21.1 Wilcoxons test for ét sæt observationer 74
21.2 Eksempel 75
21.3 Normalapproksimation til Wilcoxons test for ét sæt observationer 75
21.4 Wilcoxons test for to sæt observationer 76
21.5 Normalapproksimation til Wilcoxons test for to sæt observationer 77

22. Lineær regression 78
22.1 Modellen 78
22.2 Estimering af parametrene β0 og β1 78
22.3 Estimatorernes fordeling 78
22.4 Forudsagte værdier og residualer 79
22.5 Estimering af variansen σ2 79
22.6 Konfidensinterval for parametrene β0 og β1 79
22.7 Determinationskoefficienten R2 79
22.8 Forudsigelser og prediktionsinterval 80
22.9 Oversigt over formler 81
22.10 Eksempel 81

A. Engelsk-dansk ordliste 83

B. Oversigt over diskrete fordelinger 86

Danmarks Nationalbank

Interesseret i makroøkonomi?
Klik på reklamen

Interesserer du dig for penge- og valutapolitiske problemstillin-
ger, har vi meget at byde på, fx bogen ”Pengepolitik i Danmark”.
Du kan også læse vores Kvartalsoversigt eller Working Papers om
makroøkonomiske emner. Hvis du kan forestille dig en dag selv at
skrive artikler for Nationalbanken, kan du gå ind og se, hvad vi har
at tilbyde af ledige jobs.

Se mere på www.nationalbanken.dk

Nationalbanken bidrager til: ♦ stabile priser – ved at indrette pengepolitikken efter en fast kronekurs over for euroen
♦ sikre betalinger – ved at udstede sedler og mønter og være bank for penge- og realkreditinstitutterne
♦ stabilitet i det finansielle system – ved at vurdere den finansielle stabilitet, overvåge betalingssystemer, produ-
cere finansiel statistik og forvalte statens gæld. Som arbejdsplads kan vi tilbyde spændende arbejdsopgaver med
et højt fagligt indhold. Vi bestræber os på at udvikle vores medarbejdere både fagligt og personligt.


9


C. Tabeller 87
C.1 Sådan forstås tabellerne 87
C.2 Standardnormalfordeligen 88
C.3 χ2-fordelingen (værdier x med Fχ2(X) = 0,500 etc.) 91
C.4 Student’s t-fordeling (værdier x med Fstudent(x) = 0,600 etc.) 93
C.5 Fishers F-fordeling (værdier x med FFisher(x) = 0,90) 94
C.8 Wilcoxons test for ét sæt observationer 97
C.9 Wilcoxons test for 2 sæt observationer, α = 5% 98

D. Symbolforklaring 99

E. Index 100

Kickstart karrieren!
Deltids salgskonsulent

”
Du kommer til at indgå i vores salgsteam Min gennemsnitlige
på Dagbladet Børsen i Møntergade i timeløn lå sidste år
København, hvor du skal arbejde med på den rigtige side
Klik på reklamen

salg af abonnementer på Børsen til eksi- af 300 kr.
sterende, tidligere og nye abonnenter.
Du vil få en grundig oplæring i salgs- og
samtaleteknikker samt løbende coaching.
Søg jobbet på
borsen.dk
En god sælger…
■ har stor personlig gennemslagskraft
■ er målrettet og resultatorienteret
■ har kendskab til IT på brugerniveau
■ er indstillet på at arbejde i højt tempo


10

Lær Nemt! Statistik Forord

1 Forord
Det her foreliggende kompendium i statistik har som m˚ lgruppe studerende p˚ de økonomiske og
a a
samfundsvidenskabelige studier. (Version 1)
Det her foreliggende kompendium i statistik har som m˚ lgruppe medicin- og psykologistude-
a
rende. (Version 2)
For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskue-
lig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk. ”Lær nemt statistik -
kort og præcist”er en venlig gennemgang af statistikkens centrale omr˚ der, der lægger vægten
a
p˚ overblikket. De mange eksempler giver desuden læseren en ”kogebogsopskrift”p˚ , hvordan de
a a
almindeligste opgavetyper besvares.

Hvad enten du drømmer om at starte virksomhed eller allerede er godt i gang, giver vi dig power til at
maksimere dit potentiale. I uge 47 er der springboards, workshops, foredrag og konkret rådgivning til
Klik på reklamen

alle – fra iværksætterspirer i grundskolen til direktører med vækstambitioner.
Bag initiativet står Økonomi- og Erhvervsministeriet i samarbejde med en lang række private og
offentlige organisationer. Initiativet er en del af "Global Entrepreneurship Week", hvor mere end 100
lande sætter fokus på iværksætteri og vækst.

Læs mere på www.uge47.dk

Global Entrepreneurship Week | Økonomi- og Erhvervsministeriet | Væksthusene | Young Enterprise Danmark | DI – Organisation for erhvervslivet | Kauffmann | Make Your Mark
| Dansk Iværksætter Forening | Undervisningsministeriet | DEF | DJØF | Foreningen af Registrerede Revisorer | Øresund Entrepreneurship Academy | Danske Advokater |
Foreningen af Statsautoriserede Revisorer | IDA | DANA | IDEA | Vækstfonden | Women in Business | Connect Denmark | Ministeriet for Videnskab, Teknologi og Udvikling | FUHU
| Ernst & Young | Dansk Erhverv | Venture Cup | Kulturministeriet | Early Warning | Danmarks Eksportråd


11

Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber

2 Sandsynlighedsregningens grundbegreber
2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse
Et sandsynlighedsfelt er et par (Ω, P ) best˚ ende af en mængde Ω og en funktion P , der til hver
a
delmængde A af Ω knytter et reelt tal P (A) i intervallet [0, 1]. Desuden forlanges følgende 2
aksiomer opfyldt:
1. P (Ω) = 1,
∞ ∞
2. P ( n=1 An ) = n=1 P (An ) hvis A1 , A2 , . . . er en følge af parvis disjunkte delmængder af
Ω.
Mængden Ω kaldes et udfaldsrum. Elementerne ω ∈ Ω kaldes udfald, og delmængderne A Ω
kaldes hændelser. Funktionen P kaldes en sandsynlighedsfunktion. For en hændelse A kaldes
P (A) sandsynligheden for A.

Af de 2 aksiomer kan udledes følgende konsekvenser:

3. P (Ø) = 0,
4. P (AB) = P (A) − P (B) hvis B A,
5. P ( A) = 1 − P (A),
6. P (A) P (B) hvis B A,
7. P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An ) hvis A1 , . . . , An er parvis disjunkte hændelser,
8. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) for vilk˚ rlige hændelser A og B.
a

E KSEMPEL. Betragt mængden Ω = {1, 2, 3, 4, 5, 6}. Defin´ r for hver delmængde A af Ω
e
#A
P (A) = ,
6
hvor #A er antallet af elementer i A. S˚ er parret (Ω, P ) et sandsynlighedsfelt. Man kan se dette
a
sandsynlighedsfelt som model for situationen “kast med en terning”.

E KSEMPEL. Betragt nu mængden Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Defin´ r for hver del-
e
mængde A af Ω
#A
P (A) = .
36
Sandsynlighedsfeltet (Ω, P ) er nu model for situationen “kast med 2 terninger”. Delmængden

A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}

er hændelsen “to ens”.

2.2 Betinget sandsynlighed
For to hændelser A og B defineres den betingede sandsynlighed for A givet B som
P (A ∩ B)
P (A | B) := .
P (B)


12


Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige arsager:
˚
Antag A1 , . . . , An er parvis disjunkte hændelser med A1 ∪ · · · ∪ An = Ω. Da er for enhver
hændelse B:
P (B) = P (A1 ) · P (B | A1 ) + · · · + P (An ) · P (B | An ) .

E KSEMPEL. I finalen i French Open 2007 skal Nadal møde vinderen af semifinalen mellem Fede-
rer og Davidenko. En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til
75%. Sandsynligheden for, at Nadal kan sl˚ Federer i finalen, vurderes til 51%, mens sandsynlig-
a
heden for, at Nadal kan sl˚ Davidenko i finalen, vurderes til 80%. Bookmakeren beregner derfor
a
˚
ved opsplitning i mulige arsager sandsynligheden for, at Nadal vinder French Open 2007, til

P (Nadal vinder finalen) = P (Federer vinder semifinalen)×
P (Nadal vinder finalen|Federer vinder semifinalen)+
P (Davidenko vinder semifinalen)×
P (Nadal vinder finalen|Davidenko vinder semifinalen)
= 0,75 · 0,51 + 0,25 · 0,8
= 58,25%

kandidat
fremtid
Internationale
kandidatuddannelser
med rod i virkeligheden
Praktik
Studiejobs
Klik på reklamen

VIL DU SIKRE DIN FREMTID ASB Alumni
Summer University
Corporate partners

MED EN MÅLRETTET ASB Karrierecenter
Studiemiljø i særklasse

KANDIDATUDDANNELSE
Job- og CompanyDating
Danske og internationale forskere

INDEN FOR BUSINESS? Læs mere på www.asb.dk

LÆS MERE OM VORES UDDANNELSER
OG SAMARBEJDE MED FØRENDE DANSKE OG
INTERNATIONALE VIRKSOMHEDER PÅ
WWW.ASB.DK/KANDIDAT


13


2.3 Uafhængige hændelser
To hændelser A og B kaldes uafhængige, hvis
P (A ∩ B) = P (A) · P (B) .
Ækvivalent hermed er betingelsen P (A | B) = P (A), alts˚ at sandsynligheden for A er den
a
samme som den betingede sandsynlighed for A givet B.

Huskeregel. To hændelser er uafhængige, hvis sandsynligheden for den ene ikke p˚ virkes af kend-
a
skab til, om den anden har fundet sted.

E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
A: rød terning viser 6,
B: sort terning viser 6.
Da
1 1 1
P (A ∩ B) = = · = P (A) · P (B) ,
36 6 6
er A og B uafhængige. Sandsynligheden for, at rød terning viser 6, p˚ virkes ikke af kendskab til,
a
hvad sort terning viser.

E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
A: rød terning og sort terning viser det samme,
B: rød terning og sort terning viser tilsammen 10.
Da
1 1
P (A) = , men P (A | B) = ,
6 3
er A og B ikke uafhængige. Sandsynligheden for at f˚ to ens slag stiger, hvis man ved, at summen
a
af slagene er 10.

2.4 Inklusions-eksklusionsformlen
Formel 8 p˚ side 12 har følgende generalisering til 3 hændelser A, B, C:
a
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) .
Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser.

´
E KSEMPEL. Hvad er sandsynligheden for at f˚ mindst en sekser i tre kast med en terning. Lad
a
A1 være hændelsen, at vi f˚ r en sekser i første kast, og deﬁn´ r A2 og A3 tilsvarende. Den søgte
a e
sandsynlighed beregnes da ved inklusion-eksklusion:
P = P (A1 ∪ A2 ∪ A3 )
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+P (A1 ∩ A2 ∩ A3 )
1 1 1 1 1 1 1
= + + − 2− 2− 2+ 3
6 6 6 6 6 6 6
≈ 41%


14


Der gælder følgende generalisering for n hændelser A1 , A2 , . . . , An med foreningsmængde A =
A1 ∪ · · · ∪ An :

P (A) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − · · · ± P (A1 ∩ · · · ∩ An ) .
i i<j i<j<k

Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser.

E KSEMPEL. Der trækkes 5 tilfældige kort fra et almindeligt spil best˚ ende af 52 kort. Vi vil be-
a
stemme sandsynligheden P (B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtruk-
ne kort.
Lad til dette form˚ l A1 være den hændelse, at ingen af de udtrukne kort er spar. Deﬁner A2 , A3
a
og A4 tilsvarende for henholdsvis hjerter, ruder, klør. S˚ er
a

B = A 1 ∪ A2 ∪ A3 ∪ A 4 .

Inklusions-eksklusionsformlen giver nu

P ( B) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − P (A1 ∩ A2 ∩ A3 ∩ A4 ) ,
i i<j i<j<k

alts˚
a
39 26 13
5 5 5
P ( B) = 4 · −6· +4· − 0 ≈ 73,6%
52 52 52
5 5 5
Dermed f˚ s
a
P (B) = 1 − P ( B) = 26,4%

E KSEMPEL. I en skoleklasse sidder n børn. Læreren beder alle børnene rejse sig op og sætte sig
igen p˚ en tilfældig plads. Lad os bestemme sandsynligheden P (B) for den hændelse B, at hvert
a
barn f˚ r en ny plads.
a
Vi starter med at nummerere børnene fra 1 til n. For hvert i deﬁneres hændelsen

Ai : barn nummer i sætter sig p˚ sin gamle plads
a

S˚ er
a
B = A1 ∪ · · · ∪ An .
Nu kan P ( B) beregnes ved hjælp af inklusions–eksklusionsformlen for n hændelser:

P ( B) = P (Ai ) − P (Ai ∩ Aj ) + · · · ± P (A1 ∩ · · · ∩ An ) ,
i i<j

alts˚
a
n n 1 1 n 1
P ( B) = − + ··· ±
1 2 n n(n − 1) n n!
1 1
= 1 − + ··· ±
2! n!


15


Ergo er
1 1 1 1
− + − ··· ±
P (B) = 1 − P ( B) =
2! 3! 4! n!
Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P (B) er
meget tæt p˚ 37% for alle n ≥ 4.
a

2.5 Binomialkoefficienter
n
Binomialkoefficienten (læses “n over k”) er defineret som
k

n n! 1 · 2 · 3···n
= =
k k!(n − k)! 1 · 2 · · · k · 1 · 2 · · · (n − k)

for hele tal n og k med 0 k n. Der mindes om konventionen 0! = 1.
˚
Arsagen til, at binomialkoefficienterne optræder igen og igen i sandsynlighedsregningen, er
følgende sætning:

n
Antallet af delmængder med k elementer af en mængde med n elementer er .
k

Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 52 elementer (et
0906

Take it easy!
Men husk at melde dig i
a-kasse senest 14 dage
Klik på reklamen

efter endt uddannelse.

7013 7013
www.ase.dk

Når du er medlem af en a-kasse, kan du få op til 12.900 kr. i dagpenge om måneden før skat (2009 sats)


16


spil kort) lig
52
= 2598960 .
5
En god m˚ de at huske binomialkoefficienterne p˚ er ved at stille dem op i Pascals trekant,
a a
hvor hvert tal er lig summen af de to ovenst˚ ende tal:
a

0
0
1
1 1
0 1
11
2 2 2
0 1 2
121
3 3 3 3
0 1 2 3
1331
4 4 4 4 4
0 1 2 3 4
14641
5 5 5 5 5 5
0 1 2 3 4 5
1 5 10 10 5 1
6 6 6 6 6 6 6
0 1 2 3 4 5 6
1 6 15 20 15 6 1
.
. .
.
. .

Man bemærker, at der gælder regnereglen
n n 10 10
= , fx = .
n−k k 7 3

2.6 Multinomialkoefficienter
Multinomialkoefficienterne er defineret som
n n!
=
k1 · · · kr k1 ! · · · kr !

for hele tal n og k1 , . . . , kr med n = k1 + · · · + kr . Multinomialkoefficienter kaldes ogs˚ genera-
a
liserede binomialkoefficienter, idet binomialkoefficienten

n
k

er lig multinomialkoefficienten
n
k l
med l = n − k.


17

Lær Nemt! Statistik Stokastiske variable

3 Stokastiske variable
3.1 Stokastiske variable, deﬁnition
Betragt et sandsynlighedsfelt (Ω, P ). En stokastisk variabel er en afbildning X fra Ω ind i mæng-
den af reelle tal R.



Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke p˚ følgende hu-
a
skeregel:

Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager
forskellige værdier.

Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives p˚ følgende
a
m˚ de:
a

P (X = x): sandsynligheden for, at X tager værdien x ∈ R,
P (X < x): sandsynligheden for, at X tager en værdi mindre end x,
P (X > x): sandsynligheden for, at X tager en værdi større end x,
etc.

Der gælder regnereglerne

P (X ≤ x) = P (X < x) + P (X = x)
P (X ≥ x) = P (X > x) + P (X = x)
1 = P (X < x) + P (X = x) + P (X > x)

3.2 Fordelingsfunktionen
Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R → R givet ved

F (x) = P (X ≤ x) .

F (x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F (x) → 1 for
x → ∞, og F (x) → 0 for x → −∞.


18


Ved hjælp af F (x) kan alle X’s sandsynligheder regnes ud:

P (X < x) = limε→0 F (x − ε)
P (X = x) = F (x) − limε→0 F (x − ε)
P (X ≥ x) = 1 − limε→0 F (x − ε)
P (X > x) = 1 − F (x)

3.3 Diskret stokastisk variabel, punktsandsynligheder
En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange
værdier. I praksis tager diskrete stokastisk variable værdier i mængden {0, 1, 2, . . . }. Punktsand-
synlighederne
P (X = k)
fastlægger X’s fordeling. Om alle A {0, 1, 2, . . . } gælder nemlig

P (X ∈ A) = P (X = k) .
k∈A

Specielt haves regnereglerne
k
P (X ≤ k) = i=0 P (X = i)
∞
P (X ≥ k) = i=k P (X = i)

Punktsandsynligheder illustreres graﬁsk i et pindediagram:

P(X=k)

0,2

0,1

0 2 3 4 5 6 7

3.4 Kontinuert stokastisk variabel, tæthedsfunktion
En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f (x). Tætheds-
funktionen, som normalt blot kaldes tætheden, opfylder

P (X ∈ A) = f (t)dt
t∈A

for alle A R. Hvis A er et interval [a, b], gælder alts˚
a
b
P (a ≤ X ≤ b) = f (t)dt .
a


19


3.5 Kontinuert stokastisk variabel, fordelingsfunktion
For en kontinuert stokastisk variabel X med tæthed f (x) er fordelingsfunktionen F (x) givet ved
x
F (x) = f (t)dt .
−∞

Fordelingsfunktionen opfylder følgende regneregler:

P (X ≤ x) = F (x)
P (X ≥ x) = 1 − F (x)
P (|X| ≤ x) = F (x) − F (−x)
P (|X| ≥ x) = F (−x) + 1 − F (x)

3.6 Uafhængige stokastiske variable
To stokastiske variable X og Y kaldes uafhængige, hvis der for alle A, B R gælder, at hæn-
delserne X ∈ A og Y ∈ B er uafhængige. P˚ tilsvarende vis deﬁneres uafhængighed af tre eller
a
ﬂere stokastiske variable.

Huskeregel. X og Y er uafhængige, hvis man ikke kan slutte noget om Y ’s værdi ved at kende
X’s værdi.

E KSEMPEL. Kast en rød terning og en sort terning og betragt de stokastiske variable

Som studerende har du fremtiden for
dig. Ville det ikke være sejt, hvis du
kunne forudsige, hvad der vil ske?

Måske kan vi hjælpe.

SPSS Inc. er en førende global leverandør af software og
Klik på reklamen

løsninger inden for predictive analytics — en teknologi, der
forbedrer forretningsprocesserne ved at give organisationer
forståelse for fremtidige konsekvenser af beslutninger, der
træffes i dag og ved at opdage mønstre i data.

Hvis du skærper din ekspertise med vores software,
forudsiger vi, at det er meget sandsynligt, at du i fremtiden
vil få succes i en af de 250.000 organisationer inden for
den private, akademiske og offentlige sektor, der anvender
SPSS-teknologi.

Find ud af mere om, hvordan SPSS Inc. og predictive analytics
kan hjælpe dig med at sikre din fremtid på www.spss.dk


20


X: antal øjne af rød terning,
Y : antal øjne af sort terning.
Z: antal øjne af rød og sort terning lagt sammen.

X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y . X og Z er derimod ikke
uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, m˚ X have
a
en af værdierne 4, 5 og 6).

3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion
Hvis X1 , . . . , Xn er stokastiske variable deﬁneret p˚ samme sandsynlighedsfelt (Ω, P ), kaldes
a
X = (X1 , . . . , Xn ) en (n-dimensional) stokastisk vektor. Det er en afbildning

X : Ω → Rn .

Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : Rn → [0, 1] givet ved

F(x1 , . . . , xn ) = P (X1 ≤ x1 ∧ · · · ∧ Xn ≤ xn ) .

Antag nu at Xi ’erne er kontinuerte. S˚ har X en simultan (n-dimensional) tæthed f : Rn →
a
[0, ∞[, som opfylder
P (X ∈ A) = f (x) dx
x∈A
for alle A Rn . Xi ’ernes individuelle tætheder fi kaldes marginale tætheder, og de f˚ s fra den
a
simultane ved formlen

f1 (x1 ) = f (x1 , . . . , xn ) dx2 . . . dxn
Rn−1

her givet for f1 (x1 ), de øvrige f˚ s p˚ helt tilsvarende vis.
a a

Huskeregel. De marginale tætheder f˚ s fra den simultane tæthed ved at “integrere de overﬂødige
a
variable bort”.


21

Lær Nemt! Statistik Middelværdi og varians

4 Middelværdi og varians
4.1 Middelværdi af stokastisk variabel
Middelværdien af en diskret stokastisk variabel X er defineret som
∞
E(X) = P (X = k) · k .
k=1

Middelværdien for en kontinuert stokastisk variabel X med tæthed f (x) defineres som
∞
E(X) = f (x) · x dx .
−∞

Ofte bruger man bogstavet μ (’my’) om middelværdien.

4.2 Varians og spredning af stokastisk variabel
Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som

var(X) = E((X − μ)2 ) .

Hvis X er diskret, kan variansen udregnes s˚ ledes:
a
∞
var(X) = P (X = k) · (k − μ)2 .
k=0

Hvis X er kontinuert med tæthed f (x), kan variansen udregnes s˚ ledes:
a
∞
var(X) = f (x)(x − μ)2 dx .
−∞

Spredningen σ (’sigma’) af en stokastisk variabel er kvadratroden af variansen.

4.3 Eksempel (udregning af middelværdi, varians og spredning)
E KSEMPEL 1. Defin´ r den diskrete stokastiske variabel X som antallet af øjne ved kast med en
e
terning. Punktsandsynlighederne er P (X = k) = 1/6 for k = 1, 2, 3, 4, 5, 6. Middelværdien er
derfor
6
1 1+2+3+4+5+6
E(X) = ·k = = 3,5 .
6 6
k=1


22


Variansen er
6
1 (1 − 3,5)2 + (2 − 3,5)2 + · · · + (6 − 3,5)2
var(X) = · (k − 3,5)2 = = 2,917 .
6 6
k=1

Spredningen bliver s˚
a
σ= 2,917 = 1,708 .

E KSEMPEL 2. Deﬁn´ r den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet
e
[0, 1]. X har s˚ tætheden f (x) = 1 p˚ [0, 1]. Middelværdien er
a a
1
E(X) = x dx = 0,5 .
0

Variansen er
1
var(X) = (x − 0,5)2 dx = 0,083 .
0
Spredningen er
σ= 0,083 = 0,289 .

4.4 Vurdering af middelværdi μ og spredning σ p˚ øjem˚ l
a a
Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for
en stokastisk variabel, kan man p˚ øjem˚ l vurdere μ og σ. Middelværdien μ er cirka “massemidt-
a a
punktet” for fordelingen, og spredning σ er s˚ dan, at cirka 2/3 af sandsynlighedsmassen ligger i
a
intervallet μ ± σ.

(x)

0,2

0,1

μ-r μ μ+r

4.5 Additions- og multiplikationsformler for middelværdi og varians
Lad X og Y være stokastiske variable. Da gælder

E(X + Y ) = E(X) + E(Y )
E(aX) = a · E(X)
var(X) = E(X 2 ) − E(X)2
var(aX) = a2 · var(X)
var(X + a) = var(X)


23


for ethvert a ∈ R. Hvis X og Y er uafhængige, gælder desuden

E(X · Y ) = E(X) · E(Y )
var(X + Y ) = var(X) + var(Y )

Huskeregel. Middelværdien er additiv. For uafhængige stokastiske variable er middelværdien
multiplikativ og variansen additiv.

4.6 Covarians og korrelationskoefficient
Covariansen for to stokastiske variable X og Y er tallet

Cov(X, Y ) = E((X − EX)(Y − EY )) .

Der gælder
Cov(X, X) = var(X)
Cov(X, Y ) = E(X · Y ) − EX · EY
var(X + Y ) = var(X) + var(Y ) + 2 · Cov(X, Y )
Korrelationskoefficienten ρ (’rho’) for X og Y er tallet
Cov(X, Y )
ρ= ,
σ(X) · σ(Y )

hvor σ(X) = var(X) og σ(Y ) = var(Y ) er X’s og Y ’s spredninger. Korrelationskoefficien-
ten er et tal i intervallet [−1, 1]. Hvis X og Y er uafhængige, er b˚ de covariansen og ρ lig 0.
a

Huskeregel. En positiv korrelationskoefficient betyder, at X normalt er stor, n˚ r Y er stor, og om-
a
vendt. En negativ korrelationskoefficient betyder, at X normalt er lille, n˚ r Y er stor, og omvendt.
a

E KSEMPEL. Der kastes en rød og en sort terning. Betragt de stokastiske variable
X: antal øjne af rød terning,
Y : antal øjne af rød og sort terning lagt sammen.

Hvis X er stor, vil Y normalt ogs˚ være stor, og omvendt. Vi forventer derfor en positiv korrela-
a
tionskoefficient. Mere præcist udregnes

E(X) = 3,5
E(Y ) = 7
E(X · Y ) = 27,42
σ(X) = 1,71
σ(Y ) = 2,42

Covariansen er derfor

Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 27,42 − 3,5 · 7 = 2,92

Korrelationskoefficienten bliver som forventet et positivt tal:
Cov(X, Y ) 2,92
ρ= = = 0,71 .
σ(X) · σ(Y ) 1,71 · 2,42


24


5 De store tals lov
5.1 Chebyshev’s ulighed
For en stokastisk variabel X med middelværdi μ og varians σ 2 gælder Chebyshev’s ulighed
σ2
P (|X − μ| ≥ a) ≤
a2
for ethvert a > 0.

5.2 De store tals lov
Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling, og lad
μ være den fælles middelværdi. Indfør betegnelsen Sn for summerne
Sn = X 1 + · · · + X n .
De store tals lov siger da
Sn
P −μ >ε → 0 for n → ∞
n
for ethvert ε > 0. Sagt i ord:

Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi,
n˚ r stikprøvens størrelse n g˚ r mod ∞.
a a

5.3 Den centrale grænseværdisætning
Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling. Lad
μ være den fælles middelværdi og σ 2 den fælles varians. Det antages, at σ 2 er positiv. Indfør
betegnelsen Sn for de normerede summer
X1 + · · · + Xn − nμ
Sn = √ .
σ n
Ved “normeret” forst˚ s, at Sn ’erne har middelværdi 0 og varians 1. Den centrale grænseværdi-
a
sætning siger da
P (Sn ≤ x) → Φ(x) for n → ∞
for alle x ∈ R, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (se afsnit 15.4)
1
x
1 − t2
Φ(x) = √ e 2 dt .
−∞ 2π
Fordelingsfunktionen for de normerede summer Sn konvergerer alts˚ mod Φ, n˚ r n g˚ r mod ∞.
a a a
Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det
overraskende er, at de normerede summers grænsefordeling er uafhængig af Xi ’ernes fordeling.


25

Lær Nemt! Statistik De store tals lov

5.4 Eksempel (fordelingsfunktionen konvergerer mod Φ)
Betragt en følge af uafhængige stokastiske variable X1 , X2 , . . . , der alle har punktsandsynlighe-
derne
1
P (Xi = 0) = P (Xi = 1) = .
2
Summerne Sn = X1 + · · · + Xn er binomialfordelte middelværdi μ = n/2 og varians σ 2 = n/4.
De normerede summer bliver dermed
X1 + · · · + Xn − μ/2
Sn = √ .
n/2
Fordelingen af Sn er givet ved fordelingsfunktionen Fn . Den centrale grænseværdisætning siger,
at Fn konvergerer mod Φ for n → ∞. Nedenst˚ ende ﬁgur viser Fn sammen med Φ for n =
a
1, 2, 10, 100. Det er et øjeblik af overordentlig skønhed, n˚ r man betragter Fn ’erne falde til føje
a
og nærme sig Φ:


26

Lær Nemt! Statistik Beskrivende statistik

6 Beskrivende statistik
6.1 Median og kvartiler
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes median
x(0,5) som den “midterste observation”. Mere præcist er

x(n+1)/2 hvis n ulige
x(0,5) =
(xn/2 + xn/2+1 )/2 hvis n lige
idet man ordner observationer efter størrelse s˚ ledes:
a

x1 ≤ x2 ≤ · · · ≤ xn .

P˚ tilsvarende vis defineres observationernes nedre kvartil x(0,25) s˚ ledes, at 25% af obser-
a a
vationerne ligger under x(0,25), og observationernes øvre kvartil x(0,75) s˚ ledes, at 75% af
a
observationerne ligger under x(0,75).
Kvartilafstanden er afstanden mellem x(0,25) og x(0,75), alts˚ x(0,75) − x(0,25).
a

6.2 Gennemsnit
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes gennemsnit
som n
xi
x = i=1
¯
n

6.3 Empirisk varians og empirisk spredning
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes empiriske
varians som n
(xi − x)2
¯
s2 = i=1 .
n−1
Den empiriske spredning er kvadratroden af den empiriske varians:
n
i=1 (xi
− x)2
¯
s= .
n−1
Jo større den empiriske spredning s er, des mere “spredt” ligger observationerne omkring gen-
¯
nemsnittet x.


27

Lær Nemt! Statistik Beskrivende statistik

6.4 Empirisk covarians og empirisk korrelationskoefficient
Antag der foreligger n observationspar (x1 , y1 ), . . . , (xn , yn ). Man definerer da observationernes
empiriske covarians som
n
i=1 (xi − x)(yi − y )
¯ ¯
Covemp = .
n−1
En alternativ m˚ de at udregne Covemp er ved
a
n
− n¯y
i=1 xi yi x¯
Covemp = .
n−1
Den empiriske korrelationskoefficient er
empirisk covarians Covemp
r= = .
(x’ernes empiriske spredning)(y’ernes empiriske spredning) sx sy

Den empiriske korrelationskoefficient r ligger altid i intervallet [−1, 1].

Fortolkning af den empiriske korrelationskoefficient. Hvis x-observationerne er uafhængige
af y-observationerne, ligger r tæt p˚ 0. Hvis x-observationerne og y-observationerne afhænger
a
p˚ den m˚ de, at store x’er oftest svarer til store y’er og omvendt, ligger r tæt p˚ 1. Hvis x’erne
a a a
og y’erne afhænger af hinanden p˚ den m˚ de, at store x’er oftest svarer til sm˚ y’er og omvendt,
a a a
ligger r tæt p˚ –1.
a

r
C ard ghed este
ild uli kær
m
B Wdig øge ed
DS er s tm
iv at be nde t
g r ba
Klik på reklamen

fo ele la ra
%
ih 0
til 5
op
Få op til 50% rabat på din togrejse i Danmark, 25% på salgsvognen
og 25% på togrejser til udlandet, plus en lang række klubfordele.

16-26 år eller på SU?

Køb kortet nu!
Det er billigst på dsb.dk/wildcard


28

Lær Nemt! Statistik Statistisk testteori

7 Statistisk testteori
7.1 Nulhypotese og alternativ hypotese
Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en p˚ forh˚ nd givet
a a
nulhypotese H0 . Nogle gange testes H0 mod en eksplicit alternativ hypotese H1 .
Til grund for testet ligger en eller flere observationer. Nulhypotesen (og den eventuelle alter-
native hypotese) drejer sig om, hvilken fordeling observationerne stammer fra.

7.2 Signifikanssandsynlighed og signifikansniveau
Man udregner nu signifikanssandsynligheden P , som er sandsynligheden – givet at H0 er sand
– for at f˚ lige s˚ ekstreme eller mere ekstreme observationer, end de foreliggende. Jo mindre P
a a
er, des mindre plausibel er H0 .
Ofte vælger man p˚ forh˚ nd et signifikansniveau α, typisk α = 5%. Man forkaster s˚ H0 ,
a a a
hvis P er mindre end α (man siger “H0 forkastes p˚ signifikansniveau α”). Hvis P er større and
a
α, accepteres H0 (man siger “H0 accepteres eller opretholdes p˚ signifikansniveau α” eller “H0
a
kan ikke forkastes p˚ signifikansniveau α”).
a

7.3 Fejl af type I og II
Man taler om fejl af type I, hvis man forkaster en sand nulhypotese. Hvis signifikansniveauet er
α, er risikoen for en fejl af type I højst α.
Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese. Testets styrke er
sandsynligheden for at forkaste H0 , hvis H1 er sand. Jo større styrken er, des mindre er risikoen
for en fejl af type II.

7.4 Eksempel
Antag at vi vil undersøge, om en bestemt terning er ægte. Ved “ægte” forst˚ s, at sandsynligheden
a
p for at f˚ en sekser er 1/6. Vi tester nulhypotesen
a
1
H0 : p = (terningen er ægte)
6
mod den alternative hypotese
1
H1 : p > (terningen er falsk)
6
Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen:

2, 6, 3, 6, 5, 2, 6, 6, 4, 6

Lad os p˚ forh˚ nd lægge os fast p˚ signifikansniveauet α = 5%. Nu beregnes signifikanssand-
a a a
synligheden P . Ved “ekstreme” observationer skal forst˚ s, at der er mange seksere. P er alts˚
a a
sandsynligheden for at f˚ mindst 5 seksere i 10 slag med en ærlig terning. Vi udregner
a
10
10
P = (1/6)k (5/6)10−k = 0,015
k
k=5

(se afsnit 8 om binomialfordelingen). Da P = 1,5% er mindre end α = 5%, forkaster vi H0 . Hvis
terningen i virkeligheden var ægte, ville sandsynligheden for at beg˚ en fejl af type I være 1,5%.
a

29

Lær Nemt! Statistik Binominalfordeligen Bin(n, p)

8 Binomialfordelingen Bin(n, p)
8.1 Parametre
n: antalsparameter (antal forsøg)
p: sandsynlighedsparameter (successandsynlighed)
I formlerne bruger vi ogs˚ “fiaskosandsynligheden” q = 1 − p.
a

8.2 Beskrivelse
Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko. I hvert forsøg er
successandsynligheden den samme, nemlig p. Det totale antal succeser X er da binomialfordelt,
og man skriver X ∼ Bin(n, p). X er en diskret stokastisk variabel og kan tage værdier i mængden
{0, 1, . . . , n}.

8.3 Punktsandsynligheder
For k ∈ {0, 1, . . . , n} er punktsandsynlighederne i en Bin(n, p)-fordeling

n
P (X = k) = · pk · q n−k .
k

n
Se afsnit 2.5 vedrørende binomialkoefficienterne .
k

E KSEMPEL . Hvis man kaster en terning 20 gange, vil det samlede antal 6’ere X være binomial-
fordelt med antalsparameter 20 og sandsynlighedsparameter 1/6. Vi kan opskrive punktsandsyn-
lighederne P (X = k) og de kumulerede sandsynligheder P (X ≥ k) i et skema (i procent)

k 0 1 2 3 4 5 6 7 8 9
P (X = k) 2,6 10,4 19,8 23,8 20,2 12,9 6,5 2,6 0,8 0,2
P (X ≥ k) 100 97,4 87,0 67,1 43,3 23,1 10,2 3,7 1,1 0,3

8.4 Middelværdi og varians
Middelværdi: E(X) = np.
Varians: var(X) = npq.


30


8.5 Signifikanssandsynligheden for test i binomialfordelingen
Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser
tælles. Vi vil teste nulhypotesen H0 : p = p0 mod en alternativ hypotese H1 .

H0 H1 Signifikanssandsynlighed
p = p0 p > p0 P (X ≥ k)
p = p0 p < p0 P (X ≤ k)
p = p0 p = p0 l P (X = l)

hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).

E KSEMPEL . Et firma køber en maskine, der kan fremstille mikrochips. Producenten af maskinen
hævder, at højst 1/6 af de fremstillede chips vil være defekte. Den første dag fremstiller maskinen
20 chips, af hvilke 6 er defekte. Kan firmaet p˚ denne baggrund forkaste producentens p˚ stand?
a a

S VAR . Vi tester nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6.
Signifikanssandsynligheden beregnes til P (X ≥ 6) = 10,2% (se se fx tabellen i afsnit 8.3).
Firmaet kan alts˚ ikke forkaste producentens p˚ stand p˚ 5-procentsniveau.
a a a

8.6 Normalapproksimationen til binomialfordelingen
Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X
√
cirka være normalfordelt med middelværdi μ = np og spredning σ = npq. Punktsandsynlighe-

FÅ HELE VERDEN SOM DIN ARBEJDSPLADS!
Vil du være blandt verdens førende shippingfolk? Det Blå Danmark, eller det danske mari-
time erhverv, kan tilbyde dig en shippinguddannelse af høj international standard. Danske
rederier og shippingvirksomheder er førende inden for de mest avanacerede segmenter af
Klik på reklamen

den globale søfart og flytter dagligt 10 procent af al verdens handel til søs. Hvis du har mod
på en international karriere, så gå ind på www.worldcareers.dk og find ud af, hvordan DU
kan få hele verden som din arbejdsplads.

Få verden som arbejdsplads: www.worldcareers.dk


31


derne er derfor
k − np 1
P (X = k) ≈ ϕ √ ·√ ,
npq npq
hvor ϕ er tætheden for standardnormalfordelingen, og halesandsynlighederne er
⎛ ⎞
1
k + − np
⎜ ⎟
P (X ≤ k) ≈ Φ ⎝ √2 ⎠
npq

⎛ ⎞
1
k − − np
⎜ ⎟
P (X ≥ k) ≈ 1 − Φ ⎝ √2 ⎠
npq

hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C.2).

Tommelfingerregel. Man kan bruge approksimationen, hvis np og nq begge er større end 5.

E KSEMPEL (fortsættelse af eksemplet i afsnit 8.5). Efter 2 uger har maskinen fremstillet 200 chips,
af hvilke 46 er defekte. Kan firmaet nu forkaste producentens p˚ stand, om at sandsynligheden for
a
defekt er højst 1/6?

S VAR. Vi tester atter nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6. Da
nu np ≈ 33 og nq ≈ 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde
signifikanssandsynligheden:
⎛ ⎞
1
46 − − 33,3
⎜ ⎟
P (X ≥ 46) ≈ 1 − Φ ⎝ √2 ⎠ ≈ 1 − Φ(2,3) ≈ 1,1%
27,8

Firmaet kan alts˚ nu forkaste producentens p˚ stand p˚ 5-procentsniveau.
a a a

8.7 Estimatorer
Antag k er en observation fra en stokastisk variabel X ∼ Bin(n, p) med kendt n og ukendt p.
Maksimum likelihood-estimatet (ML-estimatet) p˚ p er
a
k
p=
ˆ .
n
Denne estimator er middelret (dvs. estimatorens middelværdi er p) og har variansen
pq
var(ˆ) =
p .
n
Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte)
ˆ a
sandsynlighedsparameter p. Hvis man imidlertid indsætter den estimerede værdi p p˚ p’s plads,
f˚ r man den estimerede varians
a
p(1 − p)
ˆ ˆ
.
n


32


E KSEMPEL. Vi betragter atter eksemplet med maskinen, der har fremstillet 20 mikrochips, af
hvilke de 6 er defekte. Hvad er maksimum likelihood-estimatet p˚ sandsynlighedsparameteren?
a
Hvad er dennes estimerede varians?

S VAR. Maksimum likelihood-estimatet er
6
p=
ˆ = 30%
20
aˆ
variansen p˚ p estimeres til
0,3 · (1 − 0,3)
= 0,0105 .
20
√
Spredningen estimeres dermed til 0,0105 ≈ 0,10. Hvis vi g˚ r ud fra, at p ligger inden for 2
a ˆ
spredninger fra p, vil p alts˚ ligge mellem 10% og 50%.
a

8.8 Konfidensintervaller
Antag k er en observation fra en binomialfordelt stokastisk variabel X ∼ Bin(n, p) med kendt n
og ukendt p. Konfidensintervallet med konfidensgrad 1 − α omkring punktestimatet p = k/n er
ˆ

p(1 − p)
ˆ ˆ p(1 − p)
ˆ ˆ
p − u1−α/2
ˆ , p + u1−α/2
ˆ .
n n

Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 − α.
Tallet u1−α/2 er fastlagt ved Φ(u1−α/2 ) = 1 − α/2, hvor Φ er fordelingsfunktionen for stan-
dardnormalfordelingen. Det fremg˚ r fx af Tabel C.2, at for konfidensgrad 95% er
a

u1−α/2 = u0,975 = 1,96 .

˚
O PGAVE. I en Gallup-undersøgelse i ar 2012 svarer 62 ud af 100 adspurgte, at de vil stemme p˚
a
Enhedslisten ved næste valg. Bestem konfidensintervallet med konfidensgrad 95% om den sande
procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal.
S VAR. Punktestimatet er p = 62/100 = 0,62. Da konfidensgraden skal være 95%, skal α = 0,05.
ˆ
Tabelopslag giver u0,975 = 1,96. Man f˚ r
a

0,62 · 0,38
1,96 = 0,095 .
100
Konfidensintervallet bliver dermed
[0,525 , 0,715] .
Vi kan alts˚ sige med 95 procents sikkerhed, at mellem 52,5% og 71,5% vil stemme p˚ Enhedsli-
a a
sten, hvilket vil give mellem 94 og 128 af folketingets 179 mandater.


33

Lær Nemt! Statistik Poissonfordelingen Pois(λ)

9 Poissonfordelingen Pois(λ)
9.1 Parametre
λ: Intensiteten

9.2 Beskrivelse
Visse begivenheder siges at forekomme spontant, dvs. de ﬁnder sted p˚ tilfældige tidspunkter, men
a
med en vis konstant intensitet λ. Intensiteten λ er det gennemsnitlige antal spontane begivenheder
pr. tidsinterval. Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt,
og man skriver X ∼ Pois(λ). X er en diskret stokastisk variabel og kan tage værdier i mængden
{0, 1, 2, 3, . . . }.

9.3 Punktsandsynligheder
For k ∈ {0, 1, 2, 3 . . . } er punktsandsynlighederne i en Pois(λ)-fordeling

λk
P (X = k) = exp(−λ) .
k!
Der mindes om konventionen 0! = 1.

E KSEMPEL . I en vis butik kommer der i gennemsnit 3 kunder pr. minut. Antallet af kunder X, der
Klik på reklamen


34

Lær Nemt! Statistik Poissonfordelingen Pois(λ)

kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3. Punktsandsynlig-
hederne kan opskrives i procent i et skema:

k 0 1 2 3 4 5 6 7 8 9 ≥ 10
P (X = k) 5,0 14,9 22,4 22,4 16,8 10,1 5,0 2,2 0,8 0,3 0,1

9.4 Middelværdi og varians
Middelværdi: E(X) = λ.
Varians: var(X) = λ.

9.5 Additionsformel
Antag at X1 , . . . , Xn er uafhængige Poissonfordelte stokastiske variable. Lad λi være intensiteten
af Xi , alts˚ Xi ∼ Pois(λi ). S˚ er summen
a a

X = X1 + · · · + Xn

Poissonfordelt med intensitet
λ = λ 1 + · · · + λn ,
alts˚ X ∼ Pois(λ).
a

9.6 Signifikanssandsynligheder for test i Poissonfordelingen
Antag at k er en observatione fra en Pois(λ)-fordeling med ukendt intensitet λ. Vi vil teste nul-
hypotesen H0 : λ = λ0 mod en alternativ hypotese H1 .

H0 H1 Signifikanssandsynlighed
λ = λ0 λ > λ0 P (X ≥ k)
λ = λ0 λ < λ0 P (X ≤ k)
λ = λ0 λ = λ0 l P (X = l)

hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).
Hvis man har givet n uafhængige observationer k1 , . . . , kn fra en Pois(λ)-fordeling, kan man
udnytte, at summen k = k1 + · · · + kn er en observation fra en Pois(n · λ)-fordeling.

9.7 Eksempel (signifikant stigning af salg af Skodaer)
O PGAVE. En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om m˚ neden. M˚ neden
a a
efter et reklamefremstød for Skoda sælges 7 biler. Er dette en signifikant stigning?

S VAR. Salget af biler den givne m˚ ned kan med rimelighed antages at være Poissonfordelt med
a
en vis intensitet λ. Vi tester nulhypotesen

H0 : λ = 3,5


35

Statistik

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Empfohlen

Empfohlen (20)

Statistik