4. Lær Nemt! Statistik Indholdsfortegnelse
Indholdsfortegnelse
1. Forord 11
2. Sandsynlighedsregningens grundbegreber 12
2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse 12
2.2 Betinget sandsynlighed 12
2.3 Uafhængige hændelser 14
2.4 Inklusions-eksklusionsformlen 14
2.5 Binomialkoefficienter 16
2.6 Multinomialkoefficienter 17
3. Stokastiske variable 18
3.1 Stokastiske variable, definition 18
3.2 Fordelingsfunktion 18
3.3 Diskret stokastisk variabel, punktsandsynligheder 19
3.4 Kontinuert stokastisk variabel, tæthedsfunktion 19
3.5 Kontinuert stokastisk variabel, fordelingsfunktion 20
3.6 Uafhængige stokastiske variable 20
3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion 21
4. Middelværdi og varians 22
4.1 Middelværdi af stokastisk variabel 22
4.2 Varians og spredning af stokastisk variabel 22
4.3 Eksempel (udregning af middelværdi, varians og spredning) 22
4.4 Vurdering af middelværdi μ og spredning σ på øjemål 23
4.5 Additions- og multiplikationsformler for middelværdi og varians 23
4.6 Covarians og korrelationskoefficient 24
Klik på reklamen
We have ambitions. Also for you.
SimCorp is a global leader in financial software. At SimCorp, you will be part of a large network of competent
and skilled colleagues who all aspire to reach common goals with dedication and team spirit. We invest in our
employees to ensure that you can meet your ambitions on a personal as well as on a professional level. SimCorp
employs the best qualified people within economics, finance and IT, and the majority of our colleagues have a
university or business degree within these fields.
Ambitious? Look for opportunities at www.simcorp.com/careers
www.simcorp.com
Download gratis bøger på ventus.dk / BookBooN.com
4
5. Lær Nemt! Statistik Indholdsfortegnelse
5. De store tals lov 25
5.1 Chebyshev’s ulighed 25
5.2 De store tals lov 25
5.3 Den centrale grænseværdisætning 25
5.4 Eksempel (punktsandsynligheder konvergerer mod φ) 26
6. Beskrivende statistik 27
6.1 Median og kvartiler 27
6.2 Gennemsnit 27
6.3 Empirisk varians og empirisk spredning 27
6.4 Empirisk covarians og empirisk korrelationskoefficient 28
7. Statistisk testteori 29
7.1 Nulhypotese og alternativ hypotese 29
7.2 Signifikanssandsynlighed og signifikansniveau 29
7.3 Fejl af type I og II 29
7.4 Eksempel 29
8. Binomialfordelingen Bin(n, p) 30
8.1 Parametre 30
8.2 Beskrivelse 30
8.3 Punktsandsynligheder 30
8.4 Middelværdi og varians 30
8.5 Signifikanssandsynligheden for test i binomialfordelingen 31
8.6 Normalapproksimationen til binomialfordelingen 31
8.7 Estimatorer 32
8.8 Konfidensintervaller 33
Combining our
unique individual talents
to do amazing things
Klik på reklamen
If you want to find out more about international career
opportunities in British American Tobacco please visit
www.bat.com or for career opportunities in the Nordic
countries please contact our Nordic Head Office in
Copenhagen, Vibeke Scharffenberg, +45 39 55 63 00
BRING YOUR DIFFERENCE
Download gratis bøger på ventus.dk / BookBooN.com
5
6. Lær Nemt! Statistik Indholdsfortegnelse
9. Poissonfordelingen Pois(λ) 34
9.1 Parametre 34
9.2 Beskrivelse 34
9.3 Punktsandsynligheder 34
9.4 Middelværdi og varians 35
9.5 Additionsformel 35
9.6 Signifikanssandsynligheder for test i Poissonfordelingen 35
9.7 Eksempel (signifikant stigning af salg af Skodaer) 35
9.8 Binomialapproksimationen til Poissonfordelingen 36
9.9 Normalapproksimationen til Poissonfordelingen 36
9.10 Eksempel (signifikant fald i antal klager) 36
9.11 Estimatorer 37
9.12 Konfidensintervaller 38
10. Den geometriske fordeling Geo(p) 39
10.1 Parametre 39
10.2 Beskrivelse 39
10.3 Punktsandsynligheder og halesandsynligheder 39
10.4 Middelværdi og varians 39
11. Den hypergeometriske fordeling HG(n, r, N) 40
11.1 Parametre 40
11.2 Beskrivelse 40
11.3 Punktsandsynligheder og halesandsynligheder 41
11.4 Middelværdi og varians 41
11.5 Binomialapproksimationen til den hypergeometriske fordeling 41
11.6 Normalapproksimationen til den hypergeometriske fordeling 41
Klik på reklamen
Download gratis bøger på ventus.dk / BookBooN.com
6
7. Lær Nemt! Statistik Indholdsfortegnelse
12. Multinomialfordelingen Mult(n, p1,..., pr) 43
12.1 Parametre 43
12.2 Beskrivelse 43
12.3 Punktsandsynligheder 43
12.4 Estimatorer 43
13. Den negative binomialfordeling NB(n, p) 44
13.1 Parametre 44
13.2 Beskrivelse 44
13.3 Punktsandsynligheder 44
13.4 Middelværdi og varians 44
13.5 Estimatorer 44
14. Eksponentialfordelingen Eks(λ) 45
14.1 Parametre 45
14.2 Beskrivelse 45
14.3 Tæthed og fordelingsfunktion 45
14.4 Middelværdi og varians 45
15. Normalfordelingen 46
15.1 Parametre 46
15.2 Beskrivelse 46
15.3 Tæthed og fordelingsfunktion 46
15.4 Standardnormalfordelingen 47
15.5 Regneregler for Φ 48
15.6 Estimation af middelværdien μ 48
15.7 Estimation af variansen σ2 48
15.8 Konfidensinterval for middelværdien μ 49
15.9 Konfidensinterval for variansen σ2 og spredningen σ 49
15.10 Additionsformlen 49
www.zepto.dk/studie
6%
Klik på reklamen
I STUDIERABAT PÅ
BÆRBARE PC’ER, LCD
TV OG TILBEHØR
..eller tjek www.zepto.dk/studie
Download gratis bøger på ventus.dk / BookBooN.com
7
8. Lær Nemt! Statistik Indholdsfortegnelse
16. Fordelinger knyttet til normalfordelingen 50
16.1 χ2-fordelingen 50
16.2 Student’s t-fordeling 51
16.3 Fisher’s F-fordeling 52
17. Test i normalfordelingen 53
17.1 En stikprøve, kendt varians, H0 : μ = μ0 53
17.2 En stikprøve, ukendt varians, H0 : μ = μ0 (Student’s t-test) 53
17.3 En stikprøve, ukendt middelværdi, H0 : σ2 = σ02 54
17.4 Eksempel 55
17.5 To stikprøver, kendte varianser, H0 : μ1 = μ2 56
17.6 To stikprøver, ukendte varianser, H0 : μ1 = μ2 (Fisher-Behrens) 57
17.7 To stikprøver, ukendte middelværdier, H0 : σ12 = σ22 57
17.8 To stikprøver, ukendt fælles varians, H0 : μ1 = μ2 58
17.9 Eksempel (sammenligning af to middelværdier) 58
18. Variansanalyse 60
18.1 Formål 60
18.2 k stikprøver, ukendt fælles varians, H0 : μ1 = . . . = μk 60
18.3 To eksempler (sammenligning af middelværdier i 3 stikprøver) 60
19. Chi-kvadrat χ2 63
19.1 χ2-test for fordelingslighed 63
19.2 Normalfordelingsantagelse 63
19.3 Standardiserede residualer 64
19.4 Eksempel (kvinder med 5 børn) 64
19.5 Eksempel (folketingsvalg) 66
19.6 Eksempel (dødsfald i det preussiske kavaleri) 67
Hvornår har du
sidst talt med dine
forældre?
Klik på reklamen
Måske kan det betale sig at tage en snak
med dem om fordelene ved forældrekøb.
På home.dk kan du beregne hvad det vil
koste ved et forældrekøb, og læse mere
om fordelene for dig og dine forældre
Download gratis bøger på ventus.dk / BookBooN.com
8
9. Lær Nemt! Statistik Indholdsfortegnelse
20. Kontingenstabeller 69
20.1 Definition, metode 69
20.2 Standardiserede residualer 70
20.3 Eksempel (studieretning og politisk orientering) 70
20.4 χ2-test for 2 × 2-tabeller 72
20.5 Fisher’s eksakte test for 2 × 2-tabeller 72
20.6 Eksempel (Fisher’s eksakte test) 73
21. Fordelingsfri test 74
21.1 Wilcoxons test for ét sæt observationer 74
21.2 Eksempel 75
21.3 Normalapproksimation til Wilcoxons test for ét sæt observationer 75
21.4 Wilcoxons test for to sæt observationer 76
21.5 Normalapproksimation til Wilcoxons test for to sæt observationer 77
22. Lineær regression 78
22.1 Modellen 78
22.2 Estimering af parametrene β0 og β1 78
22.3 Estimatorernes fordeling 78
22.4 Forudsagte værdier og residualer 79
22.5 Estimering af variansen σ2 79
22.6 Konfidensinterval for parametrene β0 og β1 79
22.7 Determinationskoefficienten R2 79
22.8 Forudsigelser og prediktionsinterval 80
22.9 Oversigt over formler 81
22.10 Eksempel 81
A. Engelsk-dansk ordliste 83
B. Oversigt over diskrete fordelinger 86
Danmarks Nationalbank
Interesseret i makroøkonomi?
Klik på reklamen
Interesserer du dig for penge- og valutapolitiske problemstillin-
ger, har vi meget at byde på, fx bogen ”Pengepolitik i Danmark”.
Du kan også læse vores Kvartalsoversigt eller Working Papers om
makroøkonomiske emner. Hvis du kan forestille dig en dag selv at
skrive artikler for Nationalbanken, kan du gå ind og se, hvad vi har
at tilbyde af ledige jobs.
Se mere på www.nationalbanken.dk
Nationalbanken bidrager til: ♦ stabile priser – ved at indrette pengepolitikken efter en fast kronekurs over for euroen
♦ sikre betalinger – ved at udstede sedler og mønter og være bank for penge- og realkreditinstitutterne
♦ stabilitet i det finansielle system – ved at vurdere den finansielle stabilitet, overvåge betalingssystemer, produ-
cere finansiel statistik og forvalte statens gæld. Som arbejdsplads kan vi tilbyde spændende arbejdsopgaver med
et højt fagligt indhold. Vi bestræber os på at udvikle vores medarbejdere både fagligt og personligt.
Download gratis bøger på ventus.dk / BookBooN.com
9
10. Lær Nemt! Statistik Indholdsfortegnelse
C. Tabeller 87
C.1 Sådan forstås tabellerne 87
C.2 Standardnormalfordeligen 88
C.3 χ2-fordelingen (værdier x med Fχ2(X) = 0,500 etc.) 91
C.4 Student’s t-fordeling (værdier x med Fstudent(x) = 0,600 etc.) 93
C.5 Fishers F-fordeling (værdier x med FFisher(x) = 0,90) 94
C.6 Fishers F-fordeling (værdier x med FFisher(x) = 0,95) 95
C.7 Fishers F-fordeling (værdier x med FFisher(x) = 0,99) 96
C.8 Wilcoxons test for ét sæt observationer 97
C.9 Wilcoxons test for 2 sæt observationer, α = 5% 98
D. Symbolforklaring 99
E. Index 100
Kickstart karrieren!
Deltids salgskonsulent
”
Du kommer til at indgå i vores salgsteam Min gennemsnitlige
på Dagbladet Børsen i Møntergade i timeløn lå sidste år
København, hvor du skal arbejde med på den rigtige side
Klik på reklamen
salg af abonnementer på Børsen til eksi- af 300 kr.
sterende, tidligere og nye abonnenter.
Du vil få en grundig oplæring i salgs- og
samtaleteknikker samt løbende coaching.
Søg jobbet på
borsen.dk
En god sælger…
■ har stor personlig gennemslagskraft
■ er målrettet og resultatorienteret
■ har kendskab til IT på brugerniveau
■ er indstillet på at arbejde i højt tempo
Download gratis bøger på ventus.dk / BookBooN.com
10
11. Lær Nemt! Statistik Forord
1 Forord
Det her foreliggende kompendium i statistik har som m˚ lgruppe studerende p˚ de økonomiske og
a a
samfundsvidenskabelige studier. (Version 1)
Det her foreliggende kompendium i statistik har som m˚ lgruppe medicin- og psykologistude-
a
rende. (Version 2)
For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskue-
lig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk. ”Lær nemt statistik -
kort og præcist”er en venlig gennemgang af statistikkens centrale omr˚ der, der lægger vægten
a
p˚ overblikket. De mange eksempler giver desuden læseren en ”kogebogsopskrift”p˚ , hvordan de
a a
almindeligste opgavetyper besvares.
Hvad enten du drømmer om at starte virksomhed eller allerede er godt i gang, giver vi dig power til at
maksimere dit potentiale. I uge 47 er der springboards, workshops, foredrag og konkret rådgivning til
Klik på reklamen
alle – fra iværksætterspirer i grundskolen til direktører med vækstambitioner.
Bag initiativet står Økonomi- og Erhvervsministeriet i samarbejde med en lang række private og
offentlige organisationer. Initiativet er en del af "Global Entrepreneurship Week", hvor mere end 100
lande sætter fokus på iværksætteri og vækst.
Læs mere på www.uge47.dk
Global Entrepreneurship Week | Økonomi- og Erhvervsministeriet | Væksthusene | Young Enterprise Danmark | DI – Organisation for erhvervslivet | Kauffmann | Make Your Mark
| Dansk Iværksætter Forening | Undervisningsministeriet | DEF | DJØF | Foreningen af Registrerede Revisorer | Øresund Entrepreneurship Academy | Danske Advokater |
Foreningen af Statsautoriserede Revisorer | IDA | DANA | IDEA | Vækstfonden | Women in Business | Connect Denmark | Ministeriet for Videnskab, Teknologi og Udvikling | FUHU
| Ernst & Young | Dansk Erhverv | Venture Cup | Kulturministeriet | Early Warning | Danmarks Eksportråd
Download gratis bøger på ventus.dk / BookBooN.com
11
12. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
2 Sandsynlighedsregningens grundbegreber
2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse
Et sandsynlighedsfelt er et par (Ω, P ) best˚ ende af en mængde Ω og en funktion P , der til hver
a
delmængde A af Ω knytter et reelt tal P (A) i intervallet [0, 1]. Desuden forlanges følgende 2
aksiomer opfyldt:
1. P (Ω) = 1,
∞ ∞
2. P ( n=1 An ) = n=1 P (An ) hvis A1 , A2 , . . . er en følge af parvis disjunkte delmængder af
Ω.
Mængden Ω kaldes et udfaldsrum. Elementerne ω ∈ Ω kaldes udfald, og delmængderne A Ω
kaldes hændelser. Funktionen P kaldes en sandsynlighedsfunktion. For en hændelse A kaldes
P (A) sandsynligheden for A.
Af de 2 aksiomer kan udledes følgende konsekvenser:
3. P (Ø) = 0,
4. P (AB) = P (A) − P (B) hvis B A,
5. P ( A) = 1 − P (A),
6. P (A) P (B) hvis B A,
7. P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An ) hvis A1 , . . . , An er parvis disjunkte hændelser,
8. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) for vilk˚ rlige hændelser A og B.
a
E KSEMPEL. Betragt mængden Ω = {1, 2, 3, 4, 5, 6}. Defin´ r for hver delmængde A af Ω
e
#A
P (A) = ,
6
hvor #A er antallet af elementer i A. S˚ er parret (Ω, P ) et sandsynlighedsfelt. Man kan se dette
a
sandsynlighedsfelt som model for situationen “kast med en terning”.
E KSEMPEL. Betragt nu mængden Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Defin´ r for hver del-
e
mængde A af Ω
#A
P (A) = .
36
Sandsynlighedsfeltet (Ω, P ) er nu model for situationen “kast med 2 terninger”. Delmængden
A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
er hændelsen “to ens”.
2.2 Betinget sandsynlighed
For to hændelser A og B defineres den betingede sandsynlighed for A givet B som
P (A ∩ B)
P (A | B) := .
P (B)
Download gratis bøger på ventus.dk / BookBooN.com
12
13. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige arsager:
˚
Antag A1 , . . . , An er parvis disjunkte hændelser med A1 ∪ · · · ∪ An = Ω. Da er for enhver
hændelse B:
P (B) = P (A1 ) · P (B | A1 ) + · · · + P (An ) · P (B | An ) .
E KSEMPEL. I finalen i French Open 2007 skal Nadal møde vinderen af semifinalen mellem Fede-
rer og Davidenko. En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til
75%. Sandsynligheden for, at Nadal kan sl˚ Federer i finalen, vurderes til 51%, mens sandsynlig-
a
heden for, at Nadal kan sl˚ Davidenko i finalen, vurderes til 80%. Bookmakeren beregner derfor
a
˚
ved opsplitning i mulige arsager sandsynligheden for, at Nadal vinder French Open 2007, til
P (Nadal vinder finalen) = P (Federer vinder semifinalen)×
P (Nadal vinder finalen|Federer vinder semifinalen)+
P (Davidenko vinder semifinalen)×
P (Nadal vinder finalen|Davidenko vinder semifinalen)
= 0,75 · 0,51 + 0,25 · 0,8
= 58,25%
kandidat
fremtid
Internationale
kandidatuddannelser
med rod i virkeligheden
Praktik
Studiejobs
Klik på reklamen
VIL DU SIKRE DIN FREMTID ASB Alumni
Summer University
Corporate partners
MED EN MÅLRETTET ASB Karrierecenter
Studiemiljø i særklasse
KANDIDATUDDANNELSE
Job- og CompanyDating
Danske og internationale forskere
INDEN FOR BUSINESS? Læs mere på www.asb.dk
LÆS MERE OM VORES UDDANNELSER
OG SAMARBEJDE MED FØRENDE DANSKE OG
INTERNATIONALE VIRKSOMHEDER PÅ
WWW.ASB.DK/KANDIDAT
Download gratis bøger på ventus.dk / BookBooN.com
13
14. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
2.3 Uafhængige hændelser
To hændelser A og B kaldes uafhængige, hvis
P (A ∩ B) = P (A) · P (B) .
Ækvivalent hermed er betingelsen P (A | B) = P (A), alts˚ at sandsynligheden for A er den
a
samme som den betingede sandsynlighed for A givet B.
Huskeregel. To hændelser er uafhængige, hvis sandsynligheden for den ene ikke p˚ virkes af kend-
a
skab til, om den anden har fundet sted.
E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
A: rød terning viser 6,
B: sort terning viser 6.
Da
1 1 1
P (A ∩ B) = = · = P (A) · P (B) ,
36 6 6
er A og B uafhængige. Sandsynligheden for, at rød terning viser 6, p˚ virkes ikke af kendskab til,
a
hvad sort terning viser.
E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
A: rød terning og sort terning viser det samme,
B: rød terning og sort terning viser tilsammen 10.
Da
1 1
P (A) = , men P (A | B) = ,
6 3
er A og B ikke uafhængige. Sandsynligheden for at f˚ to ens slag stiger, hvis man ved, at summen
a
af slagene er 10.
2.4 Inklusions-eksklusionsformlen
Formel 8 p˚ side 12 har følgende generalisering til 3 hændelser A, B, C:
a
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) .
Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser.
´
E KSEMPEL. Hvad er sandsynligheden for at f˚ mindst en sekser i tre kast med en terning. Lad
a
A1 være hændelsen, at vi f˚ r en sekser i første kast, og defin´ r A2 og A3 tilsvarende. Den søgte
a e
sandsynlighed beregnes da ved inklusion-eksklusion:
P = P (A1 ∪ A2 ∪ A3 )
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
+P (A1 ∩ A2 ∩ A3 )
1 1 1 1 1 1 1
= + + − 2− 2− 2+ 3
6 6 6 6 6 6 6
≈ 41%
Download gratis bøger på ventus.dk / BookBooN.com
14
15. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
Der gælder følgende generalisering for n hændelser A1 , A2 , . . . , An med foreningsmængde A =
A1 ∪ · · · ∪ An :
P (A) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − · · · ± P (A1 ∩ · · · ∩ An ) .
i i<j i<j<k
Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser.
E KSEMPEL. Der trækkes 5 tilfældige kort fra et almindeligt spil best˚ ende af 52 kort. Vi vil be-
a
stemme sandsynligheden P (B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtruk-
ne kort.
Lad til dette form˚ l A1 være den hændelse, at ingen af de udtrukne kort er spar. Definer A2 , A3
a
og A4 tilsvarende for henholdsvis hjerter, ruder, klør. S˚ er
a
B = A 1 ∪ A2 ∪ A3 ∪ A 4 .
Inklusions-eksklusionsformlen giver nu
P ( B) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − P (A1 ∩ A2 ∩ A3 ∩ A4 ) ,
i i<j i<j<k
alts˚
a
39 26 13
5 5 5
P ( B) = 4 · −6· +4· − 0 ≈ 73,6%
52 52 52
5 5 5
Dermed f˚ s
a
P (B) = 1 − P ( B) = 26,4%
E KSEMPEL. I en skoleklasse sidder n børn. Læreren beder alle børnene rejse sig op og sætte sig
igen p˚ en tilfældig plads. Lad os bestemme sandsynligheden P (B) for den hændelse B, at hvert
a
barn f˚ r en ny plads.
a
Vi starter med at nummerere børnene fra 1 til n. For hvert i defineres hændelsen
Ai : barn nummer i sætter sig p˚ sin gamle plads
a
S˚ er
a
B = A1 ∪ · · · ∪ An .
Nu kan P ( B) beregnes ved hjælp af inklusions–eksklusionsformlen for n hændelser:
P ( B) = P (Ai ) − P (Ai ∩ Aj ) + · · · ± P (A1 ∩ · · · ∩ An ) ,
i i<j
alts˚
a
n n 1 1 n 1
P ( B) = − + ··· ±
1 2 n n(n − 1) n n!
1 1
= 1 − + ··· ±
2! n!
Download gratis bøger på ventus.dk / BookBooN.com
15
16. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
Ergo er
1 1 1 1
− + − ··· ±
P (B) = 1 − P ( B) =
2! 3! 4! n!
Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P (B) er
meget tæt p˚ 37% for alle n ≥ 4.
a
2.5 Binomialkoefficienter
n
Binomialkoefficienten (læses “n over k”) er defineret som
k
n n! 1 · 2 · 3···n
= =
k k!(n − k)! 1 · 2 · · · k · 1 · 2 · · · (n − k)
for hele tal n og k med 0 k n. Der mindes om konventionen 0! = 1.
˚
Arsagen til, at binomialkoefficienterne optræder igen og igen i sandsynlighedsregningen, er
følgende sætning:
n
Antallet af delmængder med k elementer af en mængde med n elementer er .
k
Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 52 elementer (et
0906
Take it easy!
Men husk at melde dig i
a-kasse senest 14 dage
Klik på reklamen
efter endt uddannelse.
7013 7013
www.ase.dk
Når du er medlem af en a-kasse, kan du få op til 12.900 kr. i dagpenge om måneden før skat (2009 sats)
Download gratis bøger på ventus.dk / BookBooN.com
16
17. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber
spil kort) lig
52
= 2598960 .
5
En god m˚ de at huske binomialkoefficienterne p˚ er ved at stille dem op i Pascals trekant,
a a
hvor hvert tal er lig summen af de to ovenst˚ ende tal:
a
0
0
1
1 1
0 1
11
2 2 2
0 1 2
121
3 3 3 3
0 1 2 3
1331
4 4 4 4 4
0 1 2 3 4
14641
5 5 5 5 5 5
0 1 2 3 4 5
1 5 10 10 5 1
6 6 6 6 6 6 6
0 1 2 3 4 5 6
1 6 15 20 15 6 1
.
. .
.
. .
Man bemærker, at der gælder regnereglen
n n 10 10
= , fx = .
n−k k 7 3
2.6 Multinomialkoefficienter
Multinomialkoefficienterne er defineret som
n n!
=
k1 · · · kr k1 ! · · · kr !
for hele tal n og k1 , . . . , kr med n = k1 + · · · + kr . Multinomialkoefficienter kaldes ogs˚ genera-
a
liserede binomialkoefficienter, idet binomialkoefficienten
n
k
er lig multinomialkoefficienten
n
k l
med l = n − k.
Download gratis bøger på ventus.dk / BookBooN.com
17
18. Lær Nemt! Statistik Stokastiske variable
3 Stokastiske variable
3.1 Stokastiske variable, definition
Betragt et sandsynlighedsfelt (Ω, P ). En stokastisk variabel er en afbildning X fra Ω ind i mæng-
den af reelle tal R.
Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke p˚ følgende hu-
a
skeregel:
Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager
forskellige værdier.
Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives p˚ følgende
a
m˚ de:
a
P (X = x): sandsynligheden for, at X tager værdien x ∈ R,
P (X < x): sandsynligheden for, at X tager en værdi mindre end x,
P (X > x): sandsynligheden for, at X tager en værdi større end x,
etc.
Der gælder regnereglerne
P (X ≤ x) = P (X < x) + P (X = x)
P (X ≥ x) = P (X > x) + P (X = x)
1 = P (X < x) + P (X = x) + P (X > x)
3.2 Fordelingsfunktionen
Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R → R givet ved
F (x) = P (X ≤ x) .
F (x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F (x) → 1 for
x → ∞, og F (x) → 0 for x → −∞.
Download gratis bøger på ventus.dk / BookBooN.com
18
19. Lær Nemt! Statistik Stokastiske variable
Ved hjælp af F (x) kan alle X’s sandsynligheder regnes ud:
P (X < x) = limε→0 F (x − ε)
P (X = x) = F (x) − limε→0 F (x − ε)
P (X ≥ x) = 1 − limε→0 F (x − ε)
P (X > x) = 1 − F (x)
3.3 Diskret stokastisk variabel, punktsandsynligheder
En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange
værdier. I praksis tager diskrete stokastisk variable værdier i mængden {0, 1, 2, . . . }. Punktsand-
synlighederne
P (X = k)
fastlægger X’s fordeling. Om alle A {0, 1, 2, . . . } gælder nemlig
P (X ∈ A) = P (X = k) .
k∈A
Specielt haves regnereglerne
k
P (X ≤ k) = i=0 P (X = i)
∞
P (X ≥ k) = i=k P (X = i)
Punktsandsynligheder illustreres grafisk i et pindediagram:
P(X=k)
0,2
0,1
0 2 3 4 5 6 7
3.4 Kontinuert stokastisk variabel, tæthedsfunktion
En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f (x). Tætheds-
funktionen, som normalt blot kaldes tætheden, opfylder
P (X ∈ A) = f (t)dt
t∈A
for alle A R. Hvis A er et interval [a, b], gælder alts˚
a
b
P (a ≤ X ≤ b) = f (t)dt .
a
Download gratis bøger på ventus.dk / BookBooN.com
19
20. Lær Nemt! Statistik Stokastiske variable
3.5 Kontinuert stokastisk variabel, fordelingsfunktion
For en kontinuert stokastisk variabel X med tæthed f (x) er fordelingsfunktionen F (x) givet ved
x
F (x) = f (t)dt .
−∞
Fordelingsfunktionen opfylder følgende regneregler:
P (X ≤ x) = F (x)
P (X ≥ x) = 1 − F (x)
P (|X| ≤ x) = F (x) − F (−x)
P (|X| ≥ x) = F (−x) + 1 − F (x)
3.6 Uafhængige stokastiske variable
To stokastiske variable X og Y kaldes uafhængige, hvis der for alle A, B R gælder, at hæn-
delserne X ∈ A og Y ∈ B er uafhængige. P˚ tilsvarende vis defineres uafhængighed af tre eller
a
flere stokastiske variable.
Huskeregel. X og Y er uafhængige, hvis man ikke kan slutte noget om Y ’s værdi ved at kende
X’s værdi.
E KSEMPEL. Kast en rød terning og en sort terning og betragt de stokastiske variable
Som studerende har du fremtiden for
dig. Ville det ikke være sejt, hvis du
kunne forudsige, hvad der vil ske?
Måske kan vi hjælpe.
SPSS Inc. er en førende global leverandør af software og
Klik på reklamen
løsninger inden for predictive analytics — en teknologi, der
forbedrer forretningsprocesserne ved at give organisationer
forståelse for fremtidige konsekvenser af beslutninger, der
træffes i dag og ved at opdage mønstre i data.
Hvis du skærper din ekspertise med vores software,
forudsiger vi, at det er meget sandsynligt, at du i fremtiden
vil få succes i en af de 250.000 organisationer inden for
den private, akademiske og offentlige sektor, der anvender
SPSS-teknologi.
Find ud af mere om, hvordan SPSS Inc. og predictive analytics
kan hjælpe dig med at sikre din fremtid på www.spss.dk
Download gratis bøger på ventus.dk / BookBooN.com
20
21. Lær Nemt! Statistik Stokastiske variable
X: antal øjne af rød terning,
Y : antal øjne af sort terning.
Z: antal øjne af rød og sort terning lagt sammen.
X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y . X og Z er derimod ikke
uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, m˚ X have
a
en af værdierne 4, 5 og 6).
3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion
Hvis X1 , . . . , Xn er stokastiske variable defineret p˚ samme sandsynlighedsfelt (Ω, P ), kaldes
a
X = (X1 , . . . , Xn ) en (n-dimensional) stokastisk vektor. Det er en afbildning
X : Ω → Rn .
Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : Rn → [0, 1] givet ved
F(x1 , . . . , xn ) = P (X1 ≤ x1 ∧ · · · ∧ Xn ≤ xn ) .
Antag nu at Xi ’erne er kontinuerte. S˚ har X en simultan (n-dimensional) tæthed f : Rn →
a
[0, ∞[, som opfylder
P (X ∈ A) = f (x) dx
x∈A
for alle A Rn . Xi ’ernes individuelle tætheder fi kaldes marginale tætheder, og de f˚ s fra den
a
simultane ved formlen
f1 (x1 ) = f (x1 , . . . , xn ) dx2 . . . dxn
Rn−1
her givet for f1 (x1 ), de øvrige f˚ s p˚ helt tilsvarende vis.
a a
Huskeregel. De marginale tætheder f˚ s fra den simultane tæthed ved at “integrere de overflødige
a
variable bort”.
Download gratis bøger på ventus.dk / BookBooN.com
21
22. Lær Nemt! Statistik Middelværdi og varians
4 Middelværdi og varians
4.1 Middelværdi af stokastisk variabel
Middelværdien af en diskret stokastisk variabel X er defineret som
∞
E(X) = P (X = k) · k .
k=1
Middelværdien for en kontinuert stokastisk variabel X med tæthed f (x) defineres som
∞
E(X) = f (x) · x dx .
−∞
Ofte bruger man bogstavet μ (’my’) om middelværdien.
4.2 Varians og spredning af stokastisk variabel
Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som
var(X) = E((X − μ)2 ) .
Hvis X er diskret, kan variansen udregnes s˚ ledes:
a
∞
var(X) = P (X = k) · (k − μ)2 .
k=0
Hvis X er kontinuert med tæthed f (x), kan variansen udregnes s˚ ledes:
a
∞
var(X) = f (x)(x − μ)2 dx .
−∞
Spredningen σ (’sigma’) af en stokastisk variabel er kvadratroden af variansen.
4.3 Eksempel (udregning af middelværdi, varians og spredning)
E KSEMPEL 1. Defin´ r den diskrete stokastiske variabel X som antallet af øjne ved kast med en
e
terning. Punktsandsynlighederne er P (X = k) = 1/6 for k = 1, 2, 3, 4, 5, 6. Middelværdien er
derfor
6
1 1+2+3+4+5+6
E(X) = ·k = = 3,5 .
6 6
k=1
Download gratis bøger på ventus.dk / BookBooN.com
22
23. Lær Nemt! Statistik Middelværdi og varians
Variansen er
6
1 (1 − 3,5)2 + (2 − 3,5)2 + · · · + (6 − 3,5)2
var(X) = · (k − 3,5)2 = = 2,917 .
6 6
k=1
Spredningen bliver s˚
a
σ= 2,917 = 1,708 .
E KSEMPEL 2. Defin´ r den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet
e
[0, 1]. X har s˚ tætheden f (x) = 1 p˚ [0, 1]. Middelværdien er
a a
1
E(X) = x dx = 0,5 .
0
Variansen er
1
var(X) = (x − 0,5)2 dx = 0,083 .
0
Spredningen er
σ= 0,083 = 0,289 .
4.4 Vurdering af middelværdi μ og spredning σ p˚ øjem˚ l
a a
Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for
en stokastisk variabel, kan man p˚ øjem˚ l vurdere μ og σ. Middelværdien μ er cirka “massemidt-
a a
punktet” for fordelingen, og spredning σ er s˚ dan, at cirka 2/3 af sandsynlighedsmassen ligger i
a
intervallet μ ± σ.
(x)
0,2
0,1
μ-r μ μ+r
4.5 Additions- og multiplikationsformler for middelværdi og varians
Lad X og Y være stokastiske variable. Da gælder
E(X + Y ) = E(X) + E(Y )
E(aX) = a · E(X)
var(X) = E(X 2 ) − E(X)2
var(aX) = a2 · var(X)
var(X + a) = var(X)
Download gratis bøger på ventus.dk / BookBooN.com
23
24. Lær Nemt! Statistik Middelværdi og varians
for ethvert a ∈ R. Hvis X og Y er uafhængige, gælder desuden
E(X · Y ) = E(X) · E(Y )
var(X + Y ) = var(X) + var(Y )
Huskeregel. Middelværdien er additiv. For uafhængige stokastiske variable er middelværdien
multiplikativ og variansen additiv.
4.6 Covarians og korrelationskoefficient
Covariansen for to stokastiske variable X og Y er tallet
Cov(X, Y ) = E((X − EX)(Y − EY )) .
Der gælder
Cov(X, X) = var(X)
Cov(X, Y ) = E(X · Y ) − EX · EY
var(X + Y ) = var(X) + var(Y ) + 2 · Cov(X, Y )
Korrelationskoefficienten ρ (’rho’) for X og Y er tallet
Cov(X, Y )
ρ= ,
σ(X) · σ(Y )
hvor σ(X) = var(X) og σ(Y ) = var(Y ) er X’s og Y ’s spredninger. Korrelationskoefficien-
ten er et tal i intervallet [−1, 1]. Hvis X og Y er uafhængige, er b˚ de covariansen og ρ lig 0.
a
Huskeregel. En positiv korrelationskoefficient betyder, at X normalt er stor, n˚ r Y er stor, og om-
a
vendt. En negativ korrelationskoefficient betyder, at X normalt er lille, n˚ r Y er stor, og omvendt.
a
E KSEMPEL. Der kastes en rød og en sort terning. Betragt de stokastiske variable
X: antal øjne af rød terning,
Y : antal øjne af rød og sort terning lagt sammen.
Hvis X er stor, vil Y normalt ogs˚ være stor, og omvendt. Vi forventer derfor en positiv korrela-
a
tionskoefficient. Mere præcist udregnes
E(X) = 3,5
E(Y ) = 7
E(X · Y ) = 27,42
σ(X) = 1,71
σ(Y ) = 2,42
Covariansen er derfor
Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 27,42 − 3,5 · 7 = 2,92
Korrelationskoefficienten bliver som forventet et positivt tal:
Cov(X, Y ) 2,92
ρ= = = 0,71 .
σ(X) · σ(Y ) 1,71 · 2,42
Download gratis bøger på ventus.dk / BookBooN.com
24
25. Lær Nemt! Statistik Middelværdi og varians
5 De store tals lov
5.1 Chebyshev’s ulighed
For en stokastisk variabel X med middelværdi μ og varians σ 2 gælder Chebyshev’s ulighed
σ2
P (|X − μ| ≥ a) ≤
a2
for ethvert a > 0.
5.2 De store tals lov
Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling, og lad
μ være den fælles middelværdi. Indfør betegnelsen Sn for summerne
Sn = X 1 + · · · + X n .
De store tals lov siger da
Sn
P −μ >ε → 0 for n → ∞
n
for ethvert ε > 0. Sagt i ord:
Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi,
n˚ r stikprøvens størrelse n g˚ r mod ∞.
a a
5.3 Den centrale grænseværdisætning
Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling. Lad
μ være den fælles middelværdi og σ 2 den fælles varians. Det antages, at σ 2 er positiv. Indfør
betegnelsen Sn for de normerede summer
X1 + · · · + Xn − nμ
Sn = √ .
σ n
Ved “normeret” forst˚ s, at Sn ’erne har middelværdi 0 og varians 1. Den centrale grænseværdi-
a
sætning siger da
P (Sn ≤ x) → Φ(x) for n → ∞
for alle x ∈ R, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (se afsnit 15.4)
1
x
1 − t2
Φ(x) = √ e 2 dt .
−∞ 2π
Fordelingsfunktionen for de normerede summer Sn konvergerer alts˚ mod Φ, n˚ r n g˚ r mod ∞.
a a a
Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det
overraskende er, at de normerede summers grænsefordeling er uafhængig af Xi ’ernes fordeling.
Download gratis bøger på ventus.dk / BookBooN.com
25
26. Lær Nemt! Statistik De store tals lov
5.4 Eksempel (fordelingsfunktionen konvergerer mod Φ)
Betragt en følge af uafhængige stokastiske variable X1 , X2 , . . . , der alle har punktsandsynlighe-
derne
1
P (Xi = 0) = P (Xi = 1) = .
2
Summerne Sn = X1 + · · · + Xn er binomialfordelte middelværdi μ = n/2 og varians σ 2 = n/4.
De normerede summer bliver dermed
X1 + · · · + Xn − μ/2
Sn = √ .
n/2
Fordelingen af Sn er givet ved fordelingsfunktionen Fn . Den centrale grænseværdisætning siger,
at Fn konvergerer mod Φ for n → ∞. Nedenst˚ ende figur viser Fn sammen med Φ for n =
a
1, 2, 10, 100. Det er et øjeblik af overordentlig skønhed, n˚ r man betragter Fn ’erne falde til føje
a
og nærme sig Φ:
Download gratis bøger på ventus.dk / BookBooN.com
26
27. Lær Nemt! Statistik Beskrivende statistik
6 Beskrivende statistik
6.1 Median og kvartiler
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes median
x(0,5) som den “midterste observation”. Mere præcist er
x(n+1)/2 hvis n ulige
x(0,5) =
(xn/2 + xn/2+1 )/2 hvis n lige
idet man ordner observationer efter størrelse s˚ ledes:
a
x1 ≤ x2 ≤ · · · ≤ xn .
P˚ tilsvarende vis defineres observationernes nedre kvartil x(0,25) s˚ ledes, at 25% af obser-
a a
vationerne ligger under x(0,25), og observationernes øvre kvartil x(0,75) s˚ ledes, at 75% af
a
observationerne ligger under x(0,75).
Kvartilafstanden er afstanden mellem x(0,25) og x(0,75), alts˚ x(0,75) − x(0,25).
a
6.2 Gennemsnit
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes gennemsnit
som n
xi
x = i=1
¯
n
6.3 Empirisk varians og empirisk spredning
Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes empiriske
varians som n
(xi − x)2
¯
s2 = i=1 .
n−1
Den empiriske spredning er kvadratroden af den empiriske varians:
n
i=1 (xi
− x)2
¯
s= .
n−1
Jo større den empiriske spredning s er, des mere “spredt” ligger observationerne omkring gen-
¯
nemsnittet x.
Download gratis bøger på ventus.dk / BookBooN.com
27
28. Lær Nemt! Statistik Beskrivende statistik
6.4 Empirisk covarians og empirisk korrelationskoefficient
Antag der foreligger n observationspar (x1 , y1 ), . . . , (xn , yn ). Man definerer da observationernes
empiriske covarians som
n
i=1 (xi − x)(yi − y )
¯ ¯
Covemp = .
n−1
En alternativ m˚ de at udregne Covemp er ved
a
n
− n¯y
i=1 xi yi x¯
Covemp = .
n−1
Den empiriske korrelationskoefficient er
empirisk covarians Covemp
r= = .
(x’ernes empiriske spredning)(y’ernes empiriske spredning) sx sy
Den empiriske korrelationskoefficient r ligger altid i intervallet [−1, 1].
Fortolkning af den empiriske korrelationskoefficient. Hvis x-observationerne er uafhængige
af y-observationerne, ligger r tæt p˚ 0. Hvis x-observationerne og y-observationerne afhænger
a
p˚ den m˚ de, at store x’er oftest svarer til store y’er og omvendt, ligger r tæt p˚ 1. Hvis x’erne
a a a
og y’erne afhænger af hinanden p˚ den m˚ de, at store x’er oftest svarer til sm˚ y’er og omvendt,
a a a
ligger r tæt p˚ –1.
a
r
C ard ghed este
ild uli kær
m
B Wdig øge ed
DS er s tm
iv at be nde t
g r ba
Klik på reklamen
fo ele la ra
%
ih 0
til 5
op
Få op til 50% rabat på din togrejse i Danmark, 25% på salgsvognen
og 25% på togrejser til udlandet, plus en lang række klubfordele.
16-26 år eller på SU?
Køb kortet nu!
Det er billigst på dsb.dk/wildcard
Download gratis bøger på ventus.dk / BookBooN.com
28
29. Lær Nemt! Statistik Statistisk testteori
7 Statistisk testteori
7.1 Nulhypotese og alternativ hypotese
Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en p˚ forh˚ nd givet
a a
nulhypotese H0 . Nogle gange testes H0 mod en eksplicit alternativ hypotese H1 .
Til grund for testet ligger en eller flere observationer. Nulhypotesen (og den eventuelle alter-
native hypotese) drejer sig om, hvilken fordeling observationerne stammer fra.
7.2 Signifikanssandsynlighed og signifikansniveau
Man udregner nu signifikanssandsynligheden P , som er sandsynligheden – givet at H0 er sand
– for at f˚ lige s˚ ekstreme eller mere ekstreme observationer, end de foreliggende. Jo mindre P
a a
er, des mindre plausibel er H0 .
Ofte vælger man p˚ forh˚ nd et signifikansniveau α, typisk α = 5%. Man forkaster s˚ H0 ,
a a a
hvis P er mindre end α (man siger “H0 forkastes p˚ signifikansniveau α”). Hvis P er større and
a
α, accepteres H0 (man siger “H0 accepteres eller opretholdes p˚ signifikansniveau α” eller “H0
a
kan ikke forkastes p˚ signifikansniveau α”).
a
7.3 Fejl af type I og II
Man taler om fejl af type I, hvis man forkaster en sand nulhypotese. Hvis signifikansniveauet er
α, er risikoen for en fejl af type I højst α.
Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese. Testets styrke er
sandsynligheden for at forkaste H0 , hvis H1 er sand. Jo større styrken er, des mindre er risikoen
for en fejl af type II.
7.4 Eksempel
Antag at vi vil undersøge, om en bestemt terning er ægte. Ved “ægte” forst˚ s, at sandsynligheden
a
p for at f˚ en sekser er 1/6. Vi tester nulhypotesen
a
1
H0 : p = (terningen er ægte)
6
mod den alternative hypotese
1
H1 : p > (terningen er falsk)
6
Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen:
2, 6, 3, 6, 5, 2, 6, 6, 4, 6
Lad os p˚ forh˚ nd lægge os fast p˚ signifikansniveauet α = 5%. Nu beregnes signifikanssand-
a a a
synligheden P . Ved “ekstreme” observationer skal forst˚ s, at der er mange seksere. P er alts˚
a a
sandsynligheden for at f˚ mindst 5 seksere i 10 slag med en ærlig terning. Vi udregner
a
10
10
P = (1/6)k (5/6)10−k = 0,015
k
k=5
(se afsnit 8 om binomialfordelingen). Da P = 1,5% er mindre end α = 5%, forkaster vi H0 . Hvis
terningen i virkeligheden var ægte, ville sandsynligheden for at beg˚ en fejl af type I være 1,5%.
a
Download gratis bøger på ventus.dk / BookBooN.com
29
30. Lær Nemt! Statistik Binominalfordeligen Bin(n, p)
8 Binomialfordelingen Bin(n, p)
8.1 Parametre
n: antalsparameter (antal forsøg)
p: sandsynlighedsparameter (successandsynlighed)
I formlerne bruger vi ogs˚ “fiaskosandsynligheden” q = 1 − p.
a
8.2 Beskrivelse
Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko. I hvert forsøg er
successandsynligheden den samme, nemlig p. Det totale antal succeser X er da binomialfordelt,
og man skriver X ∼ Bin(n, p). X er en diskret stokastisk variabel og kan tage værdier i mængden
{0, 1, . . . , n}.
8.3 Punktsandsynligheder
For k ∈ {0, 1, . . . , n} er punktsandsynlighederne i en Bin(n, p)-fordeling
n
P (X = k) = · pk · q n−k .
k
n
Se afsnit 2.5 vedrørende binomialkoefficienterne .
k
E KSEMPEL . Hvis man kaster en terning 20 gange, vil det samlede antal 6’ere X være binomial-
fordelt med antalsparameter 20 og sandsynlighedsparameter 1/6. Vi kan opskrive punktsandsyn-
lighederne P (X = k) og de kumulerede sandsynligheder P (X ≥ k) i et skema (i procent)
k 0 1 2 3 4 5 6 7 8 9
P (X = k) 2,6 10,4 19,8 23,8 20,2 12,9 6,5 2,6 0,8 0,2
P (X ≥ k) 100 97,4 87,0 67,1 43,3 23,1 10,2 3,7 1,1 0,3
8.4 Middelværdi og varians
Middelværdi: E(X) = np.
Varians: var(X) = npq.
Download gratis bøger på ventus.dk / BookBooN.com
30
31. Lær Nemt! Statistik Binominalfordeligen Bin(n, p)
8.5 Signifikanssandsynligheden for test i binomialfordelingen
Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser
tælles. Vi vil teste nulhypotesen H0 : p = p0 mod en alternativ hypotese H1 .
H0 H1 Signifikanssandsynlighed
p = p0 p > p0 P (X ≥ k)
p = p0 p < p0 P (X ≤ k)
p = p0 p = p0 l P (X = l)
hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).
E KSEMPEL . Et firma køber en maskine, der kan fremstille mikrochips. Producenten af maskinen
hævder, at højst 1/6 af de fremstillede chips vil være defekte. Den første dag fremstiller maskinen
20 chips, af hvilke 6 er defekte. Kan firmaet p˚ denne baggrund forkaste producentens p˚ stand?
a a
S VAR . Vi tester nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6.
Signifikanssandsynligheden beregnes til P (X ≥ 6) = 10,2% (se se fx tabellen i afsnit 8.3).
Firmaet kan alts˚ ikke forkaste producentens p˚ stand p˚ 5-procentsniveau.
a a a
8.6 Normalapproksimationen til binomialfordelingen
Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X
√
cirka være normalfordelt med middelværdi μ = np og spredning σ = npq. Punktsandsynlighe-
FÅ HELE VERDEN SOM DIN ARBEJDSPLADS!
Vil du være blandt verdens førende shippingfolk? Det Blå Danmark, eller det danske mari-
time erhverv, kan tilbyde dig en shippinguddannelse af høj international standard. Danske
rederier og shippingvirksomheder er førende inden for de mest avanacerede segmenter af
Klik på reklamen
den globale søfart og flytter dagligt 10 procent af al verdens handel til søs. Hvis du har mod
på en international karriere, så gå ind på www.worldcareers.dk og find ud af, hvordan DU
kan få hele verden som din arbejdsplads.
Få verden som arbejdsplads: www.worldcareers.dk
Download gratis bøger på ventus.dk / BookBooN.com
31
32. Lær Nemt! Statistik Binominalfordeligen Bin(n, p)
derne er derfor
k − np 1
P (X = k) ≈ ϕ √ ·√ ,
npq npq
hvor ϕ er tætheden for standardnormalfordelingen, og halesandsynlighederne er
⎛ ⎞
1
k + − np
⎜ ⎟
P (X ≤ k) ≈ Φ ⎝ √2 ⎠
npq
⎛ ⎞
1
k − − np
⎜ ⎟
P (X ≥ k) ≈ 1 − Φ ⎝ √2 ⎠
npq
hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C.2).
Tommelfingerregel. Man kan bruge approksimationen, hvis np og nq begge er større end 5.
E KSEMPEL (fortsættelse af eksemplet i afsnit 8.5). Efter 2 uger har maskinen fremstillet 200 chips,
af hvilke 46 er defekte. Kan firmaet nu forkaste producentens p˚ stand, om at sandsynligheden for
a
defekt er højst 1/6?
S VAR. Vi tester atter nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6. Da
nu np ≈ 33 og nq ≈ 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde
signifikanssandsynligheden:
⎛ ⎞
1
46 − − 33,3
⎜ ⎟
P (X ≥ 46) ≈ 1 − Φ ⎝ √2 ⎠ ≈ 1 − Φ(2,3) ≈ 1,1%
27,8
Firmaet kan alts˚ nu forkaste producentens p˚ stand p˚ 5-procentsniveau.
a a a
8.7 Estimatorer
Antag k er en observation fra en stokastisk variabel X ∼ Bin(n, p) med kendt n og ukendt p.
Maksimum likelihood-estimatet (ML-estimatet) p˚ p er
a
k
p=
ˆ .
n
Denne estimator er middelret (dvs. estimatorens middelværdi er p) og har variansen
pq
var(ˆ) =
p .
n
Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte)
ˆ a
sandsynlighedsparameter p. Hvis man imidlertid indsætter den estimerede værdi p p˚ p’s plads,
f˚ r man den estimerede varians
a
p(1 − p)
ˆ ˆ
.
n
Download gratis bøger på ventus.dk / BookBooN.com
32
33. Lær Nemt! Statistik Binominalfordeligen Bin(n, p)
E KSEMPEL. Vi betragter atter eksemplet med maskinen, der har fremstillet 20 mikrochips, af
hvilke de 6 er defekte. Hvad er maksimum likelihood-estimatet p˚ sandsynlighedsparameteren?
a
Hvad er dennes estimerede varians?
S VAR. Maksimum likelihood-estimatet er
6
p=
ˆ = 30%
20
aˆ
variansen p˚ p estimeres til
0,3 · (1 − 0,3)
= 0,0105 .
20
√
Spredningen estimeres dermed til 0,0105 ≈ 0,10. Hvis vi g˚ r ud fra, at p ligger inden for 2
a ˆ
spredninger fra p, vil p alts˚ ligge mellem 10% og 50%.
a
8.8 Konfidensintervaller
Antag k er en observation fra en binomialfordelt stokastisk variabel X ∼ Bin(n, p) med kendt n
og ukendt p. Konfidensintervallet med konfidensgrad 1 − α omkring punktestimatet p = k/n er
ˆ
p(1 − p)
ˆ ˆ p(1 − p)
ˆ ˆ
p − u1−α/2
ˆ , p + u1−α/2
ˆ .
n n
Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 − α.
Tallet u1−α/2 er fastlagt ved Φ(u1−α/2 ) = 1 − α/2, hvor Φ er fordelingsfunktionen for stan-
dardnormalfordelingen. Det fremg˚ r fx af Tabel C.2, at for konfidensgrad 95% er
a
u1−α/2 = u0,975 = 1,96 .
˚
O PGAVE. I en Gallup-undersøgelse i ar 2012 svarer 62 ud af 100 adspurgte, at de vil stemme p˚
a
Enhedslisten ved næste valg. Bestem konfidensintervallet med konfidensgrad 95% om den sande
procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal.
S VAR. Punktestimatet er p = 62/100 = 0,62. Da konfidensgraden skal være 95%, skal α = 0,05.
ˆ
Tabelopslag giver u0,975 = 1,96. Man f˚ r
a
0,62 · 0,38
1,96 = 0,095 .
100
Konfidensintervallet bliver dermed
[0,525 , 0,715] .
Vi kan alts˚ sige med 95 procents sikkerhed, at mellem 52,5% og 71,5% vil stemme p˚ Enhedsli-
a a
sten, hvilket vil give mellem 94 og 128 af folketingets 179 mandater.
Download gratis bøger på ventus.dk / BookBooN.com
33
34. Lær Nemt! Statistik Poissonfordelingen Pois(λ)
9 Poissonfordelingen Pois(λ)
9.1 Parametre
λ: Intensiteten
9.2 Beskrivelse
Visse begivenheder siges at forekomme spontant, dvs. de finder sted p˚ tilfældige tidspunkter, men
a
med en vis konstant intensitet λ. Intensiteten λ er det gennemsnitlige antal spontane begivenheder
pr. tidsinterval. Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt,
og man skriver X ∼ Pois(λ). X er en diskret stokastisk variabel og kan tage værdier i mængden
{0, 1, 2, 3, . . . }.
9.3 Punktsandsynligheder
For k ∈ {0, 1, 2, 3 . . . } er punktsandsynlighederne i en Pois(λ)-fordeling
λk
P (X = k) = exp(−λ) .
k!
Der mindes om konventionen 0! = 1.
E KSEMPEL . I en vis butik kommer der i gennemsnit 3 kunder pr. minut. Antallet af kunder X, der
Klik på reklamen
Download gratis bøger på ventus.dk / BookBooN.com
34
35. Lær Nemt! Statistik Poissonfordelingen Pois(λ)
kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3. Punktsandsynlig-
hederne kan opskrives i procent i et skema:
k 0 1 2 3 4 5 6 7 8 9 ≥ 10
P (X = k) 5,0 14,9 22,4 22,4 16,8 10,1 5,0 2,2 0,8 0,3 0,1
9.4 Middelværdi og varians
Middelværdi: E(X) = λ.
Varians: var(X) = λ.
9.5 Additionsformel
Antag at X1 , . . . , Xn er uafhængige Poissonfordelte stokastiske variable. Lad λi være intensiteten
af Xi , alts˚ Xi ∼ Pois(λi ). S˚ er summen
a a
X = X1 + · · · + Xn
Poissonfordelt med intensitet
λ = λ 1 + · · · + λn ,
alts˚ X ∼ Pois(λ).
a
9.6 Signifikanssandsynligheder for test i Poissonfordelingen
Antag at k er en observatione fra en Pois(λ)-fordeling med ukendt intensitet λ. Vi vil teste nul-
hypotesen H0 : λ = λ0 mod en alternativ hypotese H1 .
H0 H1 Signifikanssandsynlighed
λ = λ0 λ > λ0 P (X ≥ k)
λ = λ0 λ < λ0 P (X ≤ k)
λ = λ0 λ = λ0 l P (X = l)
hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).
Hvis man har givet n uafhængige observationer k1 , . . . , kn fra en Pois(λ)-fordeling, kan man
udnytte, at summen k = k1 + · · · + kn er en observation fra en Pois(n · λ)-fordeling.
9.7 Eksempel (signifikant stigning af salg af Skodaer)
O PGAVE. En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om m˚ neden. M˚ neden
a a
efter et reklamefremstød for Skoda sælges 7 biler. Er dette en signifikant stigning?
S VAR. Salget af biler den givne m˚ ned kan med rimelighed antages at være Poissonfordelt med
a
en vis intensitet λ. Vi tester nulhypotesen
H0 : λ = 3,5
Download gratis bøger på ventus.dk / BookBooN.com
35