SlideShare ist ein Scribd-Unternehmen logo
1 von 101
Downloaden Sie, um offline zu lesen
G R AT I S ST U D I E B Ø G E R




STATISTIK
DAVID BRINK




              GRATIS STUDIEBØGER
   WWW.BOOKBOON.COM
David Brink



Lær nemt! Statistik
- Kompendium




                 Download gratis bøger på ventus.dk / BookBooN.com
Lær nemt! Statistik - Kompendium
© 2006 David Brink & Ventus Publishing ApS
ISBN 87-7681-012-7




                                    Download gratis bøger på ventus.dk / BookBooN.com
Lær Nemt! Statistik                                                                                                    Indholdsfortegnelse



                   Indholdsfortegnelse
                   1.        Forord                                                                                            11

                   2.        Sandsynlighedsregningens grundbegreber                                                            12
                   2.1       Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse                                  12
                   2.2       Betinget sandsynlighed                                                                            12
                   2.3       Uafhængige hændelser                                                                              14
                   2.4       Inklusions-eksklusionsformlen                                                                     14
                   2.5       Binomialkoefficienter                                                                              16
                   2.6       Multinomialkoefficienter                                                                           17

                   3.        Stokastiske variable                                                                              18
                   3.1       Stokastiske variable, definition                                                                   18
                   3.2       Fordelingsfunktion                                                                                18
                   3.3       Diskret stokastisk variabel, punktsandsynligheder                                                 19
                   3.4       Kontinuert stokastisk variabel, tæthedsfunktion                                                   19
                   3.5       Kontinuert stokastisk variabel, fordelingsfunktion                                                20
                   3.6       Uafhængige stokastiske variable                                                                   20
                   3.7       Stokastisk vektor, simultan tæthed og fordelingsfunktion                                          21

                   4.        Middelværdi og varians                                                                            22
                   4.1       Middelværdi af stokastisk variabel                                                                22
                   4.2       Varians og spredning af stokastisk variabel                                                       22
                   4.3       Eksempel (udregning af middelværdi, varians og spredning)                                         22
                   4.4       Vurdering af middelværdi μ og spredning σ på øjemål                                               23
                   4.5       Additions- og multiplikationsformler for middelværdi og varians                                   23
                   4.6       Covarians og korrelationskoefficient                                                               24
Klik på reklamen




                                 We have ambitions. Also for you.
                         SimCorp is a global leader in financial software. At SimCorp, you will be part of a large network of competent
                         and skilled colleagues who all aspire to reach common goals with dedication and team spirit. We invest in our
                         employees to ensure that you can meet your ambitions on a personal as well as on a professional level. SimCorp
                         employs the best qualified people within economics, finance and IT, and the majority of our colleagues have a
                         university or business degree within these fields.

                         Ambitious? Look for opportunities at www.simcorp.com/careers


                                                                                                                                    www.simcorp.com

                                                                                    Download gratis bøger på ventus.dk / BookBooN.com

                                                                                           4
Lær Nemt! Statistik                                                                               Indholdsfortegnelse


                   5.     De store tals lov                                                                   25
                   5.1    Chebyshev’s ulighed                                                                 25
                   5.2    De store tals lov                                                                   25
                   5.3    Den centrale grænseværdisætning                                                     25
                   5.4    Eksempel (punktsandsynligheder konvergerer mod φ)                                   26

                   6.     Beskrivende statistik                                                               27
                   6.1    Median og kvartiler                                                                 27
                   6.2    Gennemsnit                                                                          27
                   6.3    Empirisk varians og empirisk spredning                                              27
                   6.4    Empirisk covarians og empirisk korrelationskoefficient                               28

                   7.     Statistisk testteori                                                                29
                   7.1    Nulhypotese og alternativ hypotese                                                  29
                   7.2    Signifikanssandsynlighed og signifikansniveau                                         29
                   7.3    Fejl af type I og II                                                                29
                   7.4    Eksempel                                                                            29

                   8.     Binomialfordelingen Bin(n, p)                                                       30
                   8.1    Parametre                                                                           30
                   8.2    Beskrivelse                                                                         30
                   8.3    Punktsandsynligheder                                                                30
                   8.4    Middelværdi og varians                                                              30
                   8.5    Signifikanssandsynligheden for test i binomialfordelingen                            31
                   8.6    Normalapproksimationen til binomialfordelingen                                      31
                   8.7    Estimatorer                                                                         32
                   8.8    Konfidensintervaller                                                                 33




                          Combining our
                          unique individual talents
                          to do amazing things
Klik på reklamen




                          If you want to find out more about international career
                          opportunities in British American Tobacco please visit
                          www.bat.com or for career opportunities in the Nordic
                          countries please contact our Nordic Head Office in
                          Copenhagen, Vibeke Scharffenberg, +45 39 55 63 00

                          BRING YOUR DIFFERENCE



                                                                                    Download gratis bøger på ventus.dk / BookBooN.com

                                                                                        5
Lær Nemt! Statistik                                                              Indholdsfortegnelse


                   9.     Poissonfordelingen Pois(λ)                                         34
                   9.1    Parametre                                                          34
                   9.2    Beskrivelse                                                        34
                   9.3    Punktsandsynligheder                                               34
                   9.4    Middelværdi og varians                                             35
                   9.5    Additionsformel                                                    35
                   9.6    Signifikanssandsynligheder for test i Poissonfordelingen            35
                   9.7    Eksempel (signifikant stigning af salg af Skodaer)                  35
                   9.8    Binomialapproksimationen til Poissonfordelingen                    36
                   9.9    Normalapproksimationen til Poissonfordelingen                      36
                   9.10   Eksempel (signifikant fald i antal klager)                          36
                   9.11   Estimatorer                                                        37
                   9.12   Konfidensintervaller                                                38

                   10.    Den geometriske fordeling Geo(p)                                   39
                   10.1   Parametre                                                          39
                   10.2   Beskrivelse                                                        39
                   10.3   Punktsandsynligheder og halesandsynligheder                        39
                   10.4   Middelværdi og varians                                             39

                   11.    Den hypergeometriske fordeling HG(n, r, N)                         40
                   11.1   Parametre                                                          40
                   11.2   Beskrivelse                                                        40
                   11.3   Punktsandsynligheder og halesandsynligheder                        41
                   11.4   Middelværdi og varians                                             41
                   11.5   Binomialapproksimationen til den hypergeometriske fordeling        41
                   11.6   Normalapproksimationen til den hypergeometriske fordeling          41
Klik på reklamen




                                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                                        6
Lær Nemt! Statistik                                                              Indholdsfortegnelse


                   12.     Multinomialfordelingen Mult(n, p1,..., pr)                        43
                   12.1    Parametre                                                         43
                   12.2    Beskrivelse                                                       43
                   12.3    Punktsandsynligheder                                              43
                   12.4    Estimatorer                                                       43

                   13.     Den negative binomialfordeling NB(n, p)                           44
                   13.1    Parametre                                                         44
                   13.2    Beskrivelse                                                       44
                   13.3    Punktsandsynligheder                                              44
                   13.4    Middelværdi og varians                                            44
                   13.5    Estimatorer                                                       44

                   14.     Eksponentialfordelingen Eks(λ)                                    45
                   14.1    Parametre                                                         45
                   14.2    Beskrivelse                                                       45
                   14.3    Tæthed og fordelingsfunktion                                      45
                   14.4    Middelværdi og varians                                            45

                   15.     Normalfordelingen                                                 46
                   15.1    Parametre                                                         46
                   15.2    Beskrivelse                                                       46
                   15.3    Tæthed og fordelingsfunktion                                      46
                   15.4    Standardnormalfordelingen                                         47
                   15.5    Regneregler for Φ                                                 48
                   15.6    Estimation af middelværdien μ                                     48
                   15.7    Estimation af variansen σ2                                        48
                   15.8    Konfidensinterval for middelværdien μ                              49
                   15.9    Konfidensinterval for variansen σ2 og spredningen σ                49
                   15.10   Additionsformlen                                                  49




                                                                                            www.zepto.dk/studie




                           6%
Klik på reklamen




                            I STUDIERABAT PÅ
                            BÆRBARE PC’ER, LCD
                            TV OG TILBEHØR


                            ..eller tjek www.zepto.dk/studie




                                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                                        7
Lær Nemt! Statistik                                                                      Indholdsfortegnelse


                   16.    Fordelinger knyttet til normalfordelingen                                  50
                   16.1   χ2-fordelingen                                                             50
                   16.2   Student’s t-fordeling                                                      51
                   16.3   Fisher’s F-fordeling                                                       52

                   17.    Test i normalfordelingen                                                   53
                   17.1   En stikprøve, kendt varians, H0 : μ = μ0                                   53
                   17.2   En stikprøve, ukendt varians, H0 : μ = μ0 (Student’s t-test)               53
                   17.3   En stikprøve, ukendt middelværdi, H0 : σ2 = σ02                            54
                   17.4   Eksempel                                                                   55
                   17.5   To stikprøver, kendte varianser, H0 : μ1 = μ2                              56
                   17.6   To stikprøver, ukendte varianser, H0 : μ1 = μ2 (Fisher-Behrens)            57
                   17.7   To stikprøver, ukendte middelværdier, H0 : σ12 = σ22                       57
                   17.8   To stikprøver, ukendt fælles varians, H0 : μ1 = μ2                         58
                   17.9   Eksempel (sammenligning af to middelværdier)                               58

                   18.    Variansanalyse                                                             60
                   18.1   Formål                                                                     60
                   18.2   k stikprøver, ukendt fælles varians, H0 : μ1 = . . . = μk                  60
                   18.3   To eksempler (sammenligning af middelværdier i 3 stikprøver)               60

                   19.    Chi-kvadrat χ2                                                             63
                   19.1   χ2-test for fordelingslighed                                               63
                   19.2   Normalfordelingsantagelse                                                  63
                   19.3   Standardiserede residualer                                                 64
                   19.4   Eksempel (kvinder med 5 børn)                                              64
                   19.5   Eksempel (folketingsvalg)                                                  66
                   19.6   Eksempel (dødsfald i det preussiske kavaleri)                              67




                                                                                    Hvornår har du
                                                                                    sidst talt med dine
                                                                                    forældre?
Klik på reklamen




                                                                                   Måske kan det betale sig at tage en snak
                                                                                   med dem om fordelene ved forældrekøb.

                                                                                   På home.dk kan du beregne hvad det vil
                                                                                   koste ved et forældrekøb, og læse mere
                                                                                   om fordelene for dig og dine forældre




                                                                    Download gratis bøger på ventus.dk / BookBooN.com

                                                                          8
Lær Nemt! Statistik                                                                                      Indholdsfortegnelse


                   20.      Kontingenstabeller                                                                     69
                   20.1     Definition, metode                                                                      69
                   20.2     Standardiserede residualer                                                             70
                   20.3     Eksempel (studieretning og politisk orientering)                                       70
                   20.4     χ2-test for 2 × 2-tabeller                                                             72
                   20.5     Fisher’s eksakte test for 2 × 2-tabeller                                               72
                   20.6     Eksempel (Fisher’s eksakte test)                                                       73

                   21.      Fordelingsfri test                                                                     74
                   21.1     Wilcoxons test for ét sæt observationer                                                74
                   21.2     Eksempel                                                                               75
                   21.3     Normalapproksimation til Wilcoxons test for ét sæt observationer                       75
                   21.4     Wilcoxons test for to sæt observationer                                                76
                   21.5     Normalapproksimation til Wilcoxons test for to sæt observationer                       77

                   22.      Lineær regression                                                                      78
                   22.1     Modellen                                                                               78
                   22.2     Estimering af parametrene β0 og β1                                                     78
                   22.3     Estimatorernes fordeling                                                               78
                   22.4     Forudsagte værdier     og residualer                                                   79
                   22.5     Estimering af variansen σ2                                                             79
                   22.6     Konfidensinterval for parametrene β0 og β1                                              79
                   22.7     Determinationskoefficienten R2                                                          79
                   22.8     Forudsigelser og prediktionsinterval                                                   80
                   22.9     Oversigt over formler                                                                  81
                   22.10    Eksempel                                                                               81

                   A.       Engelsk-dansk ordliste                                                                 83

                   B.       Oversigt over diskrete fordelinger                                                     86




                        Danmarks Nationalbank


                                                                 Interesseret i makroøkonomi?
Klik på reklamen




                                                                  Interesserer du dig for penge- og valutapolitiske problemstillin-
                                                                  ger, har vi meget at byde på, fx bogen ”Pengepolitik i Danmark”.
                                                                  Du kan også læse vores Kvartalsoversigt eller Working Papers om
                                                                  makroøkonomiske emner. Hvis du kan forestille dig en dag selv at
                                                                  skrive artikler for Nationalbanken, kan du gå ind og se, hvad vi har
                                                                  at tilbyde af ledige jobs.


                                                                  Se mere på www.nationalbanken.dk


                        Nationalbanken bidrager til: ♦ stabile priser – ved at indrette pengepolitikken efter en fast kronekurs over for euroen
                        ♦ sikre betalinger – ved at udstede sedler og mønter og være bank for penge- og realkreditinstitutterne
                        ♦ stabilitet i det finansielle system – ved at vurdere den finansielle stabilitet, overvåge betalingssystemer, produ-
                        cere finansiel statistik og forvalte statens gæld. Som arbejdsplads kan vi tilbyde spændende arbejdsopgaver med
                        et højt fagligt indhold. Vi bestræber os på at udvikle vores medarbejdere både fagligt og personligt.

                                                                             Download gratis bøger på ventus.dk / BookBooN.com

                                                                                  9
Lær Nemt! Statistik                                                                        Indholdsfortegnelse


                   C.     Tabeller                                                                       87
                   C.1    Sådan forstås tabellerne                                                       87
                   C.2    Standardnormalfordeligen                                                       88
                   C.3    χ2-fordelingen (værdier x med Fχ2(X) = 0,500 etc.)                             91
                   C.4    Student’s t-fordeling (værdier x med Fstudent(x) = 0,600 etc.)                 93
                   C.5    Fishers F-fordeling (værdier x med FFisher(x) = 0,90)                          94
                   C.6    Fishers F-fordeling (værdier x med FFisher(x) = 0,95)                          95
                   C.7    Fishers F-fordeling (værdier x med FFisher(x) = 0,99)                          96
                   C.8    Wilcoxons test for ét sæt observationer                                        97
                   C.9    Wilcoxons test for 2 sæt observationer, α = 5%                                 98


                   D.     Symbolforklaring                                                               99


                   E.     Index                                                                         100




                           Kickstart karrieren!
                           Deltids salgskonsulent




                                                                                  ”
                           Du kommer til at indgå i vores salgsteam                   Min gennemsnitlige
                           på Dagbladet Børsen i Møntergade i                         timeløn lå sidste år
                           København, hvor du skal arbejde med                        på den rigtige side
Klik på reklamen




                           salg af abonnementer på Børsen til eksi-                   af 300 kr.
                           sterende, tidligere og nye abonnenter.
                           Du vil få en grundig oplæring i salgs- og
                           samtaleteknikker samt løbende coaching.
                                                                                    Søg jobbet på
                                                                                      borsen.dk
                           En god sælger…
                           ■   har stor personlig gennemslagskraft
                           ■   er målrettet og resultatorienteret
                           ■   har kendskab til IT på brugerniveau
                           ■   er indstillet på at arbejde i højt tempo




                                                                          Download gratis bøger på ventus.dk / BookBooN.com

                                                                             10
Lær Nemt! Statistik                                                                                                                                                          Forord



                    1       Forord
                    Det her foreliggende kompendium i statistik har som m˚ lgruppe studerende p˚ de økonomiske og
                                                                           a                    a
                    samfundsvidenskabelige studier. (Version 1)
                         Det her foreliggende kompendium i statistik har som m˚ lgruppe medicin- og psykologistude-
                                                                              a
                    rende. (Version 2)
                         For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskue-
                    lig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk. ”Lær nemt statistik -
                    kort og præcist”er en venlig gennemgang af statistikkens centrale omr˚ der, der lægger vægten
                                                                                           a
                    p˚ overblikket. De mange eksempler giver desuden læseren en ”kogebogsopskrift”p˚ , hvordan de
                      a                                                                               a
                    almindeligste opgavetyper besvares.




                        Hvad enten du drømmer om at starte virksomhed eller allerede er godt i gang, giver vi dig power til at
                        maksimere dit potentiale. I uge 47 er der springboards, workshops, foredrag og konkret rådgivning til
Klik på reklamen




                        alle – fra iværksætterspirer i grundskolen til direktører med vækstambitioner.
                        Bag initiativet står Økonomi- og Erhvervsministeriet i samarbejde med en lang række private og
                        offentlige organisationer. Initiativet er en del af "Global Entrepreneurship Week", hvor mere end 100
                        lande sætter fokus på iværksætteri og vækst.




                        Læs mere på www.uge47.dk

                        Global Entrepreneurship Week | Økonomi- og Erhvervsministeriet | Væksthusene | Young Enterprise Danmark | DI – Organisation for erhvervslivet | Kauffmann | Make Your Mark
                        | Dansk Iværksætter Forening | Undervisningsministeriet | DEF | DJØF | Foreningen af Registrerede Revisorer | Øresund Entrepreneurship Academy | Danske Advokater |
                        Foreningen af Statsautoriserede Revisorer | IDA | DANA | IDEA | Vækstfonden | Women in Business | Connect Denmark | Ministeriet for Videnskab, Teknologi og Udvikling | FUHU
                        | Ernst & Young | Dansk Erhverv | Venture Cup | Kulturministeriet | Early Warning | Danmarks Eksportråd




                                                                                                     Download gratis bøger på ventus.dk / BookBooN.com

                                                                                                            11
Lær Nemt! Statistik                                                 Sandsynlighedsregningens grundbegreber



 2 Sandsynlighedsregningens grundbegreber
 2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse
 Et sandsynlighedsfelt er et par (Ω, P ) best˚ ende af en mængde Ω og en funktion P , der til hver
                                             a
 delmængde A af Ω knytter et reelt tal P (A) i intervallet [0, 1]. Desuden forlanges følgende 2
 aksiomer opfyldt:
 1. P (Ω) = 1,
          ∞               ∞
 2. P (   n=1 An )    =   n=1 P (An )   hvis A1 , A2 , . . . er en følge af parvis disjunkte delmængder af
 Ω.
 Mængden Ω kaldes et udfaldsrum. Elementerne ω ∈ Ω kaldes udfald, og delmængderne A Ω
 kaldes hændelser. Funktionen P kaldes en sandsynlighedsfunktion. For en hændelse A kaldes
 P (A) sandsynligheden for A.

 Af de 2 aksiomer kan udledes følgende konsekvenser:

 3. P (Ø) = 0,
 4. P (AB) = P (A) − P (B) hvis B            A,
 5. P ( A) = 1 − P (A),
 6. P (A)    P (B) hvis B      A,
 7. P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An ) hvis A1 , . . . , An er parvis disjunkte hændelser,
 8. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) for vilk˚ rlige hændelser A og B.
                                                  a

 E KSEMPEL. Betragt mængden Ω = {1, 2, 3, 4, 5, 6}. Defin´ r for hver delmængde A af Ω
                                                        e
                                                        #A
                                              P (A) =      ,
                                                         6
 hvor #A er antallet af elementer i A. S˚ er parret (Ω, P ) et sandsynlighedsfelt. Man kan se dette
                                        a
 sandsynlighedsfelt som model for situationen “kast med en terning”.

 E KSEMPEL. Betragt nu mængden Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Defin´ r for hver del-
                                                                                   e
 mængde A af Ω
                                                    #A
                                         P (A) =         .
                                                     36
 Sandsynlighedsfeltet (Ω, P ) er nu model for situationen “kast med 2 terninger”. Delmængden

                            A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}

 er hændelsen “to ens”.

 2.2 Betinget sandsynlighed
 For to hændelser A og B defineres den betingede sandsynlighed for A givet B som
                                                        P (A ∩ B)
                                         P (A | B) :=             .
                                                          P (B)



                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                      12
Lær Nemt! Statistik                                         Sandsynlighedsregningens grundbegreber



                   Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige arsager:
                                                                                                          ˚
                   Antag A1 , . . . , An er parvis disjunkte hændelser med A1 ∪ · · · ∪ An = Ω. Da er for enhver
                   hændelse B:
                                        P (B) = P (A1 ) · P (B | A1 ) + · · · + P (An ) · P (B | An ) .


                   E KSEMPEL. I finalen i French Open 2007 skal Nadal møde vinderen af semifinalen mellem Fede-
                   rer og Davidenko. En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til
                   75%. Sandsynligheden for, at Nadal kan sl˚ Federer i finalen, vurderes til 51%, mens sandsynlig-
                                                             a
                   heden for, at Nadal kan sl˚ Davidenko i finalen, vurderes til 80%. Bookmakeren beregner derfor
                                              a
                                            ˚
                   ved opsplitning i mulige arsager sandsynligheden for, at Nadal vinder French Open 2007, til

                         P (Nadal vinder finalen) = P (Federer vinder semifinalen)×
                                                   P (Nadal vinder finalen|Federer vinder semifinalen)+
                                                   P (Davidenko vinder semifinalen)×
                                                   P (Nadal vinder finalen|Davidenko vinder semifinalen)
                                                 = 0,75 · 0,51 + 0,25 · 0,8
                                                 = 58,25%




                         kandidat
                         fremtid
                                                                                     Internationale
                                                                                     kandidatuddannelser
                                                                                     med rod i virkeligheden
                                                                                     Praktik
                                                                                     Studiejobs
Klik på reklamen




                         VIL DU SIKRE DIN FREMTID                                    ASB Alumni
                                                                                     Summer University
                                                                                     Corporate partners

                         MED EN MÅLRETTET                                            ASB Karrierecenter
                                                                                     Studiemiljø i særklasse

                         KANDIDATUDDANNELSE
                                                                                     Job- og CompanyDating
                                                                                     Danske og internationale forskere


                         INDEN FOR BUSINESS?                                         Læs mere på www.asb.dk




                         LÆS MERE OM VORES UDDANNELSER
                         OG SAMARBEJDE MED FØRENDE DANSKE OG
                         INTERNATIONALE VIRKSOMHEDER PÅ
                         WWW.ASB.DK/KANDIDAT


                                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                                  13
Lær Nemt! Statistik                                            Sandsynlighedsregningens grundbegreber



 2.3   Uafhængige hændelser
 To hændelser A og B kaldes uafhængige, hvis
                                   P (A ∩ B) = P (A) · P (B) .
 Ækvivalent hermed er betingelsen P (A | B) = P (A), alts˚ at sandsynligheden for A er den
                                                         a
 samme som den betingede sandsynlighed for A givet B.

 Huskeregel. To hændelser er uafhængige, hvis sandsynligheden for den ene ikke p˚ virkes af kend-
                                                                                a
 skab til, om den anden har fundet sted.

 E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
 A: rød terning viser 6,
 B: sort terning viser 6.
 Da
                                       1      1 1
                            P (A ∩ B) =   = · = P (A) · P (B) ,
                                      36      6 6
 er A og B uafhængige. Sandsynligheden for, at rød terning viser 6, p˚ virkes ikke af kendskab til,
                                                                     a
 hvad sort terning viser.

 E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne
 A: rød terning og sort terning viser det samme,
 B: rød terning og sort terning viser tilsammen 10.
 Da
                                       1                        1
                               P (A) =   , men P (A | B) = ,
                                       6                        3
 er A og B ikke uafhængige. Sandsynligheden for at f˚ to ens slag stiger, hvis man ved, at summen
                                                    a
 af slagene er 10.

 2.4   Inklusions-eksklusionsformlen
 Formel 8 p˚ side 12 har følgende generalisering til 3 hændelser A, B, C:
           a
 P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) .
 Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser.

                                                           ´
 E KSEMPEL. Hvad er sandsynligheden for at f˚ mindst en sekser i tre kast med en terning. Lad
                                                 a
 A1 være hændelsen, at vi f˚ r en sekser i første kast, og defin´ r A2 og A3 tilsvarende. Den søgte
                           a                                   e
 sandsynlighed beregnes da ved inklusion-eksklusion:
         P   = P (A1 ∪ A2 ∪ A3 )
             = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 )
               +P (A1 ∩ A2 ∩ A3 )
               1 1 1          1     1      1    1
             =   + + − 2− 2− 2+ 3
               6 6 6 6              6     6     6
             ≈ 41%




                                             Download gratis bøger på ventus.dk / BookBooN.com

                                                 14
Lær Nemt! Statistik                                                             Sandsynlighedsregningens grundbegreber



Der gælder følgende generalisering for n hændelser A1 , A2 , . . . , An med foreningsmængde A =
A1 ∪ · · · ∪ An :

  P (A) =             P (Ai ) −         P (Ai ∩ Aj ) +             P (Ai ∩ Aj ∩ Ak ) − · · · ± P (A1 ∩ · · · ∩ An ) .
              i                   i<j                      i<j<k

Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser.

E KSEMPEL. Der trækkes 5 tilfældige kort fra et almindeligt spil best˚ ende af 52 kort. Vi vil be-
                                                                       a
stemme sandsynligheden P (B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtruk-
ne kort.
    Lad til dette form˚ l A1 være den hændelse, at ingen af de udtrukne kort er spar. Definer A2 , A3
                      a
og A4 tilsvarende for henholdsvis hjerter, ruder, klør. S˚ er
                                                         a

                                                B = A 1 ∪ A2 ∪ A3 ∪ A 4 .

Inklusions-eksklusionsformlen giver nu

 P ( B) =             P (Ai ) −         P (Ai ∩ Aj ) +              P (Ai ∩ Aj ∩ Ak ) − P (A1 ∩ A2 ∩ A3 ∩ A4 ) ,
                  i               i<j                       i<j<k

alts˚
    a
                                           39                  26                13
                                            5                   5                5
                      P ( B) = 4 ·                  −6·                +4·              − 0 ≈ 73,6%
                                           52                  52                52
                                            5                  5                  5
Dermed f˚ s
        a
                                             P (B) = 1 − P ( B) = 26,4%


E KSEMPEL. I en skoleklasse sidder n børn. Læreren beder alle børnene rejse sig op og sætte sig
igen p˚ en tilfældig plads. Lad os bestemme sandsynligheden P (B) for den hændelse B, at hvert
      a
barn f˚ r en ny plads.
      a
    Vi starter med at nummerere børnene fra 1 til n. For hvert i defineres hændelsen

                                  Ai : barn nummer i sætter sig p˚ sin gamle plads
                                                                 a

S˚ er
 a
                                                    B = A1 ∪ · · · ∪ An .
Nu kan P ( B) beregnes ved hjælp af inklusions–eksklusionsformlen for n hændelser:

                      P ( B) =          P (Ai ) −         P (Ai ∩ Aj ) + · · · ± P (A1 ∩ · · · ∩ An ) ,
                                   i                i<j

alts˚
    a
                                            n    n  1                   1                   n     1
                       P ( B) =                       −                       + ··· ±
                                            1    2  n                n(n − 1)               n     n!
                                        1        1
                                   = 1 − + ··· ±
                                        2!       n!



                                                            Download gratis bøger på ventus.dk / BookBooN.com

                                                                15
Lær Nemt! Statistik                                                       Sandsynlighedsregningens grundbegreber



                    Ergo er
                                                                 1     1    1           1
                                                                   − + − ··· ±
                                                 P (B) = 1 − P ( B) =
                                                                 2! 3! 4!               n!
                    Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P (B) er
                    meget tæt p˚ 37% for alle n ≥ 4.
                               a

                    2.5       Binomialkoefficienter
                                                   n
                    Binomialkoefficienten                   (læses “n over k”) er defineret som
                                                   k

                                                  n            n!                 1 · 2 · 3···n
                                                       =              =
                                                  k        k!(n − k)!   1 · 2 · · · k · 1 · 2 · · · (n − k)

                    for hele tal n og k med 0 k n. Der mindes om konventionen 0! = 1.
                         ˚
                        Arsagen til, at binomialkoefficienterne optræder igen og igen i sandsynlighedsregningen, er
                    følgende sætning:

                                                                                                              n
                    Antallet af delmængder med k elementer af en mængde med n elementer er                         .
                                                                                                              k

                    Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 52 elementer (et
                   0906




                                                                           Take it easy!
                                                                              Men husk at melde dig i
                                                                              a-kasse senest 14 dage
Klik på reklamen




                                                                              efter endt uddannelse.

                                                                                          7013 7013
                                                                                         www.ase.dk




                          Når du er medlem af en a-kasse, kan du få op til 12.900 kr. i dagpenge om måneden før skat (2009 sats)

                                                                         Download gratis bøger på ventus.dk / BookBooN.com

                                                                             16
Lær Nemt! Statistik                                                             Sandsynlighedsregningens grundbegreber



 spil kort) lig
                                                52
                                                         = 2598960 .
                                                5
    En god m˚ de at huske binomialkoefficienterne p˚ er ved at stille dem op i Pascals trekant,
                a                                       a
 hvor hvert tal er lig summen af de to ovenst˚ ende tal:
                                             a


                                  0
                                  0
                                                                                              1
                              1       1
                              0       1
                                                                                            11
                          2       2         2
                          0       1         2
                                                                                          121
                      3       3       3              3
                      0       1       2              3
                                                                                         1331
                  4       4       4         4             4
                  0       1       2         3             4
                                                                                         14641
              5       5       5       5              5          5
              0       1       2       3              4          5
                                                                                      1 5 10 10 5 1
         6        6       6       6         6             6           6
         0        1       2       3         4             5           6
                                                                                1 6 15 20 15 6 1
                                  .
                                  .                                                            .
                                                                                               .
                                  .                                                            .

 Man bemærker, at der gælder regnereglen
                                   n                 n      10                    10
                                            =          , fx                =         .
                                  n−k                k       7                    3

 2.6   Multinomialkoefficienter
 Multinomialkoefficienterne er defineret som
                                              n                          n!
                                                              =
                                          k1 · · · kr               k1 ! · · · kr !

 for hele tal n og k1 , . . . , kr med n = k1 + · · · + kr . Multinomialkoefficienter kaldes ogs˚ genera-
                                                                                               a
 liserede binomialkoefficienter, idet binomialkoefficienten

                                                          n
                                                          k

 er lig multinomialkoefficienten
                                                          n
                                                         k l
 med l = n − k.




                                                     Download gratis bøger på ventus.dk / BookBooN.com

                                                           17
Lær Nemt! Statistik                                                                Stokastiske variable



 3    Stokastiske variable
 3.1 Stokastiske variable, definition
 Betragt et sandsynlighedsfelt (Ω, P ). En stokastisk variabel er en afbildning X fra Ω ind i mæng-
 den af reelle tal R.



                            




 Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke p˚ følgende hu-
                                                                             a
 skeregel:

  Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager
  forskellige værdier.

 Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives p˚ følgende
                                                                                       a
 m˚ de:
  a

 P (X = x): sandsynligheden for, at X tager værdien x ∈ R,
 P (X < x): sandsynligheden for, at X tager en værdi mindre end x,
 P (X > x): sandsynligheden for, at X tager en værdi større end x,
 etc.

 Der gælder regnereglerne

                      P (X ≤ x) = P (X < x) + P (X = x)
                      P (X ≥ x) = P (X > x) + P (X = x)
                              1 = P (X < x) + P (X = x) + P (X > x)

 3.2 Fordelingsfunktionen
 Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R → R givet ved

                                       F (x) = P (X ≤ x) .

 F (x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F (x) → 1 for
 x → ∞, og F (x) → 0 for x → −∞.




                                             Download gratis bøger på ventus.dk / BookBooN.com

                                                 18
Lær Nemt! Statistik                                                                      Stokastiske variable



     Ved hjælp af F (x) kan alle X’s sandsynligheder regnes ud:

                               P (X   < x)   =     limε→0 F (x − ε)
                               P (X   = x)   =     F (x) − limε→0 F (x − ε)
                               P (X   ≥ x)   =     1 − limε→0 F (x − ε)
                               P (X   > x)   =     1 − F (x)

 3.3 Diskret stokastisk variabel, punktsandsynligheder
 En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange
 værdier. I praksis tager diskrete stokastisk variable værdier i mængden {0, 1, 2, . . . }. Punktsand-
 synlighederne
                                               P (X = k)
 fastlægger X’s fordeling. Om alle A         {0, 1, 2, . . . } gælder nemlig

                                      P (X ∈ A) =             P (X = k) .
                                                        k∈A

 Specielt haves regnereglerne
                                                              k
                                     P (X ≤ k) =              i=0 P (X        = i)
                                                              ∞
                                     P (X ≥ k) =              i=k P (X            = i)

 Punktsandsynligheder illustreres grafisk i et pindediagram:


                      P(X=k)


                           0,2




                           0,1




                                 0       2     3    4        5           6    7




 3.4 Kontinuert stokastisk variabel, tæthedsfunktion
 En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f (x). Tætheds-
 funktionen, som normalt blot kaldes tætheden, opfylder

                                        P (X ∈ A) =                  f (t)dt
                                                             t∈A

 for alle A    R. Hvis A er et interval [a, b], gælder alts˚
                                                           a
                                                                     b
                                      P (a ≤ X ≤ b) =                    f (t)dt .
                                                                 a




                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                        19
Lær Nemt! Statistik                                                                              Stokastiske variable



                    3.5 Kontinuert stokastisk variabel, fordelingsfunktion
                    For en kontinuert stokastisk variabel X med tæthed f (x) er fordelingsfunktionen F (x) givet ved
                                                                    x
                                                         F (x) =        f (t)dt .
                                                                   −∞

                    Fordelingsfunktionen opfylder følgende regneregler:

                                                 P (X ≤ x)     = F (x)
                                                 P (X ≥ x)     = 1 − F (x)
                                                 P (|X| ≤ x) = F (x) − F (−x)
                                                 P (|X| ≥ x) = F (−x) + 1 − F (x)

                    3.6   Uafhængige stokastiske variable
                    To stokastiske variable X og Y kaldes uafhængige, hvis der for alle A, B R gælder, at hæn-
                    delserne X ∈ A og Y ∈ B er uafhængige. P˚ tilsvarende vis defineres uafhængighed af tre eller
                                                              a
                    flere stokastiske variable.

                    Huskeregel. X og Y er uafhængige, hvis man ikke kan slutte noget om Y ’s værdi ved at kende
                    X’s værdi.

                    E KSEMPEL. Kast en rød terning og en sort terning og betragt de stokastiske variable




                                                                          Som studerende har du fremtiden for
                                                                          dig. Ville det ikke være sejt, hvis du
                                                                          kunne forudsige, hvad der vil ske?

                                                                          Måske kan vi hjælpe.

                                                                          SPSS Inc. er en førende global leverandør af software og
Klik på reklamen




                                                                          løsninger inden for predictive analytics — en teknologi, der
                                                                          forbedrer forretningsprocesserne ved at give organisationer
                                                                          forståelse for fremtidige konsekvenser af beslutninger, der
                                                                          træffes i dag og ved at opdage mønstre i data.


                                                                          Hvis du skærper din ekspertise med vores software,
                                                                          forudsiger vi, at det er meget sandsynligt, at du i fremtiden
                                                                          vil få succes i en af de 250.000 organisationer inden for
                                                                          den private, akademiske og offentlige sektor, der anvender
                                                                          SPSS-teknologi.




                             Find ud af mere om, hvordan SPSS Inc. og predictive analytics
                                kan hjælpe dig med at sikre din fremtid på www.spss.dk

                                                               Download gratis bøger på ventus.dk / BookBooN.com

                                                                   20
Lær Nemt! Statistik                                                                     Stokastiske variable



   X: antal øjne af rød terning,
   Y : antal øjne af sort terning.
   Z: antal øjne af rød og sort terning lagt sammen.

 X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y . X og Z er derimod ikke
 uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, m˚ X have
                                                                                       a
 en af værdierne 4, 5 og 6).

 3.7    Stokastisk vektor, simultan tæthed og fordelingsfunktion
 Hvis X1 , . . . , Xn er stokastiske variable defineret p˚ samme sandsynlighedsfelt (Ω, P ), kaldes
                                                        a
 X = (X1 , . . . , Xn ) en (n-dimensional) stokastisk vektor. Det er en afbildning

                                              X : Ω → Rn .

 Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : Rn → [0, 1] givet ved

                           F(x1 , . . . , xn ) = P (X1 ≤ x1 ∧ · · · ∧ Xn ≤ xn ) .

 Antag nu at Xi ’erne er kontinuerte. S˚ har X en simultan (n-dimensional) tæthed f : Rn →
                                       a
 [0, ∞[, som opfylder
                                       P (X ∈ A) =                 f (x) dx
                                                             x∈A
 for alle A Rn . Xi ’ernes individuelle tætheder fi kaldes marginale tætheder, og de f˚ s fra den
                                                                                      a
 simultane ved formlen

                               f1 (x1 ) =          f (x1 , . . . , xn ) dx2 . . . dxn
                                            Rn−1

 her givet for f1 (x1 ), de øvrige f˚ s p˚ helt tilsvarende vis.
                                    a a

  Huskeregel. De marginale tætheder f˚ s fra den simultane tæthed ved at “integrere de overflødige
                                     a
  variable bort”.




                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                        21
Lær Nemt! Statistik                                                           Middelværdi og varians



 4     Middelværdi og varians
 4.1    Middelværdi af stokastisk variabel
 Middelværdien af en diskret stokastisk variabel X er defineret som
                                                ∞
                                   E(X) =             P (X = k) · k .
                                                k=1

 Middelværdien for en kontinuert stokastisk variabel X med tæthed f (x) defineres som
                                                    ∞
                                    E(X) =              f (x) · x dx .
                                                 −∞

 Ofte bruger man bogstavet μ (’my’) om middelværdien.

 4.2 Varians og spredning af stokastisk variabel
 Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som

                                      var(X) = E((X − μ)2 ) .

 Hvis X er diskret, kan variansen udregnes s˚ ledes:
                                            a
                                          ∞
                              var(X) =          P (X = k) · (k − μ)2 .
                                          k=0

 Hvis X er kontinuert med tæthed f (x), kan variansen udregnes s˚ ledes:
                                                                a
                                                ∞
                                var(X) =            f (x)(x − μ)2 dx .
                                              −∞

 Spredningen σ (’sigma’) af en stokastisk variabel er kvadratroden af variansen.

 4.3 Eksempel (udregning af middelværdi, varians og spredning)
 E KSEMPEL 1. Defin´ r den diskrete stokastiske variabel X som antallet af øjne ved kast med en
                     e
 terning. Punktsandsynlighederne er P (X = k) = 1/6 for k = 1, 2, 3, 4, 5, 6. Middelværdien er
 derfor
                                6
                                   1       1+2+3+4+5+6
                       E(X) =        ·k =                        = 3,5 .
                                   6                  6
                                k=1




                                                Download gratis bøger på ventus.dk / BookBooN.com

                                                      22
Lær Nemt! Statistik                                                                     Middelværdi og varians



 Variansen er
                      6
                          1                (1 − 3,5)2 + (2 − 3,5)2 + · · · + (6 − 3,5)2
      var(X) =              · (k − 3,5)2 =                                              = 2,917 .
                          6                                    6
                  k=1

 Spredningen bliver s˚
                     a
                                             σ=           2,917 = 1,708 .


 E KSEMPEL 2. Defin´ r den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet
                      e
 [0, 1]. X har s˚ tætheden f (x) = 1 p˚ [0, 1]. Middelværdien er
                a                     a
                                                                1
                                            E(X) =                  x dx = 0,5 .
                                                            0

 Variansen er
                                                      1
                                       var(X) =           (x − 0,5)2 dx = 0,083 .
                                                  0
 Spredningen er
                                             σ=           0,083 = 0,289 .

 4.4 Vurdering af middelværdi μ og spredning σ p˚ øjem˚ l
                                                a     a
 Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for
 en stokastisk variabel, kan man p˚ øjem˚ l vurdere μ og σ. Middelværdien μ er cirka “massemidt-
                                  a     a
 punktet” for fordelingen, og spredning σ er s˚ dan, at cirka 2/3 af sandsynlighedsmassen ligger i
                                               a
 intervallet μ ± σ.




                           (x)

                                 0,2

                                 0,1


                                                  μ-r               μ     μ+r




 4.5 Additions- og multiplikationsformler for middelværdi og varians
 Lad X og Y være stokastiske variable. Da gælder

                                        E(X + Y )         =         E(X) + E(Y )
                                        E(aX)             =         a · E(X)
                                        var(X)            =         E(X 2 ) − E(X)2
                                        var(aX)           =         a2 · var(X)
                                        var(X + a)        =         var(X)




                                                          Download gratis bøger på ventus.dk / BookBooN.com

                                                                23
Lær Nemt! Statistik                                                                 Middelværdi og varians


for ethvert a ∈ R. Hvis X og Y er uafhængige, gælder desuden

                                 E(X · Y ) =   E(X) · E(Y )
                               var(X + Y ) = var(X) + var(Y )

 Huskeregel. Middelværdien er additiv. For uafhængige stokastiske variable er middelværdien
 multiplikativ og variansen additiv.

4.6 Covarians og korrelationskoefficient
Covariansen for to stokastiske variable X og Y er tallet

                            Cov(X, Y ) = E((X − EX)(Y − EY )) .

Der gælder
                       Cov(X, X) = var(X)
                       Cov(X, Y ) = E(X · Y ) − EX · EY
                      var(X + Y ) = var(X) + var(Y ) + 2 · Cov(X, Y )
Korrelationskoefficienten ρ (’rho’) for X og Y er tallet
                                              Cov(X, Y )
                                        ρ=                ,
                                             σ(X) · σ(Y )

hvor σ(X) = var(X) og σ(Y ) = var(Y ) er X’s og Y ’s spredninger. Korrelationskoefficien-
ten er et tal i intervallet [−1, 1]. Hvis X og Y er uafhængige, er b˚ de covariansen og ρ lig 0.
                                                                    a

 Huskeregel. En positiv korrelationskoefficient betyder, at X normalt er stor, n˚ r Y er stor, og om-
                                                                                 a
 vendt. En negativ korrelationskoefficient betyder, at X normalt er lille, n˚ r Y er stor, og omvendt.
                                                                           a



 E KSEMPEL. Der kastes en rød og en sort terning. Betragt de stokastiske variable
  X: antal øjne af rød terning,
  Y : antal øjne af rød og sort terning lagt sammen.

Hvis X er stor, vil Y normalt ogs˚ være stor, og omvendt. Vi forventer derfor en positiv korrela-
                                 a
tionskoefficient. Mere præcist udregnes

                                         E(X)      =     3,5
                                          E(Y )    =     7
                                       E(X · Y )   =     27,42
                                          σ(X)     =     1,71
                                          σ(Y )    =     2,42

Covariansen er derfor

                Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 27,42 − 3,5 · 7 = 2,92

 Korrelationskoefficienten bliver som forventet et positivt tal:
                                   Cov(X, Y )       2,92
                             ρ=                =             = 0,71 .
                                  σ(X) · σ(Y )   1,71 · 2,42


                                               Download gratis bøger på ventus.dk / BookBooN.com

                                                    24
Lær Nemt! Statistik                                                               Middelværdi og varians



 5 De store tals lov
 5.1   Chebyshev’s ulighed
 For en stokastisk variabel X med middelværdi μ og varians σ 2 gælder Chebyshev’s ulighed
                                                            σ2
                                       P (|X − μ| ≥ a) ≤
                                                            a2
 for ethvert a > 0.

 5.2   De store tals lov
 Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling, og lad
 μ være den fælles middelværdi. Indfør betegnelsen Sn for summerne
                                       Sn = X 1 + · · · + X n .
 De store tals lov siger da
                                      Sn
                                  P      −μ >ε      → 0 for n → ∞
                                      n
 for ethvert ε > 0. Sagt i ord:

  Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi,
  n˚ r stikprøvens størrelse n g˚ r mod ∞.
   a                            a

 5.3   Den centrale grænseværdisætning
 Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling. Lad
 μ være den fælles middelværdi og σ 2 den fælles varians. Det antages, at σ 2 er positiv. Indfør
 betegnelsen Sn for de normerede summer
                                             X1 + · · · + Xn − nμ
                                       Sn =             √         .
                                                      σ n
 Ved “normeret” forst˚ s, at Sn ’erne har middelværdi 0 og varians 1. Den centrale grænseværdi-
                     a
 sætning siger da
                                  P (Sn ≤ x) → Φ(x) for n → ∞
 for alle x ∈ R, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (se afsnit 15.4)
                                                          1
                                              x
                                                   1    − t2
                                   Φ(x) =        √ e 2 dt .
                                             −∞    2π
 Fordelingsfunktionen for de normerede summer Sn konvergerer alts˚ mod Φ, n˚ r n g˚ r mod ∞.
                                                                  a         a      a
    Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det
 overraskende er, at de normerede summers grænsefordeling er uafhængig af Xi ’ernes fordeling.




                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                  25
Lær Nemt! Statistik                                                                      De store tals lov



 5.4 Eksempel (fordelingsfunktionen konvergerer mod Φ)
 Betragt en følge af uafhængige stokastiske variable X1 , X2 , . . . , der alle har punktsandsynlighe-
 derne
                                                                 1
                                 P (Xi = 0) = P (Xi = 1) = .
                                                                 2
 Summerne Sn = X1 + · · · + Xn er binomialfordelte middelværdi μ = n/2 og varians σ 2 = n/4.
 De normerede summer bliver dermed
                                        X1 + · · · + Xn − μ/2
                                 Sn =            √                 .
                                                   n/2
 Fordelingen af Sn er givet ved fordelingsfunktionen Fn . Den centrale grænseværdisætning siger,
 at Fn konvergerer mod Φ for n → ∞. Nedenst˚ ende figur viser Fn sammen med Φ for n =
                                                     a
 1, 2, 10, 100. Det er et øjeblik af overordentlig skønhed, n˚ r man betragter Fn ’erne falde til føje
                                                             a
 og nærme sig Φ:




                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                   26
Lær Nemt! Statistik                                                               Beskrivende statistik



 6    Beskrivende statistik
 6.1 Median og kvartiler
 Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes median
 x(0,5) som den “midterste observation”. Mere præcist er

                                        x(n+1)/2             hvis n ulige
                           x(0,5) =
                                        (xn/2 + xn/2+1 )/2   hvis n lige
 idet man ordner observationer efter størrelse s˚ ledes:
                                                a

                                        x1 ≤ x2 ≤ · · · ≤ xn .

 P˚ tilsvarende vis defineres observationernes nedre kvartil x(0,25) s˚ ledes, at 25% af obser-
  a                                                                   a
 vationerne ligger under x(0,25), og observationernes øvre kvartil x(0,75) s˚ ledes, at 75% af
                                                                             a
 observationerne ligger under x(0,75).
     Kvartilafstanden er afstanden mellem x(0,25) og x(0,75), alts˚ x(0,75) − x(0,25).
                                                                  a

 6.2 Gennemsnit
 Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes gennemsnit
 som                                                   n
                                                          xi
                                           x = i=1
                                            ¯
                                                        n

 6.3 Empirisk varians og empirisk spredning
 Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes empiriske
 varians som                                     n
                                                     (xi − x)2
                                                           ¯
                                    s2 = i=1                   .
                                                    n−1
 Den empiriske spredning er kvadratroden af den empiriske varians:
                                                   n
                                                   i=1 (xi
                                                       − x)2
                                                         ¯
                                      s=                     .
                                                     n−1
 Jo større den empiriske spredning s er, des mere “spredt” ligger observationerne omkring gen-
            ¯
 nemsnittet x.




                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                     27
Lær Nemt! Statistik                                                                      Beskrivende statistik



                    6.4 Empirisk covarians og empirisk korrelationskoefficient
                    Antag der foreligger n observationspar (x1 , y1 ), . . . , (xn , yn ). Man definerer da observationernes
                    empiriske covarians som
                                                                             n
                                                                             i=1 (xi   − x)(yi − y )
                                                                                         ¯       ¯
                                                              Covemp =                               .
                                                                                      n−1
                    En alternativ m˚ de at udregne Covemp er ved
                                   a
                                                                                n
                                                                                        − n¯y
                                                                                i=1 xi yi  x¯
                                                               Covemp =                       .
                                                                                      n−1
                    Den empiriske korrelationskoefficient er
                                                          empirisk covarians                       Covemp
                               r=                                                                =        .
                                      (x’ernes empiriske spredning)(y’ernes empiriske spredning)    sx sy

                    Den empiriske korrelationskoefficient r ligger altid i intervallet [−1, 1].

                     Fortolkning af den empiriske korrelationskoefficient. Hvis x-observationerne er uafhængige
                     af y-observationerne, ligger r tæt p˚ 0. Hvis x-observationerne og y-observationerne afhænger
                                                          a
                     p˚ den m˚ de, at store x’er oftest svarer til store y’er og omvendt, ligger r tæt p˚ 1. Hvis x’erne
                       a       a                                                                        a
                     og y’erne afhænger af hinanden p˚ den m˚ de, at store x’er oftest svarer til sm˚ y’er og omvendt,
                                                        a        a                                   a
                     ligger r tæt p˚ –1.
                                   a




                                                      r
                                    C  ard ghed este
                                 ild uli kær
                                      m
                             B Wdig øge ed
                          DS er       s tm
                            iv at be nde            t
                           g r                   ba
Klik på reklamen




                            fo ele   la       ra
                                            %
                              ih          0
                                    til 5
                                op
                         Få op til 50% rabat på din togrejse i Danmark, 25% på salgsvognen
                         og 25% på togrejser til udlandet, plus en lang række klubfordele.

                         16-26 år eller på SU?

                         Køb kortet nu!
                         Det er billigst på dsb.dk/wildcard




                                                                            Download gratis bøger på ventus.dk / BookBooN.com

                                                                                 28
Lær Nemt! Statistik                                                                       Statistisk testteori


 7    Statistisk testteori
 7.1 Nulhypotese og alternativ hypotese
 Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en p˚ forh˚ nd givet
                                                                                         a     a
 nulhypotese H0 . Nogle gange testes H0 mod en eksplicit alternativ hypotese H1 .
     Til grund for testet ligger en eller flere observationer. Nulhypotesen (og den eventuelle alter-
 native hypotese) drejer sig om, hvilken fordeling observationerne stammer fra.

 7.2 Signifikanssandsynlighed og signifikansniveau
 Man udregner nu signifikanssandsynligheden P , som er sandsynligheden – givet at H0 er sand
 – for at f˚ lige s˚ ekstreme eller mere ekstreme observationer, end de foreliggende. Jo mindre P
           a       a
 er, des mindre plausibel er H0 .
      Ofte vælger man p˚ forh˚ nd et signifikansniveau α, typisk α = 5%. Man forkaster s˚ H0 ,
                          a    a                                                            a
 hvis P er mindre end α (man siger “H0 forkastes p˚ signifikansniveau α”). Hvis P er større and
                                                     a
 α, accepteres H0 (man siger “H0 accepteres eller opretholdes p˚ signifikansniveau α” eller “H0
                                                                  a
 kan ikke forkastes p˚ signifikansniveau α”).
                       a

 7.3 Fejl af type I og II
 Man taler om fejl af type I, hvis man forkaster en sand nulhypotese. Hvis signifikansniveauet er
 α, er risikoen for en fejl af type I højst α.
     Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese. Testets styrke er
 sandsynligheden for at forkaste H0 , hvis H1 er sand. Jo større styrken er, des mindre er risikoen
 for en fejl af type II.

 7.4 Eksempel
 Antag at vi vil undersøge, om en bestemt terning er ægte. Ved “ægte” forst˚ s, at sandsynligheden
                                                                           a
 p for at f˚ en sekser er 1/6. Vi tester nulhypotesen
           a
                                                 1
                                    H0 : p =       (terningen er ægte)
                                                 6
 mod den alternative hypotese
                                                 1
                                    H1 : p >       (terningen er falsk)
                                                 6
 Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen:

                                          2, 6, 3, 6, 5, 2, 6, 6, 4, 6

 Lad os p˚ forh˚ nd lægge os fast p˚ signifikansniveauet α = 5%. Nu beregnes signifikanssand-
         a     a                    a
 synligheden P . Ved “ekstreme” observationer skal forst˚ s, at der er mange seksere. P er alts˚
                                                          a                                    a
 sandsynligheden for at f˚ mindst 5 seksere i 10 slag med en ærlig terning. Vi udregner
                         a
                                     10
                                           10
                              P =             (1/6)k (5/6)10−k = 0,015
                                           k
                                    k=5

 (se afsnit 8 om binomialfordelingen). Da P = 1,5% er mindre end α = 5%, forkaster vi H0 . Hvis
 terningen i virkeligheden var ægte, ville sandsynligheden for at beg˚ en fejl af type I være 1,5%.
                                                                     a
                                                  Download gratis bøger på ventus.dk / BookBooN.com

                                                       29
Lær Nemt! Statistik                                                         Binominalfordeligen Bin(n, p)



 8 Binomialfordelingen Bin(n, p)
 8.1 Parametre
 n: antalsparameter (antal forsøg)
 p: sandsynlighedsparameter (successandsynlighed)
 I formlerne bruger vi ogs˚ “fiaskosandsynligheden” q = 1 − p.
                          a

 8.2   Beskrivelse
 Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko. I hvert forsøg er
 successandsynligheden den samme, nemlig p. Det totale antal succeser X er da binomialfordelt,
 og man skriver X ∼ Bin(n, p). X er en diskret stokastisk variabel og kan tage værdier i mængden
 {0, 1, . . . , n}.

 8.3   Punktsandsynligheder
 For k ∈ {0, 1, . . . , n} er punktsandsynlighederne i en Bin(n, p)-fordeling

                                                   n
                                  P (X = k) =        · pk · q n−k .
                                                   k

                                                        n
 Se afsnit 2.5 vedrørende binomialkoefficienterne             .
                                                        k

 E KSEMPEL . Hvis man kaster en terning 20 gange, vil det samlede antal 6’ere X være binomial-
 fordelt med antalsparameter 20 og sandsynlighedsparameter 1/6. Vi kan opskrive punktsandsyn-
 lighederne P (X = k) og de kumulerede sandsynligheder P (X ≥ k) i et skema (i procent)

                 k      0   1    2    3    4    5    6    7   8   9
             P (X = k) 2,6 10,4 19,8 23,8 20,2 12,9 6,5 2,6 0,8 0,2
             P (X ≥ k) 100 97,4 87,0 67,1 43,3 23,1 10,2 3,7 1,1 0,3

 8.4 Middelværdi og varians
 Middelværdi:     E(X) = np.
 Varians:         var(X) = npq.




                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                  30
Lær Nemt! Statistik                                                            Binominalfordeligen Bin(n, p)



                    8.5   Signifikanssandsynligheden for test i binomialfordelingen
                    Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser
                    tælles. Vi vil teste nulhypotesen H0 : p = p0 mod en alternativ hypotese H1 .

                                                 H0         H1      Signifikanssandsynlighed
                                               p = p0     p > p0    P (X ≥ k)
                                               p = p0     p < p0    P (X ≤ k)
                                               p = p0     p = p0       l P (X = l)

                    hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).

                    E KSEMPEL . Et firma køber en maskine, der kan fremstille mikrochips. Producenten af maskinen
                    hævder, at højst 1/6 af de fremstillede chips vil være defekte. Den første dag fremstiller maskinen
                    20 chips, af hvilke 6 er defekte. Kan firmaet p˚ denne baggrund forkaste producentens p˚ stand?
                                                                    a                                          a

                    S VAR . Vi tester nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6.
                    Signifikanssandsynligheden beregnes til P (X ≥ 6) = 10,2% (se se fx tabellen i afsnit 8.3).
                    Firmaet kan alts˚ ikke forkaste producentens p˚ stand p˚ 5-procentsniveau.
                                     a                            a        a

                    8.6   Normalapproksimationen til binomialfordelingen
                    Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X
                                                                                            √
                    cirka være normalfordelt med middelværdi μ = np og spredning σ = npq. Punktsandsynlighe-




                          FÅ HELE VERDEN SOM DIN ARBEJDSPLADS!
                          Vil du være blandt verdens førende shippingfolk? Det Blå Danmark, eller det danske mari-
                          time erhverv, kan tilbyde dig en shippinguddannelse af høj international standard. Danske
                          rederier og shippingvirksomheder er førende inden for de mest avanacerede segmenter af
Klik på reklamen




                          den globale søfart og flytter dagligt 10 procent af al verdens handel til søs. Hvis du har mod
                          på en international karriere, så gå ind på www.worldcareers.dk og find ud af, hvordan DU
                          kan få hele verden som din arbejdsplads.

                           Få verden som arbejdsplads: www.worldcareers.dk




                                                                   Download gratis bøger på ventus.dk / BookBooN.com

                                                                       31
Lær Nemt! Statistik                                                         Binominalfordeligen Bin(n, p)



 derne er derfor
                                                   k − np          1
                                P (X = k) ≈ ϕ      √          ·√       ,
                                                     npq           npq
 hvor ϕ er tætheden for standardnormalfordelingen, og halesandsynlighederne er
                                               ⎛              ⎞
                                                       1
                                                  k + − np
                                               ⎜              ⎟
                                P (X ≤ k) ≈ Φ ⎝ √2            ⎠
                                                       npq

                                                         ⎛     ⎞
                                                         1
                                                      k − − np
                                                    ⎜          ⎟
                                  P (X ≥ k) ≈ 1 − Φ ⎝ √2       ⎠
                                                         npq

 hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C.2).

 Tommelfingerregel. Man kan bruge approksimationen, hvis np og nq begge er større end 5.

 E KSEMPEL (fortsættelse af eksemplet i afsnit 8.5). Efter 2 uger har maskinen fremstillet 200 chips,
 af hvilke 46 er defekte. Kan firmaet nu forkaste producentens p˚ stand, om at sandsynligheden for
                                                                  a
 defekt er højst 1/6?

 S VAR. Vi tester atter nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6. Da
 nu np ≈ 33 og nq ≈ 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde
 signifikanssandsynligheden:
                                       ⎛               ⎞
                                               1
                                          46 − − 33,3
                                       ⎜               ⎟
                  P (X ≥ 46) ≈ 1 − Φ ⎝        √2       ⎠ ≈ 1 − Φ(2,3) ≈ 1,1%
                                               27,8

 Firmaet kan alts˚ nu forkaste producentens p˚ stand p˚ 5-procentsniveau.
                 a                           a        a

 8.7   Estimatorer
 Antag k er en observation fra en stokastisk variabel X ∼ Bin(n, p) med kendt n og ukendt p.
 Maksimum likelihood-estimatet (ML-estimatet) p˚ p er
                                                    a
                                                   k
                                              p=
                                              ˆ      .
                                                   n
 Denne estimator er middelret (dvs. estimatorens middelværdi er p) og har variansen
                                                       pq
                                           var(ˆ) =
                                               p          .
                                                       n
 Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte)
                                                                                     ˆ a
 sandsynlighedsparameter p. Hvis man imidlertid indsætter den estimerede værdi p p˚ p’s plads,
 f˚ r man den estimerede varians
  a
                                             p(1 − p)
                                              ˆ     ˆ
                                                       .
                                                 n



                                              Download gratis bøger på ventus.dk / BookBooN.com

                                                  32
Lær Nemt! Statistik                                                             Binominalfordeligen Bin(n, p)



 E KSEMPEL. Vi betragter atter eksemplet med maskinen, der har fremstillet 20 mikrochips, af
 hvilke de 6 er defekte. Hvad er maksimum likelihood-estimatet p˚ sandsynlighedsparameteren?
                                                                a
 Hvad er dennes estimerede varians?

 S VAR. Maksimum likelihood-estimatet er
                                                 6
                                            p=
                                            ˆ       = 30%
                                                 20
            aˆ
 variansen p˚ p estimeres til
                                       0,3 · (1 − 0,3)
                                                       = 0,0105 .
                                              20
                                      √
 Spredningen estimeres dermed til 0,0105 ≈ 0,10. Hvis vi g˚ r ud fra, at p ligger inden for 2
                                                                  a      ˆ
 spredninger fra p, vil p alts˚ ligge mellem 10% og 50%.
                              a

 8.8   Konfidensintervaller
 Antag k er en observation fra en binomialfordelt stokastisk variabel X ∼ Bin(n, p) med kendt n
 og ukendt p. Konfidensintervallet med konfidensgrad 1 − α omkring punktestimatet p = k/n er
                                                                                    ˆ

                                       p(1 − p)
                                       ˆ     ˆ                       p(1 − p)
                                                                     ˆ     ˆ
                        p − u1−α/2
                        ˆ                       , p + u1−α/2
                                                  ˆ                                .
                                          n                             n

 Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 − α.
     Tallet u1−α/2 er fastlagt ved Φ(u1−α/2 ) = 1 − α/2, hvor Φ er fordelingsfunktionen for stan-
 dardnormalfordelingen. Det fremg˚ r fx af Tabel C.2, at for konfidensgrad 95% er
                                    a

                                      u1−α/2 = u0,975 = 1,96 .


                                      ˚
 O PGAVE. I en Gallup-undersøgelse i ar 2012 svarer 62 ud af 100 adspurgte, at de vil stemme p˚
                                                                                              a
 Enhedslisten ved næste valg. Bestem konfidensintervallet med konfidensgrad 95% om den sande
 procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal.
 S VAR. Punktestimatet er p = 62/100 = 0,62. Da konfidensgraden skal være 95%, skal α = 0,05.
                          ˆ
 Tabelopslag giver u0,975 = 1,96. Man f˚ r
                                       a

                                             0,62 · 0,38
                                     1,96                = 0,095 .
                                                100
 Konfidensintervallet bliver dermed
                                            [0,525 , 0,715] .
 Vi kan alts˚ sige med 95 procents sikkerhed, at mellem 52,5% og 71,5% vil stemme p˚ Enhedsli-
            a                                                                      a
 sten, hvilket vil give mellem 94 og 128 af folketingets 179 mandater.




                                                Download gratis bøger på ventus.dk / BookBooN.com

                                                    33
Lær Nemt! Statistik                                                             Poissonfordelingen Pois(λ)



                    9 Poissonfordelingen Pois(λ)
                    9.1   Parametre
                    λ: Intensiteten

                    9.2   Beskrivelse
                    Visse begivenheder siges at forekomme spontant, dvs. de finder sted p˚ tilfældige tidspunkter, men
                                                                                            a
                    med en vis konstant intensitet λ. Intensiteten λ er det gennemsnitlige antal spontane begivenheder
                    pr. tidsinterval. Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt,
                    og man skriver X ∼ Pois(λ). X er en diskret stokastisk variabel og kan tage værdier i mængden
                    {0, 1, 2, 3, . . . }.

                    9.3   Punktsandsynligheder
                    For k ∈ {0, 1, 2, 3 . . . } er punktsandsynlighederne i en Pois(λ)-fordeling

                                                                      λk
                                                       P (X = k) =       exp(−λ) .
                                                                      k!
                    Der mindes om konventionen 0! = 1.

                    E KSEMPEL . I en vis butik kommer der i gennemsnit 3 kunder pr. minut. Antallet af kunder X, der
Klik på reklamen




                                                                 Download gratis bøger på ventus.dk / BookBooN.com

                                                                      34
Lær Nemt! Statistik                                                            Poissonfordelingen Pois(λ)



 kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3. Punktsandsynlig-
 hederne kan opskrives i procent i et skema:

                k      0   1    2    3    4    5    6   7   8   9 ≥ 10
            P (X = k) 5,0 14,9 22,4 22,4 16,8 10,1 5,0 2,2 0,8 0,3 0,1

 9.4   Middelværdi og varians
 Middelværdi:     E(X) = λ.
 Varians:         var(X) = λ.

 9.5   Additionsformel
 Antag at X1 , . . . , Xn er uafhængige Poissonfordelte stokastiske variable. Lad λi være intensiteten
 af Xi , alts˚ Xi ∼ Pois(λi ). S˚ er summen
             a                   a

                                        X = X1 + · · · + Xn

 Poissonfordelt med intensitet
                                        λ = λ 1 + · · · + λn ,
 alts˚ X ∼ Pois(λ).
     a

 9.6   Signifikanssandsynligheder for test i Poissonfordelingen
 Antag at k er en observatione fra en Pois(λ)-fordeling med ukendt intensitet λ. Vi vil teste nul-
 hypotesen H0 : λ = λ0 mod en alternativ hypotese H1 .

                             H0         H1      Signifikanssandsynlighed
                           λ = λ0     λ > λ0    P (X ≥ k)
                           λ = λ0     λ < λ0    P (X ≤ k)
                           λ = λ0     λ = λ0       l P (X = l)

 hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k).
    Hvis man har givet n uafhængige observationer k1 , . . . , kn fra en Pois(λ)-fordeling, kan man
 udnytte, at summen k = k1 + · · · + kn er en observation fra en Pois(n · λ)-fordeling.

 9.7   Eksempel (signifikant stigning af salg af Skodaer)
 O PGAVE. En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om m˚ neden. M˚ neden
                                                                                   a     a
 efter et reklamefremstød for Skoda sælges 7 biler. Er dette en signifikant stigning?

  S VAR. Salget af biler den givne m˚ ned kan med rimelighed antages at være Poissonfordelt med
                                      a
 en vis intensitet λ. Vi tester nulhypotesen

                                            H0 : λ = 3,5




                                               Download gratis bøger på ventus.dk / BookBooN.com

                                                  35
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik
Statistik

Weitere ähnliche Inhalte

Empfohlen

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 

Empfohlen (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

Statistik

  • 1. G R AT I S ST U D I E B Ø G E R STATISTIK DAVID BRINK GRATIS STUDIEBØGER WWW.BOOKBOON.COM
  • 2. David Brink Lær nemt! Statistik - Kompendium Download gratis bøger på ventus.dk / BookBooN.com
  • 3. Lær nemt! Statistik - Kompendium © 2006 David Brink & Ventus Publishing ApS ISBN 87-7681-012-7 Download gratis bøger på ventus.dk / BookBooN.com
  • 4. Lær Nemt! Statistik Indholdsfortegnelse Indholdsfortegnelse 1. Forord 11 2. Sandsynlighedsregningens grundbegreber 12 2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse 12 2.2 Betinget sandsynlighed 12 2.3 Uafhængige hændelser 14 2.4 Inklusions-eksklusionsformlen 14 2.5 Binomialkoefficienter 16 2.6 Multinomialkoefficienter 17 3. Stokastiske variable 18 3.1 Stokastiske variable, definition 18 3.2 Fordelingsfunktion 18 3.3 Diskret stokastisk variabel, punktsandsynligheder 19 3.4 Kontinuert stokastisk variabel, tæthedsfunktion 19 3.5 Kontinuert stokastisk variabel, fordelingsfunktion 20 3.6 Uafhængige stokastiske variable 20 3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion 21 4. Middelværdi og varians 22 4.1 Middelværdi af stokastisk variabel 22 4.2 Varians og spredning af stokastisk variabel 22 4.3 Eksempel (udregning af middelværdi, varians og spredning) 22 4.4 Vurdering af middelværdi μ og spredning σ på øjemål 23 4.5 Additions- og multiplikationsformler for middelværdi og varians 23 4.6 Covarians og korrelationskoefficient 24 Klik på reklamen We have ambitions. Also for you. SimCorp is a global leader in financial software. At SimCorp, you will be part of a large network of competent and skilled colleagues who all aspire to reach common goals with dedication and team spirit. We invest in our employees to ensure that you can meet your ambitions on a personal as well as on a professional level. SimCorp employs the best qualified people within economics, finance and IT, and the majority of our colleagues have a university or business degree within these fields. Ambitious? Look for opportunities at www.simcorp.com/careers www.simcorp.com Download gratis bøger på ventus.dk / BookBooN.com 4
  • 5. Lær Nemt! Statistik Indholdsfortegnelse 5. De store tals lov 25 5.1 Chebyshev’s ulighed 25 5.2 De store tals lov 25 5.3 Den centrale grænseværdisætning 25 5.4 Eksempel (punktsandsynligheder konvergerer mod φ) 26 6. Beskrivende statistik 27 6.1 Median og kvartiler 27 6.2 Gennemsnit 27 6.3 Empirisk varians og empirisk spredning 27 6.4 Empirisk covarians og empirisk korrelationskoefficient 28 7. Statistisk testteori 29 7.1 Nulhypotese og alternativ hypotese 29 7.2 Signifikanssandsynlighed og signifikansniveau 29 7.3 Fejl af type I og II 29 7.4 Eksempel 29 8. Binomialfordelingen Bin(n, p) 30 8.1 Parametre 30 8.2 Beskrivelse 30 8.3 Punktsandsynligheder 30 8.4 Middelværdi og varians 30 8.5 Signifikanssandsynligheden for test i binomialfordelingen 31 8.6 Normalapproksimationen til binomialfordelingen 31 8.7 Estimatorer 32 8.8 Konfidensintervaller 33 Combining our unique individual talents to do amazing things Klik på reklamen If you want to find out more about international career opportunities in British American Tobacco please visit www.bat.com or for career opportunities in the Nordic countries please contact our Nordic Head Office in Copenhagen, Vibeke Scharffenberg, +45 39 55 63 00 BRING YOUR DIFFERENCE Download gratis bøger på ventus.dk / BookBooN.com 5
  • 6. Lær Nemt! Statistik Indholdsfortegnelse 9. Poissonfordelingen Pois(λ) 34 9.1 Parametre 34 9.2 Beskrivelse 34 9.3 Punktsandsynligheder 34 9.4 Middelværdi og varians 35 9.5 Additionsformel 35 9.6 Signifikanssandsynligheder for test i Poissonfordelingen 35 9.7 Eksempel (signifikant stigning af salg af Skodaer) 35 9.8 Binomialapproksimationen til Poissonfordelingen 36 9.9 Normalapproksimationen til Poissonfordelingen 36 9.10 Eksempel (signifikant fald i antal klager) 36 9.11 Estimatorer 37 9.12 Konfidensintervaller 38 10. Den geometriske fordeling Geo(p) 39 10.1 Parametre 39 10.2 Beskrivelse 39 10.3 Punktsandsynligheder og halesandsynligheder 39 10.4 Middelværdi og varians 39 11. Den hypergeometriske fordeling HG(n, r, N) 40 11.1 Parametre 40 11.2 Beskrivelse 40 11.3 Punktsandsynligheder og halesandsynligheder 41 11.4 Middelværdi og varians 41 11.5 Binomialapproksimationen til den hypergeometriske fordeling 41 11.6 Normalapproksimationen til den hypergeometriske fordeling 41 Klik på reklamen Download gratis bøger på ventus.dk / BookBooN.com 6
  • 7. Lær Nemt! Statistik Indholdsfortegnelse 12. Multinomialfordelingen Mult(n, p1,..., pr) 43 12.1 Parametre 43 12.2 Beskrivelse 43 12.3 Punktsandsynligheder 43 12.4 Estimatorer 43 13. Den negative binomialfordeling NB(n, p) 44 13.1 Parametre 44 13.2 Beskrivelse 44 13.3 Punktsandsynligheder 44 13.4 Middelværdi og varians 44 13.5 Estimatorer 44 14. Eksponentialfordelingen Eks(λ) 45 14.1 Parametre 45 14.2 Beskrivelse 45 14.3 Tæthed og fordelingsfunktion 45 14.4 Middelværdi og varians 45 15. Normalfordelingen 46 15.1 Parametre 46 15.2 Beskrivelse 46 15.3 Tæthed og fordelingsfunktion 46 15.4 Standardnormalfordelingen 47 15.5 Regneregler for Φ 48 15.6 Estimation af middelværdien μ 48 15.7 Estimation af variansen σ2 48 15.8 Konfidensinterval for middelværdien μ 49 15.9 Konfidensinterval for variansen σ2 og spredningen σ 49 15.10 Additionsformlen 49 www.zepto.dk/studie 6% Klik på reklamen I STUDIERABAT PÅ BÆRBARE PC’ER, LCD TV OG TILBEHØR ..eller tjek www.zepto.dk/studie Download gratis bøger på ventus.dk / BookBooN.com 7
  • 8. Lær Nemt! Statistik Indholdsfortegnelse 16. Fordelinger knyttet til normalfordelingen 50 16.1 χ2-fordelingen 50 16.2 Student’s t-fordeling 51 16.3 Fisher’s F-fordeling 52 17. Test i normalfordelingen 53 17.1 En stikprøve, kendt varians, H0 : μ = μ0 53 17.2 En stikprøve, ukendt varians, H0 : μ = μ0 (Student’s t-test) 53 17.3 En stikprøve, ukendt middelværdi, H0 : σ2 = σ02 54 17.4 Eksempel 55 17.5 To stikprøver, kendte varianser, H0 : μ1 = μ2 56 17.6 To stikprøver, ukendte varianser, H0 : μ1 = μ2 (Fisher-Behrens) 57 17.7 To stikprøver, ukendte middelværdier, H0 : σ12 = σ22 57 17.8 To stikprøver, ukendt fælles varians, H0 : μ1 = μ2 58 17.9 Eksempel (sammenligning af to middelværdier) 58 18. Variansanalyse 60 18.1 Formål 60 18.2 k stikprøver, ukendt fælles varians, H0 : μ1 = . . . = μk 60 18.3 To eksempler (sammenligning af middelværdier i 3 stikprøver) 60 19. Chi-kvadrat χ2 63 19.1 χ2-test for fordelingslighed 63 19.2 Normalfordelingsantagelse 63 19.3 Standardiserede residualer 64 19.4 Eksempel (kvinder med 5 børn) 64 19.5 Eksempel (folketingsvalg) 66 19.6 Eksempel (dødsfald i det preussiske kavaleri) 67 Hvornår har du sidst talt med dine forældre? Klik på reklamen Måske kan det betale sig at tage en snak med dem om fordelene ved forældrekøb. På home.dk kan du beregne hvad det vil koste ved et forældrekøb, og læse mere om fordelene for dig og dine forældre Download gratis bøger på ventus.dk / BookBooN.com 8
  • 9. Lær Nemt! Statistik Indholdsfortegnelse 20. Kontingenstabeller 69 20.1 Definition, metode 69 20.2 Standardiserede residualer 70 20.3 Eksempel (studieretning og politisk orientering) 70 20.4 χ2-test for 2 × 2-tabeller 72 20.5 Fisher’s eksakte test for 2 × 2-tabeller 72 20.6 Eksempel (Fisher’s eksakte test) 73 21. Fordelingsfri test 74 21.1 Wilcoxons test for ét sæt observationer 74 21.2 Eksempel 75 21.3 Normalapproksimation til Wilcoxons test for ét sæt observationer 75 21.4 Wilcoxons test for to sæt observationer 76 21.5 Normalapproksimation til Wilcoxons test for to sæt observationer 77 22. Lineær regression 78 22.1 Modellen 78 22.2 Estimering af parametrene β0 og β1 78 22.3 Estimatorernes fordeling 78 22.4 Forudsagte værdier og residualer 79 22.5 Estimering af variansen σ2 79 22.6 Konfidensinterval for parametrene β0 og β1 79 22.7 Determinationskoefficienten R2 79 22.8 Forudsigelser og prediktionsinterval 80 22.9 Oversigt over formler 81 22.10 Eksempel 81 A. Engelsk-dansk ordliste 83 B. Oversigt over diskrete fordelinger 86 Danmarks Nationalbank Interesseret i makroøkonomi? Klik på reklamen Interesserer du dig for penge- og valutapolitiske problemstillin- ger, har vi meget at byde på, fx bogen ”Pengepolitik i Danmark”. Du kan også læse vores Kvartalsoversigt eller Working Papers om makroøkonomiske emner. Hvis du kan forestille dig en dag selv at skrive artikler for Nationalbanken, kan du gå ind og se, hvad vi har at tilbyde af ledige jobs. Se mere på www.nationalbanken.dk Nationalbanken bidrager til: ♦ stabile priser – ved at indrette pengepolitikken efter en fast kronekurs over for euroen ♦ sikre betalinger – ved at udstede sedler og mønter og være bank for penge- og realkreditinstitutterne ♦ stabilitet i det finansielle system – ved at vurdere den finansielle stabilitet, overvåge betalingssystemer, produ- cere finansiel statistik og forvalte statens gæld. Som arbejdsplads kan vi tilbyde spændende arbejdsopgaver med et højt fagligt indhold. Vi bestræber os på at udvikle vores medarbejdere både fagligt og personligt. Download gratis bøger på ventus.dk / BookBooN.com 9
  • 10. Lær Nemt! Statistik Indholdsfortegnelse C. Tabeller 87 C.1 Sådan forstås tabellerne 87 C.2 Standardnormalfordeligen 88 C.3 χ2-fordelingen (værdier x med Fχ2(X) = 0,500 etc.) 91 C.4 Student’s t-fordeling (værdier x med Fstudent(x) = 0,600 etc.) 93 C.5 Fishers F-fordeling (værdier x med FFisher(x) = 0,90) 94 C.6 Fishers F-fordeling (værdier x med FFisher(x) = 0,95) 95 C.7 Fishers F-fordeling (værdier x med FFisher(x) = 0,99) 96 C.8 Wilcoxons test for ét sæt observationer 97 C.9 Wilcoxons test for 2 sæt observationer, α = 5% 98 D. Symbolforklaring 99 E. Index 100 Kickstart karrieren! Deltids salgskonsulent ” Du kommer til at indgå i vores salgsteam Min gennemsnitlige på Dagbladet Børsen i Møntergade i timeløn lå sidste år København, hvor du skal arbejde med på den rigtige side Klik på reklamen salg af abonnementer på Børsen til eksi- af 300 kr. sterende, tidligere og nye abonnenter. Du vil få en grundig oplæring i salgs- og samtaleteknikker samt løbende coaching. Søg jobbet på borsen.dk En god sælger… ■ har stor personlig gennemslagskraft ■ er målrettet og resultatorienteret ■ har kendskab til IT på brugerniveau ■ er indstillet på at arbejde i højt tempo Download gratis bøger på ventus.dk / BookBooN.com 10
  • 11. Lær Nemt! Statistik Forord 1 Forord Det her foreliggende kompendium i statistik har som m˚ lgruppe studerende p˚ de økonomiske og a a samfundsvidenskabelige studier. (Version 1) Det her foreliggende kompendium i statistik har som m˚ lgruppe medicin- og psykologistude- a rende. (Version 2) For mange studerende kommer kurset i statistik som et chok; lærebogen synes uoverskue- lig, pensum enormt, og gymnasiematematikken ligger uendelig langt væk. ”Lær nemt statistik - kort og præcist”er en venlig gennemgang af statistikkens centrale omr˚ der, der lægger vægten a p˚ overblikket. De mange eksempler giver desuden læseren en ”kogebogsopskrift”p˚ , hvordan de a a almindeligste opgavetyper besvares. Hvad enten du drømmer om at starte virksomhed eller allerede er godt i gang, giver vi dig power til at maksimere dit potentiale. I uge 47 er der springboards, workshops, foredrag og konkret rådgivning til Klik på reklamen alle – fra iværksætterspirer i grundskolen til direktører med vækstambitioner. Bag initiativet står Økonomi- og Erhvervsministeriet i samarbejde med en lang række private og offentlige organisationer. Initiativet er en del af "Global Entrepreneurship Week", hvor mere end 100 lande sætter fokus på iværksætteri og vækst. Læs mere på www.uge47.dk Global Entrepreneurship Week | Økonomi- og Erhvervsministeriet | Væksthusene | Young Enterprise Danmark | DI – Organisation for erhvervslivet | Kauffmann | Make Your Mark | Dansk Iværksætter Forening | Undervisningsministeriet | DEF | DJØF | Foreningen af Registrerede Revisorer | Øresund Entrepreneurship Academy | Danske Advokater | Foreningen af Statsautoriserede Revisorer | IDA | DANA | IDEA | Vækstfonden | Women in Business | Connect Denmark | Ministeriet for Videnskab, Teknologi og Udvikling | FUHU | Ernst & Young | Dansk Erhverv | Venture Cup | Kulturministeriet | Early Warning | Danmarks Eksportråd Download gratis bøger på ventus.dk / BookBooN.com 11
  • 12. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber 2 Sandsynlighedsregningens grundbegreber 2.1 Sandsynlighedsfelt, sandsynlighedsfunktion, udfaldsrum, hændelse Et sandsynlighedsfelt er et par (Ω, P ) best˚ ende af en mængde Ω og en funktion P , der til hver a delmængde A af Ω knytter et reelt tal P (A) i intervallet [0, 1]. Desuden forlanges følgende 2 aksiomer opfyldt: 1. P (Ω) = 1, ∞ ∞ 2. P ( n=1 An ) = n=1 P (An ) hvis A1 , A2 , . . . er en følge af parvis disjunkte delmængder af Ω. Mængden Ω kaldes et udfaldsrum. Elementerne ω ∈ Ω kaldes udfald, og delmængderne A Ω kaldes hændelser. Funktionen P kaldes en sandsynlighedsfunktion. For en hændelse A kaldes P (A) sandsynligheden for A. Af de 2 aksiomer kan udledes følgende konsekvenser: 3. P (Ø) = 0, 4. P (AB) = P (A) − P (B) hvis B A, 5. P ( A) = 1 − P (A), 6. P (A) P (B) hvis B A, 7. P (A1 ∪ · · · ∪ An ) = P (A1 ) + · · · + P (An ) hvis A1 , . . . , An er parvis disjunkte hændelser, 8. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) for vilk˚ rlige hændelser A og B. a E KSEMPEL. Betragt mængden Ω = {1, 2, 3, 4, 5, 6}. Defin´ r for hver delmængde A af Ω e #A P (A) = , 6 hvor #A er antallet af elementer i A. S˚ er parret (Ω, P ) et sandsynlighedsfelt. Man kan se dette a sandsynlighedsfelt som model for situationen “kast med en terning”. E KSEMPEL. Betragt nu mængden Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Defin´ r for hver del- e mængde A af Ω #A P (A) = . 36 Sandsynlighedsfeltet (Ω, P ) er nu model for situationen “kast med 2 terninger”. Delmængden A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} er hændelsen “to ens”. 2.2 Betinget sandsynlighed For to hændelser A og B defineres den betingede sandsynlighed for A givet B som P (A ∩ B) P (A | B) := . P (B) Download gratis bøger på ventus.dk / BookBooN.com 12
  • 13. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber Der gælder følgende sætning kaldet beregning af sandsynlighed ved opsplitning i mulige arsager: ˚ Antag A1 , . . . , An er parvis disjunkte hændelser med A1 ∪ · · · ∪ An = Ω. Da er for enhver hændelse B: P (B) = P (A1 ) · P (B | A1 ) + · · · + P (An ) · P (B | An ) . E KSEMPEL. I finalen i French Open 2007 skal Nadal møde vinderen af semifinalen mellem Fede- rer og Davidenko. En bookmaker vurderer sandsynligheden for, at Federer vinder semifinalen, til 75%. Sandsynligheden for, at Nadal kan sl˚ Federer i finalen, vurderes til 51%, mens sandsynlig- a heden for, at Nadal kan sl˚ Davidenko i finalen, vurderes til 80%. Bookmakeren beregner derfor a ˚ ved opsplitning i mulige arsager sandsynligheden for, at Nadal vinder French Open 2007, til P (Nadal vinder finalen) = P (Federer vinder semifinalen)× P (Nadal vinder finalen|Federer vinder semifinalen)+ P (Davidenko vinder semifinalen)× P (Nadal vinder finalen|Davidenko vinder semifinalen) = 0,75 · 0,51 + 0,25 · 0,8 = 58,25% kandidat fremtid Internationale kandidatuddannelser med rod i virkeligheden Praktik Studiejobs Klik på reklamen VIL DU SIKRE DIN FREMTID ASB Alumni Summer University Corporate partners MED EN MÅLRETTET ASB Karrierecenter Studiemiljø i særklasse KANDIDATUDDANNELSE Job- og CompanyDating Danske og internationale forskere INDEN FOR BUSINESS? Læs mere på www.asb.dk LÆS MERE OM VORES UDDANNELSER OG SAMARBEJDE MED FØRENDE DANSKE OG INTERNATIONALE VIRKSOMHEDER PÅ WWW.ASB.DK/KANDIDAT Download gratis bøger på ventus.dk / BookBooN.com 13
  • 14. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber 2.3 Uafhængige hændelser To hændelser A og B kaldes uafhængige, hvis P (A ∩ B) = P (A) · P (B) . Ækvivalent hermed er betingelsen P (A | B) = P (A), alts˚ at sandsynligheden for A er den a samme som den betingede sandsynlighed for A givet B. Huskeregel. To hændelser er uafhængige, hvis sandsynligheden for den ene ikke p˚ virkes af kend- a skab til, om den anden har fundet sted. E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne A: rød terning viser 6, B: sort terning viser 6. Da 1 1 1 P (A ∩ B) = = · = P (A) · P (B) , 36 6 6 er A og B uafhængige. Sandsynligheden for, at rød terning viser 6, p˚ virkes ikke af kendskab til, a hvad sort terning viser. E KSEMPEL. Der kastes en rød og en sort terning. Betragt hændelserne A: rød terning og sort terning viser det samme, B: rød terning og sort terning viser tilsammen 10. Da 1 1 P (A) = , men P (A | B) = , 6 3 er A og B ikke uafhængige. Sandsynligheden for at f˚ to ens slag stiger, hvis man ved, at summen a af slagene er 10. 2.4 Inklusions-eksklusionsformlen Formel 8 p˚ side 12 har følgende generalisering til 3 hændelser A, B, C: a P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C) . Denne lighed kaldes inklusions-eksklusionsformlen for 3 hændelser. ´ E KSEMPEL. Hvad er sandsynligheden for at f˚ mindst en sekser i tre kast med en terning. Lad a A1 være hændelsen, at vi f˚ r en sekser i første kast, og defin´ r A2 og A3 tilsvarende. Den søgte a e sandsynlighed beregnes da ved inklusion-eksklusion: P = P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) +P (A1 ∩ A2 ∩ A3 ) 1 1 1 1 1 1 1 = + + − 2− 2− 2+ 3 6 6 6 6 6 6 6 ≈ 41% Download gratis bøger på ventus.dk / BookBooN.com 14
  • 15. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber Der gælder følgende generalisering for n hændelser A1 , A2 , . . . , An med foreningsmængde A = A1 ∪ · · · ∪ An : P (A) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − · · · ± P (A1 ∩ · · · ∩ An ) . i i<j i<j<k Denne lighed kaldes inklusions-eksklusionsformlen for n hændelser. E KSEMPEL. Der trækkes 5 tilfældige kort fra et almindeligt spil best˚ ende af 52 kort. Vi vil be- a stemme sandsynligheden P (B) for den hændelse B, at alle 4 kulører optræder blandt de 5 udtruk- ne kort. Lad til dette form˚ l A1 være den hændelse, at ingen af de udtrukne kort er spar. Definer A2 , A3 a og A4 tilsvarende for henholdsvis hjerter, ruder, klør. S˚ er a B = A 1 ∪ A2 ∪ A3 ∪ A 4 . Inklusions-eksklusionsformlen giver nu P ( B) = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) − P (A1 ∩ A2 ∩ A3 ∩ A4 ) , i i<j i<j<k alts˚ a 39 26 13 5 5 5 P ( B) = 4 · −6· +4· − 0 ≈ 73,6% 52 52 52 5 5 5 Dermed f˚ s a P (B) = 1 − P ( B) = 26,4% E KSEMPEL. I en skoleklasse sidder n børn. Læreren beder alle børnene rejse sig op og sætte sig igen p˚ en tilfældig plads. Lad os bestemme sandsynligheden P (B) for den hændelse B, at hvert a barn f˚ r en ny plads. a Vi starter med at nummerere børnene fra 1 til n. For hvert i defineres hændelsen Ai : barn nummer i sætter sig p˚ sin gamle plads a S˚ er a B = A1 ∪ · · · ∪ An . Nu kan P ( B) beregnes ved hjælp af inklusions–eksklusionsformlen for n hændelser: P ( B) = P (Ai ) − P (Ai ∩ Aj ) + · · · ± P (A1 ∩ · · · ∩ An ) , i i<j alts˚ a n n 1 1 n 1 P ( B) = − + ··· ± 1 2 n n(n − 1) n n! 1 1 = 1 − + ··· ± 2! n! Download gratis bøger på ventus.dk / BookBooN.com 15
  • 16. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber Ergo er 1 1 1 1 − + − ··· ± P (B) = 1 − P ( B) = 2! 3! 4! n! Det er et overraskende faktum, at denne sandsynlighed stort set ikke afhænger af n: P (B) er meget tæt p˚ 37% for alle n ≥ 4. a 2.5 Binomialkoefficienter n Binomialkoefficienten (læses “n over k”) er defineret som k n n! 1 · 2 · 3···n = = k k!(n − k)! 1 · 2 · · · k · 1 · 2 · · · (n − k) for hele tal n og k med 0 k n. Der mindes om konventionen 0! = 1. ˚ Arsagen til, at binomialkoefficienterne optræder igen og igen i sandsynlighedsregningen, er følgende sætning: n Antallet af delmængder med k elementer af en mængde med n elementer er . k Fx er antallet af delmængder med 5 elementer (pokerhænder) af en mængde med 52 elementer (et 0906 Take it easy! Men husk at melde dig i a-kasse senest 14 dage Klik på reklamen efter endt uddannelse. 7013 7013 www.ase.dk Når du er medlem af en a-kasse, kan du få op til 12.900 kr. i dagpenge om måneden før skat (2009 sats) Download gratis bøger på ventus.dk / BookBooN.com 16
  • 17. Lær Nemt! Statistik Sandsynlighedsregningens grundbegreber spil kort) lig 52 = 2598960 . 5 En god m˚ de at huske binomialkoefficienterne p˚ er ved at stille dem op i Pascals trekant, a a hvor hvert tal er lig summen af de to ovenst˚ ende tal: a 0 0 1 1 1 0 1 11 2 2 2 0 1 2 121 3 3 3 3 0 1 2 3 1331 4 4 4 4 4 0 1 2 3 4 14641 5 5 5 5 5 5 0 1 2 3 4 5 1 5 10 10 5 1 6 6 6 6 6 6 6 0 1 2 3 4 5 6 1 6 15 20 15 6 1 . . . . . . Man bemærker, at der gælder regnereglen n n 10 10 = , fx = . n−k k 7 3 2.6 Multinomialkoefficienter Multinomialkoefficienterne er defineret som n n! = k1 · · · kr k1 ! · · · kr ! for hele tal n og k1 , . . . , kr med n = k1 + · · · + kr . Multinomialkoefficienter kaldes ogs˚ genera- a liserede binomialkoefficienter, idet binomialkoefficienten n k er lig multinomialkoefficienten n k l med l = n − k. Download gratis bøger på ventus.dk / BookBooN.com 17
  • 18. Lær Nemt! Statistik Stokastiske variable 3 Stokastiske variable 3.1 Stokastiske variable, definition Betragt et sandsynlighedsfelt (Ω, P ). En stokastisk variabel er en afbildning X fra Ω ind i mæng- den af reelle tal R.  Normalt kan man glemme det bagvedliggende sandsynlighedsfelt og blot tænke p˚ følgende hu- a skeregel: Huskeregel: En stokastisk variabel er en funktion, der med forskellige sandsynligheder tager forskellige værdier. Sandsynlighederne for, at den stokastiske variabel X tager bestemte værdier, skrives p˚ følgende a m˚ de: a P (X = x): sandsynligheden for, at X tager værdien x ∈ R, P (X < x): sandsynligheden for, at X tager en værdi mindre end x, P (X > x): sandsynligheden for, at X tager en værdi større end x, etc. Der gælder regnereglerne P (X ≤ x) = P (X < x) + P (X = x) P (X ≥ x) = P (X > x) + P (X = x) 1 = P (X < x) + P (X = x) + P (X > x) 3.2 Fordelingsfunktionen Fordelingsfunktionen for en stokastisk variabel X er funktionen F : R → R givet ved F (x) = P (X ≤ x) . F (x) er en voksende funktion med værdier i intervallet [0, 1] og opfylder desuden F (x) → 1 for x → ∞, og F (x) → 0 for x → −∞. Download gratis bøger på ventus.dk / BookBooN.com 18
  • 19. Lær Nemt! Statistik Stokastiske variable Ved hjælp af F (x) kan alle X’s sandsynligheder regnes ud: P (X < x) = limε→0 F (x − ε) P (X = x) = F (x) − limε→0 F (x − ε) P (X ≥ x) = 1 − limε→0 F (x − ε) P (X > x) = 1 − F (x) 3.3 Diskret stokastisk variabel, punktsandsynligheder En stokastisk variabel X kaldes diskret, hvis den kun kan tage endeligt eller tællelig mange værdier. I praksis tager diskrete stokastisk variable værdier i mængden {0, 1, 2, . . . }. Punktsand- synlighederne P (X = k) fastlægger X’s fordeling. Om alle A {0, 1, 2, . . . } gælder nemlig P (X ∈ A) = P (X = k) . k∈A Specielt haves regnereglerne k P (X ≤ k) = i=0 P (X = i) ∞ P (X ≥ k) = i=k P (X = i) Punktsandsynligheder illustreres grafisk i et pindediagram: P(X=k) 0,2 0,1 0 2 3 4 5 6 7 3.4 Kontinuert stokastisk variabel, tæthedsfunktion En stokastisk variabel X kaldes kontinuert, hvis den har en tæthedsfunktion f (x). Tætheds- funktionen, som normalt blot kaldes tætheden, opfylder P (X ∈ A) = f (t)dt t∈A for alle A R. Hvis A er et interval [a, b], gælder alts˚ a b P (a ≤ X ≤ b) = f (t)dt . a Download gratis bøger på ventus.dk / BookBooN.com 19
  • 20. Lær Nemt! Statistik Stokastiske variable 3.5 Kontinuert stokastisk variabel, fordelingsfunktion For en kontinuert stokastisk variabel X med tæthed f (x) er fordelingsfunktionen F (x) givet ved x F (x) = f (t)dt . −∞ Fordelingsfunktionen opfylder følgende regneregler: P (X ≤ x) = F (x) P (X ≥ x) = 1 − F (x) P (|X| ≤ x) = F (x) − F (−x) P (|X| ≥ x) = F (−x) + 1 − F (x) 3.6 Uafhængige stokastiske variable To stokastiske variable X og Y kaldes uafhængige, hvis der for alle A, B R gælder, at hæn- delserne X ∈ A og Y ∈ B er uafhængige. P˚ tilsvarende vis defineres uafhængighed af tre eller a flere stokastiske variable. Huskeregel. X og Y er uafhængige, hvis man ikke kan slutte noget om Y ’s værdi ved at kende X’s værdi. E KSEMPEL. Kast en rød terning og en sort terning og betragt de stokastiske variable Som studerende har du fremtiden for dig. Ville det ikke være sejt, hvis du kunne forudsige, hvad der vil ske? Måske kan vi hjælpe. SPSS Inc. er en førende global leverandør af software og Klik på reklamen løsninger inden for predictive analytics — en teknologi, der forbedrer forretningsprocesserne ved at give organisationer forståelse for fremtidige konsekvenser af beslutninger, der træffes i dag og ved at opdage mønstre i data. Hvis du skærper din ekspertise med vores software, forudsiger vi, at det er meget sandsynligt, at du i fremtiden vil få succes i en af de 250.000 organisationer inden for den private, akademiske og offentlige sektor, der anvender SPSS-teknologi. Find ud af mere om, hvordan SPSS Inc. og predictive analytics kan hjælpe dig med at sikre din fremtid på www.spss.dk Download gratis bøger på ventus.dk / BookBooN.com 20
  • 21. Lær Nemt! Statistik Stokastiske variable X: antal øjne af rød terning, Y : antal øjne af sort terning. Z: antal øjne af rød og sort terning lagt sammen. X og Y er uafhængige, da vi ikke kan slutte noget om X ved at kende Y . X og Z er derimod ikke uafhængige, da vi kan slutte noget om X ved at kende Z (hvis fx Z har værdien 10, m˚ X have a en af værdierne 4, 5 og 6). 3.7 Stokastisk vektor, simultan tæthed og fordelingsfunktion Hvis X1 , . . . , Xn er stokastiske variable defineret p˚ samme sandsynlighedsfelt (Ω, P ), kaldes a X = (X1 , . . . , Xn ) en (n-dimensional) stokastisk vektor. Det er en afbildning X : Ω → Rn . Den simultane (n-dimensionale) fordelingsfunktion er funktionen F : Rn → [0, 1] givet ved F(x1 , . . . , xn ) = P (X1 ≤ x1 ∧ · · · ∧ Xn ≤ xn ) . Antag nu at Xi ’erne er kontinuerte. S˚ har X en simultan (n-dimensional) tæthed f : Rn → a [0, ∞[, som opfylder P (X ∈ A) = f (x) dx x∈A for alle A Rn . Xi ’ernes individuelle tætheder fi kaldes marginale tætheder, og de f˚ s fra den a simultane ved formlen f1 (x1 ) = f (x1 , . . . , xn ) dx2 . . . dxn Rn−1 her givet for f1 (x1 ), de øvrige f˚ s p˚ helt tilsvarende vis. a a Huskeregel. De marginale tætheder f˚ s fra den simultane tæthed ved at “integrere de overflødige a variable bort”. Download gratis bøger på ventus.dk / BookBooN.com 21
  • 22. Lær Nemt! Statistik Middelværdi og varians 4 Middelværdi og varians 4.1 Middelværdi af stokastisk variabel Middelværdien af en diskret stokastisk variabel X er defineret som ∞ E(X) = P (X = k) · k . k=1 Middelværdien for en kontinuert stokastisk variabel X med tæthed f (x) defineres som ∞ E(X) = f (x) · x dx . −∞ Ofte bruger man bogstavet μ (’my’) om middelværdien. 4.2 Varians og spredning af stokastisk variabel Variansen af en stokastisk variabel X med middelværdi E(X) = μ er defineret som var(X) = E((X − μ)2 ) . Hvis X er diskret, kan variansen udregnes s˚ ledes: a ∞ var(X) = P (X = k) · (k − μ)2 . k=0 Hvis X er kontinuert med tæthed f (x), kan variansen udregnes s˚ ledes: a ∞ var(X) = f (x)(x − μ)2 dx . −∞ Spredningen σ (’sigma’) af en stokastisk variabel er kvadratroden af variansen. 4.3 Eksempel (udregning af middelværdi, varians og spredning) E KSEMPEL 1. Defin´ r den diskrete stokastiske variabel X som antallet af øjne ved kast med en e terning. Punktsandsynlighederne er P (X = k) = 1/6 for k = 1, 2, 3, 4, 5, 6. Middelværdien er derfor 6 1 1+2+3+4+5+6 E(X) = ·k = = 3,5 . 6 6 k=1 Download gratis bøger på ventus.dk / BookBooN.com 22
  • 23. Lær Nemt! Statistik Middelværdi og varians Variansen er 6 1 (1 − 3,5)2 + (2 − 3,5)2 + · · · + (6 − 3,5)2 var(X) = · (k − 3,5)2 = = 2,917 . 6 6 k=1 Spredningen bliver s˚ a σ= 2,917 = 1,708 . E KSEMPEL 2. Defin´ r den kontinuerte stokastiske variabel X som et tilfældigt reelt tal i intervallet e [0, 1]. X har s˚ tætheden f (x) = 1 p˚ [0, 1]. Middelværdien er a a 1 E(X) = x dx = 0,5 . 0 Variansen er 1 var(X) = (x − 0,5)2 dx = 0,083 . 0 Spredningen er σ= 0,083 = 0,289 . 4.4 Vurdering af middelværdi μ og spredning σ p˚ øjem˚ l a a Hvis man har givet tæthedsfunktionen (eller et pindediagram over punktsandsynlighederne) for en stokastisk variabel, kan man p˚ øjem˚ l vurdere μ og σ. Middelværdien μ er cirka “massemidt- a a punktet” for fordelingen, og spredning σ er s˚ dan, at cirka 2/3 af sandsynlighedsmassen ligger i a intervallet μ ± σ. (x) 0,2 0,1 μ-r μ μ+r 4.5 Additions- og multiplikationsformler for middelværdi og varians Lad X og Y være stokastiske variable. Da gælder E(X + Y ) = E(X) + E(Y ) E(aX) = a · E(X) var(X) = E(X 2 ) − E(X)2 var(aX) = a2 · var(X) var(X + a) = var(X) Download gratis bøger på ventus.dk / BookBooN.com 23
  • 24. Lær Nemt! Statistik Middelværdi og varians for ethvert a ∈ R. Hvis X og Y er uafhængige, gælder desuden E(X · Y ) = E(X) · E(Y ) var(X + Y ) = var(X) + var(Y ) Huskeregel. Middelværdien er additiv. For uafhængige stokastiske variable er middelværdien multiplikativ og variansen additiv. 4.6 Covarians og korrelationskoefficient Covariansen for to stokastiske variable X og Y er tallet Cov(X, Y ) = E((X − EX)(Y − EY )) . Der gælder Cov(X, X) = var(X) Cov(X, Y ) = E(X · Y ) − EX · EY var(X + Y ) = var(X) + var(Y ) + 2 · Cov(X, Y ) Korrelationskoefficienten ρ (’rho’) for X og Y er tallet Cov(X, Y ) ρ= , σ(X) · σ(Y ) hvor σ(X) = var(X) og σ(Y ) = var(Y ) er X’s og Y ’s spredninger. Korrelationskoefficien- ten er et tal i intervallet [−1, 1]. Hvis X og Y er uafhængige, er b˚ de covariansen og ρ lig 0. a Huskeregel. En positiv korrelationskoefficient betyder, at X normalt er stor, n˚ r Y er stor, og om- a vendt. En negativ korrelationskoefficient betyder, at X normalt er lille, n˚ r Y er stor, og omvendt. a E KSEMPEL. Der kastes en rød og en sort terning. Betragt de stokastiske variable X: antal øjne af rød terning, Y : antal øjne af rød og sort terning lagt sammen. Hvis X er stor, vil Y normalt ogs˚ være stor, og omvendt. Vi forventer derfor en positiv korrela- a tionskoefficient. Mere præcist udregnes E(X) = 3,5 E(Y ) = 7 E(X · Y ) = 27,42 σ(X) = 1,71 σ(Y ) = 2,42 Covariansen er derfor Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 27,42 − 3,5 · 7 = 2,92 Korrelationskoefficienten bliver som forventet et positivt tal: Cov(X, Y ) 2,92 ρ= = = 0,71 . σ(X) · σ(Y ) 1,71 · 2,42 Download gratis bøger på ventus.dk / BookBooN.com 24
  • 25. Lær Nemt! Statistik Middelværdi og varians 5 De store tals lov 5.1 Chebyshev’s ulighed For en stokastisk variabel X med middelværdi μ og varians σ 2 gælder Chebyshev’s ulighed σ2 P (|X − μ| ≥ a) ≤ a2 for ethvert a > 0. 5.2 De store tals lov Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling, og lad μ være den fælles middelværdi. Indfør betegnelsen Sn for summerne Sn = X 1 + · · · + X n . De store tals lov siger da Sn P −μ >ε → 0 for n → ∞ n for ethvert ε > 0. Sagt i ord: Gennemsnittet af en stikprøve fra en given fordeling konvergerer mod fordelingens middelværdi, n˚ r stikprøvens størrelse n g˚ r mod ∞. a a 5.3 Den centrale grænseværdisætning Betragt en følge X1 , X2 , X3 , . . . af uafhængige stokastiske variable med samme fordeling. Lad μ være den fælles middelværdi og σ 2 den fælles varians. Det antages, at σ 2 er positiv. Indfør betegnelsen Sn for de normerede summer X1 + · · · + Xn − nμ Sn = √ . σ n Ved “normeret” forst˚ s, at Sn ’erne har middelværdi 0 og varians 1. Den centrale grænseværdi- a sætning siger da P (Sn ≤ x) → Φ(x) for n → ∞ for alle x ∈ R, hvor Φ er fordelingsfunktionen for standardnormalfordelingen (se afsnit 15.4) 1 x 1 − t2 Φ(x) = √ e 2 dt . −∞ 2π Fordelingsfunktionen for de normerede summer Sn konvergerer alts˚ mod Φ, n˚ r n g˚ r mod ∞. a a a Dette er et ganske fantastisk resultat og sandsynlighedsregningens absolutte klimaks! Det overraskende er, at de normerede summers grænsefordeling er uafhængig af Xi ’ernes fordeling. Download gratis bøger på ventus.dk / BookBooN.com 25
  • 26. Lær Nemt! Statistik De store tals lov 5.4 Eksempel (fordelingsfunktionen konvergerer mod Φ) Betragt en følge af uafhængige stokastiske variable X1 , X2 , . . . , der alle har punktsandsynlighe- derne 1 P (Xi = 0) = P (Xi = 1) = . 2 Summerne Sn = X1 + · · · + Xn er binomialfordelte middelværdi μ = n/2 og varians σ 2 = n/4. De normerede summer bliver dermed X1 + · · · + Xn − μ/2 Sn = √ . n/2 Fordelingen af Sn er givet ved fordelingsfunktionen Fn . Den centrale grænseværdisætning siger, at Fn konvergerer mod Φ for n → ∞. Nedenst˚ ende figur viser Fn sammen med Φ for n = a 1, 2, 10, 100. Det er et øjeblik af overordentlig skønhed, n˚ r man betragter Fn ’erne falde til føje a og nærme sig Φ: Download gratis bøger på ventus.dk / BookBooN.com 26
  • 27. Lær Nemt! Statistik Beskrivende statistik 6 Beskrivende statistik 6.1 Median og kvartiler Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes median x(0,5) som den “midterste observation”. Mere præcist er x(n+1)/2 hvis n ulige x(0,5) = (xn/2 + xn/2+1 )/2 hvis n lige idet man ordner observationer efter størrelse s˚ ledes: a x1 ≤ x2 ≤ · · · ≤ xn . P˚ tilsvarende vis defineres observationernes nedre kvartil x(0,25) s˚ ledes, at 25% af obser- a a vationerne ligger under x(0,25), og observationernes øvre kvartil x(0,75) s˚ ledes, at 75% af a observationerne ligger under x(0,75). Kvartilafstanden er afstanden mellem x(0,25) og x(0,75), alts˚ x(0,75) − x(0,25). a 6.2 Gennemsnit Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes gennemsnit som n xi x = i=1 ¯ n 6.3 Empirisk varians og empirisk spredning Antag der foreligger n observationer x1 , . . . , xn . Man definerer da observationernes empiriske varians som n (xi − x)2 ¯ s2 = i=1 . n−1 Den empiriske spredning er kvadratroden af den empiriske varians: n i=1 (xi − x)2 ¯ s= . n−1 Jo større den empiriske spredning s er, des mere “spredt” ligger observationerne omkring gen- ¯ nemsnittet x. Download gratis bøger på ventus.dk / BookBooN.com 27
  • 28. Lær Nemt! Statistik Beskrivende statistik 6.4 Empirisk covarians og empirisk korrelationskoefficient Antag der foreligger n observationspar (x1 , y1 ), . . . , (xn , yn ). Man definerer da observationernes empiriske covarians som n i=1 (xi − x)(yi − y ) ¯ ¯ Covemp = . n−1 En alternativ m˚ de at udregne Covemp er ved a n − n¯y i=1 xi yi x¯ Covemp = . n−1 Den empiriske korrelationskoefficient er empirisk covarians Covemp r= = . (x’ernes empiriske spredning)(y’ernes empiriske spredning) sx sy Den empiriske korrelationskoefficient r ligger altid i intervallet [−1, 1]. Fortolkning af den empiriske korrelationskoefficient. Hvis x-observationerne er uafhængige af y-observationerne, ligger r tæt p˚ 0. Hvis x-observationerne og y-observationerne afhænger a p˚ den m˚ de, at store x’er oftest svarer til store y’er og omvendt, ligger r tæt p˚ 1. Hvis x’erne a a a og y’erne afhænger af hinanden p˚ den m˚ de, at store x’er oftest svarer til sm˚ y’er og omvendt, a a a ligger r tæt p˚ –1. a r C ard ghed este ild uli kær m B Wdig øge ed DS er s tm iv at be nde t g r ba Klik på reklamen fo ele la ra % ih 0 til 5 op Få op til 50% rabat på din togrejse i Danmark, 25% på salgsvognen og 25% på togrejser til udlandet, plus en lang række klubfordele. 16-26 år eller på SU? Køb kortet nu! Det er billigst på dsb.dk/wildcard Download gratis bøger på ventus.dk / BookBooN.com 28
  • 29. Lær Nemt! Statistik Statistisk testteori 7 Statistisk testteori 7.1 Nulhypotese og alternativ hypotese Et statistisk test er en procedure, der fører til enten accept eller forkastelse af en p˚ forh˚ nd givet a a nulhypotese H0 . Nogle gange testes H0 mod en eksplicit alternativ hypotese H1 . Til grund for testet ligger en eller flere observationer. Nulhypotesen (og den eventuelle alter- native hypotese) drejer sig om, hvilken fordeling observationerne stammer fra. 7.2 Signifikanssandsynlighed og signifikansniveau Man udregner nu signifikanssandsynligheden P , som er sandsynligheden – givet at H0 er sand – for at f˚ lige s˚ ekstreme eller mere ekstreme observationer, end de foreliggende. Jo mindre P a a er, des mindre plausibel er H0 . Ofte vælger man p˚ forh˚ nd et signifikansniveau α, typisk α = 5%. Man forkaster s˚ H0 , a a a hvis P er mindre end α (man siger “H0 forkastes p˚ signifikansniveau α”). Hvis P er større and a α, accepteres H0 (man siger “H0 accepteres eller opretholdes p˚ signifikansniveau α” eller “H0 a kan ikke forkastes p˚ signifikansniveau α”). a 7.3 Fejl af type I og II Man taler om fejl af type I, hvis man forkaster en sand nulhypotese. Hvis signifikansniveauet er α, er risikoen for en fejl af type I højst α. Man taler om fejl af type II, hvis man accepterer en falsk nulhypotese. Testets styrke er sandsynligheden for at forkaste H0 , hvis H1 er sand. Jo større styrken er, des mindre er risikoen for en fejl af type II. 7.4 Eksempel Antag at vi vil undersøge, om en bestemt terning er ægte. Ved “ægte” forst˚ s, at sandsynligheden a p for at f˚ en sekser er 1/6. Vi tester nulhypotesen a 1 H0 : p = (terningen er ægte) 6 mod den alternative hypotese 1 H1 : p > (terningen er falsk) 6 Observationerne, der ligger til grund for testet, er følgende 10 slag med terningen: 2, 6, 3, 6, 5, 2, 6, 6, 4, 6 Lad os p˚ forh˚ nd lægge os fast p˚ signifikansniveauet α = 5%. Nu beregnes signifikanssand- a a a synligheden P . Ved “ekstreme” observationer skal forst˚ s, at der er mange seksere. P er alts˚ a a sandsynligheden for at f˚ mindst 5 seksere i 10 slag med en ærlig terning. Vi udregner a 10 10 P = (1/6)k (5/6)10−k = 0,015 k k=5 (se afsnit 8 om binomialfordelingen). Da P = 1,5% er mindre end α = 5%, forkaster vi H0 . Hvis terningen i virkeligheden var ægte, ville sandsynligheden for at beg˚ en fejl af type I være 1,5%. a Download gratis bøger på ventus.dk / BookBooN.com 29
  • 30. Lær Nemt! Statistik Binominalfordeligen Bin(n, p) 8 Binomialfordelingen Bin(n, p) 8.1 Parametre n: antalsparameter (antal forsøg) p: sandsynlighedsparameter (successandsynlighed) I formlerne bruger vi ogs˚ “fiaskosandsynligheden” q = 1 − p. a 8.2 Beskrivelse Der udføres n uafhængige forsøg, der hver resulterer i enten succes eller fiasko. I hvert forsøg er successandsynligheden den samme, nemlig p. Det totale antal succeser X er da binomialfordelt, og man skriver X ∼ Bin(n, p). X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1, . . . , n}. 8.3 Punktsandsynligheder For k ∈ {0, 1, . . . , n} er punktsandsynlighederne i en Bin(n, p)-fordeling n P (X = k) = · pk · q n−k . k n Se afsnit 2.5 vedrørende binomialkoefficienterne . k E KSEMPEL . Hvis man kaster en terning 20 gange, vil det samlede antal 6’ere X være binomial- fordelt med antalsparameter 20 og sandsynlighedsparameter 1/6. Vi kan opskrive punktsandsyn- lighederne P (X = k) og de kumulerede sandsynligheder P (X ≥ k) i et skema (i procent) k 0 1 2 3 4 5 6 7 8 9 P (X = k) 2,6 10,4 19,8 23,8 20,2 12,9 6,5 2,6 0,8 0,2 P (X ≥ k) 100 97,4 87,0 67,1 43,3 23,1 10,2 3,7 1,1 0,3 8.4 Middelværdi og varians Middelværdi: E(X) = np. Varians: var(X) = npq. Download gratis bøger på ventus.dk / BookBooN.com 30
  • 31. Lær Nemt! Statistik Binominalfordeligen Bin(n, p) 8.5 Signifikanssandsynligheden for test i binomialfordelingen Der udføres n uafhængige forsøg med samme successandsynlighed p, og antallet k af succeser tælles. Vi vil teste nulhypotesen H0 : p = p0 mod en alternativ hypotese H1 . H0 H1 Signifikanssandsynlighed p = p0 p > p0 P (X ≥ k) p = p0 p < p0 P (X ≤ k) p = p0 p = p0 l P (X = l) hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k). E KSEMPEL . Et firma køber en maskine, der kan fremstille mikrochips. Producenten af maskinen hævder, at højst 1/6 af de fremstillede chips vil være defekte. Den første dag fremstiller maskinen 20 chips, af hvilke 6 er defekte. Kan firmaet p˚ denne baggrund forkaste producentens p˚ stand? a a S VAR . Vi tester nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6. Signifikanssandsynligheden beregnes til P (X ≥ 6) = 10,2% (se se fx tabellen i afsnit 8.3). Firmaet kan alts˚ ikke forkaste producentens p˚ stand p˚ 5-procentsniveau. a a a 8.6 Normalapproksimationen til binomialfordelingen Hvis antalsparameteren (antallet af forsøg) n er stor, vil en binomialfordelt stokastisk variabel X √ cirka være normalfordelt med middelværdi μ = np og spredning σ = npq. Punktsandsynlighe- FÅ HELE VERDEN SOM DIN ARBEJDSPLADS! Vil du være blandt verdens førende shippingfolk? Det Blå Danmark, eller det danske mari- time erhverv, kan tilbyde dig en shippinguddannelse af høj international standard. Danske rederier og shippingvirksomheder er førende inden for de mest avanacerede segmenter af Klik på reklamen den globale søfart og flytter dagligt 10 procent af al verdens handel til søs. Hvis du har mod på en international karriere, så gå ind på www.worldcareers.dk og find ud af, hvordan DU kan få hele verden som din arbejdsplads. Få verden som arbejdsplads: www.worldcareers.dk Download gratis bøger på ventus.dk / BookBooN.com 31
  • 32. Lær Nemt! Statistik Binominalfordeligen Bin(n, p) derne er derfor k − np 1 P (X = k) ≈ ϕ √ ·√ , npq npq hvor ϕ er tætheden for standardnormalfordelingen, og halesandsynlighederne er ⎛ ⎞ 1 k + − np ⎜ ⎟ P (X ≤ k) ≈ Φ ⎝ √2 ⎠ npq ⎛ ⎞ 1 k − − np ⎜ ⎟ P (X ≥ k) ≈ 1 − Φ ⎝ √2 ⎠ npq hvor Φ er fordelingsfunktionen for standardnormalfordelingen (Tabel C.2). Tommelfingerregel. Man kan bruge approksimationen, hvis np og nq begge er større end 5. E KSEMPEL (fortsættelse af eksemplet i afsnit 8.5). Efter 2 uger har maskinen fremstillet 200 chips, af hvilke 46 er defekte. Kan firmaet nu forkaste producentens p˚ stand, om at sandsynligheden for a defekt er højst 1/6? S VAR. Vi tester atter nulhypotesen H0 : p = 1/6 mod den alternative hypotese H1 : p > 1/6. Da nu np ≈ 33 og nq ≈ 167 begge er større end 5, kan vi bruge normalapproksimationen til at finde signifikanssandsynligheden: ⎛ ⎞ 1 46 − − 33,3 ⎜ ⎟ P (X ≥ 46) ≈ 1 − Φ ⎝ √2 ⎠ ≈ 1 − Φ(2,3) ≈ 1,1% 27,8 Firmaet kan alts˚ nu forkaste producentens p˚ stand p˚ 5-procentsniveau. a a a 8.7 Estimatorer Antag k er en observation fra en stokastisk variabel X ∼ Bin(n, p) med kendt n og ukendt p. Maksimum likelihood-estimatet (ML-estimatet) p˚ p er a k p= ˆ . n Denne estimator er middelret (dvs. estimatorens middelværdi er p) og har variansen pq var(ˆ) = p . n Udtrykket for variansen har ikke den store praktiske værdi, da det afhænger af den sande (ukendte) ˆ a sandsynlighedsparameter p. Hvis man imidlertid indsætter den estimerede værdi p p˚ p’s plads, f˚ r man den estimerede varians a p(1 − p) ˆ ˆ . n Download gratis bøger på ventus.dk / BookBooN.com 32
  • 33. Lær Nemt! Statistik Binominalfordeligen Bin(n, p) E KSEMPEL. Vi betragter atter eksemplet med maskinen, der har fremstillet 20 mikrochips, af hvilke de 6 er defekte. Hvad er maksimum likelihood-estimatet p˚ sandsynlighedsparameteren? a Hvad er dennes estimerede varians? S VAR. Maksimum likelihood-estimatet er 6 p= ˆ = 30% 20 aˆ variansen p˚ p estimeres til 0,3 · (1 − 0,3) = 0,0105 . 20 √ Spredningen estimeres dermed til 0,0105 ≈ 0,10. Hvis vi g˚ r ud fra, at p ligger inden for 2 a ˆ spredninger fra p, vil p alts˚ ligge mellem 10% og 50%. a 8.8 Konfidensintervaller Antag k er en observation fra en binomialfordelt stokastisk variabel X ∼ Bin(n, p) med kendt n og ukendt p. Konfidensintervallet med konfidensgrad 1 − α omkring punktestimatet p = k/n er ˆ p(1 − p) ˆ ˆ p(1 − p) ˆ ˆ p − u1−α/2 ˆ , p + u1−α/2 ˆ . n n Løst sagt ligger den sande værdi p i konfidensintervallet med sandsynligheden 1 − α. Tallet u1−α/2 er fastlagt ved Φ(u1−α/2 ) = 1 − α/2, hvor Φ er fordelingsfunktionen for stan- dardnormalfordelingen. Det fremg˚ r fx af Tabel C.2, at for konfidensgrad 95% er a u1−α/2 = u0,975 = 1,96 . ˚ O PGAVE. I en Gallup-undersøgelse i ar 2012 svarer 62 ud af 100 adspurgte, at de vil stemme p˚ a Enhedslisten ved næste valg. Bestem konfidensintervallet med konfidensgrad 95% om den sande procentdel af Enhedslistevælgere, og omsæt procenterne til mandattal. S VAR. Punktestimatet er p = 62/100 = 0,62. Da konfidensgraden skal være 95%, skal α = 0,05. ˆ Tabelopslag giver u0,975 = 1,96. Man f˚ r a 0,62 · 0,38 1,96 = 0,095 . 100 Konfidensintervallet bliver dermed [0,525 , 0,715] . Vi kan alts˚ sige med 95 procents sikkerhed, at mellem 52,5% og 71,5% vil stemme p˚ Enhedsli- a a sten, hvilket vil give mellem 94 og 128 af folketingets 179 mandater. Download gratis bøger på ventus.dk / BookBooN.com 33
  • 34. Lær Nemt! Statistik Poissonfordelingen Pois(λ) 9 Poissonfordelingen Pois(λ) 9.1 Parametre λ: Intensiteten 9.2 Beskrivelse Visse begivenheder siges at forekomme spontant, dvs. de finder sted p˚ tilfældige tidspunkter, men a med en vis konstant intensitet λ. Intensiteten λ er det gennemsnitlige antal spontane begivenheder pr. tidsinterval. Antallet af spontane begivenheder X i et konkret tidsinterval er da Poissonfordelt, og man skriver X ∼ Pois(λ). X er en diskret stokastisk variabel og kan tage værdier i mængden {0, 1, 2, 3, . . . }. 9.3 Punktsandsynligheder For k ∈ {0, 1, 2, 3 . . . } er punktsandsynlighederne i en Pois(λ)-fordeling λk P (X = k) = exp(−λ) . k! Der mindes om konventionen 0! = 1. E KSEMPEL . I en vis butik kommer der i gennemsnit 3 kunder pr. minut. Antallet af kunder X, der Klik på reklamen Download gratis bøger på ventus.dk / BookBooN.com 34
  • 35. Lær Nemt! Statistik Poissonfordelingen Pois(λ) kommer i løbet af et konkret minut, er da Poissonfordelt med intensitet λ = 3. Punktsandsynlig- hederne kan opskrives i procent i et skema: k 0 1 2 3 4 5 6 7 8 9 ≥ 10 P (X = k) 5,0 14,9 22,4 22,4 16,8 10,1 5,0 2,2 0,8 0,3 0,1 9.4 Middelværdi og varians Middelværdi: E(X) = λ. Varians: var(X) = λ. 9.5 Additionsformel Antag at X1 , . . . , Xn er uafhængige Poissonfordelte stokastiske variable. Lad λi være intensiteten af Xi , alts˚ Xi ∼ Pois(λi ). S˚ er summen a a X = X1 + · · · + Xn Poissonfordelt med intensitet λ = λ 1 + · · · + λn , alts˚ X ∼ Pois(λ). a 9.6 Signifikanssandsynligheder for test i Poissonfordelingen Antag at k er en observatione fra en Pois(λ)-fordeling med ukendt intensitet λ. Vi vil teste nul- hypotesen H0 : λ = λ0 mod en alternativ hypotese H1 . H0 H1 Signifikanssandsynlighed λ = λ0 λ > λ0 P (X ≥ k) λ = λ0 λ < λ0 P (X ≤ k) λ = λ0 λ = λ0 l P (X = l) hvor der i sidste linje summeres over alle de l, for hvilke P (X = l) ≤ P (X = k). Hvis man har givet n uafhængige observationer k1 , . . . , kn fra en Pois(λ)-fordeling, kan man udnytte, at summen k = k1 + · · · + kn er en observation fra en Pois(n · λ)-fordeling. 9.7 Eksempel (signifikant stigning af salg af Skodaer) O PGAVE. En forhandler af Skoda-automobiler sælger i gennemsnit 3,5 biler om m˚ neden. M˚ neden a a efter et reklamefremstød for Skoda sælges 7 biler. Er dette en signifikant stigning? S VAR. Salget af biler den givne m˚ ned kan med rimelighed antages at være Poissonfordelt med a en vis intensitet λ. Vi tester nulhypotesen H0 : λ = 3,5 Download gratis bøger på ventus.dk / BookBooN.com 35