SlideShare a Scribd company logo
1 of 30
Download to read offline
Note di Statistica e Calcolo della probabilità




                                             DATI e PREVISIONI

           Note di base sulla Statistica e Calcolo della probabilità




              1° Incontro: Statistica descrittiva e Indici statistici




                                                                 Enrico Smargiassi




Bologna, 7 Febbraio 2013                                                             1
Note di Statistica e Calcolo della probabilità




STATISTICA

Inizialmente (storicamente) la statistica si occupava della raccolta di dati demografici ed
economici per uso dello Stato.

Quindi si è sviluppata in un metodo scientifico di analisi: elabora ed interpreta dati
sperimentali.

Ora è applicato a molte scienze, sociali, naturali, mediche, ingegneristiche, fisiche ed è
uno dei rami più importanti della matematica.

Parole chiavi: dati, previsioni.

Come esempio di indagine statistica si consideri il classico problema:
                  Come vota una popolazione ?
                  Qual è la percentuale della popolazione che voterà una lista?

1° metodo
Chiedere a ciascun votante di esprimere il voto e quindi elaborare tutti i dati (simile al
                                                                                                 DATI
censimento ISTAT)  Statistica descrittiva

2° metodo
Effettuare un sondaggio (exit poll), cioè selezionare un campione di votanti (solitamente
qualche migliaio), chiedere una intenzione di voto, interpretare i dati e stimare quanto
essi siano realistici, cioè corrispondano alla realtà dell’intera popolazione  Statistica
inferenziale.
Campioni diversi conducono spesso a risultati diversi. Ciò significa che ogni risultato
                                                                                                 PREVI
dell’indagine statistica di tipo inferenziale possiede un grado di incertezza e un grado di
                                                                                                 SIONI
fiducia sulla bontà del risultato stesso (corrispondenza con la realtà della popolazione).
In termini tecnici: il risultato di una statistica inferenziale è una variabile casuale la cui
trattazione scientifica (matematica) deve avvenire tramite la Teoria del Calcolo delle
Probabilità.

Questo esempio ci fa capire che la statistica si occupa
  ▪ dello studio (di alcune caratteristiche) delle popolazioni, intese come oggetti a se,
  ▪ dello studio della variazione fra gli individui della popolazione rispetto alle
      caratteristiche sotto analisi,
  ▪ dello studio dei metodi di riduzione dei dati (solitamente numerosi).

Una popolazione è un qualunque insieme di elementi che possano esprimere, in una
forma qualsiasi, la/e caratteristica/e oggetto dello studio.

Abbiamo visto che si distingue tra statistica descrittiva e statistica inferenziale.



Bologna, 7 Febbraio 2013                                                                 2
Note di Statistica e Calcolo della probabilità



La statistica descrittiva si occupa dell'analisi dei dati osservati, prescindendo sia da
qualsiasi modello probabilistico o teorico che descriva il fenomeno in esame e sia dal
fatto che l'insieme dei dati sia un campione estratto da una popolazione più vasta o sia
invece l'intera popolazione.
Lo scopo principale è quello di ridurre il volume dei dati osservati, esprimendo
l'informazione rilevante per mezzo di grafici e di indicatori numerici che li descrivono.
La statistica descrittiva include anche mezzi per fare indagini di tipo comparativo e
verificare l’adattamento di dati sperimentali ad un certo modello teorico.

La statistica inferenziale ci permette invece di fare proposizioni sulla popolazione
complessiva, a partire dall'indagine su un campione estratto.
Queste proposizioni non sono asserzioni perentorie, ma sono dotate di un certo grado di
fiducia nella loro certezza e per questo sono formulate con i metodi, precisi e quantitativi,
del calcolo delle probabilità.

Il contatto tra statistica e probabilità appare quindi doppio: da un lato c’è l’aleatorietà
con cui ogni individuo esprime la caratteristica (o carattere) sotto osservazione e dall’altro
c’è l’incertezza nel selezionare un campione rappresentativo dell’intera popolazione.




LA STATISTICA DESCRITTIVA


Termini e definizioni

Dati      di un campione o di una popolazione (non distinguiamo più)
         risultati di un carattere (o grandezza o variabile ) osservabile ed osservato
            (non necessariamente misurabile in senso stretto)

Raccolta dati
     Paradigmi: misurazioni e misure, esperimenti ed esiti, osservazioni e risultati, …

Dati grezzi
       Dati disordinati

Tipi di dati
    ▪ Qualitativi (es. gruppo sanguigno: 0, A, B, AB)
    ▪ Quantitativi (es, peso)  carattere numerico
In realtà la distinzione tra carattere quantitativo e qualitativo sta nel fatto che su dati
qualitativi non si può “operare aritmeticamente” (A+B = ?), e non perché gli uni sono
numerici e gli altri non (si può sempre assegnare un codice numerico al gruppo
sanguigno: 0, 1, 2, 3).



Bologna, 7 Febbraio 2013                                                                  3
Note di Statistica e Calcolo della probabilità



Un carattere quantitativo può essere discreto (es. numero di figli) o continuo (es. altezze
individui), dove discreto significa che i valori che quel carattere può assumere a priori è in
numero finito o numerabile (corrispondenza biunivoca con N), mentre continuo indica
che l’insieme dei valori assumibili costituiscono un intervallo di R.
Si sottolinea che per decidere la natura di un carattere è necessario considerare l’insieme
di tutti i valori possibili con cui si può esprime quel carattere in una osservazione e non
quelli effettivamente assunti che sono sempre in numero finito.

Un carattere qualitativo è sempre discreto.

Si dice modalità di un carattere ogni valore che può assumere una variabile discreta in
una osservazione (o esperimento).

Campione di dati
L’insieme dei valori ottenuti in un insieme di osservazioni o esperimenti di un carattere
(non si usa la parola serie o sequenza perché non deve esserci un ordine stabilito)

n è la cardinalità del campione.


Aggregare i dati

Se il carattere osservato è discreto e ha k modalità di presentarsi con k << n è efficace
aggregare i dati partendo appunto dalle modalità e determinandone le frequenze (di
presentazione o di uscita):

frequenza assoluta 
      Distribuzione delle frequenze assolute 

frequenza relativa 
         Distribuzione delle frequenze relative 

frequenza percentuale 
      Distribuzione delle frequenze percentuali 

Ovviamente




Bologna, 7 Febbraio 2013                                                               4
Note di Statistica e Calcolo della probabilità



Se il carattere è quantitativo e continuo non si può parlare di frequenza di una specifica
modalità del carattere, poiché di modalità c’è ne sono infinite.

Si introduce quindi il concetto di classe che sostituisce quello di modalità e rispetto al
quale si aggregano i dati.

Se consideriamo un intervallo I che include il nostro campione di dati:
con I che può essere limitato o illimitato, chiuso o (semi)aperto
  (da valutare caso per caso)
Possiamo dividerlo in classi, cioè una famiglia di sottoinsiemi   che costituisca una
partizione di I, cioè:




Le classi spesso hanno la stessa ampiezza, nel caso di intervallo limitato, ma non è la
regola.

Le classi svolgono in questo caso lo stesso ruolo delle modalità del caso discreto rispetto
alle quali si può costruire le distribuzioni di frequenze:

frequenza assoluta della classe 

         Distribuzione delle frequenze assolute 

frequenza relativa della classe 
         Distribuzione delle frequenze relative 

frequenza percentuale della classe 
      Distribuzione delle frequenze percentuali 

Vediamo ora alcuni esempi esplicativi in cui costruiremo la tabella di distribuzione di
frequenza e rappresenteremo tali distribuzione con metodi grafici.




Bologna, 7 Febbraio 2013                                                                5
Note di Statistica e Calcolo della probabilità




Primi esempi di aggregazione. Rappresentazione dei dati

 ESEMPIO 1
 Carattere osservato  tempo di attesa (in mesi) per eseguire un esame clinico

 Campione di dati 



 Cardinalità  n = 40

 Tipo di dato  quantitativo discreto

 Insieme delle modalità                                                    k=7



 Costruiamo la tabella delle distribuzioni di frequenze

             Modalità               Frequenza            Frequenza     Frequenza
             carattere               assoluta              relativa   percentuale
              (mesi)                    Ni                     fi          f% i
                 1                      1                                 2.5 %               Frequenza assoluta (Ni)
                   2                         5                          12.5 %          14
                   3                     10                             25.0 %          12
                   4                     12                             30.0 %          10
                   5                         7                          17.5 %           8
                   6                         4                          10.0 %
                                                                                         6
                   7                         1                           2.5 %
                                                                                         4
                 Totale                  40                  1          100 %
                                                                                         2
                                                                                         0
           Metodo grafico  DIAGRAMMA A BARRE                                               1      2     3     4   5       6   7
                           ISTOGRAMMA                                                              tempo attesa (mesi)
           (disegnato o costruito con fogli elettronici )


             Tempo attesa (mesi)                                                         non
                                                                                         necessariamente in
             1        2   3     4        5       6   7                                   scala
                                                                         Modalità del
                               11                                        carattere


                          4          5                                                           Curva (o
                                                                                                 poligono) di
                                                                                                 frequenza
                  7
                                             10

                          12                                       DIAGRAMMA CIRCOLARE  Metodo grafico

            Frequenza assoluta

Bologna, 7 Febbraio 2013                                                                                                6
Note di Statistica e Calcolo della probabilità




                     frequenza relativa fi                            frequenza percentuale f% i
  0,35                                                      35,0
   0,3                                                      30,0
  0,25                                                      25,0
   0,2                                                      20,0
  0,15                                                      15,0
   0,1                                                      10,0
  0,05                                                        5,0

      0                                                       0,0
             1          2     3     4        5      6                 1   2      3       4   5      6   7
                        tempo attesa (mesi)                                   tempo atteso (mesi)



Sullo stesso diagramma si può accostare (con colore diverso) i dati dello stesso carattere
presi su una diversa popolazione o un diverso campione della stessa popolazione.
(nell’esempio dati provenienti da Comuni diversi)



                                        frequenza relativa
  0,35

    0,3

  0,25

    0,2
                                                                                                 Comune A
  0,15
                                                                                                 Comune B
    0,1                                                                                          Comune C

  0,05

      0
                 1           2          3           4             5       6          7
                                            tempo attesa (mesi)




Bologna, 7 Febbraio 2013                                                                                    7
Note di Statistica e Calcolo della probabilità




ESEMPIO 2
Carattere osservato  tipo di guasto (malfunzionamento) di una macchina utensile. I dati si
riferiscono ad un periodo di un mese

Campione di dati 
                                           Fluttuazioni di tensione               6
                                           Instabilità del sistema di controllo   22
                                           Errore operatore                       13
                                           Strumento usurato e non sostituito     2
                                           Altre cause                            5
                                           Totale                                 48


Cardinalità  n = 48

Tipo di dato  qualitativo (discreto)


Insieme delle modalità                                                                   k=5



Costruiamo la tabella delle distribuzioni di frequenze

           Modalità         Frequenza         Frequenza         Frequenza
           carattere         assoluta           relativa       percentuale
            (guasto)            Ni                  fi              f% i
          Fluttuazioni          6                                 12.5 %

           Instabilità          20                                41.6 %

          Operatore             13                                27.1 %

           Strumento             4                                8.4 %

              Altro              5                                10.4 %

             Totale             48                1               100 %



                                         frequenza relativa fi
  0,45
   0,4
  0,35
   0,3
                                                                                           L’ordine è
  0,25
                                                                                           arbitrario,
   0,2                                                                                     ma si
  0,15                                                                                     centra
   0,1
  0,05
     0
             fluttuazioni       instabilità        operatore          strumento   altro
                                          Tipo di guasto nel mese ...




Bologna, 7 Febbraio 2013                                                                            8
Note di Statistica e Calcolo della probabilità




  ESEMPIO 3
  Carattere osservato  quantità giornaliera (in g) di gas inquinante prodotto da un
  impianto industriale (quantità di gas emesso/giorno)

  Campione di dati 

             15.8      26.4     17.3      11.2   23.9   24.8   18.7   13.9   9.0    13.2   22.7   9.8
             6.2       14.7     17.5      26.1   12.8   28.6   17.6   23.7   26.8   22.7   18.0   20.5
             11.0      20.9     15.5      19.4   16.7   10.7   19.1   15.2   22.9   26.6   20.4   21.4
             19.2      21.6     16.9      19.0   18.5   23.0   24.6   20.1   16.2   18.0   7.7    13.5
             23.5      14.5     14.4      29.6   19.4   17.0   20.8   24.3   22.5   24.6   18.4   18.1
             8.3       21.9     12.3      22.3   13.3   11.8   19.3   20.0   25.7   31.8   25.9   10.5
             15.9      27.5     18.1      17.9   9.4    24.1   20.1   28.5




  Cardinalità  n = 80

  Tipo di dato  quantitativo continuo

  Non lavoriamo con le modalità ma con le classi.

  Ma quanti classi?


La scelta del numero delle classi è importante per mettere in evidenza le modalità del
carattere osservato.
Il numero delle classi deve essere adeguato, ne piccolo ne grande rispetto alla
numerosità del campione. Se le classi sono troppe, in ogni classe ci
sarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendovi
concentrati molti elementi, potrebbe sfuggirci la globalità della distribuzione. In
genere il numero delle classi `e compreso fra 5 e 20.

Vi sono delle regole, più o meno empiriche,quali:
    ▪
    ▪                                  (regola di Sturges)


Ogni classe (intervallo) avrà una ampiezza. Sebbene non necessariamente, ma è
solitamente conveniente che ogni classe abbia la stessa ampiezza.


  Nell’esempio 3, il numero di dati è n = 80.

  Il range di variabilità del campione è:

  Scegliamo l’intervallo che include il campione di dati:




Bologna, 7 Febbraio 2013                                                                           9
Note di Statistica e Calcolo della probabilità




  Scegliamo il numero di classi:
       ▪                                              ▪
  Definiamo che k = 8

  Ogni classe avrà una ampiezza:


  Possiamo costruire la tabelle delle distribuzioni delle frequenze:

                  Classe                 Frequenza          Frequenza               Frequenza
                    Ik                    assoluta            relativa             percentuale
                                             Nk                   fk                     f% k
               6.2  x < 9.125               4                                        5.000 %

             9.125  x < 12.050              7                                       8.625 %

            12.050  x < 14.975              9                                      11.250 %

            14.975  x < 17.900             11                                      13.750 %

            17.900  x < 20.825             20                                      25.000 %

            20.825  x < 23.750             12                                      15.000 %

            23.750  x < 26.675             11                                      13.750 %

                 x  26.675                  6                                       7.500 %

                   Totale                   80                     1                 100 %



                                              frequenza percentuale f% i
    30,00

    25,00

    20,00

    15,00

    10,00

     5,00

     0,00
               [6.2 ;         [9.125 ;    [12.050 ;    [14.975 ,       [17.900 ;    [20.825 ;    [23.750 ;   [26.675;
               9.125[         12.050[      14.975[      17.900[         20.825[      23.750[      26.675[      +oo[
                                                      gas emesso/giorno (g)




Bologna, 7 Febbraio 2013                                                                                                10
Note di Statistica e Calcolo della probabilità



  OSSERVAZIONE
  La tecnica di aggregare i dati in classi è talvolta utile ed efficace anche nel caso di
  un campione di dati relativi ad un carattere quantitativo discreto.




Distribuzione della frequenza cumulativa (relativa). Altro modo di aggregare

Oltre alle distribuzione delle frequenze già viste si può aggregare i dati di un campione
costruendo la distribuzione della frequenza cumulativa.

La frequenza cumulativa si costruisce a partire dalla distribuzione di frequenza (assoluta, o
relativa o percentuale) e si può applicare alle sole grandezze quantitative sia discrete
che continue.

Per frequenza cumulativa di una modalità (o classi) si intende la somma delle frequenze
associate a tutte le modalità (o classi) di valore inferiore o uguale alla modalità
d’interesse.
Se si ordina in senso crescente le modalità di un campione



Allo stesso modo si può usare la frequenza assoluta o percentuale.


   ESEMPIO 4
   Carattere osservato  peso di studentesse di una scuola (in kg)
   Campione di dati 
                                         48   50   51   52   52   53   53   54   54   55
                                         55   55   56   56   56   56   57   57   57   57
                                         58   58   58   58   58   59   59   59   59   59
                                         59   60   60   60   60   60   61   61   61   61
                                         62   62   62   63   63   64   66   66   67   68

   (i dati sono stati ordinati in senso crescente)

   Cardinalità  n = 50

   Tipo di dato  quantitativo continuo




Bologna, 7 Febbraio 2013                                                                   11
Note di Statistica e Calcolo della probabilità




  Costruiamo la tabelle delle distribuzioni di frequenze, ma prima aggreghiamo i dati
  per classi.
  Il campo di variazione dei dati è l’intervallo [48; 68] di ampiezza 20 kg

  La regola di Sturges:                                                   ci suggerisce il numero di classi che
  fissiamo a 7. Ogni classe potrebbe avere un’ampiezza di
  Considerando che i dati sono tutti interi scegliamo 3 come ampiezza di una classe.

                    Classe             Frequenza           Frequenza           Frequenza            Frequenza
                      Ik                assoluta             relativa         percentuale             relativa
                                           Nk                    fk                f% k             cumulativa
                  48  x < 51              2                                      4%                    0.04

                  51  x < 54                5                                   100 %                   0.14

                  54  x < 57                9                                    18 %                   0.32

                  57  x < 60              15                                     30 %                   0.62

                  60  x < 63              12                                     24 %                   0.86

                  63  x < 66                3                                       6%                  0.92

                    x  66                   4                                       8%                  1.00

                    Totale                 50                  1                 100 %




  Passiamo a rappresentare graficamente le distribuzioni di frequenza



                   Frequenza relativa fi                                     Frequenza relativa cumulativa

    0,35                                                        1,2

     0,3                                                           1
    0,25
                                                                0,8     0,7
     0,2
                                                                0,6
    0,15
                                                                0,4
     0,1
    0,05                                                        0,2
                                                                                                    60
       0                                                           0
             49      52      55   58    61       64   67                49      52        55   58    61         64   67


        Sono stati indicati i
        valori centrali delle
        classi




Bologna, 7 Febbraio 2013                                                                                                  12
Note di Statistica e Calcolo della probabilità




Indici Statistici (o statistiche)

Gli indici statistici sono numeri che hanno lo scopo di descrivere un campione di dati
rilevati e le loro distribuzioni di frequenze. Essi si applicano ad una variabile quantitativa,
discreta o continua.
In realtà il termine indice fa pensare ad un numero adimensionale, ma nel caso della
statistica in generale non è così.

Consideriamo di avere un campione di dati

Indici di posizione. Indici di posizione centrale o di centralità

Moda
La moda di un insieme di dati è quel valore, , a cui corrisponde la massima frequenza
(assoluta o relativa). Cioè



Se esistono più valori modali, ovvero più valori con il massimo della frequenza, allora tale
indice non è appropriato per descrivere sinteticamente il campione di dati.
Allo stesso modo, se esistono più valori le cui frequenze sono elevate e non molto diverse
tra loro allora non è appropriato usare il concetto di moda.

Nel caso di carattere continuo, o, comunque, quando si utilizzano le classi invece delle
modalità, è ancora possibile utilizzare il concetto di moda, individuando prima la classe
modale, cioè quella di massima frequenza e quindi calcolare il valore modale come:




  0,3
                                                                classe
         frequenza relativa




                                        d-
                                                                modale
  0,2                                                 d+



  0,1

                                                 h
                                                                         x
    0                                        a
                              45   48            51        54      57




Bologna, 7 Febbraio 2013                                                                  13




                                                                                                  c
Note di Statistica e Calcolo della probabilità



Media aritmetica o campionaria

                                                         (1)   LA FAMOSA FORMULA!



La media si può esprimere anche utilizzando la frequenza relativa, passando dai singoli
dati osservati alle modalità del carattere:




                                                  (2)



La stessa formula vale anche nel caso si utilizzino le classi, dove        rappresenta il valore
centrale di ogni classe.

La formula (2) è detta anche media ponderata, assegnando al coefficiente               il significato
di peso di ogni modalità del carattere.

Il concetto di media ponderata può essere soggetto ad una operazione di astrazione,
cioè vengono assegnati (soggettivamente) dei valori come pesi a ciascuna modalità del
carattere osservato quindi si calcola la media, fermo restando il vincolo di coerenza della
normalizzazione, cioè             .

Supponiamo, ad esempio, di voler calcolare il rendimento scolastico di un alunno, da
come si deduce dal voto ottenuto in un certo numero di prove. (ns classico problema)
Normalmente le prove non avranno tutte la stessa valenza rispetto al calcolo del
rendimento, essendo diverse per grado di difficoltà, per argomenti trattati, per tipologia,
…
Pertanto si assegnano dei pesi a ciascuna prova che sintetizzi l’importanza della prova
rispetto al calcolo del rendimento e si può operare la media ponderata dei voti.

Qual è il significato della media aritmetica?

Essa indica il “centro”, il “baricentro”, del campione di dati. Infatti:




Questa formula avvalora l’idea di media come centro introno al quale sono distribuiti i
dati. La formula del calcolo del baricentro (unidimensionale) di un insieme di masse
coincide con quella della media aritmetica, assegnando come peso il rapporto della
massa per la massa totale,

Si darà poi la definizione formale di media aritmetica.

Bologna, 7 Febbraio 2013                                                                    14
Note di Statistica e Calcolo della probabilità



Prime proprietà della media aritmetica.

    1. Se si applica una trasformazione lineare ai dati di un campione la stessa
       trasformazione è applicabile alla media aritmetica.

         Supponiamo di avere un campione di dati                         , sul quale applichiamo una
         trasformazione lineare:

         Ciò avviene tipicamente quando si cambia scala di misurazione della grandezza
         osservata ( offset  b ; fattore di conversione  a)

         Di conseguenza il campione di dati trasformato sarà                       .

         Le medie dei due campioni seguiranno la stessa relazione del singolo dato, cioè




         Infatti:


           ESEMPIO 5
           Se un campione di misure di temperature espresse in gradi fahrenheit
           fornisce un valore medio di 50° F, qual è la media delle temperature
           espresse in gradi Celsius?


           Poichè


           Allora                                Nel caso specifico:




    2. L’operazione di media non è associativa

         Supponiamo di avere un campione di dati               con cardinalità n e di
         suddividerlo in due campioni (il modo è indifferente)           di cardinalità n1
         e           di cardinalità n2


         Allora e vero che                        cioè fare la media aritmetica delle singole medie dei
         sotto campioni non fornisce la media dell’intero campione di dati.                          E’ una media
                                                                                                     ponderata con i
                                                                                                     pesi dati dal
         Infatti                                                                                     rapporto tra le
         che per appunto risulta diverso dall’effettuare la media delle medie.                       numerosità dei
                                                                                                     campioni



Bologna, 7 Febbraio 2013                                                                        15
Note di Statistica e Calcolo della probabilità



         La stessa situazione si ha nel caso in cui due campioni di dati che si riferiscono allo
         stesso carattere sono uniti per formare un unico campione. La nuova media non
         sarà la medie delle medie dei singoli campioni.
         Solo nel caso di uguale numerosità dei sotto campioni (o solo dividendo l’insieme
         di dati in sottoinsiemi con lo stesso numero di elementi) è possibile effettuare le
         medie parziali e poi fare la media delle medie.

         Ovviamente questa stessa considerazione può essere generalizzato al caso di più
         sotto campioni.



Mediana
Consideriamo di ordinare in senso crescente (in senso debole) i dati del campione:




Si effettua cioè una trasformazione degli indici di numerazione dei dati del campione.

Si definisce mediana, , il più piccolo dei valori (reali) per cui il numero di elementi del
campione ordinato che sono         è almeno la metà della cardinalità del campione.

Cioè


La definizione sopra non è formalmente rigorosa, nel termine “più piccolo”, ma è
abbastanza comprensibile.

Il mancato rigore, nasce dal dovere distinguere il caso in cui il campione ha un numero
pari di dati da quello in cui il numero è dispari:

    ▪    Se n dispari,                    , allora esiste l’elemento centrale del campione e la
         mediana è                         con il numero di elementi che sono        pari k+1


                                                         xm

                       x1   x2   x3 x4              xk   xk+1 xk+2       xn

         Osserviamo che anche l’elemento            e successivi possono avere lo stesso valore
         di           e quindi della mediana, ma ciò non inficia il significato di valore
         centrale rispetto alla distribuzione dei campioni alla sinistra e alla destra di



    ▪    Se n pari,        allora non esiste un dato centrale, ma il più piccolo valore che
         soddisfa la definizione sopra è           con il numero di elementi che sono
         pari k
         In realtà è pratica diffusa prendere la mediana come il valore medio tra
          e        :                     .
Bologna, 7 Febbraio 2013                                                                          16
Note di Statistica e Calcolo della probabilità



         Allo stesso modo si potrebbe prendere un qualunque valore intermedio tra            e

         In questi casi l’affermazione “più piccolo” nella definizione perderebbe di senso.

                                                      xm



              x1   x2    x3 x4                   xk        xk+1 xk+2   xn




         Quando si usa la media aritmetica e quando la mediana ?

         Consideriamo questo esempio: una azienda è formata da
         - 12 operai che percepiscono ciascuno un compenso lordo annuo di 20 k euro
         - 4 impiegati che percepiscono ciascuno un compenso lordo annuo di 30 k euro
         - 2 dirigenti che percepiscono un ciascuno compenso lordo annuo di 140 k euro

         Qual è il compenso medio di questa azienda?

         Uso la media aritmetica 



         Uso la mediana 



         Decidete voi qual è l’indice più rappresentativo della realtà !

         Una indicazione metodologica suggerisce che la mediana è un indice “più
         robusto”, rispetto a degli errori di misurazione e/o di campionamento, nel senso
         che dei valori anomali (molto alti o molto bassi) dovuti ad errore hanno una minore
         influenza sulla mediana rispetto alla media aritmetica.
         Inoltre se un campione di dati è distribuito (distribuzione delle frequenze) in modo
         asimmetrico è preferibile usare la mediana.




         Oltre agli indici che abbiamo visto vi sono altri indici di posizione, ma non di
         centralità, che vedremo in seguito.

Bologna, 7 Febbraio 2013                                                                    17
Note di Statistica e Calcolo della probabilità




Approfondimenti sul concetto di media

Partiamo da un problema, che riassume a pieno la necessità di un approfondimento del
concetto di media.

Problema (paradosso) delle due buste1
A Mario vengono presentate due buste chiuse, dicendo che una contiene una somma di
denaro pari al doppio della cifra contenuta nell’altra.
Mario ha la facoltà di aprire una busta a suo piacimento e di prendersi la cifra oppure di
scegliere l’altra busta con il suo contenuto.

Valorizziamo !

Se Mario apre la prima busta che contiene 1000 euro allora cosa gli conviene fare?

Proviamo a rispondere !

Se Mario scegliesse la seconda busta avrebbe due possibilità: trovare 2000 euro oppure
500 euro, cioè in media


Allora è chiaro che la risposta è: conviene la seconda busta !

E se non fosse 1000 la cifra della prima busta?

Sarebbe uguale, infatti se s è la somma della prima busta, la seconda conterrebbe 2s
oppure s/2 e quindi in media


Ma allora vuol dire che non importa aprire la prima busta, ma è sempre conveniente
scegliere l’altra !!!!!!!!

Ma ciò è in contraddizione con il fatto ovvio che le due buste sono per Mario
equiprobabili, cioè non c’è alcuna preferenza a priori di sceglierne una rispetto all’altra. Il
problema è simmetrico rispetto al ruolo delle due buste.

Contraddizione  paradosso !

Come se ne esce ?

                             Dobbiamo convincerci che fare la media aritmetica non va bene

Cioè dobbiamo pensare ad un altro tipo di media. Quale?




1   Introdotto da R.M. Smullyam - 1988
Bologna, 7 Febbraio 2013                                                                18
Note di Statistica e Calcolo della probabilità



Altri tipi di medie


  PROBLEMA 1

  In una popolazione di batteri si osserva che la popolazione ha un aumento
  percentuale di   il primo giorno,     il secondo giorno,…,   l’n-esimo giorno.

  Qual è l’incremento medio della popolazione in questo periodo di osservazione?

  Consideriamo il problema: contestualizziamo e formalizziamo

  Sia N il numero iniziale (prima dell’osservazione) di batteri, allora si ha:
             ▪                               il numero di batteri dopo il 1° giorno
             ▪                                                       il numero di batteri dopo
                il 2° giorno
             ▪ …
             ▪
                il numero di batteri dopo l’ultimo giorno

  L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso
  numero finale di batteri.

  Pertanto se indichiamo con b tale valore dovremmo avere:
                                              …

  Uguagliando le due espressioni finali per       :




  Chiamando                                      si ottiene l’espressione di un valore medio,
  noto come media geometrica.



Media geometrica



dove la parola “geometrica” assume il chiaro significato legato al prodotto dei dati a
differenza di “aritmetica” che indica la somma.




Bologna, 7 Febbraio 2013                                                                   19
Note di Statistica e Calcolo della probabilità




PROBLEMA 2

n macchine utensili producono un stesso pezzo impiegando tempi diversi:
(supponiamo i tempi espressi in s)

Qual è il tempo medio di produzione di quel pezzo?

Consideriamo il problema: contestualizziamo e formalizziamo

Il tempo medio sarà quel tempo che se tutte le macchine adottassero si otterrebbe la
stessa produttività

Ma cosa significa produttività?                  (Numero di pz prodotti/unità di tempo)

Se la macchina i-esima esegue un pezzo in                    secondi allora nell’unità di tempo
esegue


Pertanto la produttività è calcolabile come:


Se tutte le macchine lavorassero con il tempo medio T avremmo una produttività di




La produttività coincide nei due casi se:




Abbiamo ottenuto un nuovo valore medio, noto come media armonica

         ▪                              il numero di batteri dopo il 1° giorno
         ▪
Media armonica                                                 il numero di batteri dopo
             il 2° giorno
         ▪ …
         ▪
dove la parolanumero di batteri doposignificato legato all’operazione del reciproco.
             il “armonica ” assume il il 2° giorno

L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso
numero finale di batteri.

Pertanto se indichiamo con b tale valore dovremmo avere:
                                            …

Uguagliando le due espressioni finali per                :
Bologna, 7 Febbraio 2013                                                                          20
Note di Statistica e Calcolo della probabilità




  PROBLEMA 3 (tipico nelle prove di selezione SISS, giochi matematici, …)

  L’ultima volta che sono andato al mare ho viaggiato bene all’andato a circa 100
  km/h mentre al ritorno, facendo lo stesso percorso, molto più lentamente a causa del
  rientro comune, ad una velocità di circa 40 km/h

  Qual è stata la mia velocità media?

  Fino ad alcuni anni fa la proposizione di questo quesito ad alunni di scuole superiori ed
  anche universitari produceva la quasi totalità di risposta pari a       = 70 km/h cioè si
  applicava la media aritmetica.

  Ora le cose vanno meglio ma ancora si ha la stessa risposta in numero ben al di sopra
  della metà delle risposte.

  Il ragionamento corretto prevede che non si usi la media aritmetica, poiché il contesto
  del problema ci dice che dobbiamo riferirci al tempo di percorrenza e non alla
  velocità di percorrenza.

  Sottolineiamo anche che non si conosce la lunghezza del percorso, ma anzi la risposta
  deve essere logicamente indipendente dalla quantità di strada effettuata.

  Possiamo procedere in due modi:

       1. Ricordando la relazione cinematica velocità = spazio/tempo  tempo =
          spazio/velocità, allora si ha:




           Pertanto il tempo totale del viaggio è         e di conseguenza la velocità
           media è calcolabile come spazio totale/tempo totale, ovvero


                                                                      MEDIA ARMONICA !


           Numericamente:




Bologna, 7 Febbraio 2013                                                               21
Note di Statistica e Calcolo della probabilità




         2. Poiché al ritorno la velocità tenuta è stata i 2/5 di quella dell’andata, vuol dire
            che la velocità del ritorno è stata tenuta per un tempo 5/2 = 2.5 volte il tempo
            per il quale si è mantenuta la velocità alta.
            Quindi è giusto che la velocità del ritorno abbia un peso, nella valutazione della
            media, 2.5 volte il peso di quella dell’andata.
            Immaginiamo che un dispositivo registri periodicamente (es. ogni secondo) la
            velocità della macchina, si avrà così un numero di valori uguali a 40 km/h che è
            2.5 volte il numero di valori uguali a 100 km/h.

              Se volessimo fare la media aritmetica del campione di dati registrati dal
              dispositivo si avrebbe             dati tutti uguali a 100 km/h e   dati tutti uguali a 40
              km/h.
              Costruiremo così la media aritmetica delle due modalità del carattere
              osservato (100 e 40) come media ponderata:




              Pertanto




              Conclusioni
                ▪ Si sono usate medie diverse che hanno portato allo stesso risultato
                ▪ La deduzione della giusta operazione di media da applicare è passata
                    attraverso considerazioni relative ad un'altra grandezza, quale il tempo,
                    collegata con quella in esame, facendo riferimento a ciò che rimane
                    invariante per i dati che costituiscono il campione, anche sostituendone
                    il valore medio

              Variante
              Se il problema fosse impostato così: in un viaggio ho percorso 120 km ad una
              velocità di 60 km/h e poi i successivi 100 km ad una velocità di 80 km/h. Qual è
              la velocità media del viaggio.
              Se applichiamo la media ponderata, ragioniamo così: il primo tratto è percorso
              in 2 h, mentre il secondo in 1,25 h e quindi le velocità andranno pesate con pesi
              proporzionali a 2 e 1.25, cioè:


              Se ragioniamo sui tempi di percorrenza:




              otteniamo la media armonica ponderata con i pesi forniti dagli spazi percorsi
Bologna, 7 Febbraio 2013                                                               22
Note di Statistica e Calcolo della probabilità



  Ma se invece volessimo calcolare la velocità media in relazione al calcolo del
  consumo di carburante ? Andrebbe bene la media appena fatta ?
   Probabilmente no!!!




  PROBLEMA 4

  Si osserva una colonia di batteri di forma pressoché circolare, di diametri diversi:

  (supponiamo i una qualunque unità di misura)

  Qual è il diametro medio?

  Consideriamo il problema: contestualizziamo e formalizziamo

  Se tutti i batteri avessero lo stesso diametro allora si avrebbe la stessa “consistenza”.

  Per stessa consistenza cosa si intende ? Stessa superficie  Stessa densità superficiale

  Poiché una superficie circolare si calcola come          allora, se indichiamo con     il
  diametro medio che cerchiamo, si ha la stessa consistenza se:




  Abbiamo ottenuto il valore medio, di tipo nuovo, nota come media quadratica



Media quadratica




Tutti gli esempi mostrati portano alla conclusione che esistono tante tipi di medie

In particolare ci sono infiniti tipi di medie !!!




Bologna, 7 Febbraio 2013                                                                  23
Note di Statistica e Calcolo della probabilità




Definizione generale di media di un campione di dati

Si parlerà di media come quel valore che se fosse assegnato a ciascun esito delle
osservazioni oggetto di studio, produrrebbe lo stesso risultato del campione rispetto ad un
determinato aspetto.

Ciò significa che per ogni problema si dovrà individuare l’aspetto d’interesse generato
dall’insieme dei dati del campione, il quale aspetto dovrà mantenersi invariato se ai dati si
sostituisce il valore medio.
Quindi per ogni problema c’è una media, così come lo stesso campione può essere
affrontato con due problemi distinti (e quindi dare due medie distinte).

Questo concetto è in accordo con il pensiero di Chisini e di De Finetti, padri della statistica
moderna italiana e mondiale, di cui riportiamo il seguente pensiero sulla media

         Pensando alla “media” non si deve pensare ad una convenzione
         Matematica, a una formuletta, al risultato di certe operazioni scelte
         chissà perché. Si deve invece pensare ad un problema ben determinato,
         in cui interessa considerare un aspetto ben determinato, e conviene sapere
         quale valore comune si potrebbe dare a certe grandezze(più o meno differenti
          fra loro) volendo che, “per riguardo all’aspetto che interessa, il risultato rimanesse
         invariato”. E’ questa, concettualmente, la definizione di media data da Chisini.
         … esprimendo tale concetto in forma matematica, tutta la trattazione sulle
         medie diventa significativa ed elegante.

Come Bruno De Finetti indica il tutto si può formalizzare matematicamente

Dato un campione di dati            e una funzione di tali valori a valore reale
(funzionale):
Si chiama media di , di un certo tipo (definito dalla forma di f), quel valore tale che:
                                                                      (3)

Poiché le forme funzionali di f sono infinite si possono calcolare infinite medie !!!

Verifichiamo con le medie che conosciamo:

    ▪    Media aritmetica




    ▪    Media geometrica




Bologna, 7 Febbraio 2013                                                                  24
Note di Statistica e Calcolo della probabilità




    ▪    Media armonica




    ▪    Media quadratica




    Delle suddette medie esistono le seguenti disuguaglianze:




    Ora torniamo al problema delle buste !!



      Ci dobbiamo domandare qual è la proprietà che deriva dalle informazioni a
      disposizione che deve rimanere invariata.

      E’ forse che nella busta da aprire c’è una somma che differisce      dalla cifra s
      che si scopre nella prima busta ? In questo caso sarebbe giustificato usare la media
      aritmetica che lascia invariata la somma dei dati.  NO !

      Non è piuttosto che nella seconda busta la cifra può essere la metà oppure il
      doppio della cifra contenuta nella prima busta ?  SI
      Ma ciò è equivalente a dire che il prodotto dei due dati possibili è costante rispetto
      al valore medio da trovare. Questo significa che il funzionale f( ) più adatto per
      trovare la media è il prodotto e non la somma, ovvero la media geometrica

      Pertanto la media sarà calcolabile come


      Cioè il valore medio corretto è uguale alla cifra scoperta dopo l’apertura della
      prima busta e non c’è più il paradosso.

      Rispetto all’esempio numerico fatto:




Bologna, 7 Febbraio 2013                                                                 25
Note di Statistica e Calcolo della probabilità




    Il ragionamento funziona anche se il problema è posto dicendo che nella seconda
    busta c’è l’ennesima parte della cifra nella prima busta oppure la ennupla parte
    della stessa, ovvero se le due possibilità fossero    .


    Si avrebbe in ogni caso il paradosso che la media aritmetica è superiore ad s:




    E in ogni caso la media geometrica risolve il paradosso:


    Perché l’intuito ci fa sbagliare in questo problema ? Forse perché la mente tende a
    preferire schemi additivi piuttosto che moltiplicativi ? ……



    PROBLEMA 5

    Un altro esempio collegato al problema delle buste e che in molti contesti è
    importante è quello della stima, cioè del valore più adeguato (medio) da dare
    avendo a disposizione stime diverse della stessa grandezza.
    La grandezza potrebbe essere il preventivo per una spesa, il tempo di produzione di
    un pezzo materiale, l’altezza di una collina, …

    Se nel caso più semplice abbiamo due stime cosa si applica ? La media
    aritmetica?
    Ma se siamo nella situazione di avere, ad esempio, due preventivi di 500 e di 2000
    euro per un lavoro, qual è il prezzo che riteniamo più idoneo da dover pagare?
    Poiché i valori differiscono in relativo di molto (1:4), non sembra convincente
    applicare lo schema che essi siano prezzi dovuti allo scostamento,        , rispetto ad
    un valore centrale, il che giustificherebbe l’uso della media aritmetica.

    Ma piuttosto, lo schema di pensiero che consideri i due prezzi, uno come una
    frazione del prezzo ragionevole e l’altro come proporzionale al prezzo ragionevole,
    ovvero come parte e multiplo piuttosto che eccesso e difetto, appare più
    adeguato.
    Si potrebbe, con ciò, pensare ad un prezzo di mercato non stabilizzato per la
    presenza di speculatori o di situazioni anomale di monopolio o di altro, invece di un
    mercato in cui una sana concorrenza porti a fornire prezzi che si discostano in più o
    meno rispetto ad un valore centrale.

    Pertanto forse è più ragionevole applicare la media geometrica.
    Le stesse considerazioni si possono fare anche se si hanno più dati che però
    differiscono di molto tra loro.



Bologna, 7 Febbraio 2013                                                                 26
Note di Statistica e Calcolo della probabilità



Ulteriori considerazioni sul concetto della media



    PROBLEMA 6

    Ecco un altro problema in cui non si usa la media aritmetica.
    Se in diverse aziende sanitarie nazionali si pagano 3000 euro per comprare confezioni
    dello stesso farmaco rispettivamente a 5, 6 e 10 euro per confezione.
    Qual è il prezzo medio a confezione ?


    Calcoliamo la media come media aritmetica
                                Ma non è corretto

    E’ corretto ragionare considerando che per calcolare la media si deve tener presente
    il numero totale di confezioni che deve rimanere inalterato.


    Il numero totale di confezioni sarà:


    Se questo numero deve essere lo stesso anche se si sostituisce il valore medio al prezzo
    di ogni azienda, allora si dovrà avere:



    Ora se, sulla base della definizione di media, uguagliamo le due espressioni si ha




    Ritroviamo la media armonica come quella giusta da applicare.

    Numericamente




Bologna, 7 Febbraio 2013                                                                 27
Note di Statistica e Calcolo della probabilità




     PROBLEMA 7

     Una famiglia è formata da 4 componenti ed un’altra famiglia da 12 componenti.
     Qual è il numero medio dei componenti per famiglia?

     E’ immediato rispondere:
     Questo significa che in media ogni persona del gruppo considerato ha in media altri
     7 componenti nella sua famiglia.

     Molto logico e corretto !             Vero?   NO!

     L’errore si commette perché si prende come carattere osservato quello relativo alla
     famiglia, mentre si deve considerareil quesito posto dal problema in relazione a
     ciascuna persona del gruppo.

     Pertanto “chiedendo” ad ogni persona quanti sono i componenti della sua famiglia
     otterremo 12 risposte con 12 e 4 risposte con 4. Da cui la media (ponderata):




     Questa è la risposta corretta.




Bologna, 7 Febbraio 2013                                                           28
Note di Statistica e Calcolo della probabilità




La relazione ( 3) ci dice che le medie tipiche che conosciamo sono sempre comprese tra il
valore minimo e il valore massimo dei dati del campione sul quale si esegue l’operazione di
media.

Ciò sembrerebbe ragionevole e spesso si insegna questo come proprietà della media.
Ma non è così. E’ possibile, in alcuni casi non frequenti, far uso di medie che forniscono
come risultato un valore al di fuori del range di variabilità dei dati a disposizione.

Vediamo un esempio geometrico. PROBLEMA 8

Sui lati di un angolo al ampiezza di vertice O vengono considerati i segmenti
                  . Costruito il triangolo OPQ, il lato è calcolabile tramite il teorema di
Carnot
                                                                             O
                                                                         
                                                                     y           x


                                                             P       z           Q




Qual è il valore medio dei lati x e y al variare del vertice O dell’angolo mantenendo
inalterata la sua ampiezza e calcolata rispetto alla lunghezza del terzo lato del triangolo che
vale sempre lo stesso valore ?
Geometricamente si capisce che questa proprietà è soddisfatta se si fa variare O sulla
circonferenza circoscritta a OPQ.

Seguendo la definizione generale di media, ponendo il valore medio                   al posto di x e y e
uguagliando l’espressione di Carnot si ottiene:




Geometricamente questo valore medio che va sostituito ai lati del triangolo può essere visto
geometricamente, rappresentando il caso di OPQ come il triangolo isoscele

                                                             O
                                                         
                                                     y           x


                                                 P   z           Q




Bologna, 7 Febbraio 2013                                                                          29
Note di Statistica e Calcolo della probabilità




  Ora
  se

  Se



  In caso contrario          torna ad essere interno ai dati


                                                 A                   B

                                                                         O
                                                             y   

                                                                 x

                                                     P   z   Q




Obiettivi dell’incontro
         Statistica descrittiva
         Alfabeto della statistica descrittiva
         Aggregare i dati
         Distribuzione delle frequenze e loro rappresentazione grafica
         Indici statistici. Indici di centralità
                 Moda
                 Media aritmetica
                 Mediana
         Vari tipi di media
         Definizione generale di media




    APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi




Bologna, 7 Febbraio 2013                                                     30

More Related Content

What's hot

La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLuigi Pasini
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilitàVispo Srl
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizioneVispo Srl
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control chartsLuca Vecchiato
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statisticaVispo Srl
 
Introduzione v
Introduzione vIntroduzione v
Introduzione vimartini
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneLuigi Pasini
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativagiosiele
 
Medie di calcolo e di posizione
Medie di calcolo e di posizioneMedie di calcolo e di posizione
Medie di calcolo e di posizioneLuigi Pasini
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarieVispo Srl
 
Strutture dati 00-corso2018
Strutture dati 00-corso2018Strutture dati 00-corso2018
Strutture dati 00-corso2018Studiabo
 
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di PsicofisicaSNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di PsicofisicaMonica Pennati
 
Questionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiQuestionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiDario
 
Gli intervalli di confidenza
Gli intervalli di confidenzaGli intervalli di confidenza
Gli intervalli di confidenzaLuigi Pasini
 

What's hot (20)

La statistica, medie e indici di variabilità
La statistica, medie e indici di variabilitàLa statistica, medie e indici di variabilità
La statistica, medie e indici di variabilità
 
Statistica
StatisticaStatistica
Statistica
 
Le misure di variabilità
Le misure di variabilitàLe misure di variabilità
Le misure di variabilità
 
Gli indici di posizione
Gli indici di posizioneGli indici di posizione
Gli indici di posizione
 
Fse 08b - control charts
Fse   08b - control chartsFse   08b - control charts
Fse 08b - control charts
 
5 Control Charts
5 Control Charts5 Control Charts
5 Control Charts
 
Inferenza statistica
Inferenza statisticaInferenza statistica
Inferenza statistica
 
Lastatistica
LastatisticaLastatistica
Lastatistica
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
 
Statistica descrittiva - consigli pratici
Statistica descrittiva - consigli praticiStatistica descrittiva - consigli pratici
Statistica descrittiva - consigli pratici
 
0 introduzione
0 introduzione0 introduzione
0 introduzione
 
Appunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca EducativaAppunti Metodologia Della Ricerca Educativa
Appunti Metodologia Della Ricerca Educativa
 
Medie di calcolo e di posizione
Medie di calcolo e di posizioneMedie di calcolo e di posizione
Medie di calcolo e di posizione
 
Modello di regressione lineare semplice - consigli utili
Modello di regressione lineare semplice - consigli utiliModello di regressione lineare semplice - consigli utili
Modello di regressione lineare semplice - consigli utili
 
Le distribuzioni campionarie
Le distribuzioni campionarieLe distribuzioni campionarie
Le distribuzioni campionarie
 
Strutture dati 00-corso2018
Strutture dati 00-corso2018Strutture dati 00-corso2018
Strutture dati 00-corso2018
 
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di PsicofisicaSNACK! La migliore app sul cibo- Esperimento di Psicofisica
SNACK! La migliore app sul cibo- Esperimento di Psicofisica
 
Questionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammiQuestionari, tabelle grafici, diagrammi
Questionari, tabelle grafici, diagrammi
 
Gli intervalli di confidenza
Gli intervalli di confidenzaGli intervalli di confidenza
Gli intervalli di confidenza
 

Viewers also liked

STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...Ist. Superiore Marini-Gioia - Enzo Exposyto
 
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...Ist. Superiore Marini-Gioia - Enzo Exposyto
 
Test delle ipotesi
Test delle ipotesiTest delle ipotesi
Test delle ipotesiArahell
 
Misure di frequenza
Misure di frequenzaMisure di frequenza
Misure di frequenzaDario
 
LinkedIn SlideShare: Knowledge, Well-Presented
LinkedIn SlideShare: Knowledge, Well-PresentedLinkedIn SlideShare: Knowledge, Well-Presented
LinkedIn SlideShare: Knowledge, Well-PresentedSlideShare
 

Viewers also liked (6)

STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-3 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
 
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
STATISTICA DESCRITTIVA - PRIMI PASSI-5 - MEDIE, MODA, MEDIANA, ISTOGRAMMA, DI...
 
Test delle ipotesi
Test delle ipotesiTest delle ipotesi
Test delle ipotesi
 
Misure di frequenza
Misure di frequenzaMisure di frequenza
Misure di frequenza
 
Statistica
StatisticaStatistica
Statistica
 
LinkedIn SlideShare: Knowledge, Well-Presented
LinkedIn SlideShare: Knowledge, Well-PresentedLinkedIn SlideShare: Knowledge, Well-Presented
LinkedIn SlideShare: Knowledge, Well-Presented
 

Similar to Appunti statistica descrittiva 1

Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2ESmargiassi
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoRiccardo Narizzano
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenzaAngelo Barbato
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statisticagiammisarti
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...Istituto nazionale di statistica
 
Variabilità e concentrazione
Variabilità e concentrazioneVariabilità e concentrazione
Variabilità e concentrazioneLuigi Pasini
 
2. Il report della revisione sistematica parte 2
2. Il report della revisione sistematica parte 22. Il report della revisione sistematica parte 2
2. Il report della revisione sistematica parte 2MariaFabiani
 
Assignment Advance Quantitative Methods Casolat
Assignment Advance Quantitative Methods   CasolatAssignment Advance Quantitative Methods   Casolat
Assignment Advance Quantitative Methods Casolatlanuz
 
Griglia test spedagogia speciale perin c
Griglia test spedagogia speciale perin cGriglia test spedagogia speciale perin c
Griglia test spedagogia speciale perin cimartini
 
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TB
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TBDeterminanti endogeni ed esogeni della tubercolosi: un progetto Stop TB
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TBStop TB Italia Onlus
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medicaEugenio Santoro
 
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...Francesco Cabiddu
 
Tesi fabbri marco
Tesi fabbri marcoTesi fabbri marco
Tesi fabbri marcoimartini
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadratiLuigi Pasini
 
Rimini 2014 spread trading quantitativo
Rimini 2014   spread trading quantitativoRimini 2014   spread trading quantitativo
Rimini 2014 spread trading quantitativoLuigi Piva CQF
 
Ppt bens odisu
Ppt bens odisuPpt bens odisu
Ppt bens odisuimartini
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misureDario
 

Similar to Appunti statistica descrittiva 1 (20)

Appunti statistica descrittiva 2
Appunti statistica descrittiva 2Appunti statistica descrittiva 2
Appunti statistica descrittiva 2
 
Statistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del giocoStatistica e probabilità in chimica: le regole del gioco
Statistica e probabilità in chimica: le regole del gioco
 
Psicometria Parte I
 Psicometria Parte I Psicometria Parte I
Psicometria Parte I
 
02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza02statistica 146 sino_intervallo_confidenza
02statistica 146 sino_intervallo_confidenza
 
14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica14a Conferenza Nazionale di Statistica
14a Conferenza Nazionale di Statistica
 
G. Bruno - Strumenti statistici di base
G. Bruno - Strumenti statistici di baseG. Bruno - Strumenti statistici di base
G. Bruno - Strumenti statistici di base
 
teoria sulla statistica
teoria sulla statisticateoria sulla statistica
teoria sulla statistica
 
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
F. Pammolli: Struttura e dinamica dei sistemi economici Alcuni strumenti d’in...
 
Variabilità e concentrazione
Variabilità e concentrazioneVariabilità e concentrazione
Variabilità e concentrazione
 
2. Il report della revisione sistematica parte 2
2. Il report della revisione sistematica parte 22. Il report della revisione sistematica parte 2
2. Il report della revisione sistematica parte 2
 
Assignment Advance Quantitative Methods Casolat
Assignment Advance Quantitative Methods   CasolatAssignment Advance Quantitative Methods   Casolat
Assignment Advance Quantitative Methods Casolat
 
Griglia test spedagogia speciale perin c
Griglia test spedagogia speciale perin cGriglia test spedagogia speciale perin c
Griglia test spedagogia speciale perin c
 
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TB
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TBDeterminanti endogeni ed esogeni della tubercolosi: un progetto Stop TB
Determinanti endogeni ed esogeni della tubercolosi: un progetto Stop TB
 
Santoro - Principi di statistica medica
Santoro - Principi di statistica medicaSantoro - Principi di statistica medica
Santoro - Principi di statistica medica
 
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...
L’uso delle rappresentazioni grafiche nel ragionamento statistico (Mirian Agu...
 
Tesi fabbri marco
Tesi fabbri marcoTesi fabbri marco
Tesi fabbri marco
 
Metodo dei minimi quadrati
Metodo dei minimi quadratiMetodo dei minimi quadrati
Metodo dei minimi quadrati
 
Rimini 2014 spread trading quantitativo
Rimini 2014   spread trading quantitativoRimini 2014   spread trading quantitativo
Rimini 2014 spread trading quantitativo
 
Ppt bens odisu
Ppt bens odisuPpt bens odisu
Ppt bens odisu
 
Epidemiologia e misure
Epidemiologia e misureEpidemiologia e misure
Epidemiologia e misure
 

More from ESmargiassi

Sheda esercizi n8 statistica descrittiva
Sheda esercizi n8   statistica descrittivaSheda esercizi n8   statistica descrittiva
Sheda esercizi n8 statistica descrittivaESmargiassi
 
Sheda esercizi n7 probabilità
Sheda esercizi n7   probabilitàSheda esercizi n7   probabilità
Sheda esercizi n7 probabilitàESmargiassi
 
Sheda esercizi n6 equazioni differenziali
Sheda esercizi n6   equazioni differenzialiSheda esercizi n6   equazioni differenziali
Sheda esercizi n6 equazioni differenzialiESmargiassi
 
Sheda esercizi n4 integrali indefiniti
Sheda esercizi n4   integrali indefinitiSheda esercizi n4   integrali indefiniti
Sheda esercizi n4 integrali indefinitiESmargiassi
 
Sheda esercizi n3 studio di funzione
Sheda esercizi n3   studio di funzioneSheda esercizi n3   studio di funzione
Sheda esercizi n3 studio di funzioneESmargiassi
 
Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011ESmargiassi
 
Sheda esercizi n2 calcolo di limiti
Sheda esercizi n2   calcolo di limitiSheda esercizi n2   calcolo di limiti
Sheda esercizi n2 calcolo di limitiESmargiassi
 
Sheda esercizi n1 calcolo del dominio
Sheda esercizi n1   calcolo del dominioSheda esercizi n1   calcolo del dominio
Sheda esercizi n1 calcolo del dominioESmargiassi
 
L'insieme dei numeri reali
L'insieme dei numeri reali L'insieme dei numeri reali
L'insieme dei numeri reali ESmargiassi
 

More from ESmargiassi (9)

Sheda esercizi n8 statistica descrittiva
Sheda esercizi n8   statistica descrittivaSheda esercizi n8   statistica descrittiva
Sheda esercizi n8 statistica descrittiva
 
Sheda esercizi n7 probabilità
Sheda esercizi n7   probabilitàSheda esercizi n7   probabilità
Sheda esercizi n7 probabilità
 
Sheda esercizi n6 equazioni differenziali
Sheda esercizi n6   equazioni differenzialiSheda esercizi n6   equazioni differenziali
Sheda esercizi n6 equazioni differenziali
 
Sheda esercizi n4 integrali indefiniti
Sheda esercizi n4   integrali indefinitiSheda esercizi n4   integrali indefiniti
Sheda esercizi n4 integrali indefiniti
 
Sheda esercizi n3 studio di funzione
Sheda esercizi n3   studio di funzioneSheda esercizi n3   studio di funzione
Sheda esercizi n3 studio di funzione
 
Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011Esami metodi matematici e statistici 2010 2011
Esami metodi matematici e statistici 2010 2011
 
Sheda esercizi n2 calcolo di limiti
Sheda esercizi n2   calcolo di limitiSheda esercizi n2   calcolo di limiti
Sheda esercizi n2 calcolo di limiti
 
Sheda esercizi n1 calcolo del dominio
Sheda esercizi n1   calcolo del dominioSheda esercizi n1   calcolo del dominio
Sheda esercizi n1 calcolo del dominio
 
L'insieme dei numeri reali
L'insieme dei numeri reali L'insieme dei numeri reali
L'insieme dei numeri reali
 

Appunti statistica descrittiva 1

  • 1. Note di Statistica e Calcolo della probabilità DATI e PREVISIONI Note di base sulla Statistica e Calcolo della probabilità 1° Incontro: Statistica descrittiva e Indici statistici Enrico Smargiassi Bologna, 7 Febbraio 2013 1
  • 2. Note di Statistica e Calcolo della probabilità STATISTICA Inizialmente (storicamente) la statistica si occupava della raccolta di dati demografici ed economici per uso dello Stato. Quindi si è sviluppata in un metodo scientifico di analisi: elabora ed interpreta dati sperimentali. Ora è applicato a molte scienze, sociali, naturali, mediche, ingegneristiche, fisiche ed è uno dei rami più importanti della matematica. Parole chiavi: dati, previsioni. Come esempio di indagine statistica si consideri il classico problema: Come vota una popolazione ? Qual è la percentuale della popolazione che voterà una lista? 1° metodo Chiedere a ciascun votante di esprimere il voto e quindi elaborare tutti i dati (simile al DATI censimento ISTAT)  Statistica descrittiva 2° metodo Effettuare un sondaggio (exit poll), cioè selezionare un campione di votanti (solitamente qualche migliaio), chiedere una intenzione di voto, interpretare i dati e stimare quanto essi siano realistici, cioè corrispondano alla realtà dell’intera popolazione  Statistica inferenziale. Campioni diversi conducono spesso a risultati diversi. Ciò significa che ogni risultato PREVI dell’indagine statistica di tipo inferenziale possiede un grado di incertezza e un grado di SIONI fiducia sulla bontà del risultato stesso (corrispondenza con la realtà della popolazione). In termini tecnici: il risultato di una statistica inferenziale è una variabile casuale la cui trattazione scientifica (matematica) deve avvenire tramite la Teoria del Calcolo delle Probabilità. Questo esempio ci fa capire che la statistica si occupa ▪ dello studio (di alcune caratteristiche) delle popolazioni, intese come oggetti a se, ▪ dello studio della variazione fra gli individui della popolazione rispetto alle caratteristiche sotto analisi, ▪ dello studio dei metodi di riduzione dei dati (solitamente numerosi). Una popolazione è un qualunque insieme di elementi che possano esprimere, in una forma qualsiasi, la/e caratteristica/e oggetto dello studio. Abbiamo visto che si distingue tra statistica descrittiva e statistica inferenziale. Bologna, 7 Febbraio 2013 2
  • 3. Note di Statistica e Calcolo della probabilità La statistica descrittiva si occupa dell'analisi dei dati osservati, prescindendo sia da qualsiasi modello probabilistico o teorico che descriva il fenomeno in esame e sia dal fatto che l'insieme dei dati sia un campione estratto da una popolazione più vasta o sia invece l'intera popolazione. Lo scopo principale è quello di ridurre il volume dei dati osservati, esprimendo l'informazione rilevante per mezzo di grafici e di indicatori numerici che li descrivono. La statistica descrittiva include anche mezzi per fare indagini di tipo comparativo e verificare l’adattamento di dati sperimentali ad un certo modello teorico. La statistica inferenziale ci permette invece di fare proposizioni sulla popolazione complessiva, a partire dall'indagine su un campione estratto. Queste proposizioni non sono asserzioni perentorie, ma sono dotate di un certo grado di fiducia nella loro certezza e per questo sono formulate con i metodi, precisi e quantitativi, del calcolo delle probabilità. Il contatto tra statistica e probabilità appare quindi doppio: da un lato c’è l’aleatorietà con cui ogni individuo esprime la caratteristica (o carattere) sotto osservazione e dall’altro c’è l’incertezza nel selezionare un campione rappresentativo dell’intera popolazione. LA STATISTICA DESCRITTIVA Termini e definizioni Dati  di un campione o di una popolazione (non distinguiamo più) risultati di un carattere (o grandezza o variabile ) osservabile ed osservato (non necessariamente misurabile in senso stretto) Raccolta dati Paradigmi: misurazioni e misure, esperimenti ed esiti, osservazioni e risultati, … Dati grezzi Dati disordinati Tipi di dati ▪ Qualitativi (es. gruppo sanguigno: 0, A, B, AB) ▪ Quantitativi (es, peso)  carattere numerico In realtà la distinzione tra carattere quantitativo e qualitativo sta nel fatto che su dati qualitativi non si può “operare aritmeticamente” (A+B = ?), e non perché gli uni sono numerici e gli altri non (si può sempre assegnare un codice numerico al gruppo sanguigno: 0, 1, 2, 3). Bologna, 7 Febbraio 2013 3
  • 4. Note di Statistica e Calcolo della probabilità Un carattere quantitativo può essere discreto (es. numero di figli) o continuo (es. altezze individui), dove discreto significa che i valori che quel carattere può assumere a priori è in numero finito o numerabile (corrispondenza biunivoca con N), mentre continuo indica che l’insieme dei valori assumibili costituiscono un intervallo di R. Si sottolinea che per decidere la natura di un carattere è necessario considerare l’insieme di tutti i valori possibili con cui si può esprime quel carattere in una osservazione e non quelli effettivamente assunti che sono sempre in numero finito. Un carattere qualitativo è sempre discreto. Si dice modalità di un carattere ogni valore che può assumere una variabile discreta in una osservazione (o esperimento). Campione di dati L’insieme dei valori ottenuti in un insieme di osservazioni o esperimenti di un carattere (non si usa la parola serie o sequenza perché non deve esserci un ordine stabilito) n è la cardinalità del campione. Aggregare i dati Se il carattere osservato è discreto e ha k modalità di presentarsi con k << n è efficace aggregare i dati partendo appunto dalle modalità e determinandone le frequenze (di presentazione o di uscita): frequenza assoluta  Distribuzione delle frequenze assolute  frequenza relativa  Distribuzione delle frequenze relative  frequenza percentuale  Distribuzione delle frequenze percentuali  Ovviamente Bologna, 7 Febbraio 2013 4
  • 5. Note di Statistica e Calcolo della probabilità Se il carattere è quantitativo e continuo non si può parlare di frequenza di una specifica modalità del carattere, poiché di modalità c’è ne sono infinite. Si introduce quindi il concetto di classe che sostituisce quello di modalità e rispetto al quale si aggregano i dati. Se consideriamo un intervallo I che include il nostro campione di dati: con I che può essere limitato o illimitato, chiuso o (semi)aperto (da valutare caso per caso) Possiamo dividerlo in classi, cioè una famiglia di sottoinsiemi che costituisca una partizione di I, cioè: Le classi spesso hanno la stessa ampiezza, nel caso di intervallo limitato, ma non è la regola. Le classi svolgono in questo caso lo stesso ruolo delle modalità del caso discreto rispetto alle quali si può costruire le distribuzioni di frequenze: frequenza assoluta della classe  Distribuzione delle frequenze assolute  frequenza relativa della classe  Distribuzione delle frequenze relative  frequenza percentuale della classe  Distribuzione delle frequenze percentuali  Vediamo ora alcuni esempi esplicativi in cui costruiremo la tabella di distribuzione di frequenza e rappresenteremo tali distribuzione con metodi grafici. Bologna, 7 Febbraio 2013 5
  • 6. Note di Statistica e Calcolo della probabilità Primi esempi di aggregazione. Rappresentazione dei dati ESEMPIO 1 Carattere osservato  tempo di attesa (in mesi) per eseguire un esame clinico Campione di dati  Cardinalità  n = 40 Tipo di dato  quantitativo discreto Insieme delle modalità  k=7 Costruiamo la tabella delle distribuzioni di frequenze Modalità Frequenza Frequenza Frequenza carattere assoluta relativa percentuale (mesi) Ni fi f% i 1 1 2.5 % Frequenza assoluta (Ni) 2 5 12.5 % 14 3 10 25.0 % 12 4 12 30.0 % 10 5 7 17.5 % 8 6 4 10.0 % 6 7 1 2.5 % 4 Totale 40 1 100 % 2 0 Metodo grafico  DIAGRAMMA A BARRE  1 2 3 4 5 6 7  ISTOGRAMMA  tempo attesa (mesi) (disegnato o costruito con fogli elettronici ) Tempo attesa (mesi) non necessariamente in 1 2 3 4 5 6 7 scala Modalità del 11 carattere 4 5 Curva (o poligono) di frequenza 7 10 12  DIAGRAMMA CIRCOLARE  Metodo grafico Frequenza assoluta Bologna, 7 Febbraio 2013 6
  • 7. Note di Statistica e Calcolo della probabilità frequenza relativa fi frequenza percentuale f% i 0,35 35,0 0,3 30,0 0,25 25,0 0,2 20,0 0,15 15,0 0,1 10,0 0,05 5,0 0 0,0 1 2 3 4 5 6 1 2 3 4 5 6 7 tempo attesa (mesi) tempo atteso (mesi) Sullo stesso diagramma si può accostare (con colore diverso) i dati dello stesso carattere presi su una diversa popolazione o un diverso campione della stessa popolazione. (nell’esempio dati provenienti da Comuni diversi) frequenza relativa 0,35 0,3 0,25 0,2 Comune A 0,15 Comune B 0,1 Comune C 0,05 0 1 2 3 4 5 6 7 tempo attesa (mesi) Bologna, 7 Febbraio 2013 7
  • 8. Note di Statistica e Calcolo della probabilità ESEMPIO 2 Carattere osservato  tipo di guasto (malfunzionamento) di una macchina utensile. I dati si riferiscono ad un periodo di un mese Campione di dati  Fluttuazioni di tensione 6 Instabilità del sistema di controllo 22 Errore operatore 13 Strumento usurato e non sostituito 2 Altre cause 5 Totale 48 Cardinalità  n = 48 Tipo di dato  qualitativo (discreto) Insieme delle modalità  k=5 Costruiamo la tabella delle distribuzioni di frequenze Modalità Frequenza Frequenza Frequenza carattere assoluta relativa percentuale (guasto) Ni fi f% i Fluttuazioni 6 12.5 % Instabilità 20 41.6 % Operatore 13 27.1 % Strumento 4 8.4 % Altro 5 10.4 % Totale 48 1 100 % frequenza relativa fi 0,45 0,4 0,35 0,3 L’ordine è 0,25 arbitrario, 0,2 ma si 0,15 centra 0,1 0,05 0 fluttuazioni instabilità operatore strumento altro Tipo di guasto nel mese ... Bologna, 7 Febbraio 2013 8
  • 9. Note di Statistica e Calcolo della probabilità ESEMPIO 3 Carattere osservato  quantità giornaliera (in g) di gas inquinante prodotto da un impianto industriale (quantità di gas emesso/giorno) Campione di dati  15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2 22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7 26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7 19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0 18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5 14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1 8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5 Cardinalità  n = 80 Tipo di dato  quantitativo continuo Non lavoriamo con le modalità ma con le classi. Ma quanti classi? La scelta del numero delle classi è importante per mettere in evidenza le modalità del carattere osservato. Il numero delle classi deve essere adeguato, ne piccolo ne grande rispetto alla numerosità del campione. Se le classi sono troppe, in ogni classe ci sarebbero pochissimi elementi (o addirittura nessuno); se sono poche, essendovi concentrati molti elementi, potrebbe sfuggirci la globalità della distribuzione. In genere il numero delle classi `e compreso fra 5 e 20. Vi sono delle regole, più o meno empiriche,quali: ▪ ▪ (regola di Sturges) Ogni classe (intervallo) avrà una ampiezza. Sebbene non necessariamente, ma è solitamente conveniente che ogni classe abbia la stessa ampiezza. Nell’esempio 3, il numero di dati è n = 80. Il range di variabilità del campione è: Scegliamo l’intervallo che include il campione di dati: Bologna, 7 Febbraio 2013 9
  • 10. Note di Statistica e Calcolo della probabilità Scegliamo il numero di classi: ▪ ▪ Definiamo che k = 8 Ogni classe avrà una ampiezza: Possiamo costruire la tabelle delle distribuzioni delle frequenze: Classe Frequenza Frequenza Frequenza Ik assoluta relativa percentuale Nk fk f% k 6.2  x < 9.125 4 5.000 % 9.125  x < 12.050 7 8.625 % 12.050  x < 14.975 9 11.250 % 14.975  x < 17.900 11 13.750 % 17.900  x < 20.825 20 25.000 % 20.825  x < 23.750 12 15.000 % 23.750  x < 26.675 11 13.750 % x  26.675 6 7.500 % Totale 80 1 100 % frequenza percentuale f% i 30,00 25,00 20,00 15,00 10,00 5,00 0,00 [6.2 ; [9.125 ; [12.050 ; [14.975 , [17.900 ; [20.825 ; [23.750 ; [26.675; 9.125[ 12.050[ 14.975[ 17.900[ 20.825[ 23.750[ 26.675[ +oo[ gas emesso/giorno (g) Bologna, 7 Febbraio 2013 10
  • 11. Note di Statistica e Calcolo della probabilità OSSERVAZIONE La tecnica di aggregare i dati in classi è talvolta utile ed efficace anche nel caso di un campione di dati relativi ad un carattere quantitativo discreto. Distribuzione della frequenza cumulativa (relativa). Altro modo di aggregare Oltre alle distribuzione delle frequenze già viste si può aggregare i dati di un campione costruendo la distribuzione della frequenza cumulativa. La frequenza cumulativa si costruisce a partire dalla distribuzione di frequenza (assoluta, o relativa o percentuale) e si può applicare alle sole grandezze quantitative sia discrete che continue. Per frequenza cumulativa di una modalità (o classi) si intende la somma delle frequenze associate a tutte le modalità (o classi) di valore inferiore o uguale alla modalità d’interesse. Se si ordina in senso crescente le modalità di un campione Allo stesso modo si può usare la frequenza assoluta o percentuale. ESEMPIO 4 Carattere osservato  peso di studentesse di una scuola (in kg) Campione di dati  48 50 51 52 52 53 53 54 54 55 55 55 56 56 56 56 57 57 57 57 58 58 58 58 58 59 59 59 59 59 59 60 60 60 60 60 61 61 61 61 62 62 62 63 63 64 66 66 67 68 (i dati sono stati ordinati in senso crescente) Cardinalità  n = 50 Tipo di dato  quantitativo continuo Bologna, 7 Febbraio 2013 11
  • 12. Note di Statistica e Calcolo della probabilità Costruiamo la tabelle delle distribuzioni di frequenze, ma prima aggreghiamo i dati per classi. Il campo di variazione dei dati è l’intervallo [48; 68] di ampiezza 20 kg La regola di Sturges: ci suggerisce il numero di classi che fissiamo a 7. Ogni classe potrebbe avere un’ampiezza di Considerando che i dati sono tutti interi scegliamo 3 come ampiezza di una classe. Classe Frequenza Frequenza Frequenza Frequenza Ik assoluta relativa percentuale relativa Nk fk f% k cumulativa 48  x < 51 2 4% 0.04 51  x < 54 5 100 % 0.14 54  x < 57 9 18 % 0.32 57  x < 60 15 30 % 0.62 60  x < 63 12 24 % 0.86 63  x < 66 3 6% 0.92 x  66 4 8% 1.00 Totale 50 1 100 % Passiamo a rappresentare graficamente le distribuzioni di frequenza Frequenza relativa fi Frequenza relativa cumulativa 0,35 1,2 0,3 1 0,25 0,8 0,7 0,2 0,6 0,15 0,4 0,1 0,05 0,2 60 0 0 49 52 55 58 61 64 67 49 52 55 58 61 64 67 Sono stati indicati i valori centrali delle classi Bologna, 7 Febbraio 2013 12
  • 13. Note di Statistica e Calcolo della probabilità Indici Statistici (o statistiche) Gli indici statistici sono numeri che hanno lo scopo di descrivere un campione di dati rilevati e le loro distribuzioni di frequenze. Essi si applicano ad una variabile quantitativa, discreta o continua. In realtà il termine indice fa pensare ad un numero adimensionale, ma nel caso della statistica in generale non è così. Consideriamo di avere un campione di dati Indici di posizione. Indici di posizione centrale o di centralità Moda La moda di un insieme di dati è quel valore, , a cui corrisponde la massima frequenza (assoluta o relativa). Cioè Se esistono più valori modali, ovvero più valori con il massimo della frequenza, allora tale indice non è appropriato per descrivere sinteticamente il campione di dati. Allo stesso modo, se esistono più valori le cui frequenze sono elevate e non molto diverse tra loro allora non è appropriato usare il concetto di moda. Nel caso di carattere continuo, o, comunque, quando si utilizzano le classi invece delle modalità, è ancora possibile utilizzare il concetto di moda, individuando prima la classe modale, cioè quella di massima frequenza e quindi calcolare il valore modale come: 0,3 classe frequenza relativa d- modale 0,2 d+ 0,1 h x 0 a 45 48 51 54 57 Bologna, 7 Febbraio 2013 13 c
  • 14. Note di Statistica e Calcolo della probabilità Media aritmetica o campionaria (1) LA FAMOSA FORMULA! La media si può esprimere anche utilizzando la frequenza relativa, passando dai singoli dati osservati alle modalità del carattere: (2) La stessa formula vale anche nel caso si utilizzino le classi, dove rappresenta il valore centrale di ogni classe. La formula (2) è detta anche media ponderata, assegnando al coefficiente il significato di peso di ogni modalità del carattere. Il concetto di media ponderata può essere soggetto ad una operazione di astrazione, cioè vengono assegnati (soggettivamente) dei valori come pesi a ciascuna modalità del carattere osservato quindi si calcola la media, fermo restando il vincolo di coerenza della normalizzazione, cioè . Supponiamo, ad esempio, di voler calcolare il rendimento scolastico di un alunno, da come si deduce dal voto ottenuto in un certo numero di prove. (ns classico problema) Normalmente le prove non avranno tutte la stessa valenza rispetto al calcolo del rendimento, essendo diverse per grado di difficoltà, per argomenti trattati, per tipologia, … Pertanto si assegnano dei pesi a ciascuna prova che sintetizzi l’importanza della prova rispetto al calcolo del rendimento e si può operare la media ponderata dei voti. Qual è il significato della media aritmetica? Essa indica il “centro”, il “baricentro”, del campione di dati. Infatti: Questa formula avvalora l’idea di media come centro introno al quale sono distribuiti i dati. La formula del calcolo del baricentro (unidimensionale) di un insieme di masse coincide con quella della media aritmetica, assegnando come peso il rapporto della massa per la massa totale, Si darà poi la definizione formale di media aritmetica. Bologna, 7 Febbraio 2013 14
  • 15. Note di Statistica e Calcolo della probabilità Prime proprietà della media aritmetica. 1. Se si applica una trasformazione lineare ai dati di un campione la stessa trasformazione è applicabile alla media aritmetica. Supponiamo di avere un campione di dati , sul quale applichiamo una trasformazione lineare: Ciò avviene tipicamente quando si cambia scala di misurazione della grandezza osservata ( offset  b ; fattore di conversione  a) Di conseguenza il campione di dati trasformato sarà . Le medie dei due campioni seguiranno la stessa relazione del singolo dato, cioè Infatti: ESEMPIO 5 Se un campione di misure di temperature espresse in gradi fahrenheit fornisce un valore medio di 50° F, qual è la media delle temperature espresse in gradi Celsius? Poichè Allora Nel caso specifico: 2. L’operazione di media non è associativa Supponiamo di avere un campione di dati con cardinalità n e di suddividerlo in due campioni (il modo è indifferente) di cardinalità n1 e di cardinalità n2 Allora e vero che cioè fare la media aritmetica delle singole medie dei sotto campioni non fornisce la media dell’intero campione di dati. E’ una media ponderata con i pesi dati dal Infatti rapporto tra le che per appunto risulta diverso dall’effettuare la media delle medie. numerosità dei campioni Bologna, 7 Febbraio 2013 15
  • 16. Note di Statistica e Calcolo della probabilità La stessa situazione si ha nel caso in cui due campioni di dati che si riferiscono allo stesso carattere sono uniti per formare un unico campione. La nuova media non sarà la medie delle medie dei singoli campioni. Solo nel caso di uguale numerosità dei sotto campioni (o solo dividendo l’insieme di dati in sottoinsiemi con lo stesso numero di elementi) è possibile effettuare le medie parziali e poi fare la media delle medie. Ovviamente questa stessa considerazione può essere generalizzato al caso di più sotto campioni. Mediana Consideriamo di ordinare in senso crescente (in senso debole) i dati del campione: Si effettua cioè una trasformazione degli indici di numerazione dei dati del campione. Si definisce mediana, , il più piccolo dei valori (reali) per cui il numero di elementi del campione ordinato che sono è almeno la metà della cardinalità del campione. Cioè La definizione sopra non è formalmente rigorosa, nel termine “più piccolo”, ma è abbastanza comprensibile. Il mancato rigore, nasce dal dovere distinguere il caso in cui il campione ha un numero pari di dati da quello in cui il numero è dispari: ▪ Se n dispari, , allora esiste l’elemento centrale del campione e la mediana è con il numero di elementi che sono pari k+1 xm x1 x2 x3 x4 xk xk+1 xk+2 xn Osserviamo che anche l’elemento e successivi possono avere lo stesso valore di e quindi della mediana, ma ciò non inficia il significato di valore centrale rispetto alla distribuzione dei campioni alla sinistra e alla destra di ▪ Se n pari, allora non esiste un dato centrale, ma il più piccolo valore che soddisfa la definizione sopra è con il numero di elementi che sono pari k In realtà è pratica diffusa prendere la mediana come il valore medio tra e : . Bologna, 7 Febbraio 2013 16
  • 17. Note di Statistica e Calcolo della probabilità Allo stesso modo si potrebbe prendere un qualunque valore intermedio tra e In questi casi l’affermazione “più piccolo” nella definizione perderebbe di senso. xm x1 x2 x3 x4 xk xk+1 xk+2 xn Quando si usa la media aritmetica e quando la mediana ? Consideriamo questo esempio: una azienda è formata da - 12 operai che percepiscono ciascuno un compenso lordo annuo di 20 k euro - 4 impiegati che percepiscono ciascuno un compenso lordo annuo di 30 k euro - 2 dirigenti che percepiscono un ciascuno compenso lordo annuo di 140 k euro Qual è il compenso medio di questa azienda? Uso la media aritmetica  Uso la mediana  Decidete voi qual è l’indice più rappresentativo della realtà ! Una indicazione metodologica suggerisce che la mediana è un indice “più robusto”, rispetto a degli errori di misurazione e/o di campionamento, nel senso che dei valori anomali (molto alti o molto bassi) dovuti ad errore hanno una minore influenza sulla mediana rispetto alla media aritmetica. Inoltre se un campione di dati è distribuito (distribuzione delle frequenze) in modo asimmetrico è preferibile usare la mediana. Oltre agli indici che abbiamo visto vi sono altri indici di posizione, ma non di centralità, che vedremo in seguito. Bologna, 7 Febbraio 2013 17
  • 18. Note di Statistica e Calcolo della probabilità Approfondimenti sul concetto di media Partiamo da un problema, che riassume a pieno la necessità di un approfondimento del concetto di media. Problema (paradosso) delle due buste1 A Mario vengono presentate due buste chiuse, dicendo che una contiene una somma di denaro pari al doppio della cifra contenuta nell’altra. Mario ha la facoltà di aprire una busta a suo piacimento e di prendersi la cifra oppure di scegliere l’altra busta con il suo contenuto. Valorizziamo ! Se Mario apre la prima busta che contiene 1000 euro allora cosa gli conviene fare? Proviamo a rispondere ! Se Mario scegliesse la seconda busta avrebbe due possibilità: trovare 2000 euro oppure 500 euro, cioè in media Allora è chiaro che la risposta è: conviene la seconda busta ! E se non fosse 1000 la cifra della prima busta? Sarebbe uguale, infatti se s è la somma della prima busta, la seconda conterrebbe 2s oppure s/2 e quindi in media Ma allora vuol dire che non importa aprire la prima busta, ma è sempre conveniente scegliere l’altra !!!!!!!! Ma ciò è in contraddizione con il fatto ovvio che le due buste sono per Mario equiprobabili, cioè non c’è alcuna preferenza a priori di sceglierne una rispetto all’altra. Il problema è simmetrico rispetto al ruolo delle due buste. Contraddizione  paradosso ! Come se ne esce ? Dobbiamo convincerci che fare la media aritmetica non va bene Cioè dobbiamo pensare ad un altro tipo di media. Quale? 1 Introdotto da R.M. Smullyam - 1988 Bologna, 7 Febbraio 2013 18
  • 19. Note di Statistica e Calcolo della probabilità Altri tipi di medie PROBLEMA 1 In una popolazione di batteri si osserva che la popolazione ha un aumento percentuale di il primo giorno, il secondo giorno,…, l’n-esimo giorno. Qual è l’incremento medio della popolazione in questo periodo di osservazione? Consideriamo il problema: contestualizziamo e formalizziamo Sia N il numero iniziale (prima dell’osservazione) di batteri, allora si ha: ▪ il numero di batteri dopo il 1° giorno ▪ il numero di batteri dopo il 2° giorno ▪ … ▪ il numero di batteri dopo l’ultimo giorno L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso numero finale di batteri. Pertanto se indichiamo con b tale valore dovremmo avere: … Uguagliando le due espressioni finali per : Chiamando si ottiene l’espressione di un valore medio, noto come media geometrica. Media geometrica dove la parola “geometrica” assume il chiaro significato legato al prodotto dei dati a differenza di “aritmetica” che indica la somma. Bologna, 7 Febbraio 2013 19
  • 20. Note di Statistica e Calcolo della probabilità PROBLEMA 2 n macchine utensili producono un stesso pezzo impiegando tempi diversi: (supponiamo i tempi espressi in s) Qual è il tempo medio di produzione di quel pezzo? Consideriamo il problema: contestualizziamo e formalizziamo Il tempo medio sarà quel tempo che se tutte le macchine adottassero si otterrebbe la stessa produttività Ma cosa significa produttività? (Numero di pz prodotti/unità di tempo) Se la macchina i-esima esegue un pezzo in secondi allora nell’unità di tempo esegue Pertanto la produttività è calcolabile come: Se tutte le macchine lavorassero con il tempo medio T avremmo una produttività di La produttività coincide nei due casi se: Abbiamo ottenuto un nuovo valore medio, noto come media armonica ▪ il numero di batteri dopo il 1° giorno ▪ Media armonica il numero di batteri dopo il 2° giorno ▪ … ▪ dove la parolanumero di batteri doposignificato legato all’operazione del reciproco. il “armonica ” assume il il 2° giorno L’incremento medio sarà quel valore per cui applicato tutti i giorni fa ottenere lo stesso numero finale di batteri. Pertanto se indichiamo con b tale valore dovremmo avere: … Uguagliando le due espressioni finali per : Bologna, 7 Febbraio 2013 20
  • 21. Note di Statistica e Calcolo della probabilità PROBLEMA 3 (tipico nelle prove di selezione SISS, giochi matematici, …) L’ultima volta che sono andato al mare ho viaggiato bene all’andato a circa 100 km/h mentre al ritorno, facendo lo stesso percorso, molto più lentamente a causa del rientro comune, ad una velocità di circa 40 km/h Qual è stata la mia velocità media? Fino ad alcuni anni fa la proposizione di questo quesito ad alunni di scuole superiori ed anche universitari produceva la quasi totalità di risposta pari a = 70 km/h cioè si applicava la media aritmetica. Ora le cose vanno meglio ma ancora si ha la stessa risposta in numero ben al di sopra della metà delle risposte. Il ragionamento corretto prevede che non si usi la media aritmetica, poiché il contesto del problema ci dice che dobbiamo riferirci al tempo di percorrenza e non alla velocità di percorrenza. Sottolineiamo anche che non si conosce la lunghezza del percorso, ma anzi la risposta deve essere logicamente indipendente dalla quantità di strada effettuata. Possiamo procedere in due modi: 1. Ricordando la relazione cinematica velocità = spazio/tempo  tempo = spazio/velocità, allora si ha: Pertanto il tempo totale del viaggio è e di conseguenza la velocità media è calcolabile come spazio totale/tempo totale, ovvero MEDIA ARMONICA ! Numericamente: Bologna, 7 Febbraio 2013 21
  • 22. Note di Statistica e Calcolo della probabilità 2. Poiché al ritorno la velocità tenuta è stata i 2/5 di quella dell’andata, vuol dire che la velocità del ritorno è stata tenuta per un tempo 5/2 = 2.5 volte il tempo per il quale si è mantenuta la velocità alta. Quindi è giusto che la velocità del ritorno abbia un peso, nella valutazione della media, 2.5 volte il peso di quella dell’andata. Immaginiamo che un dispositivo registri periodicamente (es. ogni secondo) la velocità della macchina, si avrà così un numero di valori uguali a 40 km/h che è 2.5 volte il numero di valori uguali a 100 km/h. Se volessimo fare la media aritmetica del campione di dati registrati dal dispositivo si avrebbe dati tutti uguali a 100 km/h e dati tutti uguali a 40 km/h. Costruiremo così la media aritmetica delle due modalità del carattere osservato (100 e 40) come media ponderata: Pertanto Conclusioni ▪ Si sono usate medie diverse che hanno portato allo stesso risultato ▪ La deduzione della giusta operazione di media da applicare è passata attraverso considerazioni relative ad un'altra grandezza, quale il tempo, collegata con quella in esame, facendo riferimento a ciò che rimane invariante per i dati che costituiscono il campione, anche sostituendone il valore medio Variante Se il problema fosse impostato così: in un viaggio ho percorso 120 km ad una velocità di 60 km/h e poi i successivi 100 km ad una velocità di 80 km/h. Qual è la velocità media del viaggio. Se applichiamo la media ponderata, ragioniamo così: il primo tratto è percorso in 2 h, mentre il secondo in 1,25 h e quindi le velocità andranno pesate con pesi proporzionali a 2 e 1.25, cioè: Se ragioniamo sui tempi di percorrenza: otteniamo la media armonica ponderata con i pesi forniti dagli spazi percorsi Bologna, 7 Febbraio 2013 22
  • 23. Note di Statistica e Calcolo della probabilità Ma se invece volessimo calcolare la velocità media in relazione al calcolo del consumo di carburante ? Andrebbe bene la media appena fatta ? Probabilmente no!!! PROBLEMA 4 Si osserva una colonia di batteri di forma pressoché circolare, di diametri diversi: (supponiamo i una qualunque unità di misura) Qual è il diametro medio? Consideriamo il problema: contestualizziamo e formalizziamo Se tutti i batteri avessero lo stesso diametro allora si avrebbe la stessa “consistenza”. Per stessa consistenza cosa si intende ? Stessa superficie  Stessa densità superficiale Poiché una superficie circolare si calcola come allora, se indichiamo con il diametro medio che cerchiamo, si ha la stessa consistenza se: Abbiamo ottenuto il valore medio, di tipo nuovo, nota come media quadratica Media quadratica Tutti gli esempi mostrati portano alla conclusione che esistono tante tipi di medie In particolare ci sono infiniti tipi di medie !!! Bologna, 7 Febbraio 2013 23
  • 24. Note di Statistica e Calcolo della probabilità Definizione generale di media di un campione di dati Si parlerà di media come quel valore che se fosse assegnato a ciascun esito delle osservazioni oggetto di studio, produrrebbe lo stesso risultato del campione rispetto ad un determinato aspetto. Ciò significa che per ogni problema si dovrà individuare l’aspetto d’interesse generato dall’insieme dei dati del campione, il quale aspetto dovrà mantenersi invariato se ai dati si sostituisce il valore medio. Quindi per ogni problema c’è una media, così come lo stesso campione può essere affrontato con due problemi distinti (e quindi dare due medie distinte). Questo concetto è in accordo con il pensiero di Chisini e di De Finetti, padri della statistica moderna italiana e mondiale, di cui riportiamo il seguente pensiero sulla media Pensando alla “media” non si deve pensare ad una convenzione Matematica, a una formuletta, al risultato di certe operazioni scelte chissà perché. Si deve invece pensare ad un problema ben determinato, in cui interessa considerare un aspetto ben determinato, e conviene sapere quale valore comune si potrebbe dare a certe grandezze(più o meno differenti fra loro) volendo che, “per riguardo all’aspetto che interessa, il risultato rimanesse invariato”. E’ questa, concettualmente, la definizione di media data da Chisini. … esprimendo tale concetto in forma matematica, tutta la trattazione sulle medie diventa significativa ed elegante. Come Bruno De Finetti indica il tutto si può formalizzare matematicamente Dato un campione di dati e una funzione di tali valori a valore reale (funzionale): Si chiama media di , di un certo tipo (definito dalla forma di f), quel valore tale che: (3) Poiché le forme funzionali di f sono infinite si possono calcolare infinite medie !!! Verifichiamo con le medie che conosciamo: ▪ Media aritmetica ▪ Media geometrica Bologna, 7 Febbraio 2013 24
  • 25. Note di Statistica e Calcolo della probabilità ▪ Media armonica ▪ Media quadratica Delle suddette medie esistono le seguenti disuguaglianze: Ora torniamo al problema delle buste !! Ci dobbiamo domandare qual è la proprietà che deriva dalle informazioni a disposizione che deve rimanere invariata. E’ forse che nella busta da aprire c’è una somma che differisce dalla cifra s che si scopre nella prima busta ? In questo caso sarebbe giustificato usare la media aritmetica che lascia invariata la somma dei dati.  NO ! Non è piuttosto che nella seconda busta la cifra può essere la metà oppure il doppio della cifra contenuta nella prima busta ?  SI Ma ciò è equivalente a dire che il prodotto dei due dati possibili è costante rispetto al valore medio da trovare. Questo significa che il funzionale f( ) più adatto per trovare la media è il prodotto e non la somma, ovvero la media geometrica Pertanto la media sarà calcolabile come Cioè il valore medio corretto è uguale alla cifra scoperta dopo l’apertura della prima busta e non c’è più il paradosso. Rispetto all’esempio numerico fatto: Bologna, 7 Febbraio 2013 25
  • 26. Note di Statistica e Calcolo della probabilità Il ragionamento funziona anche se il problema è posto dicendo che nella seconda busta c’è l’ennesima parte della cifra nella prima busta oppure la ennupla parte della stessa, ovvero se le due possibilità fossero . Si avrebbe in ogni caso il paradosso che la media aritmetica è superiore ad s: E in ogni caso la media geometrica risolve il paradosso: Perché l’intuito ci fa sbagliare in questo problema ? Forse perché la mente tende a preferire schemi additivi piuttosto che moltiplicativi ? …… PROBLEMA 5 Un altro esempio collegato al problema delle buste e che in molti contesti è importante è quello della stima, cioè del valore più adeguato (medio) da dare avendo a disposizione stime diverse della stessa grandezza. La grandezza potrebbe essere il preventivo per una spesa, il tempo di produzione di un pezzo materiale, l’altezza di una collina, … Se nel caso più semplice abbiamo due stime cosa si applica ? La media aritmetica? Ma se siamo nella situazione di avere, ad esempio, due preventivi di 500 e di 2000 euro per un lavoro, qual è il prezzo che riteniamo più idoneo da dover pagare? Poiché i valori differiscono in relativo di molto (1:4), non sembra convincente applicare lo schema che essi siano prezzi dovuti allo scostamento, , rispetto ad un valore centrale, il che giustificherebbe l’uso della media aritmetica. Ma piuttosto, lo schema di pensiero che consideri i due prezzi, uno come una frazione del prezzo ragionevole e l’altro come proporzionale al prezzo ragionevole, ovvero come parte e multiplo piuttosto che eccesso e difetto, appare più adeguato. Si potrebbe, con ciò, pensare ad un prezzo di mercato non stabilizzato per la presenza di speculatori o di situazioni anomale di monopolio o di altro, invece di un mercato in cui una sana concorrenza porti a fornire prezzi che si discostano in più o meno rispetto ad un valore centrale. Pertanto forse è più ragionevole applicare la media geometrica. Le stesse considerazioni si possono fare anche se si hanno più dati che però differiscono di molto tra loro. Bologna, 7 Febbraio 2013 26
  • 27. Note di Statistica e Calcolo della probabilità Ulteriori considerazioni sul concetto della media PROBLEMA 6 Ecco un altro problema in cui non si usa la media aritmetica. Se in diverse aziende sanitarie nazionali si pagano 3000 euro per comprare confezioni dello stesso farmaco rispettivamente a 5, 6 e 10 euro per confezione. Qual è il prezzo medio a confezione ? Calcoliamo la media come media aritmetica Ma non è corretto E’ corretto ragionare considerando che per calcolare la media si deve tener presente il numero totale di confezioni che deve rimanere inalterato. Il numero totale di confezioni sarà: Se questo numero deve essere lo stesso anche se si sostituisce il valore medio al prezzo di ogni azienda, allora si dovrà avere: Ora se, sulla base della definizione di media, uguagliamo le due espressioni si ha Ritroviamo la media armonica come quella giusta da applicare. Numericamente Bologna, 7 Febbraio 2013 27
  • 28. Note di Statistica e Calcolo della probabilità PROBLEMA 7 Una famiglia è formata da 4 componenti ed un’altra famiglia da 12 componenti. Qual è il numero medio dei componenti per famiglia? E’ immediato rispondere: Questo significa che in media ogni persona del gruppo considerato ha in media altri 7 componenti nella sua famiglia. Molto logico e corretto ! Vero? NO! L’errore si commette perché si prende come carattere osservato quello relativo alla famiglia, mentre si deve considerareil quesito posto dal problema in relazione a ciascuna persona del gruppo. Pertanto “chiedendo” ad ogni persona quanti sono i componenti della sua famiglia otterremo 12 risposte con 12 e 4 risposte con 4. Da cui la media (ponderata): Questa è la risposta corretta. Bologna, 7 Febbraio 2013 28
  • 29. Note di Statistica e Calcolo della probabilità La relazione ( 3) ci dice che le medie tipiche che conosciamo sono sempre comprese tra il valore minimo e il valore massimo dei dati del campione sul quale si esegue l’operazione di media. Ciò sembrerebbe ragionevole e spesso si insegna questo come proprietà della media. Ma non è così. E’ possibile, in alcuni casi non frequenti, far uso di medie che forniscono come risultato un valore al di fuori del range di variabilità dei dati a disposizione. Vediamo un esempio geometrico. PROBLEMA 8 Sui lati di un angolo al ampiezza di vertice O vengono considerati i segmenti . Costruito il triangolo OPQ, il lato è calcolabile tramite il teorema di Carnot O  y x P z Q Qual è il valore medio dei lati x e y al variare del vertice O dell’angolo mantenendo inalterata la sua ampiezza e calcolata rispetto alla lunghezza del terzo lato del triangolo che vale sempre lo stesso valore ? Geometricamente si capisce che questa proprietà è soddisfatta se si fa variare O sulla circonferenza circoscritta a OPQ. Seguendo la definizione generale di media, ponendo il valore medio al posto di x e y e uguagliando l’espressione di Carnot si ottiene: Geometricamente questo valore medio che va sostituito ai lati del triangolo può essere visto geometricamente, rappresentando il caso di OPQ come il triangolo isoscele O  y x P z Q Bologna, 7 Febbraio 2013 29
  • 30. Note di Statistica e Calcolo della probabilità Ora se Se In caso contrario torna ad essere interno ai dati A B O y  x P z Q Obiettivi dell’incontro Statistica descrittiva Alfabeto della statistica descrittiva Aggregare i dati Distribuzione delle frequenze e loro rappresentazione grafica Indici statistici. Indici di centralità Moda Media aritmetica Mediana Vari tipi di media Definizione generale di media APPUNTI PUBBLICATI SU www.slideshare.net/ESmargiassi Bologna, 7 Febbraio 2013 30