Statistica

Statistica

 

 

 

I riassunti , gli appunti i testi contenuti nel nostro sito sono messi a disposizione gratuitamente con finalità illustrative didattiche, scientifiche, a carattere sociale, civile e culturale a tutti i possibili interessati secondo il concetto del fair use e con l' obiettivo del rispetto della direttiva europea 2001/29/CE e dell' art. 70 della legge 633/1941 sul diritto d'autore

 

 

Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione).

 

 

 

 

Statistica

 

La statistica è la scienza che ha come scopo lo studio dei fenomeni collettivi.

La statistica si occupa di fenomeni collettivi, non interessa il singolo individuo (inteso sia come soggetto umano che come qualsiasi unità di tipo inanimato), ma di una popolazione, di un insieme. Vede i fenomeni sempre dal punto di visto collettivo.
Correntemente ci si trova a che fare con grandi moli di dati che in qualche modo vanno classificati e sintetizzati.
La statistica si occupa dello studio del collettivo, di come raccogliere informazioni su questo collettivo e come presentarle in una forma facilmente comprensibile ad un pubblico non esperto.

Fasi principali di uno studio statistico

  • Definizione del collettivo
  • Raccolta e classificazione dei dati
  • Misurazione e analisi
  • Sintesi

 

Definizione del collettivo

Passo preliminare : bisogna definire con chiarezza il collettivo, a chi si riferisce lo studio statistico.

         Raccolta dei dati
Sulla popolazione individuata viene fatta la raccolta dei dati che interessano e classificati nel modo che interessa.

- diretta (parziale o totale) :

  • Indagini sul campo (questionari, interviste)
  • Indagini su fonti primarie di dati (archivi aziendali, parrocchiali, comunali, ecc..)

- indiretta (fonti statistiche) : i dati primari sono già elaborati e siamo in 
presenza di “dati statistici”.

 

Misurazione e analisi

Si effettuano delle misurazioni per analizzare i dati così raccolti e classificati.

 

         Sintesi

Ne viene ricavata una sintesi.

 

La raccolta dei dati può essere diretta (materialmente i dati vengono reperiti sul collettivo), oppure indiretta (ci si rivolge ad una risorsa che ha già questi dati raccolti e classificati)
I dati prelevati in modo diretto sul campo sono sempre più attendibili ma su una popolazione molto vasta tale modo di reperire dati diventa troppo dispendioso in termini di tempo e soldi.
La soluzione è prendere le informazioni che interessano solo su una parte della popolazione : concetto di campione.

Indagine campionaria: non viene investita dalla ricerca tutta la popolazione di riferimento, ma solo una parte scelta perché rappresentativa della popolazione.

 

 Sono presenti numerosissime entità deputate a raccogliere dati a fini statistici che hanno valore legale. Le più importanti fonti ufficiali dei dati statistici sono :

        • ISTAT 
        • OCSE (OECD)
        • FAO

ISTAT          ha il compito di raccogliere ed elaborare dati statistici riguardanti i più diversi aspetti della vita italiana. Tra l’altro
- predispone e coordina i censimenti (della popolazione ogni 10 anni, è
una conta materiale dei soggetti, una delle poche indagini totali che  
viene condotta in Italia)

- definisce la nomenclatura e le metodologie per la rilevazione e la
classificazione dei fenomeni di interesse (demografico, sociale,   
economico, ecc..)

                            - coordina l’attività degli uffici del SISTAN (dlg 322/89)


 

Fasi di un’indagine statistica

  • Piano della rilevazione (definire con chiarezza che cosa si deve studiare e dove)

- definizione del campo di indagine (collettivo, caratteristiche da indagare,  
ecc…);
- metodo di rilevazione (diretta o indiretta);
- data di rilevazione
- materiale e personale

  • Raccolta dei dati

 

  • Spoglio e classificazione dei dati
  • Elaborazione dei dati

 

  • Interpretazione delle elaborazioni (si evincono informazioni e conclusioni dai dati classificati)
  • Rapporto di sintesi (si analizzano i dati raccolti, si dà un’interpretazione che generalmente va a suffragare un’ipotesi fatta inizialmente e si pubblica)

 


Nomenclatura statistica.

 

Popolazione             (collettivo) l’insieme completo degli individui che si vogliono studiare, mediante la rilevazione di uno o più caratteri.
Una popolazione può essere

    • FINITA
    • INFINITA

(A fini statistici è sempre meglio che la popolazione sia finita).

Campione               una parte della popolazione oggetto di indagine che in qualche modo può
essere rappresentativo della popolazione da cui viene selezionato.

Unità statistica      un elemento dell’insieme che si vuole studiare e che corrisponde a
caratteristiche ben precise.

Famiglia                (per il censimento) un insieme di persone legate da vincolo di
matrimonio, parentela, affinità, adozione, coabitanti ed aventi dimora
abituale nello stesso luogo.

Convivenza (per il censimento) l’ insieme delle persone che senza essere legati da
vincolo di matrimonio, parentela, ecc…, vivono in comune per altri motivi
(motivi religiosi, di cura, di assistenza, militari).


Caratteri statistici.

 

Un collettivo può essere studiato secondo le modalità che assume il carattere statistico sotto osservazione.
I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità.

Per comodità si distinguono i caratteri statistici in due tipi fondamentali:

  • caratteri quantitativi o variabili
  • caratteri qualitativi o mutabili.

 

1-caratteri quantitativi o variabili

All’interno dei caratteri quantitativi distinguiamo due sottotipi, secondo il diverso livello o scala  di misurazione misurabili

  • su scala di intervalli e
  • su scala di rapporti.

La scala di intervalli indica tutte quelle variabili, caratteri quantitativi, che non hanno uno zero assoluto, sono costruite facendo riferimento ad altro.
Un carattere quantitativo sprovvisto di zero assoluto è quel carattere in cui nella scala di misurazione zero significa assenza di quel carattere.
Le scale ad intervalli permettono di stabilire non solo quali unità statistiche sono maggiori o minori di altre, ma stabilisce anche “di quanto” è la distanza tra esse (sono normalmente circoscritte a poche cose : scale di misurazione della temperatura, psicometriche, gradimento numerico).

Nelle scale di rapporti invece esiste lo zero assoluto ed è possibile calcolare i rapporti tra unità statistiche rispetto ai valori del carattere considerato.

 

CARATTERE
SCALA DI MISURAZIONE

Altezza

Rapporti

Peso

Rapporti

Età

Rapporti

Numero dei componenti

Rapporti

Reddito

Rapporti

Temperature

Intervalli

 

2-caratteri qualitativi o mutabili

I caratteri qualitativi si distinguono in ordinali e nominali o sconnessi : nel primo caso è possibile stabilire un ordine, nell’altro no.

 

CARATTERE
SCALA DI MISURAZIONE

Titolo di studio

Ordinale

Gradi militari

Ordinale

Sesso

Nominale

Colore degli occhi

Nominale

Disciplina sportiva

Nominale

Pratica religiosa

Nominale

 

CLASSIFICAZIONE DEI CARATTERI STATISTICI E LIVELLO DI MISURAZIONE.

CARATTERE
SCALA
OPERAZIONI CONSENTITE

Mutabile
Sconnessa

NOMINALE

= DIVERSO

Mutabile
Ordinabile

ORDINALE

< > = DIVERSO

Variabile

INTERVALLI

+ - = DIVERSO < >

variabile

RAPPORTI

* / + - < > = DIVERSO

 

I primi due caratteri sono qualitativi, gli altri due sono quantitativi. Più si scende nella scala e più sale il livello di qualità del dato.

 

Se la variabile (carattere quantitativo) può assumere tutti i valori dell’intervallo di definizione si dice CONTINUA (può assumere un numero infinito di modalità).

Se può assumere solo alcuni valori dell’intervallo si dice DISCRETA o DISCONTINUA.

  • ALTEZZA                                                     continua
  • PESO                                                          continua
  • COMPONEMTI NUCLEO FAMILIARE                    discreta
  • NUMERO PALAZZI DI UN QUARTIERE                discreta
  • POSTI A SEDERE DI UN CINEMA                      discreta

 


Distribuzioni statistiche.

Ordinare e classificare i soggetti secondo un certo criterio.
Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri.

Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE.
Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA.

Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA.
Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.

FREQUENZA ASSOLUTA  è il numero di unità statistiche che presentano la stessa modalità
di un carattere

FREQUENZA RELATIVA   è il rapporto tra le frequenze assolute e il numero totale di unità
statistiche considerate.

 

DISTRIBUZIONE DI FREQUENZA SECONDO IL SESSO DI 50 SOGGETTI

SESSO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

Maschi (M)

23

0.46

Femmine (F)

27

0.54

                           totale

50

1.00

 

Sesso = carattere statistico
M –F = modalità del carattere statistico
23 = numero delle unità che presentano la modalità M del carattere statistico sesso (frequenza assoluta)
0.46 = numero delle unità che presentano la modalità M del carattere statistico sesso diviso il totale dei soggetti

17 marzo 2004

Uno degli obiettivi di questa disciplina è quello di estrarre e sintetizzare le informazioni da una massa di dati che altrimenti sarebbe scarsamente interpretabile.
Questo è un altro esempio di come mettendo sottoforma tabellare un insieme di dati che sono stati raccolti in precedenza si possono trarre delle prime informazioni sul fenomeno che si sta studiando.

STATO CIVILE PERSONA DI RIFERIMENTO

NUMERO FAMIGLIE

FREQUENZA %

Celibi/nubili

551.121

15.1

Coniugati/e

2.258.375

61.8

Separati/e

114.870

3.1

Divorziati/e

103.555

2.8

Vedovi/e

625.033

17.1

TOTALE

3.652.954

100.0

Questo è tratto dal censimento della popolazione 2001 ed è il numero di famiglie distribuite secondo lo stato civile. Come vedete risultano coniugati la maggioranza delle famiglie che sono stati sottoposti a censimento. Il numero di famiglie si chiama frequenza assoluta. Come abbiamo visto ieri risulta più utile ricorrere alle frequenze relative.
La frequenza relativa si intende la frequenza assoluta divisa per il totale. Si fa questa operazione perché prendendo ogni frequenza assoluta relativa a ciascuna modalità e rapportandola al totale si indica immediatamente il peso che ha quella modalità sull’insieme del fenomeno. In questa tabella vediamo che coniugati /e è lo stato civile più diffuso. Poi seguono i vedovi, i celibi ecc. però non abbiamo immediatamente il senso di quanto i coniugati siano più pesanti rispetto ai separati per esempio. Facendo le frequenze percentuali (551.121 : 3.652.954 = 0.15 x 100 = 15,1) lo dividiamo per 100 per evitare questo fastidioso 0 che si ripete. Quindi vediamo immediatamente che i coniugati sono non solo superiori ma rappresentano più del 50% quasi i  2/3 della famiglie censite. I celibi rappresentano il 15% di tutte le famiglie censite.

Tabella successiva.


Num ord.

Sesso

Altezza

Peso

Colore occhi

Titolo di studio

Num.comp. familiare

Possesso computer

Classe di reddito

1

M

 

 

 

L

3

SI

Fino a 30

2

M

 

 

 

D

2

SI

Da 30 a 50

3

F

 

 

 

D

4

SI

Fino a 30

4

M

 

 

 

D

5

NO

Da 50 a 70

5

 

 

 

 

M

2

NO

Oltre 70

6

 

 

 

 

L

4

SI

 

7

 

 

 

 

M

1

NO

 

8

 

 

 

 

 

1

NO

 

9

 

 

 

 

 

3

SI

 

10

 

 

 

 

 

2

 

 

Abbiamo rilevato su 10 soggetti sesso, altezza, peso, colore occhi, titolo di studio conseguito, numero componenti nucleo familiare, se hanno il computer a casa, classe di reddito conseguita nell’ultimo anno.

  • carattere sesso è un carattere di tipo qualitativo sconnesso, non ordinabile o nominale.
  • carattere altezza espresso in centimetri è un carattere quantitativo su scala di rapporti ed è continuo nel senso che può assumere qualunque valore nell’ambito di un intervallo.
  • carattere peso espresso in chilogrammi è lo stesso tipo del precedente.
  • colore degli occhi è anche questo un carattere qualitativo, nominale (non è possibile dare un ordine logico) sconnesso.
  • Titolo di studio conseguito è un carattere qualitativo di tipo ordinabile (è possibile mettere in sequenza l’insieme delle modalità che contraddistinguono questo carattere).
  • Il numero di componenti la famiglia è un carattere quantitativo, discreto (può assumere soltanto alcuni valori nell’ambito di un intervallo, in questo caso può assumere soltanto valori interi).
  • Possesso di un computer è un carattere qualitativo di tipo sconnesso, nominale esattamente come il sesso.

Quando un carattere prevede solo 2 modalità “si o no” o “maschio o femmina” si chiama carattere DICOTOMICO.

  • Classe di reddito. Questa particolare tipologia di caratteri nascono raggruppati in classi. Quei caratteri quantitativi (quando ci sono parecchie modalità che si sono verificate nella rilevazione) è possibile raggruppare queste modalità in classi. In questo caso già di per se la variabile nasce già suddivisa in classi perché quando andiamo a fare delle interviste su argomenti delicati cerchiamo di formire un minimo di anonimato. Non c’è la domanda diretta “quanto guadagni l’anno?” ma una domanda meno diretta.

Se la distribuzione fosse composta da più soggetti (es.1000) bisognerebbe trovare il modo di rendere le informazioni più visibili, più immediate. Ad esempio rispetto al carattere sesso se noi siamo interessati a vedere questo carattere di quei 10 soggetti nel dettaglio ci costruiamo una distribuzione di frequenza rispetto al carattere “sesso”. Prendiamo le 2 modalità, contiamo (6 maschi e 4 femmine) vediamo la frequenza relativa e quella percentuale e si ha l’indicazione su come è composto quell’insieme.

DISTRUBUZIONE DI FREQUENZA SECONDO IL CARATTERE SESSO DI 10 SOGGETTI

 

SESSO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE PERCENTUALI

MASCHI

6

0,6

60

FEMMINE

4

0.4

40

TOTALE

10

1,00

100

 

Stesso discorso vale per quanto riguarda il numero di componenti del nucleo familiare. Se sono interessato a vedere come sono composte le famiglie dei soggetti che ho intervistato posso costruire una distribuzione di frequenza sotto il profilo del carattere “numero di componenti del nucleo familiare”

DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE NUMERO DI COMPONENTI DEL NUCLEO FAMILIARE DI 10 SOGGETTI

NUM. COMPONENTI

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE PERCENTUALI

FREQUENZE RELATIVE CUMULATE

1

2

0,2

20

20

2

3

0,3

30

50

3

2

0,2

20

70

4

2

0,2

20

90

5

1

0,1

10

100

TOTALE

10

1,00

100

 

Passando alle frequenze relative vediamo che il caso più frequente è quello di una coppia (dato che non avremmo visto guardando solo la tabella dei numeri).

Quella che segue è invece una tabella sull’ultimo carattere “classe di reddito” quantitativo che nasce già diviso in classi e ci consente di evidenziare con che frequenza si presentano i redditi che sono stati dichiarati.

DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE CLASSE DI REDDITO DI 10 SOGGETTI

CLASSE DI REDDITO

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE PERCENTUALI

FREQUENZE RELATIVE CUMULATE

FINO A 30

3

30

30

DA 31 A 50

2

20

50

DA 51 A 70

4

40

90

OLTRE 70

1

10

100

TOTALE

10

100

 

Vediamo nella prima colonna che la classe più folta di redditi è quella che va da 51 a 70 milioni in cui la frequenza relativa costituisce il 40% del totale. E’ la classe che pesa di più in confronto alle altre. Quasi la metà dei soggetti intervistati ha dichiarato di prendere tra 51 e 70 milioni l’anno. In aggiunta alle frequenze relative ci sono le FREQUENZE RELATIVE CUMULATE. La frequenza cumulata è semplicemente cumulare alla frequenza attuale la frequenza successiva. Esempio la prima frequenza cumulata è 30 pari alla prima frequenza relativa percentuale; per la classe successiva si somma 30 a 20 che è la seconda frequenza relativa percentuale e si scrive 50 sulla seconda riga della colonna delle frequenze cumulate. Poi si somma la modalità 50 alla modalità 40 che è la terza della colonna frequenze relative percentuali e così via. L’ultima modalità sommata alla precedente mi deve dare un valore che deve coincidere al totale delle frequenze relative percentuali.
Tutto questo serve per dare un’ulteriore indicazione sulla base delle frequenze con cui si presentano le modalità dei caratteri che stiamo studiando per dare un’ulteriore indicazione sulla ripartizione di quel carattere. Ad esempio alla modalità 90 della colonna frequenze relative cumulate io posso dire che il 90% delle persone intervistate ha un reddito che va da 0 a 70 milioni. Oppure la seconda riga della colonna frequenze relative cumulate indica che il 50% delle persone intervistate ha dichiarato un reddito che va da 0 a 50 milioni.

Altezza, peso, età sono altre variabili che vengono suddivise in classi per l’elevato numero di modalità che frequentano e per il rischio di perdere di vista la sintesi dell’informazione. Ad esempio rilevando 100 altezze e volendo fare una sintesi, ci accorgiamo che le modalità con cui si presenta il carattere altezza sono 50, inferiori al N totale delle rilevazioni che abbiamo fatto ma sono talmente tante da non poterci garantire la comprensione immediata di quello che sta accadendo. Avendo raccolto 100 altezze vengono ordinate e si costruiscono delle classi. In questo modo si perdono delle informazioni ma nello stesso tempo riduco drasticamente il numero di modalità e ottengo una tabella con al massimo 7, 8 modalità che mi permettono di poter dire qualcosa sul tipo di fenomeno.

 

 

ALTEZZA

 

 

 

 

 

1

170

 

 

 

 

 

2

173

 

 

170├ 173

1

 

3

173

 

 

 

 

 

4

176

 

 

173├ 176

3

 

5

182

 

 

 

 

 

6

173

 

 

176├ 190

5

 

7

180

 

 

 

-------------

 

8

179

 

 

totale

9

 

9

178

 

 

 

 

 

In questa tabella la modalità 170 ha 1 soggetto; la modalità 173 ha 3 soggetti ecc., quindi ci sono tante modalità con poche frequenze che lo rappresentano.
A questo punto costruisco delle classi (il segno ├ vuol dire carattere destro escluso cioè non fa parte di quella classe) 170 ├ 173; 173 ├176; 176 ├ 190.
Nella prima classe c’è un solo soggetto, nella seconda ce ne sono 3 e nella terza ce ne sono 5. Abbiamo costruito una distribuzione di frequenza in cui le modalità non sono più le singole modalità che ho rilevato ma una classe che contiene diverse modalità. Questa operazione anche se mi fa perdere delle informazioni è utile quando ci sono troppe modalità rilevate diverse tra loro. I dati in questo modo sono più interpretabili.

COME SI COSTRUISCONO LE CLASSI

  • In ogni classe devono essere rappresentati un congruo numero di soggetti. Le classi devono essere di ampiezza tale da far si che all’interno ci sia un numero sufficientemente elevato ma non troppo elevato di casi in cui rientra.
  • Ogni classe deve essere di uguale ampiezza.

Si ricorre alla suddivisione in classi quando le modalità rilevate del carattere sono troppo numerose.

Obiettivo: definire delle classi in modo preciso e non ambiguo in modo che ogni unità statistica rilevata possa essere attribuita con certezze ed 1 ed 1 sola classe.

COME SI PROCEDE

  • individuare il minimo ed il massimo valore assumibile dal carattere (di una modalità)

dopodiché si va a

  • determinare il numero e l’ampiezza delle classi

Questa operazione si può fare solo con caratteri QUANTITATIVI o con caratteri QUALITATIVI ORDINABILI.

CONDIZIONI DA RISPETTARE

  • CONTINUITA’ delle classi tutti i possibili valori compresi tra il minimo ed il massimo (dell’intervallo) devono poter essere assunti; le classi devono essere continue non devono esserci buchi tra le classi.
  • CONTIGUITA’ delle classi non vi devono essere sovrapposizioni fra l’esterno superiore di 1 classe e l’estremo inferiore della classe successiva.

Esempio:


170 │-----------│175

In questo caso non si sa se il valore 174 appartiene alla 1° o alla 2° classe. Non ci può essere una situazione di questo genere, ma deve essere sempre in questo modo
│-----------│------------│
170          174             178

  • INCLUSIONE o ESCLUSIONE degli estremi della classe. Se il carattere è continuo è possibile includere 1 solo degli estremi (quello superiore o quello inferiore).

Esempio:
Abbiamo rilevato le seguenti altezze di 1 gruppo di 10 soggetti e le doppiamo raggruppare in classi.


164

192

182

170

173

168

174

163

173

175

1. Per prima cosa le mettiamo in ordine crescente


163

164

168

170

173

173

174

175

182

192

Queste sono le modalità.
2. Si deve calcolare il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato).
192 – 163 = 30 (sarebbe 29+1 perché si considera anche il 163)

3. Determiniamo il numero e l’ampiezza delle classi ( per esempio 3 di uguale ampiezza =10)

4. Indichiamo la INCLUSIONE o ESCLUSIONE degli estremi nelle classi formate
├── incluso l’estremo SX (inferiore) CHIUSE A SX

──┤ incluso l’estremo DX (superiore) CHIUSE A DX

├──┤ inclusi i 2 estremi (superiore ed inferiore)

──── esclusi i 2 estremi

 

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA

Classi di altezza in cm (chiuse a sinistra)

Frequenza assoluta

Frequenza relativa

Frequenza relativa %

Ampiezza classi

163 ├── 173

4

0.4

40

10

173 ├── 183

5

0.5

50

10

183 ├── 193

1

0.1

10

10

TOTALE

10

1

100

30

Abbiamo diviso 3 classi di uguale ampiezza con l’estremo sx chiuso e l’estremo dx aperto. Prima di tutto a queste modalità attacchiamo le rispettive frequenze. Ci sono 4 soggetti da 163 a 172,9; 5 soggetti da 173 a 182,9 e 1 soggetto da 183 a 192,9. La prima cosa da fare è la somma la quale se non risulta uguale al totale delle nostre rilevazioni c’è un errore da qualche parte. Accertato che non ci siano errori si procede a trovare le frequenze relative. La classe che presenta maggiore frequenza è quella da 173 a 183 con il 50% dei casi.
L’ampiezza delle classi non si mette mai ma in questo caso è per dimostrare l’esempio.

Usualmente si mettono classi di uguale ampiezza ma possiamo anche decidere di costruirci degli intervalli di ampiezza diversa secondo le nostre esigenze se ci sono delle classi più rappresentative per il tipo di studio che stiamo conducendo e ci servono delle ampiezze più ampie o più piccole.

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA

Classi di altezza in cm (chiuse a sinistra)

Frequenza assoluta

Frequenza relativa

Frequenza relativa %

Ampiezza classi

163 ├── 173

4

0.4

40

10

173 ├── 176

4

0.4

40

3

176 ├── 193

2

0.2

20

17

TOTALE

10

1

100

30

C’è una classe di ampiezza più piccola. Abbiamo deciso di farla così perché è la classe che ci interessa di più ed in cui ci sono maggiori frequenze percentualmente e ci permette di fare maggiori considerazioni. Le classi precedente e successiva hanno ampiezza decisamente più ampia (una di 10 e l’altra di 17) perché sono classi che ci interessano di meno.

Fino qui abbiamo visto caratteri di tipo continuo. Vediamo caratteri discreti (numero componenti nucleo familiare, numero di appartamenti, numero di fabbriche in un territorio ecc.) che possono essere contati uno per uno ed assumono un numero finito di valori nell’ambito di un intervallo.

Supponiamo di aver fatto una rilevazione su 10 famiglie ed abbiamo verificato quanti componenti ci sono all’interno di ognuna.

1

2

3

4

5

6

7

8

9

10

Unità

2

1

4

2

2

3

3

5

5

2

componenti

Mettiamo la rilevazione in ordine crescente


2

1

4

5

10

6

7

3

8

9

Unità

1

2

2

2

2

3

3

4

5

5

componenti

Calcolo il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato)
5-1=5 (4+1).

Dividiamo in 2 classi di ampiezza diversa perché il campo di variazione è dispari.
Una classe va da 1 a 3 e l’altra da 4 a 5. In questo caso conviene fare classi chiuse a sx e a dx. Sono contigue, tra 3 e 4 non c’è niente e sono carattere discreti. Fino a 5 perché nell’intervista è stato specificato che il massimo numero di componenti del nucleo familiare è 5.

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE

CLASSI CHIUSE

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE %

AMPIEZZA CLASSI

1├──┤3

7

0.7

70

3

4├──┤5

3

0.3

30

2

TOTALE

10

1

100

5

 

Potrei anche costruirmi delle classi chiuse a sx ed aperte a dx rispettando la distribuzione che ho.

DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE

CLASSI APERTE A DX

FREQUENZE ASSOLUTE

FREQUENZE RELATIVE

FREQUENZE RELATIVE %

AMPIEZZA CLASSI

1├── 4

7

0.7

70

3

4├── 6

3

0.3

30

2

TOTALE

10

1

100

5

Comunque anche se si dicono le cose in maniera diversa la distribuzione è la stessa.

 

TABELLE DOPPIE E MULTIPLE

Abbiamo visto la tabella semplice in cui c’è un carattere riportato su varie modalità e in cui contiamo le frequenze. Ci sono diversi modi di presentare diversi caratteri relativi agli stessi soggetti, alle stesse unità statistiche per mettere in un’unica tabella una serie di informazioni.

REGIONE

PIL PRO CAPITE

SPESA PRO CAPITE PER SPETTACOLI

Questa tabella (non l’ho trascritta tutta) che si chiama tabella doppia, riporta per una serie di Regioni due diverse informazioni il prodotto interno lordo pro capite e la spesa pro capite per spettacoli. Riporta 2 informazioni abbastanza diverse che possono essere utile per chi le esamina per fare le sue considerazioni. Per ciascun individuo, unità statistica vengono riportate una affianco all’altra una serie di informazioni anche completamente diverse come materia. Queste si chiamano le tabelle doppie o multiple a seconda se ci sono più colonne.

Diverso il caso in cui io metto in diretta relazione 2 caratteri. Supponiamo che abbia rilevato diversi dati ad esempio titolo di studio e classe di reddito. Voglio studiare contemporaneamente come si presentano le modalità di titolo di studio e le modalità classe di reddito. Non mi limito a guardare semplicemente come si presenta o la classe di reddito o il titolo di studio, ma li voglio vedere in contemporanea. Per esempio voglio vedere quanti sono i soggetti che hanno scuola media superiore come titolo di studio e guadagnano tra 30 e 50 milioni.
Costruisco una tabella a doppia entrata. Supponiamo di avere due caratteri statistici qualunque e li chiamiamo A e B. Il carattere A può assumere certe modalità che chiameremo A1, A2,…..Ar , (il numero indica la modalità es. titolo di studio 1= media; 2=diploma; 3=laurea). Lo stesso dicasi per il carattere B che vede come ultima modalità Bs perché le modalità sono diverse da A (che ne ha 3 mentre B nel caso del reddito ne ha 4).
Nella tabella metto sulla testata le modalità di un dei due caratteri, in questo caso B, e sulla fiancata le modalità dell’altro carattere A.

A B

b 1

b 2

---------

b j

---------

b s

Totale riga

a 1

n 1 1

n 1 2

 

n 1 j

 

n 1 s

n 1.

a 2

n 2 1

n 2 2

 

n 2 j

 

n 2 s

n 2.

--------

 

 

 

 

 

 

 

a i

n i  1

n i 2

 

n i j

 

n i s

n i..

--------

 

 

 

 

 

 

 

a r

n r 1

n r 2

 

n r j

 

n r s

n r.

TOTALE

n .1

n . 2

----------

n . j

----------

n .s

n .. (N)

n sono le frequenze cioè i numeri con cui si presentano i soggetti che abbiamo intervistato che presentano la modalità A e B contemporaneamente.
Ad esempio n11 sono i soggetti che presentano la modalità 1 del carattere A e la modalità 1 del carattere B
In fondo a ciascuna riga ci sono delle n indicate con 1 seguito da un puntino ed è il numero di soggetti intervistati che presentano la modalità A1 e non ci interessa di quali modalità assume del carattere B. Cioè per esempio ci saranno i soggetti ch hanno un reddito fino a 30 milioni a prescindere dal titolo di studio che hanno conseguito.
La seguente tabella mostra le frequenze doppie cioè dei soggetti che presentano contemporaneamente una particolare modalità del carattere CLASSE DI REDDITO ed una particolare modalità del carattere TITOLO DI STUDIO.

TITOLO DI STUDIO

M

D

L

AMPIEZZA CLASSE

CLASSE DI REDDITO

 

 

 

 

Fino a 30

1

1

1

3

Da 31 a 50

 

1

1

2

Da 51 a 70

 

2

2

4

Oltre 70

1

 

 

1

Totale colonna

2

4

4

10

 

 

Un’informazione più è sintetica più è comprensibile.

Il modo corretto per approcciare i dati è :

  • costruire distribuzioni di frequenza
  • fare dei grafici
  • (il modo più preciso) individuare un indicatore di sintesi che si chiama media.

Analitiche (caratteri quantitativi)
Medie
                    Lasche, non analitiche o di posizione (caratteri qualitativi)

Media aritmetica: individua il valore rappresentativo (centrale) di un carattere.
Bisogna però anche tener conto di come questo valore si spalma rispetto a tutte le unità statistiche in esame; per questo scopo esistono degli indici:
                                     

                   INDICI DI
                  VARIABILITà
(variabili quantitative)                            INDICI DI MUTABILITà      
(caratteri qualitativi)

                  

VARIABILITA’

 

Variabilità: Attitudine di un carattere di assumere diverse modalità.

Esempio:                DISTRIBUZIONE:     A        5  7  8  4  6   M=6
B        6  6  6  6  6   M=6

Nei due casi la media è sempre 6 ma nel secondo caso non c’è variabilità.
Nel primo, la diversa attitudine che può assumere il carattere, viene misurata con indicatori o indici.
Nel caso in cui, fossero sottoposte a studio statistico due popolazioni molto ampie, per descriverle sinteticamente ci riferiremmo non solo al valore medio, ma anche all’indice di variabilità per vedere la concentrazione delle modalità (su una delle due delle popolazioni ci potrebbe essere più variabilità).

 

Costruzione degli indici

Tutti gli indici di variabilità o mutabilità, devono soddisfare alcuni requisiti formali di coerenza.

  • quando la variabilità e nulla, l’indice di variabilità deve assumere valore 0
  • l’indice di variabilità deve aumentare all’aumentare della variabilità
  • l’indice di variabilità non può assumere valori negativi (la variabilità o c’è o non c’è)
  • L’indice di variabilità non si deve modificare se tutte le frequenze vengono moltiplicate o divise per una costante.

 

Ci sono migliaia di modi per costruire un indice di variabilità; Uno che negli anni ha resistito e che tuttora è ampiamente utilizzato è lo scarto quadratico medio (s. q. m.).

                  

 

LO SCARTO QUADRATICO MEDIO.

 

Scarto = faccio la somma degli scarti di ciascuna modalità con la media  
aritmetica.
Quadratico = perché gli scarti sono elevati al quadrato.
Medio = perché facendo la somma degli scarti al quadrato poi si fa la media 
(divido per N).

Quella presentata è la formula più generica: moltiplico la somma degli scarti per la frequenza con cui si presenta la modalità. 

s = (sigma minuscolo) indica lo scarto quadratico medio.
 = frequenza delle modalità; (nel caso di modalità che si presentano con una sola frequenza n(base i) scompare).
 = è la modalità che si presenta con una certa frequenza.

S = simbolo di somma
K = numero delle modalità che si presentano.
N = totale della popolazione

 

Ho 6 modalità, di ciascuna faccio lo scarto della media quadratica, lo moltiplico per il numero delle frequenze con cui la modalità si presenta e divido per n (numero totale della popolazione).
Se con un’operazione preliminare individuo la frequenza con cui si presentano le modalità, ottengo un numero k di modalità diverso da n.
Individuando la frequenza delle modalità, raggruppo le modalità e rendo più semplice il calcolo successivo.

La formula senza indice si chiama SIGMA QUADRATO o VARIANZA (usato fino a qualche anno fa soprattutto in Italia, oggi in disuso e sostituita dallo scarto quadratico medio).

                                     
N       

Con la varianza indico la variabilità al quadrato, mentre con lo scarto quadratico medio indico la variabilità con numeri reali ed elimino “il quadrato” che da un’indicazione amplificata della variabilità.
L’indice di variabilità indica quanto si spalma mediamente il fenomeno in esame su diversi valori ed è espresso con la stessa unità di misura con cui è espresso il fenomeno.

                    VARIABILE PESO  (in kg)

52

2

56

1

59

1

60

1

74

1

76

1

81

3

Totale

10

Di cui viene calcolata la media aritmetica

M =    52*2 + 56*1 + 59*1 + 60*1 + 74*1 + 76*1 + 81*3         = 67.2
                                                         10

Procedimento :  

    1. si calcolano i singoli scarti dalla media aritmetica
    2. si elevano gli scarti al quadrato e si moltiplicano per le rispettive frequenze
    3. si sommano le quantità ottenute al punto b e si divide la somma ottenuta per il totale delle frequenze
    4. si fa la radice quadrata di quanto ottenuto

 

(52 – 67.2)  = 231.04

2

462.08

(56 – 67.2)  = 125.44

1

125.44

(59 – 67.2) = 67.24

1

67.24

(60 – 67.2) = 51.84

1

51.84

(74 – 67.2) = 46.24

1

46.24

(76 – 67.2) = 77.44

1

77.44

(81 – 67.2) = 571.32

3

571.32

(56 – 67.2) = 125.44

10

1401.6

 

                            s =

In media lo spostamento delle modalità dalla media aritmetica è di 11.8 kg ( il fenomeno ha questa variabilità).
Se fosse stato 0 avrebbe voluto dire che le modalità erano concentrate su un unico valore.
Questo indice è ASSOLUTO : il minimo vale 0 e cresce senza un massimo definito, dipende dal fenomeno in esame.

Proprietà della media aritmetica
- La somma degli scarti dalla media aritmetica è sempre 0.
- La somma degli scarti dalla media aritmetica costituisce un minimo.

                           

                                  

A è un numero diverso dalla media aritmetica.

Lo scarto della variabilità in questo modo indica non solo la variabilità media del fenomeno, ma la indica col numero più piccolo possibile, non c’è spreco.

Se i dati sono raggruppati in classi si prende come  il valore centrale di ciascuna classe.

 

Classe di reddito

--| 30

24 *

1

(24 - 64.1) = 1608.10 * 1

30 --| 50

40

1

(40 - 64.1)  = 580.81 * 1

50 --| 70

60

4

(60 - 64.1)  = 16.81 * 4

70 --| 90

80

3

(80 - 64.1)  = 252.81 * 3

oltre 90

97 *

1

(97 - 64.1) = 1082.41 * 1

               
totale     

 

 

10

 

4096.9

 

                                      s =

Come per la media nel caso di dati raggruppati in classi, lo s.q.m. NON è PRECISO.

Lo s.q.m. può essere calcolato più velocemente con la seguente formula :

                                      s =
M = media aritmetica
*= media quadratica  tutte le modalità sono elevate al quadrato e messe sotto radice (non ha utilizzo pratico, è utile solo per alcune formulazioni).

  
 
N

Come la media lo s.q.m. è espresso nella stessa unità di misura della variabile.

 

VARIANZA     s.q.m. elevato al quadrato

 
                                     
N      

 

DEVIANZA     numeratore della varianza

 

                                      Dev =

Per la devianza vale un’importante proprietà, nota come

PRINCIPIO DI SCOMPOSIZIONE DELLA DEVIANZA

 

Dato un collettivo suddiviso in 2 o più gruppi, la devianza del collettivo (Dev T) è uguale alla somma delle devianze dei singoli gruppi (Dev W) più la devianza tra le medie dei gruppi (Dev B).
Ciascun termine della Dev B deve essere pesato con la numerosità del relativo gruppo.

T = totale
W = within (entro)
B = between (tra)

                     Dev(T) = Dev(W) + Dev(B)

 

Si ha un collettivo di 5 persone con la seguente distribuzione di reddito :
2        3        4        6        10
la media aritmetica è M = 5

e la devianza totale è
Dev(T) = (2 – 5) + (3 – 5)+ (4 - 5)+ (6 - 5)+ (10 - 5)=40

Dividiamo il collettivo in 2 gruppi e siano le relative distribuzioni dei redditi le seguenti:

                   gruppo A       2        6        10
gruppo B       3        4

         per il gruppo A          = 6

Dev   = (2 – 6) + (6 – 6) + (10 – 6) = 32

 

 

per il gruppo B         = 3.5

Dev   = (3 – 3.5) + (4 – 3.5) = 0.5

La Dev W complessiva sarà :  Dev W = Dev  + Dev  = 32.5

La devianza tra le medie dei due gruppi sarà:

                   DevB = ( - M) *  + ( - M) * =

                              (6 – 5) * 3 + (3.5 – 5) * 2 = 7.5

DevT = DevW + DevB = 32.5 +7.5 = 40 

 

 

 

Abbiamo visto che quando abbiamo a che fare con un carattere di tipo QUANTITATIVO ci sono diversi modi per misurare la VARIABILITA’. E’ importante che quando usiamo un indice di variabilità (qualsiasi costruiamo) dobbiamo ricordare che la variabilità deve essere sempre = 0 quando non c’è variabilità, e che cresce al crescere della variabilità e può dare solo valori positivi perché la variabilità o c’è o non c’è, non può essere negativa.
Tra i tanti tipi di variabilità quello più utilizzato è lo S.Q.M. (scarto quadratico medio) ed è probabilmente quello che più corrisponde a quello che effettivamente si fa. Si chiama così perché è la somma degli scarti di ciascuna modalità della media aritmetica (scarto elevato al quadrato).
Se non abbiamo a che fare con un carattere quantitativo la cosa si complica un po’ per quanto riguarda la misura della variabilità o MUTABILITA’ (nel caso di caratteri qualitativi). Si ragiona più o meno come si fa con la media cioè con caratteri quantitativi utilizzeremo un indice, un indicatore quantitativo con cui si possono fare i conti (vedi SQM). Se abbiamo a che fare con caratteri qualitativi come abbiamo utilizzato mediane, quartili, percentili, mode, ecc. per calcolare un valore medio,  così per trovare la mutabilità che può assumere questo carattere utilizziamo degli indicatori che si rifanno all’ORDINE  o alla FREQUENZA del carattere.
E’ importante ricordare che quando si ha a che fare con caratteri qualitativi, ad esempio per trovare la moda o la mediana questo si può fare soltanto se questi caratteri hanno il requisito dell’ordinabilità altrimenti non è passibile di essere sottoposto a mediana o quartile o percentile (modalità che divide in N parti la distribuzione ordinata).

DIFFERENZA INTERQUARTILICA

E’ una misura di MUTABILITA’ usata nei casi in cui si ha a che fare con caratteri qualitativi ordinabili. Come per lo scarto quadratico medio noi ci agganciamo alla media aritmetica per vedere la variabilità che c’è, nel caso di caratteri qualitativi ordinabili ci agganciamo al concetto di percentile. Invece di fare gli scarti con la mediana, possiamo utilizzare dei punti di riferimento per vedere quanta parte di distribuzione cade tra questi punti di riferimento. Si può vedere che tra il minimo valore più piccolo ed il più grande abbiamo il 100% dei casi, la totalità della popolazione.
Prendiamo il campo di variazione che ci permette di avere l’informazione maggiore, cioè tra il 1° quartile (è la modalità che lascia alla sua sinistra tutte le modalità più piccole o uguali a se stessa) e il 3° percentile (lascia alla sua sinistra il 75% di modalità inferiori o uguali a se stessa). Così individuiamo lo spazio dove va a cadere il 50% dei casi centrali. Questo di dice quanto è concentrato quel fenomeno, nella parte centrale della distribuzione. Lo S.Q.M. per i caratteri quantitativi ci da un’indicazione di quanto è concentrata quella distribuzione intorno alla media. In mancanza di un valore medio analitico (numero) intorno al quale misurare la variabilità media, l’unico modo che abbiamo per vedere se questa distribuzione è concentrata o meno nel punto centrale è quello di prendere i 2 quartili (1° e 3°) e fare la differenza (75% e 25%) e viene fuori il 50% dei casi che sono concentrati nella zona centrale. Più le modalità sono simili e più è concentrata la distribuzione, viceversa più sono diverse tra loro e meno sono distribuite nel campo centrale.
ESEMPIO CARATTERE QUANTITATIVO

STATURE

FREQ.

FREQ.CUM.

150

1

1

155

3

4

160

6

10

163

1

11

165

4

15

170

6

21

175

4

25

 

25

 

Come nel caso della mediana, percentili, che può essere usata anche per caratteri quantitativi così la differenza interquartilica può essere usata anche per caratteri quantitativi. Abbiamo rilevato la statura di 25 soggetti e costruito la distribuzione di frequenza in cui ci sono le frequenze cumulate. Individuiamo qual è la posizione del 1° e del 3° quartile.
Q1 = 1*N/4 = 25/4 = 6,25                 sta tra quelli che misurano cm 160
Q3 = 3*N/4 = 3*25/4 = 18,75           corrisponde a cm 170
170 – 160 = 10
La differenza tra le modalità che corrisponde al 3° quartile e la modalità che corrisponde al 1° quartile è 10 centimetri. Sulla base di quanto fatto fino qui posso affermare che il 50% della popolazione presenta una altezza compresa tra 160 e 170 centimetri con una variabilità (o dispersione) di 10 centimetri. Se fosse stata una misura tra 180 e 160 il 50% della popolazione tra il 1° e 3° quartile avrebbe presentato una dispersione maggiore, cioè di un numero maggiore di modalità.

Prendiamo un carattere di tipo qualitativo ordinale “titolo di studio”. Abbiamo rilevato 16 soggetti


TITOLO DI STUDIO

FREQ.ASS.

FREQ.CUM.

Elementare

1

1

Medie

3

4

Superiori

6

10

Laurea

2

12

Dottorato di ricerca

4

16

 

16

 

Abbiamo trovato le frequenze cumulate; poi la posizione che occupa il 1° quartile
Q1 = 1*N/4 = 16/4 = 4           corrisponde alla scuola media
Q3 = 3*N/4 = 3*4 = 12          corrisponde alla laurea
Possiamo dire che il 50% della popolazione ha un titolo di studio tra la media e la laurea. Si può dire che c’è una contenuta variabilità tra i titoli di studio. Questa misura non essendo frutto di procedimento analitico (non ci sono calcoli) è un po’ grezza ma nel caso dei caratteri qualitativi ordinabili è l’unico strumento che abbiamo.
In pratica la DIFFERENZA INTERQUARTILICA è una misura delle modalità che mi serve per cercare di individuare la variabilità all’interno di una distribuzione dove le modalità sono di carattere qualitativo ordinale. Può esserci utile, come abbiamo visto per le medie di posizione, anche in qualche caso quando abbiamo a che fare con carattere di tipo quantitativo in cui per avere una indicazione migliore della variabilità può essere utile anche calcolare la differenza interquartilica.
Se invece abbiamo a che fare con dei caratteri qualitativi nominali non possiamo avvalerci di misure legate alla mediana o ai quartili. L’unica cosa a cui possiamo aggrapparci è la frequenza con cui si presenta una modalità cioè alla MODA.
Per calcolarci una misura di variabilità in caso di carattere qualitativi ordinali si ricorre ad una categoria particolare di indicatori che si chiamano INDICI DI ETEROGENEITA’, sono indici  che ci indicano quanto il fenomeno è eterogeneo. Maggiore è il valore che assumono e maggiore è l’eterogeneità e minore l’omogeneità.
Devono soddisfare le seguenti condizioni:

  • Essere uguali a 0 solo se il collettivo è OMOGENEO rispetto al carattere considerato
  • Crescere all’aumentare della ETEROGENEITA’ fra le modalità
  • Assumere solo valori maggiori o uguali a 0 (non può essere negativo)

Ne esistono molti ma ne vediamo uno tra i più usato: l’indice S di Gini che si costruisce in questo modo:

1 meno la sommatoria per i che va da 1 a P delle n con i diviso N dove “n” sono il numero delle frequenze di “i” modalità che sono previste, N sono le frequenze totali.

  • C’è massima OMOGENEITÀ quando le frequenze sono concentrate su un’unica modalità. Quindi ni vale sempre “0” quando vale N, per cui la quantità assume valore 1 quindi 1 – 1 = 0                   ni = N
  • Si avrà massima ETEROGENEITA’ quando le frequenze saranno spalmate su tutte le modalità.

 

Supponiamo di avere 3 colori bianco, verde giallo


BIANCO

VERDE

GIALLO

TOTALE

3

5

2

10

0

0

10

10

Nel secondo caso il collettivo è più omogeneo perché presenta un unico colore rispetto al primo. Man mano che la distribuzione dei vari colori si spalma sulle varie modalità diventa più eterogeneo rispetto ai colori. Nel caso che tutte le frequenze siano “0” ed una sola prende tutte le frequenze del collettivo ni = 10 che diviso N 10 = 1. Quindi nel caso che il collettivo presenti OMOGENEITA’ rispetto a quel carattere l’indice assume valore “0”.

n1=n2=………….=np=N/P

Nel caso di massima eterogeità l’indice S sarà:

L’S di Gini è un indice assoluto di eterogeneità basato sempre sulle frequenze però non presenta il massimo dei valori. Se noi lo agganciamo al precedente che è il massimo abbiamo un indice relativo di eterogeneità:
l’indice relativo (di eterogeneità) sarà pertanto:
ESEMPIO

COLORE OCCHI

 

 

X

n

ni/N

Azzurri

2

1/5

Castani

3

3/10

Neri

3

3/10

Verdi

2

1/5

 

10

 

Sono 10 soggetti. Divido le varie frequenze per il totale (ni/N).

 

questo 0,74 è il valore di indice assoluto di eterogeneità.

Il massimo (in questo caso abbiamo 4 classi) e diventa 1 meno un quarto

poi dividiamo
 che è l’indice molto elevato di eterogeneità. Questo corrisponde a quello che abbiamo davanti perché le frequenze non sono disuguali per tutte le classi ma sono molto simili quindi siamo molto vicini alla massima eterogeneità.
Per semplificare se abbiamo 4 modalità ed 8 casi per avere il massimo di eterogeneità dovremmo avere 2 casi per ogni modalità. Nel caso di massima eterogeneità vediamo che il massimo è dato da

se rapporto il mio indice che ho costruito prima e che deve essere assoluto lo rapporto al massimo, lo relativizzo,diventa un indice relativo che mi varierà tra 0 ed 1.

  • Quindi più il valore si avvicina ad 1 e più saremo in condizioni di eterogeneità
  • Più si avvicina a 0 e più avremo condizioni di omogeneità

 

RAPPORTI STATISTICI

Si parla di caratteri quantitativi. Si indica “rapporto” perché si mettono a confronto 2 quantità di 2 variabili. Per fare questo confronto possiamo utilizzare:

  • la loro differenza (si può fare con caratteri quantitativi misurabili su scala di intervalli – il carattere non possiede lo zero assoluto -

X-Y

  • il loro rapporto (per tutti gli altri tipi di caratteri quantitativi)

Se noi facciamo con gli stessi caratteri due raffronti diversi facendo la loro differenza o il loro rapporto i risultati possono dare delle informazioni molto diverse.

 

Punti

Reti fatte

Reti subite

Fatte-subite

Fatte/subite

SQUADRA A

15

24

8

16

3

SQUADRA B

15

40

20

20

2

Prendiamo 2 squadre di calcio. Mettiamo i punti in classifica e le reti fatte e subite. Facendo la differenza tra reti fatte e reti subite otteniamo una prevalenza della squadra B sulla squadra A. Se invece facciamo il loro rapporto vediamo che la situazione si inverte. Le informazioni possono essere ben diverse.
Della differenza non ci occupiamo più e ci occupiamo solo di RAPPORTI.
Un rapporto statistico è un quoziente tra 2 termini tra i quali esiste un legame logico e può essere utilizzato per comparazioni sia spaziali che temporali. Siccome metto a confronto queste due quantità posso utilizzare questo confronto per fare delle valutazioni per distribuzioni nel tempo (tra un periodo ed un altro) oppure nello spazio (da uno stato all’altro, da una regione all’altra). Ci sono molti modi di mettere in relazione dei dati. Si usa classificare i rapporti statistici secondo il legame logico che esiste tra le modalità che vengono messe in rapporto l’una all’altra.


CLASSIFICAZIONE DEI RAPPORTI STATISTICI SECONDO IL LEGAME LOGICO ESISTENTE FRA NUMERATORE E DENOMINATORE

A – RAPPORTI CHE SI SEMPLIFICANO
Danno luogo ad un concetto analogo a quello espresso da uno dei due termini.

  • Rapporti medi
  • Numeri indice
  • Rapporti di coesistenza
  • Rapporti di composizione
  • Rapporti di derivazione

 

B- RAPPORTI CHE SI RISOLVONO
Danno luogo ad un concetto diverso da quello espresso dai 2 termini del rapporto.

1) Rapporti di durata
2) Rapporti di ripetizione

A- Rapporti che si semplificano.
La scelta del denominatore viene fatta in relazione al significato più logico che si vuole attribuire al rapporto.

A.1. I rapporti medi.
Quando noi andiamo a fare una Media mettiamo in relazione tutte le modalità. Mettiamo al numeratore la quantità del carattere che si sta studiando ed al denominatore la numerosità del collettivo al quale viene riferito il carattere che stiamo studiando. Per esempio se stiamo studiando il reddito lo riferiamo al collettivo a cui ci stiamo riferendo e quindi avremo un rapporto Medio. Il concetto che viene fuori è analogo al numeratore, cioè il reddito medio sarà il reddito.
Prendiamo per esempio il carattere “numero di laureati”.

  • numero laureati in Italia in un anno accademico
  • collettivo di riferimento :
    • totale università italiane
    • popolazione di una regione

Se facciamo un rapporto tra il carattere A e B i) otteniamo un numero (sempre di laureati) che indica quanti laureati si sono registrati mediamente nelle università italiane.
Se invece lo rapportiamo alla popolazione di una regione otterremo sempre un numero medio di laureati ma rispetto all’unità geografica regione.

Quando sentiamo parlare di reddito medio pro capite abbiamo un reddito diviso per tutta la popolazione di riferimento. Quanto si vede “consumo medio per abitante” viene preso il consumo a livello nazionale e viene diviso per il numero di abitanti.

 

Il 2 ed il 3 del gruppo A li vedremo in seguito.

A.4. I rapporti di composizione
In questo caso mettiamo in relazione una parte di soggetti con il totale dei soggetti. Mi da una indicazione di come si compone quel fenomeno. E’ il rapporto più utilizzato. Serve per indicare quale è il peso di una modalità sul totale. Questi rapporti hanno delle peculiarità. Siccome si rapporta una parte al tutto l’unità di misura è la stessa quindi quello che viene è un numero puro, una percentuale non ha una unità di misura.
Sono numeri compresi tra 0 ed 1.
Siccome si rapporta una parte al tutto è indicato sempre in modo percentuale.
Si mette in rapporto una parte del fenomeno e la si divide per il totale cioè quando si vuole evidenziare il peso di una modalità rispetto alle altre.
Vediamo due tabelle dell’ISTAT su una indagine sulla condizione lavorativa a 3 anni dalla loro laurea o diploma.

Questa indica i diplomati per sesso e tipo di diploma maturità


DIPLOMA

MASCHI

FEMMINE

TOTALE

Professionale

1.196

10.173

2.369

Tecnico

16.021

9.420

25.441

Liceale

30.677

36.851

67.478

Magistrale

530

60841

7.371

Altri

576

752

1.328

TOTALE

48.950

55.037

103.987

Viene diviso per maschi e per femmine in base al tipo di diploma conseguito. Questa tabella ci dice poco. Allora ci facciamo un rapporto di composizione all’interno di ciascuna modalità sesso, cioè rapportiamo il numero di persone che hanno conseguito il tipo di diploma al totale, e lo facciamo per tutte le modalità.

LAUREATI

MASCHI

FEMMINE

TOTALE

Professionale

2,4

2,1

2,3

Tecnico

32,7

17,1

24,5

Liceale

62,6

67,0

64,9

Magistrale

1,1

12,4

7,1

Altri

1,2

1,4

1,3

TOTALE

100

100

100

Se il totale viene 100 è giusto.
Quando facciamo dei rapporti di composizione (rapportiamo ogni modalità al totale) deve venire un numero tra 0 e 1 ed il totale viene sempre 1 che espresso in forma percentuale è 100.

Se noi facciamo una costruzione in questo modo vediamo subito che la percentuale più frequente di diploma conseguito sia per i maschi che per le femmine è quello liceale, in particolare nella femmine pesa di più rispetto ai maschi. In successione viene per i maschi la scuola tecnica con 32,7 (circa 1/3) mentre è inesistente la scuola magistrale che invece per le femmine rappresenta il 12%.

A.3 Rapporti di coesistenza
In questi rapporti si mettono a confronto le frequenze di una modalità con quelle di un’altra modalità. Ci è utile per evidenziare immediatamente il peso di una modalità non rispetto al totale ma rispetto ad una modalità antagonista. Anche questa serve per ricavare più informazioni possibili dai dati che abbiamo a disposizione.

  • Sono numeri puri (mettono in relazione due frequenze)
  • Possono assumere valori maggiori di 1 (perché posso avere una modalità che è molto più frequente dell’altra modalità)
  • Se calcoliamo su tutte le modalità questo rapporto, normalmente la loro somma non è di norma = 100

Facciamo un esempio riprendendo la tabella precedente. In questo caso mettiamo in rapporto per ciascun tipo di diploma conseguito la frequenza dei maschi sulla frequenza delle femmine.


DIPLOMA

MASCHI

FEMMINE

%

Professionale

1.196

10.173

102,0

Tecnico

16.021

9.420

170,0

Liceale

30.677

36.851

83,1

Magistrale

530

60841

7,7

Altri

576

752

76,6

TOTALE

48.950

55.037

88,9

Vediamo ad esempio nei totali (48.950:55.073) il rapporto maschi su femmine è l’88% e vuol dire che c’è un numero inferiore di maschi rispetto alle femmine che ha conseguito il diploma. Si ragiona in modo percentuale. Se il risultato del rapporto è inferiore a 100 vuol dire che i maschietti sono meno delle femmine. Se il rapporto da un numero superiore a 100 vuol dire che i maschi sono in numero superiore alle femmine. Si mettono in rapporto le quantità. Se le quantità sono uguali il rapporto è 1 se sono di più i maschi verrà 1,qualche cosa, se sono inferiori il numero tenderà verso lo 0.
Se mettiamo in relazione ciascun tipo di diploma conseguito dai maschi e ciascun tipo di diploma conseguito dalle femmine possiamo fare un tipo di osservazione che, nel caso del professionale sono leggermente inferiori i maschi, nel caso della scuola tecnica sono molto di più i maschi, nel caso del liceo i maschi sono un po’ meno ecc.
Queste tabelle ci permettono di trarre delle conclusioni su quale è la prevalenza di una delle due modalità sull’altra rispetto al carattere che stiamo studiando.

 

Un altro modo è mettere in relazione i vari tipi di diploma tra di loro. Esempio potremmo vedere quanto pesa di più il liceo rispetto ad altre categorie, cioè metto in relazione le frequenze del liceo con le altre modalità.

Diploma

Maschi

Femmine

Totale

Professionale

25,6

31,4

28,5

Tecnico

1,9

3,9

2,7

Liceo

1,0

1,0

1,0

Magistrale

57,8

5,4

9,2

Altri

53,2

49,0

50,8

Chiaramente il liceo : liceo mi da 1 (30.627:30.627)
Il liceo rispetto alla scuola tecnica sarà         30.627:16.021=1,9 (per quanto riguarda i maschi)

 

COESISTENZA : rapportiamo la frequenza di una modalità al totale e
abbiamo immediatamente l’idea del peso di questa modalità nell’ambito
Rapporti di               della distribuzione.

COMPOSIZIONE: rapportiamo le frequenze di una modalità alle
frequenze di un’altra modalità per avere un’idea del peso di una modalità rispetto ad un’altra

 

                                                       
POPOLAZIONE PER CLASSI DI ETA’, INDICI DI VECCHIAIA E DIPENDENZA.


Anni

Classi di età

Indice di vecchiaia (a)

Indice di dipendenza

 

0-14

15-64

65 e oltre

 

degli anziani (b)

Totale (c)

1951

26.1

65.7

8.2

31.4

12.5

52.2

1961

24.5

66.0

9.5

38.8

14.4

51.5

1971

24.4

64.3

11.3

46.3

17.6

55.5

1981

21.5

65.3

13.2

61.4

20.2

53.1

 

Dalla tabella emerge che la popolazione giovane diminuisce piuttosto rapidamente, la popolazione lavorativa rimane pressoché stabile e che la popolazione in età da pensione cresce velocemente.
Tale tipo di rapporto ci dà un’idea della composizione della popolazione e può essere utile per programmare previdenze per determinate classi sociali.

 

Indice di vecchiaia (a)  

Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 0-14 : mette in relazione diretta due modalità e dà un’idea precisa di quanto la popolazione anziana pesi rispetto a quella in età scolare.
Questo indice è usato largamente in tutto il mondo, più è alto questo indice più è vecchia la popolazione; è un rapporto di coesistenza.

Indice di dipendenza degli anziani (b)

Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 15-64 :
dà un’idea di quanto la popolazione anziana pesi rispetto a quella in età lavorativa.

Indice di dipendenza totale (c)

Rapporto percentuale tra la somma della popolazione in età 0-14 e quella in età da 65 anni in poi, e la classe 15-64 : in questo modo abbiamo la misura di quanto le popolazioni non attive da punto di vista lavorativo  pesano sulla popolazione che lavora.

 

RAPPORTI DI DERIVAZIONE  (molto usati)

  • Sono espressi nell’ unità di misura

del numeratore.               
Punti logici comuni

  • Il denominatore è il presupposto logico del                  a tutti i rapporti di

numeratore (il denominatore deve essere la base         derivazione
assolutamente logica per poter essere il punto di
appoggio del numeratore).

 

 

LIVELLO TERRITORIALE

TASSO DI I.V.G.
Per 1000 donne in età feconda nella loro provincia di residenza

TASSO DI MORTALITA’ INFANTILE

TASSO GENERICO DI MORTALITA’

TASSO DI MORTALITA’ PER MALATTIE CARDIO-CIRCOLATORIE

Anno

1998

1997

1999

1997

Piemonte

9.9

5.1

11.7

4.9

Valle d’Aosta

10.6

5.9

10.7

4.3

Liguria

11.2

5.5

13.8

5.6

Lombardia

9.1

3.9

9.7

5.9

 

I.V.G.  interruzione volontaria di gravidanza
Età feconda  15/49 anni
X 1000  (i rapporti di composizione vengono spesso moltiplicati x 100) per comodità visiva questi dati vengono moltiplicati x 1000, ma deve essere chiaramente specificato.

TASSO DI I.V.G.  vengono messi in rapporto due fenomeni: il tasso di I.V.G. per 1000 donne (denominatore) e il numero delle donne in età feconda (numeratore).

TASSO DI MORTALITà INFANTILE  vengono messi in rapporto due fenomeni: il numero dei nati vivi e i bambini che muoiono con età 0 anni, cioè non hanno ancora compiuto 1 anno (numeratore).

Questi tipi di tasso hanno una caratteristica comune : al numeratore c’è un numero che indica un fenomeno e al denominatore c’è un aggancio logico affinché il risultato abbia un senso.

 

TASSI (o quozienti) GENERICI O SPECIFICI

 

Sono una particolare classe di rapporti, della quale fanno parte i tassi

    • di natalità
    • di mortalità
    • di nuzialità.

Si differenziano tra loro per il fatto che al denominatore si trova il presupposto generico (generale) o specifico rispetto ad una certa modalità.

 

Quoziente generico di mortalità
Una popolazione A è composta nel 1999 (a metà anno per convenzione) da N individui. Nel corso dell’anno si sono verificati m decessi.
Il quoziente generico di mortalità è costituito dal rapporto

Supponiamo di conoscere della popolazione A anche la struttura in età; classificando i decessi utilizzando la stessa struttura della popolazione possiamo calcolare i quozienti specifici.

 

 

Età
(in classi)

Popolazione
(a metà anno)

Decessi
(numero)

Quozienti specifici di mortalità per classi di età

0 – 14

500

2

4.0

14 – 29

2000

8

4.0

29 – 44

2000

12

6.0

44 – 59

1000

10

10.0

59 – 74

500

20

40.0

74 – oltre

100

15

150.0

totale

6100

67

11.0

 

Dai quozienti specifici si può risalire al quoziente generico relativo alla popolazione nel complesso, tramite una media di tutti i quozienti specifici, ciascuno ponderato con la relativa popolazione.

                             
 

Il quoziente generico risente quindi sia delle variazioni della mortalità specifica che della variazione della struttura per età della popolazione.
Lo studio dei quozienti specifici risulta molto utile nel confronto tra 2 o più popolazioni rispetto al fenomeno preso in esame.

 

QUOZIENTI STANDARDIZZATI

 

Sono costruiti in modo tale da eliminare l’influenza che la diversa struttura di uno o più caratteri di specificazione (sesso, età, titolo di studio) ha nella determinazione del fenomeno osservato su 2 o più popolazioni o sulla stessa popolazione in momenti diversi.

ES. :   Fenomeno osservato : mortalità
Caratteri di specificazione : sesso ed età

Per eliminare l’influenza della diversa struttura per età delle 2 popolazioni scegliamo una struttura per età TIPO alla quale riferire i calcoli per tutte e due le popolazioni. Questa particolare struttura per età (popolazione tipo o popolazione standard) può essere scelta con una certa libertà :

  • una delle due popolazioni (A o B)
  • una media delle due popolazioni
  • una terza popolazione (C) come riferimento

 

Supponiamo di prendere come nostra popolazione standard la seguente :

Età (in classi)

Popolazione standard

0-14

500

14-29

2500

29-44

3000

44-59

3000

59-74

2500

74-oltre

500

totale

12000

 

Assumiamo che la struttura per età delle 2 popolazioni sia quella riportata in tabella.
Se applichiamo alla popolazione standard i quozienti di mortalità specifici della popolazione A e della popolazione B , otteniamo i quozienti di mortalità specifici che si otterrebbero nel caso in cui le 2 popolazioni A e B avessero la stessa struttura per età.

Età

Popolazione standard

Quoziente specifico di mortalità x classi di età.
Popolazione A

Morti attese popolazione A

Quoziente specifico di mortalità x classi di età.
Popolazione B

Morti attese popolazione B

0-14

500

4.0

2

2.5

1

14-29

2500

4.0

10

3.3

8

29-44

3000

6.0

18

5.0

15

44-59

3000

10.0

30

9.0

27

59-74

2500

40.0

100

35.0

88

74-oltre

500

150.0

75

125.0

63

totale

12000

 

235

 

202

 

 

Rapporti che si risolvono

Danno luogo ad un concetto diverso dai due fenomeni messi in rapporto.

a)rapporti di durata
mettono in relazione la consistenza di un fenomeno in un dato periodo  con il flusso che la movimenta.

Es.:        

  • Consistenza depositi bancari / flussi di versamenti e prelevamenti
  • Consistenza di magazzino / flusso di acquisti e vendite
  • Consistenza di una popolazione / flusso naturale e migratorio

Di frequente si fa riferimento alle consistenze e ai flussi MEDI del periodo.

Movimento di ricorsi in materia di pensioni presso la Corte dei Conti - 1994

Dipendenti inizio dell’anno

Presentati nell’anno

Esaminati nell’anno

Pendenti a fine anno

Civili

79733

10113

2185

87661

Militari

54335

3030

1835

55530

Di guerra

133086

2808

4483

131441

totale

267154

15951

8503

274632

 

Pensioni civili
Consistenza media = (situazione iniziale + situazione finale) / 2

                            (79733 + 87661) / 2 = 83697

 

                   Flusso medio del periodo = (presentati + esauriti) / 2

                            (10113 + 2185) / 2 = 61491

                   RAPPORTO DI DURATA = 83687 / 6149 = 13.61 (in anni)

 

b)rapporti di ripetizione
indicano la velocità con il quale il fenomeno esaminato si rinnova nel corso di un periodo.

E’ espresso dal reciproco del rapporto di durata.          

                   Rapporto di ripetizione = 1 / 13.61 = 0.07

7 aprile 2004

Chiarimento sull’esercitazione. Riprendiamo la scomposizione della devianza.
La devianza è il numeratore della varianza. Cioè la varianza non divisa per la numerosità si chiama devianza. La devianza così come è costruita non ha alcuna utilità pratica dal punto di vista operativo. Viene utilizzata per vedere nel dettaglio quello che avviene singolarmente nei gruppi e tra i gruppi.
Ad esempio prendiamo tutti i presenti in questa aula, dividiamo in due sottogruppi (quello di destra e quello di sinistra) possiamo analizzare nel dettaglio senza rifare tutte le volte le addizioni se abbiamo a disposizione sufficienti elementi dell’uno e dell’altro basandoci su questo principio di scomposizione della varianza. Abbiamo detto che la devianza totale si può spaccare in 2 pezzi:

  • devianza within quella all’interno di ciascun gruppo;
  • devianza between che misura la differenziazione-distanza tra i due gruppi.

Possiamo raggiungere il nostro obiettivo di arrivare ad un calcolo della varianza complessiva come medie delle varianze within e della varianza between.
Esempio tabella esercitazione.


Gruppo A

Gruppo B

126

122

132

125

140

128

144

140

150

144

158

145

161

149

164

150

173

153

176

156

Formula scomposizione della devianza
DEV(T)=DEV(W)+DEV(B)

                

 

La devianza totale di questi due gruppi è data dallo scarto di ciascun elemento dalla propria media aritmetica del gruppo A elevato al quadrato moltiplicato per la propria numerosità, più la sommatoria degli scarti di ciascun elemento dalla propria media del gruppo B al quadrato moltiplicato per la propria numerosità. Queste due insieme rappresentano la devianza between. La devianza within è quella che compare come scarto tra le due medie “Ma” ed “Mb”. Quindi M per k che va da 1 a 2 (in questo caso sono 2 gruppi) M di a meno M di b al quadrato. Questa è la formula della scomposizione della devianza.
Facendo opportune manipolazioni abbiamo una situazione di questo genere. Se mi riferisco al conto della varianza anziché della devianza, cioè ponderando e dividendo per le numerosità riesco ad avere una situazione in cui la varianza within è indicata come media delle varianze all’interno dei gruppi e la varianza between è indicata come media delle medie aritmetiche dei 2 gruppi. Quindi avendo a disposizione le varianze within, le medie dei 2 gruppi, le due numerosità e quella complessiva, partendo da questi elementi posso costruirmi la varianza complessiva.

Altro chiarimento sull’esercitazione


120├─┤130

131├─┤140

141├─┤150

Questa suddivisione andrebbe bene se i numeri fossero discreti (cioè se nell’ambito di un intervallo potrebbero assumere solo alcuni valori). Siccome questo è un carattere continuo (nell’arco di un intervallo può assumere tutti i valori – 130,1 130,2 130,3 ecc.) messo così ci sono dei buchi tra 130 e 131.

Una regola da seguire quando si fa la suddivisione in classi, queste devono essere contigue, non ci devono essere buchi e non si devono sovrapporre.

Lo stesso vale per le rappresentazioni grafiche.

Tabella su indagine fatta negli USA pubblicata nel marzo 2004. Tratta lo stipendio di persone impiegata come biostatitici. Sono stati usati i percentili come indicativo di quanto prendono queste persone, invece di prendere i valori medi. Questo metodo non risente dei valori estremi.

Un ulteriore esempio di uso di rapporti statistici. Tabella situazione sociale comune di Bologna 1994 costruita da un questionario su: a) partito politico per cui si simpatizza; b) parere sulla natalità.
Ci sono le frequenze assolute cioè il numero degli intervistati. Le frequenze relative si costruiscono con un rapporto di composizione rapportando una parte di tabella al tutto. Oppure considerando separatamente ogni singola colonna (o ogni singola riga), le frequenze assolute per singola colonna vengono rapportate al totale della colonna stessa. Per esempio da questi dati posso vedere per coloro che hanno dato una risposta favorevole ad una alta natalità la relativa appartenenza politica.

 

NUMERI INDICE

L’ultimo argomento per quanto riguarda i rapporti statistici. Sono un particolare tipo di rapporto che mette in relazione una quantità o una intensità di un fenomeno, rilevato in un certo momento, con l’intensità dello stesso fenomeno rilevato in un altro momento. Rispetto agli altri rapporti visti fino ad ora in questo caso non abbiamo un rapporto di una parte al tutto. Si può fare anche sotto il profilo spaziale nel senso che si prende una intensità di un fenomeno un una certa regione e lo rapportiamo all’intensità dello stesso fenomeno in un’altra regione.
Esempio tabella “Indice fatturato di una industria”. C’è sempre una dicitura che dice “base ” in questo caso “1995 base 100” che indica che si sta utilizzando come base del numero indice l’anno 1995.


MESE

1999

2000

2001

Gennaio

87,7

95,1

 

Febbraio

98,1

 

 

Marzo

118

 

 

Aprile

104

 

 

Maggio

104

 

 

Giugno

117

 

 

Luglio

121

 

 

Agosto

64,9

 

 

Settembre

 

 

 

Ottobre

 

 

 

Novembre

 

 

 

Dicembre

 

 

 

NUMERI INDICE: rapporti che misurano le variazioni di una fenomeno in 2 diverse circostanze normalmente di tempo più raramente di luogo.
In base all’ordine temporale abbiamo 2 tipi di indice:

  • NUMERI INDICI A BASE FISSA: quando si rapportano tutti i valori rilevati in un dato periodo di tempo ad una relazione fissa che considerano come base del mio numero indice. Per esempio se ho rilevato un certo fatturato di una industria a cadenza annuale (1995-1996-1997-1998 ecc.) mi posso costruire degli indici del fatturato industria di vari anni con base 1995, cioè prenderò il fatturato rilevato nei vari singoli anni e volta per volta lo rapporterò a quello registrato nel 1995. Il risultato che si ottiene (essendo un rapporto) è 1 che percentualizzato diventa 100.
  • NUMERI INDICE A BASE MOBILE: si ottengono rapportando ciascuna rilevazione a quella immediatamente precedente. Per esempio il fatturato dell’industria del 1996 lo rapporto al 1995 e avrò il numero indice del 1996; quello del 1997 lo rapporto al 1996 e avrò il numero indice a base mobile del 1997.

Nella pratica i numeri indice si indicano con la lettera I e alla sinistra in basso si mette l’anno base, sulla destra in basso si indica l’anno che sto studiando in quel momento.

    se metto       b=1995 ed i=1999

vuol dire che sto calcolando l’indice di base 1995 dell’anno 1999. Dato che Xi è il fatturato del 1999 e Xb è il fatturato del 1995 si mettono in rapporto questi 2. Il risultato può essere un numero inferiore o superiore ad 1. Si moltiplica tutto per cento perché normalmente è espresso in forma percentualizzata.
Costruendo i numeri indici abbiamo numeri relativi, numeri puri in cui non c’è più riferimento all’unità di misura né ai numeri grossi di partenza.
Tabella energia elettrica consumata a livello nazionale negli anni 1999, 2000, 2001 (impossibile da copiare!!!!!!!)
Parto dai numeri assoluti e mi costruisco dei numeri relativi prendendo ad esempio gennaio 1999 uguale a 100 e mi costruisco il rapporto prendendo e rapportando ciascun elemento a gennaio 1999. Ottengo una serie di numeri in cui vedo subito come è cambiata la situazione e l’andamento. Quando ci sono dei numeri inferiori a 100 vuol dire che c’è stato un calo; quando ci sono dei numeri superiori a 100 vuol dire che c’è stato un aumento.

Per farci un’idea vediamo un’altra tabella. Prendiamo come base una rilevazione che non compare. 1995=100
E’ normale che si faccia così sempre che il fenomeno che stiamo studiando nell’arco di tempo considerato (dall’anno base ad oggi) non abbia avuto forti salti, cioè quando andiamo a costruirci dei numeri indice facciamo in modo di andare a scegliere come base la rilevazione di un periodo non anomalo anche qualche anno prima. Nel giro di 3 o 4 anni la base viene cambiata per via dell’inflazione poiché la base non è più sufficientemente adeguata a darci una indicazione seria di quello che sta avvenendo.

INDICE FATTURATO INDUSTRIA A BASE GENERALE.
BASE 1995=100

MESE

1999

2000

2001

G

87,7

95,1

110

F

98,1

119

119

M

118

134

138

A

104

109

117

M

104

126

130

G

117

130

136

L

121

131

133

A

64,9

76,7

76,5

S

121

131

 

O

116

130

 

N

117

129

 

D

123

128

 

Se noi utilizziamo questa serie di numeri indice vediamo che da gennaio a febbraio c’è stato un calo rispetto al 1995=100, mentre invece nel periodo sett-dic c’è stato un fatturato superiore al periodo base. I numeri indice a base fissa sono sicuramente quelli più utilizzati.
I NUMERI INDICI A BASE MOBILE: come base non indichiamo più una base generica X ma una base variabile che varia in funzione dell’indice dell’anno o del mese di riferimento. Sono costruiti rapportando le quantità o l’intensità di un fenomeno verificate in un certo periodo all’intensità rilevate nel periodo immediatamente precedente.

 

i – 1 I i              (i=1, ………, t)

i – 1 I i =
--------------------------------------------

Possiamo avere una serie di numeri di indici a base fissa e vedere cosa succede alla stessa serie a base mobile. Prendo l’indice a base fissa e ho il numero del tempo “i” e del tempo “i-1” (quello immediatamente precedente) sapendo che l’indice a base fissa tempo “i” è data dalla quantità, dalla densità del fenomeno tempo “i” rapportata al tempo base “b”,

              

Xi = indice base fissa
Xb = indice che si vuole cambiare

Le basi possono cambiare perché diventano vecchie quindi non più rappresentative quindi si possono sostituire. Per sostituire le basi si usa il COEFFICIENTE DI RAPPORTO.
Un indice a base fissa “b” è indicato così

se noi cambiamo base con un indice di base “c” possiamo passare da quelli con la vecchia base a quelli con la nuova base moltiplicando tutti per questo coefficiente di rapporto. Al denominatore sostituisco Xb (la vecchia base) con Xc (la nuova base). Il denominatore Xi rimane fisso.

CRb         c=

In questo modo posso passare rapidamente dalla vecchia base alla nuova base.
Questo coefficiente mi serve come rapporto, come fattore di conversione dalla vecchia base alla nuova base.

 dove Xb è l’indice che si vuole cambiare

cambiando base in C


si moltiplicano per il coefficiente i vecchi numeri

                         vecchia base su nuova base moltiplico *100 e poi moltiplico tutti i numeri indice vecchi per questo numero ed ottengo tutto nella nuova base.

Il nuovo numero mi indica il nuovo indice “I” rispetto alla nuova base “c”.

Questi qui si chiamano anche NUMERI INDICE SEMPLICI perché noi prendiamo il singolo carattere, il singolo fenomeno e ci calcoliamo il numero indice di quel fenomeno rispetto agli anni precedenti. Se invece passiamo ad un'altra serie di indici che si chiamano NUMERI INDICE SINTETICI O COMPLESSI che utilizziamo spesso per quanto riguarda gli effetti economici (inflazione) vediamo che si prende in considerazione non il singolo bene, ma una serie di beni. Si cerca di trovare un bilanciamento adeguato tra l’insieme dei beni che prendiamo in considerazione, il periodo o l’anno base, e siccome dobbiamo tirare fuori da questo insieme un indice sintetico dobbiamo trovare la media più appropriata (abbiamo detto che le medie sono indici sintetici).
Ecco i vari passaggi.

  • SCELTA DEI BENI: i beni devono essere rappresentativi della realtà che si deve studiare, esaminare. Esempio dei prezzi al consumo= l’insieme dei beni che vengono presi, rilevati devono essere rappresentativi del consumo medio di una famiglia tipo.
  • SCELTA DELLA BASE: deve essere un periodo normale, una circostanza normale dove non ci siano stati casi particolari. Non appena ci si rende conto che ci stiamo discostanto dalla situazione che avevamo previstosi deve cambiare base.
  • SCELTA DELLA MEDIA: si utilizza molto spesso una media aritmetica ponderata di questi indici semplici perché questa media presenta diversi vantaggi tra cui essere calcolata con estrema rapidità ed estrema semplicità.
  • SCELTA DEL SISTEMA DI PONDERAZIONE: la ponderazione serve a dare un peso a ciascuno di questi beni e serve perché non sempre i beni che andiamo a considerare rivestono lo stesso peso.

Si possono costruire diversi numeri indice sintetici per quanto riguarda i prezzi di tutti i tipi (di vendita, al dettaglio, all’ingrosso) oppure possiamo costruirci dei numeri indici sintetici delle quantità cioè come variano le quantità di questi prodotti che prendiamo in considerazione.
Ci sono diversi sistemi di ponderazione.
Uno è quello che si chiama PONDERAZIONE VALORI
p 01 *q 01
cioè si prende il prezzo e la quantità del bene (indicato con “i” quindi iesimo) al tempo 0 (con zero si indica l’anno base).
Questo indice si chiama INDICE DI LASPEYRES
In pratica per l’indice dei prezzi si prende un prezzo del bene “iesimo” a tempo 1 e a tempo zero e li moltiplichiamo per il valore a tempo base, il tutto viene rapportato alla sommatoria complessiva dei valori del bene considerato. Questo è un modo di ponderazione.

          

Al numeratore nella parentesi abbiamo il valore prezzo per quantità rilevato a tempo zero (cioè a tempo base) di ciascun bene. Al denominatore abbiamo il prezzo per la quantità rilevato a tempo zero cioè a tempo base.

Stesso discorso si può fare con le quantità.

Noi possiamo vedere delle variazioni e fare un numero indice non soltanto dei prezzi ma anche delle quantità. Cioè rilevo delle quantità in diversi periodi vedo come queste variano e sulla base di queste quantità pondero i valori e questo mi da una indicazione di come si stanno movendo, quello che consumo.
Le proprietà dell’INDICE DI LASPEYRES le vedere sul libro se non sono chiare ne riparliamo.

POTERE DI ACQUISTO
Per potere d’acquisto indichiamo la quantità di un bene K che ha un certo prezzo, che noi riusciamo a comprare  con una quantità di moneta. Supponiamo che un certo bene costa 12 € al kg, e supponendo che la mia disponibilità di moneta sia di 100 €, il mio potere d’acquisto rispetto al bene K sarà indicato con 100 (quantità di moneta che ho disponibile) diviso il prezzo unitario di quel bene.

                      

Per prezzo unitario sarà 12 € per un kg. Quindi in questo caso il risultato di questo divisione non è un numero puro ma è in chilogrammi. Vuol dire che io posso acquistare 8,34 kg con questa quantità di moneta. Questo l’anno scorso. Per vedere quest’anno che è successo, quindi per misurare la variazione del mio potere d’acquisto mi calcolo la quantità di bene che potevo comprarmi l’anno scorso (al tempo 1) con la mia quantità di moneta. Suppongo costante la mia quantità di moneta (al tempo 2) e vedo che essendo passato il prezzo da P1 a P2, vedo quanto bene mi posso comprare quest’anno con la stessa quantità di moneta.

                                        M = P * Q

Allora mi prendo il mio potere d’acquisto al tempo 2 lo rapporto a quello del tempo 1 e quindi basta che io prendo il prezzo unitario al tempo 1 e lo rapporto al tempo 2 e immediatamente ho quanto è variato il mio potere d’acquisto.

Al tempo 1 il prezzo era 12 € al kg supponiamo che al tempo 2 fosse di 15 € al kg faccio il rapporto passo per passo e vediamo che mentre al tempo 1 potevo comprare 8,33 kg al tempo 2 ne posso comprare solo 6,67 kg

 

Quindi facendo questo tipo di rapporto, essendo inferiore ad 1 (0,80*100=80%) vuol dire che il mio potere d’acquisto è diminuito del 20%.
Ricapitolando tutti i numeri indici che sono particolari tipi di rapporto vengono utilizzati per mettere in evidenza la variazione intervenuta in un certo periodo di tempo di un bene o una serie di ben, il tutto più o meno ponderato a seconda che io abbia bisogno di evidenziare soltanto la variazione della quantità, di un prezzo singolo oppure ponderato se io voglio costruirmi un indicatore complessivo di una situazione che prende in considerazione una pluralità di beni.
a senso perché mette in relazione una certa quantità ad un'altra. Di questi indicatori ne posso costruire migliaia quando mi servono e come mi servono per poter mettere in evidenza particolari situazioni.

 

 

RELAZIONI STATISTICHE

 

Il caso più comune è quando ci si trova di fronte a due o più caratteri statistici e si vuole capire che tipo di relazione c’è tra di loro.

La rappresentazione grafica con assi cartesiani e punti è la più usata per rappresentare relazioni statistiche tra caratteri quantitativi.
Se si nota che al crescere (o al diminuire) di una variabile anche l’altra cresce (o diminuisce) si dice che le due variabili hanno un andamento CONCORDE.
Se si nota che al crescere di una variabile l’altra tende a diminuire si dice che le due variabili hanno un andamento DISCORDE.

Per studiare il collegamento tra due caratteri quantitativi (variabili) si parla di CORRELAZIONE tra i due fenomeni.

Il concetto di correlazione specifica una simmetria  : se si dice che la variabile X è correlata alla variabile Y , implicitamente si dice anche che la variabile Y è correlata alla variabile X.
La correlazione implica la INTERDIPENDENZA fra due variabili, ma non la DIPENDENZA dell’una dall’altra : cioè, c’è un collegamento tra le due variabili ma non un legame.

Date due variabili X e Y, se al crescere (decrescere) di X si osserva che Y cresce (decresce), si dirà che tra X e Y esiste una CORRELAZIONE POSITIVA (NEGATIVA).

Se al crescere (decrescere) di X, Y cresce (decresce) seguendo un andamento più o meno rettilineo, si dice che le due variabili sono correlate LINEARMENTE, e in un grafico questo andamento viene bene rappresentato da una retta.

In analisi statistica ci sono anche delle correlazioni di tipo superiore, curvilineo ad esempio, ma non sono usati molto. Se i punti dunque tendono a distribuirsi intorno ad una retta, si parla di correlazione lineare; se i punti invece si pongono in modo tale da costruire una curva crescente, c’è comunque un collegamento tra i due caratteri ma non lineare, bensì  di ordine superiore.
Parlo di correlazione lineare molto alta se la retta che faccio passare tra i punti tende a coincidere con i punti; la correlazione è molto bassa se vedo che i punti si sparpagliano intorno a questa retta.

 

COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON.

Quando le variabili cominciano ad essere molte, non è più semplice individuare la correlazione, per cui si usa un indice. Ne esistono molti di indici ma uno dei più comuni è il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS–PEARSON.

Il coefficiente di correlazione lineare di Bravais-Pearson è dato dal rapporto di una quantità (covarianza) e il prodotto dello s.q.m. di una variabile per lo s.q.m. dell'altra variabile.

    

 

r = simbolo che indica questo coefficiente
 = covarianza

Questa formula ricorda molto da vicino la varianza che è l’ indice di variabilità indicato dalla sommatoria degli scarti di ciascuna modalità dalla media aritmetica e tutto al quadrato.

La covarianza invece è la somma del prodotto degli scarti di ciascuna modalità della I^ variabile dalla media aritmetica, per gli scarti di ciascuna modalità della II^ variabile dalla propria media aritmetica, diviso la numerosità.

La media aritmetica rappresenta il punto di baricentro della distribuzione, il punto centrale; tanto è vero che la proprietà principale della media aritmetica è che la somma degli scarti dalla media aritmetica è sempre 0.

 

dove

è la covarianza.
Questa formula è più semplice per fare i calcoli: la sommatoria dei prodotti delle modalità  dei due caratteri meno N volte (numerosità) il prodotto della media di x e della media di y.

Se il risultato di questa somma è negativo vuol dire che sono prevalenti i punti di discordanza e i due caratteri avranno un andamento discorde; se invece la somma è positiva, vuol dire che sono prevalenti i punti di concordanza.

Questo è un indice molto grezzo di “correlazione”, perché legato alle unità di misura di tutti e due i caratteri. E’ utile però per darci un’idea di come COVARIANO le variabili in esame. E’ importante per il segno ma non per il valore.
Il coefficiente di correlazione lineare r rapporta la covarianza al suo massimo (Schwartz).

Qualsiasi indice di variabilità dove rispondere a certi requisiti teorici:

  • se non c’è variabilità l’indice deve assumere valore 0
  • gli indicatori di variabilità assoluta variano da 0 ad infinito
  • se sono indici di variabilità relativa variano da 0 a 1.

Per quanto riguarda la covarianza, avendo due caratteri che possano avere andamento concorde o discorde, l’indice di variabilità varierà in questo modo:

-x           0         + y

 

L’indice assume valore 0 quando c’è un perfetto bilanciamento tra i segni positivi ed i segni negativi.

Con questo indice di correlazione :

costruisco un indicatore (r) che è un numero puro

 

        –1   <=  r  <=  +1 :

costruisco un indice relativo perché lo rapporto al suo massimo, e può assumere un valore tra –1 e +1 (tanto più il valore si avvicina a –1 tanto più i due i due caratteri sono incorrelati tra di loro linearmente; più il valore si avvicina a +1 e più i due caratteri tendono a distribuirsi su una retta (positivamente o negativamente)).

Più il valore tende ad avvicinarsi a 0 e più i due caratteri sono in correlati linearmente.

 

 

Esempio : calcoliamo il coefficiente di correlazione lineare per le due variabili peso e altezza.

X

Y

52

155

52

155

52

180

59

180

60

165

74

174

76

164

81

196

81

196

81

196

Innanzitutto calcoliamo la media aritmetica di x e di y :

                                      Mx = 66.8               My = 174.1

Calcoliamo i rispettivi s.q.m. ed il loro prodotto:

                                      σx = 12.27    σy = 16.08    σx * σy = 197.35

 

 

Calcoliamo la covarianza :


X

Y

(x – Mx)

(y – My)

(x – Mx) * (y – My)

 

52

155

52-66.8

155-174.1

-14.80 * -19.10

282.68

52

155

52-66.8

155-174.1

-14.80 * -19.10

282.68

52

180

52-66.8

180-174.1

-14.80 * 5.90

-87.32

59

180

59-66.8

180-174.1

-7.80 * -14.10

109.98

60

165

60-66.8

165-174.1

-6.80 * -9.10

61.88

74

174

74-66.8

174-174.1

7.20 * -0.10

-0.72

76

164

76-66.8

164-174.1

9.20 * -1010

-92.92

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

81

196

81-66.8

196-174.1

14.20 * 21.90

310.98

 

 

 

 

 

 

 Tot.

 

0

0

0

1489.2

 

                                      La somma degli scarti dalla media aritmetica deve
essere 0.

 


Cov(x,y) = 1489.2 / 10 = 148.92

r = 148/92 / 197.35 = 0.7546                questo numero è significativo ed indica che c’è una correlazione lineare piuttosto marcata

La covarianza da il segno del coefficiente di correlazione ed essendo il coefficiente un numero molto vicino a 100 vuol dire che c’è un maggior numero di punti concordi.

Lo stesso esempio adesso viene eseguito con la formula di calcolo più veloce:

X

Y

X * Y

52

155

2704

24025

8060

52

155

2704

24025

8060

52

180

2704

32400

9360

59

180

3481

25600

9440

60

165

3600

27225

9900

74

174

5476

30276

12876

76

164

5776

26896

12464

81

196

6561

38416

15876

81

196

6561

38416

15876

81

196

6561

38416

15876

 

 

 

 

 

688

1741

46128

305695

177788

Numerosità = 10
Medie =     66.8            174.1           4612.8         30569.5               11778.8
s.q.m. = 12.27        16.0838

cov(x,y) = 148.92

r = 148.92 / (12.27 * 16.08) = 0.7546


CORRELAZIONE SPURIA E COEFFICIENTE DI CORRELAZIONE PARZIALE.

Altro esempio:   r = -  0,51

Se avessimo a disposizione solo questo dato, potremmo dedurre che:

  • i due fenomeni non sono molto correlati;
  • hanno un andamento discorde perché il segno è negativo.

Quando si analizzano due fenomeni lo si fa per avanzare delle ipotesi o per verificarne: bisogna prestare molta attenzione.
Se noi rileviamo una forte correlazione tra due fenomeni non è detto che il legame esistente sia di correlazione. Mi viene data una falsa indicazione perché i due fenomeni anche se fortemente correlati potrebbero non essere in alcun modo collegati = CORRELAZIONE SPURIA,                          si ha quando due fenomeni non hanno un collegamento logico tra di
loro ma presentano forti valori degli indici di correlazione.

 

Esempio.
Un’indagine ha rilevato una forte correlazione tra il Q.I. dei soggetti femminili intervistati e l’età del menarca. Sotto il profilo medico scientifico potrebbe non essere vero che uno sviluppo precoce sia collegato al Q.I.
Un’analisi più approfondita ha rivelato che un terzo fattore, l’appartenenza ad una certa classe sociale, influenzava entrambe le variabili. Le ragazze appartenenti ad una classe sociale elevata avevano un tenore di vita migliore, in particolare sotto il profilo nutrizionale: questo elemento induce un inizio precoce del ciclo mestruale.
Questo terzo elemento che prima non veniva identificato ha legato due fattori apparentemente non legati. Di questi casi ce ne sono moltissimi. E’ importante sempre verificare che i due fenomeni siano collegabili, anche se attraverso una terza entità.

Esempio.
In una grande città è stata rilevata una correlazione tra il passaggio di automobili su un ponte e il livello del fiume sottostante: il traffico è più intenso nei momenti di picco delle maree che coincidono con l’inizio e la fine della giornata.

 

Per individuare la presenza di una terza entità che influenza le altre due, e quindi di una correlazione spuria tra diverse variabili oggetto di indagine, ci sono molti modi; un sistema molto semplice ma efficace è il coefficiente di correlazione parziale.

 

Dato un insieme di variabili x1, x2,……. Xn (con n > 2) e calcolati tutti i coefficienti di correlazione lineare tra le diverse variabili

         rij             i <> j      

                                    

 

si calcolano i coefficienti di correlazione parziale del primo ordine

           

(r12.3 vuol dire che misuro la correlazione tra la prima e la seconda variabile non considerando gli effetti della terza variabile)
e dove possibile i coefficienti di correlazione parziale di ordine superiore, per esempio il secondo

 

Esempio.

In una ricerca effettuata in alcune città degli Stati Uniti sono stati rilevati fra gli altri i valori delle seguenti variabili:

  • composizione razziale (indice = % di abitanti di colore)
  • livello di povertà (indice = % di abitanti con reddito < 3000$)
  • popolosità (numero di abitanti)
  • livello di criminalità (indice = crimine denunciati per 1000 abitanti)

 

Composizione razziale

Povertà

Popolosità

Tasso criminalità

Composizione razziale

1 *

0.51

0.41

0.36

Povertà

0.51

1

0.29

0.60

Popolosità

0.41

0.29

1

0.49

Tasso criminalità

0.36

0.60

0.49

1

 * il coefficiente di correlazione lineare tra una variabile e se stessa è = 1.

Esaminiamo i valori calcolati :

  • il tasso di criminalità presenta una marcata correlazione positiva con il livello di povertà e con la popolosità
  • la composizione razziale è significativamente correlata con il livello di povertà e con la popolosità

 

Livello di povertà
Tasso di criminalità                                                 Composizione razziale
Popolosità

 

Questa situazione fornisce una prima indicazione sulla possibile presenza di una correlazione spuria fra tasso di criminalità e composizione razziale.

 

 

Calcolando il coefficiente di correlazione parziale del primo ordine tra tasso di criminalità e composizione razziale, rimovendo gli effetti della variabile povertà e della variabile popolosità separatamente

                           

                                   

La riduzione sostanziale dei due coefficienti di regressione parziale si conferma nell’ipotesi che abbiamo fatto di presenza di correlazione spuria tra composizione razziale e tasso di criminalità.
Il fatto che  tende a 0 ci rivela che la variabile livello di povertà influenza fortemente il coefficiente di correlazione tra composizione razziale e tasso di criminalità.
Calcolando il coefficiente di correlazione parziale tra composizione razziale e tasso di criminalità del secondo ordine si ottiene .
Possiamo concludere che la correlazione rilevata inizialmente fra composizione razziale e tasso di criminalità è spuria ed è determinata dall’influenza di povertà (principalmente) e di popolosità sulle due variabili.
Non vi è quindi un legame diretto tra la composizione razziale e il tasso di criminalità rilevato nelle diverse città.

 

RETTA DI REGRESSIONE

L’ esempio che segue riguarda il contenuto di carbonio e di nicotina in 100g di tabacco. Si vuole vedere se c’è dipendenza (nel senso che l’ammontare di una sostanza aumenta o diminuisce con una certa relazione) di una delle due sostanze dall’altra.
Con la retta di regressione ipotizziamo l’esistenza di una relazione funzionale di una variabile dall’altra  possiamo cioè ricostruire i valori di una variabile in funzione dell’altra variabile
secondo un modello matematico.

 

CO
Y

NICOTINA
X

x*y

6

0.4

0.1

 

 

 

 

8

0.4

0.1

 

 

 

 

6

0.5

0.2

 

 

 

 

9

0.5

0.2

 

 

 

 

9

0.7

0.4

 

 

 

 

11

0.7

0.4

 

 

 

 

9

0.8

0.6

 

 

 

 

15

0.8

0.6

 

 

 

 

11

0.8

0.6

 

 

 

 

15

0.9

0.8

 

 

 

 

13

1.1

1.2

 

 

 

 

16

1.1

1.2

 

 

 

 

12

1.2

1.4

 

 

 

 

18

1.2

1.4

 

 

 

 

13

1.3

1.6

 

 

 

 

17

1.3

1.6

 

 

 

 

14

1.4

1.8

 

 

 

 

22

1.4

1.8

 

 

 

 

 

224

 

16.6

 

17.3

 

227

 

224

 

209.465

 

314.444

 

Numerosità = 18
Media y = 12.44                Media x = 0.92
Varianza x = 0.11
Covxy = 1.13

 

Ipotizziamo che ci sia dipendenza della variabile y (carbonio) dalla variabile x (nicotina). Identifichiamo y come variabile dipendente dalla x secondo una relazione di tipo lineare.
Per identificare questa retta che tende a stimare i valori delle y in funzione della x (intesa come variabile indipendente) abbiamo bisogno di una serie di valori che sono il frutto di un processo di stima dato dal metodo dei minimi quadrati.

Occorrono :

  • la media delle due variabili
  • la covarianza tra le due variabili
  • la varianza della variabile x (indipendente).

Per stimare i due parametri servono :

  • l’intercetta
  • il coefficiente angolare della retta.

B1 (coefficiente angolare) = 10.3   (covxy / varx)
B0 (intercetta) = 2.99 (My - B1 * Mx)

 = B0 + B1 * x = 2.985 + 10.26 * x   (l’asterisco a fianco della y vuol dire y teorico)
*    = 209.46 / 314.4 = 0.67

Abbiamo ipotizzato l’esistenza di una relazione di tipo lineare tra le due variabili e abbiamo individuato una retta col metodo dei minimi quadrati.
Tra le numerose proprietà che presenta questo metodo c’è n’è una particolarmente importante: la retta stimata col metodo dei minimi quadrati è la migliore retta possibile ai fini dell’accostamento ai punti.

Ma non è detto che la retta sia la migliore interpolante tra i due punti: verifico cioè quanta variabilità mi spiega questa retta di regressione e per il principio della scomposizione della devianza posso rapportare la devianza alla devianza totale.
  Devianza dovuta alla regressione + devianza residua – devianza
                                         dovuta all’errore.

Rapportiamo una parte al tutto        RAPPORTO DI SCOMPOSIZIONE , varia da 0 a 1.

Utilizzando questa proprietà possiamo costruire un indice * che mette in relazione la devianza dovuta alla regressione alla devianza totale.

  • σ= 1             le rette sono coincidenti con andamento crescente
  • σ= -1           le rette sono coincidenti con andamento decrescente
  • σ= 0             le rette sono disposte perpendicolarmente

 

Se la devianza dovuta alla regressione è 0 il rapporto sarà 0 e la retta non spiega nulla.
Se invece la variabilità dovuta alla regressione è completamente spiegata dalla retta di regressione (i punti si trovano tutti sulla retta), il rapporto è = 1.

Normalmente non ci si trova mai in questi due casi estremi.

Quando siamo di un 60% al di sopra dello 0 la retta è una buona interpolante.

*= 0.67

La retta indica una buona interpolazione, ma i punti tendono a discostarsi abbastanza dalla retta.
(La variabilità dei punti intorno alla retta non è bassissima.)

2 RETTE DI REGRESSIONE

Possiamo ipotizzare la presenza di due rette di regressione esistenti sullo stesso piano : una retta di regressione in cui la variabile dipendente sia y e una in cui la variabile dipendente sia x.

Le due rette di regressione assumeranno normalmente una posizione sforbiciata tra di loro dove ci sarà un punto in cui si incrociano e che fa da perno, e che sarà il valore medio della x e della y.
Queste rette possono tendere a sovrapporsi o ad allargarsi fino a raggiungere un punto di perfetta perpendicolarità tra di loro. Tendono a sovrapporsi quando la correlazione sarà perfetta tra di loro, nel senso che tenderanno a disporsi in un’unica retta. Se invece la correlazione tende a diminuire (tende verso 0) le rette di regressione saranno perpendicolari e il coefficiente di correlazione lineare sarà = 1 (le due rette di regressione sono coincidenti e hanno un andamento crescente).

*= -1                  le due rette sono coincidenti ma hanno un andamento decrescente

*= 0                   le due rette sono posizionate perpendicolarmente sul piano, nel punto medio della x e della y, ed hanno un’angolazione nulla rispetto all’asse.

 

(Effetto della somministrazione di un farmaco sulla quantità di latte che viene prodotto in un allevamento di mucche.)

Grammi di farmaco
x

Litri di latte
y

Stime y
Y*

Dev. Tot.

Dev. Regressione

 

(y – y*)

65

62

63.76

157.64

116.64

3.08

75

65

66.45

91.31

65.61

2.12

65

72

69.16

6.53

29.16

8.09

55

72

71.86

6.52

7.29

0.02

45

76

74.56

2.09

1.81

2.09

35

77

77.26

5.98

7.28

0.07

25

80

79.96

29.64

29.16

0.00

15

84

82.66

89.20

65.81

1.81

5

83

85.36

71.31

116.64

5.55

 

 

 

 

 

 

385

671

671.03

460.22

437.40

22.82

 

Vediamo come questi dati possono essere rappresentati graficamente. All’aumentare della quantità di farmaco somministrato, la quantità di latte raccolto tende a diminuire (andamento discorde).
Ipotizziamo che ci sia una dipendenza della produzione di latte dalla quantità di farmaco somministrato. Calcoliamo i dati che ci servono (covarianza, varianza x, media x , media y)

Mx = 45        My = 74.56
σ= 666.67
σxy = -180

 

 

Si nota che la covarianza assume valore negativo.


          
Somma del prodotto degli scarti di ciascuna modalità delle x dalla propria media per il corrispondente valore delle y dalla propria media
(x – My)*(y – Mx)         indicatore piuttosto grezzo della concordanza o discordanza. E’ importante della covarianza che ci da il segno di come si muovono questi scarti
         se + / + = +
         se - / - = +
         se + / - = -

Se la covarianza ha valore positivo vuol dire che c’è una andamento concorde (crescente o decrescente), se ha valore negativo vuol dire che c’è un andamento discorde.

Y* = 86.7  –0.27 * x (retta di regressione)


                      COEFFICIENTE ANGOLARE : questo valore negativo indica che la retta è
         angolata negativamente rispetto all’asse delle x. L’angolo della retta è
         superiore a 90°.

 

 

                                           La devianza è spiegata dalla regressione

Indica un ottimo
accostamento ai dati
reali

 

REGRESSIONE MULTIPLA

Nella realtà si verifica molto spesso che una variabile non è dipendente da un’altra, ma da altre.
L’effetto congiunto di queste variabili indipendenti confluisce nel determinare il valore della variabile dipendente. Anziché avere a che fare con una sola variabile indipendente se ne trovano N.

                   Y = B0 + B1 * X1 + B2 * X2 +………BK * XK

Dal punto di vista tecnico non c’è molta differenza con la regressione semplice, ma la situazione si complica dal punto di vista dell’interpretazione, perché queste variabili normalmente interagiscono tra di loro. E’ vero che il valore della y dipende dal valore di x1 e x2; ma è vero anche che x1 è in qualche modo influenzato da x2 e x3.

                           

 

E’ difficile individuare la responsabilità di ognuna delle variabili sulle altre.
Se abbiamo a che fare con poche variabili possiamo procedere all’analisi dell’INTERDIPENDENZA e calcolare i coefficienti di correlazione lineare parziali per mantenere distinti gli effetti delle diverse variabili.

 

CURVA DI GAUSS (o a campana, o normale)

Solo per fenomeni quantitativi.


I dati hanno un andamento piuttosto regolare: quelli con q.i. molto basso sono relativamente pochi; quelli con q.i. molto alto sono pochi; in mezzo ci sono quelli con q.i. medio.
Vengono fatte delle stime, delle ipotesi per avere supporti scientifici maggiori.

La distribuzione è rappresentata bene dal diagramma a forma di campana o Curva di Gauss.

Ma in questa rappresentazione non si individuano bene i valori intermedi (ad esempio 75) : cerchiamo quindi di individuare una funzione matematica che possa restituire una buona approssimazione di questa distribuzione vera.
Distribuzione normale = forma a campana

Questo tipo di distribuzione è molto frequente (vedi tabella primo bacio 23 marzo).
Le due distribuzioni hanno un andamento molto simile e qualcuno si è accorto che la gran parte dei fenomeni tende a distribuirsi in questo modo.

La curva di Gauss

    • è SIMMETRICA RISPETTO AL VALORE MEDIO
    • se prendiamo il valore medio della distribuzione e tracciamo una linea verticale la distribuzione normale si divide in due parti uguali.

 

    • La media, la moda e la mediana coincidono.
    • L’area sottostante la curva rappresenta il 100% dei casi possibili (forzatura della realtà)

 

Per costruire la curva sono necessari solo la media e lo s.q.m. della distribuzione.
La curva varia da –  a +  : le due punte della curva non toccano mai l’asse delle ascisse per cui sono in grado di comprendere tutti i casi possibili, anche quelli più infrequenti.

 



                 e       

 

         FUNZIONE DI DENSITà DI FREQUENZA : indica per ciascun punto sull’asse
dell’ascisse la relativa ordinata (consente di costruire la curva punto per punto).

Ma si usa con maggiore frequenza la sua CUMULATA detta FUNZIONE DI RIPARTIZIONE.

 

         e           
 

 


                                      Questa funzione mi dà l’area sottostante la curva fino ad
un certo punto : rappresenta la frequenza dei punteggi inferiore
ad un certo valore.



                                      x             Media

                            Se sommo i punti prima di x avrò tutte le frequenze inferiori a x
corrispondenti a quest’area del grafico (quella sottostante la curva e
delimitata dalla linea tratteggiata).

Approssimare la distribuzione rilevata empiricamente attraverso una curva teorica ci consente di migliorare la stima dei valori che non abbiamo.

 

TEOREMA DI BIENAYME-CEBICEV

Questo teorema assicura che qualunque sia la forma della distribuzione nell’intervallo
                                      M ± kσ
una certa percentuale di casi è compresa tra la media di + o – k volte lo scarto quadratico medio.

K = un qualunque numero intero positivo.
La percentuale che cade in questo intervallo non è inferiore a 1 –   .

 

Ipotizziamo che : M = 101.99     σ = 16.24      k = 2

101.99 ± (16.24 * 2)

Il teorema ci dice che, avendo ipotizzato k=2, nell’intervallo 


    • 134.47

cade una percentuale di casi non inferiore al 75% del totale.

Questo teorema serve tutte le volte che devo dare un’indicazione di consistenza / frequenza di casi che cadono in un certo intervallo (è  molto frequente).

 

Se la distribuzione ha una forma normale (vedi esempio che segue) la percentuale diventerà del 95% circa, migliorando la precisione della stima.

 

Q. i.

F

F*

60-70

26

20

70-80

56

63

80-90

145

142

90-100

230

221

100-110

235

238

110-120

182

177

120-130

82

91

130-140

31

33

140-150

13

8

totale

1000

994

 

 

 

 

 

 

 

 

 

 

 

 

 

 

                                                                                              

Elementi di calcolo delle probabilità
Elementi di campionamento
Elementi di inferenza statistica

La statistica descrittiva non fa nessuna ipotesi di campionamento. Con l’inferenza statistica invece si vede come la variabile statistica, il carattere statistico riguarda l’intera popolazione. Il concetto di probabilità fa da cerniera tra caratteri statistici e variabili casuali.
La probabilità è legata al concetto di caso e di conoscenza parziale, interviene in tutte quelle situazione in cui non siamo in grado di descrivere un certo evento. Succede quando alcuni eventi che erano fino a quel momento indipendenti, coincidono.
In tutte le situazioni in cui fatti osservabili non sono prevedibili, il loro verificarsi e’ incerto e interviene dunque il calcolo delle probabilità. L'origine stessa della vita sembra sia stata originata dalla coincidenza assoluta (intersezione) di una serie di eventi casuali, fino ad allora totalmente indipendenti.

Non sarà mai possibile verificare empiricamente a posteriori in modo completo la probabilità di un evento casuale, ma sarà possibile stimarla empiricamente dandone una valutazione approssimativa.

La probabilità è un punto fisso attorno al quale fluttua, in modo imprevedibile (il caso non ha memoria) la frequenza relativa.
Esistono diverse definizioni ossia diverse procedure empiriche per stimare una probabilità.

Probabilità di un evento: esempio “lancio di una moneta” (esperimento prova)
Risultati= evento, frequenza evento
Frequenze relative= numero delle Testa/croce uscite sui lanci fatti.

Grafico

CENNI DI CALCOLO DELLE PROBABILITà.

La probabilità e il calcolo delle probabilità costituiscono la premessa indispensabile per introdurre l'altra branca della STATISTICA (oltre la  STATISTICA DESCRITTIVA), ossia la STATISTICA INFERENZIALE.

L'inferenza statistica intesa come quel complesso di tecniche statistiche che permettono in base ai risultati relativi ad un gruppo di osservazioni ed esperimenti (detto CAMPIONE), di trarre conclusioni la cui validità per un collettivo più ampio è espressa in termini probabilistici.

La probabilità può essere considerata come l'elemento di passaggio, la cerniera di collegamento tra la variabile statistica e la variabile casuale.

Il calcolo delle probabilità nasce nel 1600 (Pascal Bayes; di cui i predecessori erano stati Cardoso, Keplero, Galileo). Tuttavia fino al 19° sec. esso si sviluppa indipendentemente dai due indirizzi della statistica universitaria e degli aritmetici politici (CAP 8 –p.341).

Diverse definizioni di probabilità.

  • Probabilità a priori è la prima definizione di probabilità ed e’ è quella classica.

La probabilità di un evento casuale (incerto, non prevedibile) è il rapporto tra il numero dei casi favorevoli al verificarsi dell' evento e il numero dei casi possibili purchè siano tutti ugualmente possibili.
Ad es. la probabilità P(E=esce il 6) nel lancio di un dado a 6 facce è
P(E) = 1/6 = 0,16 (casi favorevoli; casi possibili = le 6 facce del
dado)
Tale definizione si basa sul principio di "indifferenza" o ragione non sufficiente non sufficienti :    
non sempre possiamo definire a priori i casi ugualmente possibili, specialmente in  
ambito sociale. 

  • La probabilità a posteriori e la DEFINIZIONE FREQUENTISTA  i cui fondamenti sono

già esposti nell'ARS CONJECTANDI di Bernoulli (postume del 1715) in cui viene  
esposta per la prima volta la LEGGE EMPIRICA del caso (la legge dei grandi numeri),  
mala definizione viene data da VON MIESES (1883-1953).
La probabilità di un evento E è il limite cui tende la frequenza relativa dell'evento E (data dal rapporto tra il numero delle volte che si è verificato E e il numero totale delle prove, quando il numero delle prove tende ad infinito).
La legge empirica del caso afferma che al crescere del numero delle prove la frequenza relativa tende alla probabilità.
Limiti: impossibilita’ di ripetere le prove nelle stesse condizioni oppure la non ripetibilità delle prove per dati eventi (es. incidenti nucleari).
Prova :qualsiasi esperimento casuale (di cui sono definite(?)le condizioni) i cui esiti sono osservabili.

  • Definizione SOGGETTIVISTA ( par. 8.2.8) la probabilità di un evento E è il grado di fiducia che un soggetto coerente attribuisce al verificarsi dell’evento su base alle conoscenze, informazioni di cui dispone ed è un numero reale compreso tra 0 e 1.

 

  • Definizione ASSIOMATICA (un assioma è una proposizione che non si dimostra ma che è considerata vera) di probabilità è dovuta a AN KOLMOGOROV (1809-1887) in termini di insieme di teoria della misura in modo tale da consentire la costruzione parziale della teoria delle probabilità prescindendo dal significato da attribuire al termine di probabilità.
  • Il concetto di base su cui si fonda la definizione assiomatica è quello di spazio degli eventi (elementari che permettono di costruire tutti gli altri eventi). Ω (omega) detto anche spazio campionario ossia l’insieme discreto o continuo dei risultati possibili di una prova.

 

DEFINIZIONE ASSIOMATICA DI PROBABILITA’
Evento casuale = è un risultato di una prova
Ω= tutti i possibili risultati di una prova
Se si definisce un evento casuale un sottoinsieme di Ω, ad ogni evento casuale E è possibile associare un numero REALE p(E) (p di e) chiamato probabilità, tale che

    • 0 <= p(E) <= 1 (la probabilità è un numero reale compreso tra 0 ed 1, estremi inclusi) (ASSIOMA DI NORMALIZZAZIONE).
    • Se E è  un evento certo p(E) = 1.

(es. p(Ω) = 1; se E è un evento impossibile p(E) = 0)

    • Se E1 e E2 sono eventi disgiunti e incompatibili, ossia che si escludono a vicenda (il verificarsi dell'uno esclude il verificarsi dell'altro)la probabilità di E1 o E2 è data da  p(E1 o E2) = p(E1) + p(E2)  

detto assioma dell' ADDITIVITA’, ossia la probabilità di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi.

 

Fonte: http://www.sociologia.uniroma1.it/users/studenti/Appunti/Appunti%20Statistica/statistica%20pieri.doc

Sito web da visitare: http://www.sociologia.uniroma1.it

Autore del testo: non indicato nel documento di origine

Il testo è di proprietà dei rispettivi autori che ringraziamo per l'opportunità che ci danno di far conoscere gratuitamente i loro testi per finalità illustrative e didattiche. Se siete gli autori del testo e siete interessati a richiedere la rimozione del testo o l'inserimento di altre informazioni inviateci un e-mail dopo le opportune verifiche soddisferemo la vostra richiesta nel più breve tempo possibile.

 

Statistica

 

 

I riassunti , gli appunti i testi contenuti nel nostro sito sono messi a disposizione gratuitamente con finalità illustrative didattiche, scientifiche, a carattere sociale, civile e culturale a tutti i possibili interessati secondo il concetto del fair use e con l' obiettivo del rispetto della direttiva europea 2001/29/CE e dell' art. 70 della legge 633/1941 sul diritto d'autore

Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione).

 

Statistica

 

"Ciò che sappiamo è una goccia, ciò che ignoriamo un oceano!" Isaac Newton. Essendo impossibile tenere a mente l'enorme quantità di informazioni, l'importante è sapere dove ritrovare l'informazione quando questa serve. U. Eco

www.riassuntini.com dove ritrovare l'informazione quando questa serve

 

Argomenti

Termini d' uso, cookies e privacy

Contatti

Cerca nel sito

 

 

Statistica