I riassunti , gli appunti i testi contenuti nel nostro sito sono messi a disposizione gratuitamente con finalità illustrative didattiche, scientifiche, a carattere sociale, civile e culturale a tutti i possibili interessati secondo il concetto del fair use e con l' obiettivo del rispetto della direttiva europea 2001/29/CE e dell' art. 70 della legge 633/1941 sul diritto d'autore
Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione).
La statistica è la scienza che ha come scopo lo studio dei fenomeni collettivi.
La statistica si occupa di fenomeni collettivi, non interessa il singolo individuo (inteso sia come soggetto umano che come qualsiasi unità di tipo inanimato), ma di una popolazione, di un insieme. Vede i fenomeni sempre dal punto di visto collettivo.
Correntemente ci si trova a che fare con grandi moli di dati che in qualche modo vanno classificati e sintetizzati.
La statistica si occupa dello studio del collettivo, di come raccogliere informazioni su questo collettivo e come presentarle in una forma facilmente comprensibile ad un pubblico non esperto.
Passo preliminare : bisogna definire con chiarezza il collettivo, a chi si riferisce lo studio statistico.
Raccolta dei dati
Sulla popolazione individuata viene fatta la raccolta dei dati che interessano e classificati nel modo che interessa.
- diretta (parziale o totale) :
- indiretta (fonti statistiche) : i dati primari sono già elaborati e siamo in
presenza di “dati statistici”.
Si effettuano delle misurazioni per analizzare i dati così raccolti e classificati.
Ne viene ricavata una sintesi.
La raccolta dei dati può essere diretta (materialmente i dati vengono reperiti sul collettivo), oppure indiretta (ci si rivolge ad una risorsa che ha già questi dati raccolti e classificati)
I dati prelevati in modo diretto sul campo sono sempre più attendibili ma su una popolazione molto vasta tale modo di reperire dati diventa troppo dispendioso in termini di tempo e soldi.
La soluzione è prendere le informazioni che interessano solo su una parte della popolazione : concetto di campione.
Indagine campionaria: non viene investita dalla ricerca tutta la popolazione di riferimento, ma solo una parte scelta perché rappresentativa della popolazione.
Sono presenti numerosissime entità deputate a raccogliere dati a fini statistici che hanno valore legale. Le più importanti fonti ufficiali dei dati statistici sono :
ISTAT ha il compito di raccogliere ed elaborare dati statistici riguardanti i più diversi aspetti della vita italiana. Tra l’altro
- predispone e coordina i censimenti (della popolazione ogni 10 anni, è
una conta materiale dei soggetti, una delle poche indagini totali che
viene condotta in Italia)
- definisce la nomenclatura e le metodologie per la rilevazione e la
classificazione dei fenomeni di interesse (demografico, sociale,
economico, ecc..)
- coordina l’attività degli uffici del SISTAN (dlg 322/89)
- definizione del campo di indagine (collettivo, caratteristiche da indagare,
ecc…);
- metodo di rilevazione (diretta o indiretta);
- data di rilevazione
- materiale e personale
Popolazione (collettivo) l’insieme completo degli individui che si vogliono studiare, mediante la rilevazione di uno o più caratteri.
Una popolazione può essere
(A fini statistici è sempre meglio che la popolazione sia finita).
Campione una parte della popolazione oggetto di indagine che in qualche modo può
essere rappresentativo della popolazione da cui viene selezionato.
Unità statistica un elemento dell’insieme che si vuole studiare e che corrisponde a
caratteristiche ben precise.
Famiglia (per il censimento) un insieme di persone legate da vincolo di
matrimonio, parentela, affinità, adozione, coabitanti ed aventi dimora
abituale nello stesso luogo.
Convivenza (per il censimento) l’ insieme delle persone che senza essere legati da
vincolo di matrimonio, parentela, ecc…, vivono in comune per altri motivi
(motivi religiosi, di cura, di assistenza, militari).
Un collettivo può essere studiato secondo le modalità che assume il carattere statistico sotto osservazione.
I caratteri possono essere classificati secondo il diverso livello (scala) di misurazione e possono assumere diverse modalità.
Per comodità si distinguono i caratteri statistici in due tipi fondamentali:
1-caratteri quantitativi o variabili
All’interno dei caratteri quantitativi distinguiamo due sottotipi, secondo il diverso livello o scala di misurazione misurabili
La scala di intervalli indica tutte quelle variabili, caratteri quantitativi, che non hanno uno zero assoluto, sono costruite facendo riferimento ad altro.
Un carattere quantitativo sprovvisto di zero assoluto è quel carattere in cui nella scala di misurazione zero significa assenza di quel carattere.
Le scale ad intervalli permettono di stabilire non solo quali unità statistiche sono maggiori o minori di altre, ma stabilisce anche “di quanto” è la distanza tra esse (sono normalmente circoscritte a poche cose : scale di misurazione della temperatura, psicometriche, gradimento numerico).
Nelle scale di rapporti invece esiste lo zero assoluto ed è possibile calcolare i rapporti tra unità statistiche rispetto ai valori del carattere considerato.
CARATTERE |
SCALA DI MISURAZIONE |
Altezza |
Rapporti |
Peso |
Rapporti |
Età |
Rapporti |
Numero dei componenti |
Rapporti |
Reddito |
Rapporti |
Temperature |
Intervalli |
2-caratteri qualitativi o mutabili
I caratteri qualitativi si distinguono in ordinali e nominali o sconnessi : nel primo caso è possibile stabilire un ordine, nell’altro no.
CARATTERE |
SCALA DI MISURAZIONE |
Titolo di studio |
Ordinale |
Gradi militari |
Ordinale |
Sesso |
Nominale |
Colore degli occhi |
Nominale |
Disciplina sportiva |
Nominale |
Pratica religiosa |
Nominale |
CLASSIFICAZIONE DEI CARATTERI STATISTICI E LIVELLO DI MISURAZIONE.
CARATTERE |
SCALA |
OPERAZIONI CONSENTITE |
Mutabile |
NOMINALE |
= DIVERSO |
Mutabile |
ORDINALE |
< > = DIVERSO |
Variabile |
INTERVALLI |
+ - = DIVERSO < > |
variabile |
RAPPORTI |
* / + - < > = DIVERSO |
I primi due caratteri sono qualitativi, gli altri due sono quantitativi. Più si scende nella scala e più sale il livello di qualità del dato.
Se la variabile (carattere quantitativo) può assumere tutti i valori dell’intervallo di definizione si dice CONTINUA (può assumere un numero infinito di modalità).
Se può assumere solo alcuni valori dell’intervallo si dice DISCRETA o DISCONTINUA.
Ordinare e classificare i soggetti secondo un certo criterio.
Le distribuzioni statistiche derivano dall’operazione di classificazione delle unità considerate secondo le modalità di uno o più caratteri.
Se si riferisce ad un solo carattere la distribuzione statistica si definisce SEMPLICE.
Se si riferisce a 2, 3,….N caratteri allora la distribuzione statistica si definisce DOPPIA, TRIPLA,…MULTIPLA.
Se il carattere considerato è qualitativo la distribuzione statistica si chiama anche SERIE STATISTICA.
Se il carattere è quantitativo allora si parla di SERIAZIONE STATISTICA.
FREQUENZA ASSOLUTA è il numero di unità statistiche che presentano la stessa modalità
di un carattere
FREQUENZA RELATIVA è il rapporto tra le frequenze assolute e il numero totale di unità
statistiche considerate.
SESSO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
Maschi (M) |
23 |
0.46 |
Femmine (F) |
27 |
0.54 |
totale |
50 |
1.00 |
Sesso = carattere statistico
M –F = modalità del carattere statistico
23 = numero delle unità che presentano la modalità M del carattere statistico sesso (frequenza assoluta)
0.46 = numero delle unità che presentano la modalità M del carattere statistico sesso diviso il totale dei soggetti
17 marzo 2004
Uno degli obiettivi di questa disciplina è quello di estrarre e sintetizzare le informazioni da una massa di dati che altrimenti sarebbe scarsamente interpretabile.
Questo è un altro esempio di come mettendo sottoforma tabellare un insieme di dati che sono stati raccolti in precedenza si possono trarre delle prime informazioni sul fenomeno che si sta studiando.
STATO CIVILE PERSONA DI RIFERIMENTO |
NUMERO FAMIGLIE |
FREQUENZA % |
Celibi/nubili |
551.121 |
15.1 |
Coniugati/e |
2.258.375 |
61.8 |
Separati/e |
114.870 |
3.1 |
Divorziati/e |
103.555 |
2.8 |
Vedovi/e |
625.033 |
17.1 |
TOTALE |
3.652.954 |
100.0 |
Questo è tratto dal censimento della popolazione 2001 ed è il numero di famiglie distribuite secondo lo stato civile. Come vedete risultano coniugati la maggioranza delle famiglie che sono stati sottoposti a censimento. Il numero di famiglie si chiama frequenza assoluta. Come abbiamo visto ieri risulta più utile ricorrere alle frequenze relative.
La frequenza relativa si intende la frequenza assoluta divisa per il totale. Si fa questa operazione perché prendendo ogni frequenza assoluta relativa a ciascuna modalità e rapportandola al totale si indica immediatamente il peso che ha quella modalità sull’insieme del fenomeno. In questa tabella vediamo che coniugati /e è lo stato civile più diffuso. Poi seguono i vedovi, i celibi ecc. però non abbiamo immediatamente il senso di quanto i coniugati siano più pesanti rispetto ai separati per esempio. Facendo le frequenze percentuali (551.121 : 3.652.954 = 0.15 x 100 = 15,1) lo dividiamo per 100 per evitare questo fastidioso 0 che si ripete. Quindi vediamo immediatamente che i coniugati sono non solo superiori ma rappresentano più del 50% quasi i 2/3 della famiglie censite. I celibi rappresentano il 15% di tutte le famiglie censite.
Tabella successiva.
Num ord. |
Sesso |
Altezza |
Peso |
Colore occhi |
Titolo di studio |
Num.comp. familiare |
Possesso computer |
Classe di reddito |
1 |
M |
|
|
|
L |
3 |
SI |
Fino a 30 |
2 |
M |
|
|
|
D |
2 |
SI |
Da 30 a 50 |
3 |
F |
|
|
|
D |
4 |
SI |
Fino a 30 |
4 |
M |
|
|
|
D |
5 |
NO |
Da 50 a 70 |
5 |
|
|
|
|
M |
2 |
NO |
Oltre 70 |
6 |
|
|
|
|
L |
4 |
SI |
|
7 |
|
|
|
|
M |
1 |
NO |
|
8 |
|
|
|
|
|
1 |
NO |
|
9 |
|
|
|
|
|
3 |
SI |
|
10 |
|
|
|
|
|
2 |
|
|
Abbiamo rilevato su 10 soggetti sesso, altezza, peso, colore occhi, titolo di studio conseguito, numero componenti nucleo familiare, se hanno il computer a casa, classe di reddito conseguita nell’ultimo anno.
Quando un carattere prevede solo 2 modalità “si o no” o “maschio o femmina” si chiama carattere DICOTOMICO.
Se la distribuzione fosse composta da più soggetti (es.1000) bisognerebbe trovare il modo di rendere le informazioni più visibili, più immediate. Ad esempio rispetto al carattere sesso se noi siamo interessati a vedere questo carattere di quei 10 soggetti nel dettaglio ci costruiamo una distribuzione di frequenza rispetto al carattere “sesso”. Prendiamo le 2 modalità, contiamo (6 maschi e 4 femmine) vediamo la frequenza relativa e quella percentuale e si ha l’indicazione su come è composto quell’insieme.
DISTRUBUZIONE DI FREQUENZA SECONDO IL CARATTERE SESSO DI 10 SOGGETTI |
|||
SESSO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE PERCENTUALI |
MASCHI |
6 |
0,6 |
60 |
FEMMINE |
4 |
0.4 |
40 |
TOTALE |
10 |
1,00 |
100 |
Stesso discorso vale per quanto riguarda il numero di componenti del nucleo familiare. Se sono interessato a vedere come sono composte le famiglie dei soggetti che ho intervistato posso costruire una distribuzione di frequenza sotto il profilo del carattere “numero di componenti del nucleo familiare”
DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE NUMERO DI COMPONENTI DEL NUCLEO FAMILIARE DI 10 SOGGETTI |
||||
NUM. COMPONENTI |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE PERCENTUALI |
FREQUENZE RELATIVE CUMULATE |
1 |
2 |
0,2 |
20 |
20 |
2 |
3 |
0,3 |
30 |
50 |
3 |
2 |
0,2 |
20 |
70 |
4 |
2 |
0,2 |
20 |
90 |
5 |
1 |
0,1 |
10 |
100 |
TOTALE |
10 |
1,00 |
100 |
|
Passando alle frequenze relative vediamo che il caso più frequente è quello di una coppia (dato che non avremmo visto guardando solo la tabella dei numeri).
Quella che segue è invece una tabella sull’ultimo carattere “classe di reddito” quantitativo che nasce già diviso in classi e ci consente di evidenziare con che frequenza si presentano i redditi che sono stati dichiarati.
DISTRIBUZIONE DI FREQUENZA SECONDO IL CARATTERE CLASSE DI REDDITO DI 10 SOGGETTI |
|||
CLASSE DI REDDITO |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE PERCENTUALI |
FREQUENZE RELATIVE CUMULATE |
FINO A 30 |
3 |
30 |
30 |
DA 31 A 50 |
2 |
20 |
50 |
DA 51 A 70 |
4 |
40 |
90 |
OLTRE 70 |
1 |
10 |
100 |
TOTALE |
10 |
100 |
|
Vediamo nella prima colonna che la classe più folta di redditi è quella che va da 51 a 70 milioni in cui la frequenza relativa costituisce il 40% del totale. E’ la classe che pesa di più in confronto alle altre. Quasi la metà dei soggetti intervistati ha dichiarato di prendere tra 51 e 70 milioni l’anno. In aggiunta alle frequenze relative ci sono le FREQUENZE RELATIVE CUMULATE. La frequenza cumulata è semplicemente cumulare alla frequenza attuale la frequenza successiva. Esempio la prima frequenza cumulata è 30 pari alla prima frequenza relativa percentuale; per la classe successiva si somma 30 a 20 che è la seconda frequenza relativa percentuale e si scrive 50 sulla seconda riga della colonna delle frequenze cumulate. Poi si somma la modalità 50 alla modalità 40 che è la terza della colonna frequenze relative percentuali e così via. L’ultima modalità sommata alla precedente mi deve dare un valore che deve coincidere al totale delle frequenze relative percentuali.
Tutto questo serve per dare un’ulteriore indicazione sulla base delle frequenze con cui si presentano le modalità dei caratteri che stiamo studiando per dare un’ulteriore indicazione sulla ripartizione di quel carattere. Ad esempio alla modalità 90 della colonna frequenze relative cumulate io posso dire che il 90% delle persone intervistate ha un reddito che va da 0 a 70 milioni. Oppure la seconda riga della colonna frequenze relative cumulate indica che il 50% delle persone intervistate ha dichiarato un reddito che va da 0 a 50 milioni.
Altezza, peso, età sono altre variabili che vengono suddivise in classi per l’elevato numero di modalità che frequentano e per il rischio di perdere di vista la sintesi dell’informazione. Ad esempio rilevando 100 altezze e volendo fare una sintesi, ci accorgiamo che le modalità con cui si presenta il carattere altezza sono 50, inferiori al N totale delle rilevazioni che abbiamo fatto ma sono talmente tante da non poterci garantire la comprensione immediata di quello che sta accadendo. Avendo raccolto 100 altezze vengono ordinate e si costruiscono delle classi. In questo modo si perdono delle informazioni ma nello stesso tempo riduco drasticamente il numero di modalità e ottengo una tabella con al massimo 7, 8 modalità che mi permettono di poter dire qualcosa sul tipo di fenomeno.
|
ALTEZZA |
|
|
|
|
|
1 |
170 |
|
|
|
|
|
2 |
173 |
|
|
170├ 173 |
1 |
|
3 |
173 |
|
|
|
|
|
4 |
176 |
|
|
173├ 176 |
3 |
|
5 |
182 |
|
|
|
|
|
6 |
173 |
|
|
176├ 190 |
5 |
|
7 |
180 |
|
|
|
------------- |
|
8 |
179 |
|
|
totale |
9 |
|
9 |
178 |
|
|
|
|
|
In questa tabella la modalità 170 ha 1 soggetto; la modalità 173 ha 3 soggetti ecc., quindi ci sono tante modalità con poche frequenze che lo rappresentano.
A questo punto costruisco delle classi (il segno ├ vuol dire carattere destro escluso cioè non fa parte di quella classe) 170 ├ 173; 173 ├176; 176 ├ 190.
Nella prima classe c’è un solo soggetto, nella seconda ce ne sono 3 e nella terza ce ne sono 5. Abbiamo costruito una distribuzione di frequenza in cui le modalità non sono più le singole modalità che ho rilevato ma una classe che contiene diverse modalità. Questa operazione anche se mi fa perdere delle informazioni è utile quando ci sono troppe modalità rilevate diverse tra loro. I dati in questo modo sono più interpretabili.
COME SI COSTRUISCONO LE CLASSI |
Si ricorre alla suddivisione in classi quando le modalità rilevate del carattere sono troppo numerose.
Obiettivo: definire delle classi in modo preciso e non ambiguo in modo che ogni unità statistica rilevata possa essere attribuita con certezze ed 1 ed 1 sola classe.
COME SI PROCEDE
dopodiché si va a
Questa operazione si può fare solo con caratteri QUANTITATIVI o con caratteri QUALITATIVI ORDINABILI.
CONDIZIONI DA RISPETTARE
Esempio:
170 │-----------│175 |
In questo caso non si sa se il valore 174 appartiene alla 1° o alla 2° classe. Non ci può essere una situazione di questo genere, ma deve essere sempre in questo modo |
Esempio:
Abbiamo rilevato le seguenti altezze di 1 gruppo di 10 soggetti e le doppiamo raggruppare in classi.
164 |
192 |
182 |
170 |
173 |
168 |
174 |
163 |
173 |
175 |
1. Per prima cosa le mettiamo in ordine crescente
163 |
164 |
168 |
170 |
173 |
173 |
174 |
175 |
182 |
192 |
Queste sono le modalità.
2. Si deve calcolare il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato).
192 – 163 = 30 (sarebbe 29+1 perché si considera anche il 163)
3. Determiniamo il numero e l’ampiezza delle classi ( per esempio 3 di uguale ampiezza =10)
4. Indichiamo la INCLUSIONE o ESCLUSIONE degli estremi nelle classi formate
├── incluso l’estremo SX (inferiore) CHIUSE A SX
──┤ incluso l’estremo DX (superiore) CHIUSE A DX
├──┤ inclusi i 2 estremi (superiore ed inferiore)
──── esclusi i 2 estremi
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA |
||||
Classi di altezza in cm (chiuse a sinistra) |
Frequenza assoluta |
Frequenza relativa |
Frequenza relativa % |
Ampiezza classi |
163 ├── 173 |
4 |
0.4 |
40 |
10 |
173 ├── 183 |
5 |
0.5 |
50 |
10 |
183 ├── 193 |
1 |
0.1 |
10 |
10 |
TOTALE |
10 |
1 |
100 |
30 |
Abbiamo diviso 3 classi di uguale ampiezza con l’estremo sx chiuso e l’estremo dx aperto. Prima di tutto a queste modalità attacchiamo le rispettive frequenze. Ci sono 4 soggetti da 163 a 172,9; 5 soggetti da 173 a 182,9 e 1 soggetto da 183 a 192,9. La prima cosa da fare è la somma la quale se non risulta uguale al totale delle nostre rilevazioni c’è un errore da qualche parte. Accertato che non ci siano errori si procede a trovare le frequenze relative. La classe che presenta maggiore frequenza è quella da 173 a 183 con il 50% dei casi.
L’ampiezza delle classi non si mette mai ma in questo caso è per dimostrare l’esempio.
Usualmente si mettono classi di uguale ampiezza ma possiamo anche decidere di costruirci degli intervalli di ampiezza diversa secondo le nostre esigenze se ci sono delle classi più rappresentative per il tipo di studio che stiamo conducendo e ci servono delle ampiezze più ampie o più piccole.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE CLASSI DI ALTEZZA |
||||
Classi di altezza in cm (chiuse a sinistra) |
Frequenza assoluta |
Frequenza relativa |
Frequenza relativa % |
Ampiezza classi |
163 ├── 173 |
4 |
0.4 |
40 |
10 |
173 ├── 176 |
4 |
0.4 |
40 |
3 |
176 ├── 193 |
2 |
0.2 |
20 |
17 |
TOTALE |
10 |
1 |
100 |
30 |
C’è una classe di ampiezza più piccola. Abbiamo deciso di farla così perché è la classe che ci interessa di più ed in cui ci sono maggiori frequenze percentualmente e ci permette di fare maggiori considerazioni. Le classi precedente e successiva hanno ampiezza decisamente più ampia (una di 10 e l’altra di 17) perché sono classi che ci interessano di meno.
Fino qui abbiamo visto caratteri di tipo continuo. Vediamo caratteri discreti (numero componenti nucleo familiare, numero di appartamenti, numero di fabbriche in un territorio ecc.) che possono essere contati uno per uno ed assumono un numero finito di valori nell’ambito di un intervallo.
Supponiamo di aver fatto una rilevazione su 10 famiglie ed abbiamo verificato quanti componenti ci sono all’interno di ognuna.
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Unità |
2 |
1 |
4 |
2 |
2 |
3 |
3 |
5 |
5 |
2 |
componenti |
Mettiamo la rilevazione in ordine crescente
2 |
1 |
4 |
5 |
10 |
6 |
7 |
3 |
8 |
9 |
Unità |
1 |
2 |
2 |
2 |
2 |
3 |
3 |
4 |
5 |
5 |
componenti |
Calcolo il CAMPO DI VARIAZIONE (la differenza tra il massimo ed il minimo valore rilevato)
5-1=5 (4+1).
Dividiamo in 2 classi di ampiezza diversa perché il campo di variazione è dispari.
Una classe va da 1 a 3 e l’altra da 4 a 5. In questo caso conviene fare classi chiuse a sx e a dx. Sono contigue, tra 3 e 4 non c’è niente e sono carattere discreti. Fino a 5 perché nell’intervista è stato specificato che il massimo numero di componenti del nucleo familiare è 5.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE |
||||
CLASSI CHIUSE |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE % |
AMPIEZZA CLASSI |
1├──┤3 |
7 |
0.7 |
70 |
3 |
4├──┤5 |
3 |
0.3 |
30 |
2 |
TOTALE |
10 |
1 |
100 |
5 |
Potrei anche costruirmi delle classi chiuse a sx ed aperte a dx rispettando la distribuzione che ho.
DISTRIBUZIONE SEMPLICE DI FREQUENZA RISPETTO AL CARATTERE NUMERI COMPONENTI NUCLEO FAMILIARE |
||||
CLASSI APERTE A DX |
FREQUENZE ASSOLUTE |
FREQUENZE RELATIVE |
FREQUENZE RELATIVE % |
AMPIEZZA CLASSI |
1├── 4 |
7 |
0.7 |
70 |
3 |
4├── 6 |
3 |
0.3 |
30 |
2 |
TOTALE |
10 |
1 |
100 |
5 |
Comunque anche se si dicono le cose in maniera diversa la distribuzione è la stessa.
TABELLE DOPPIE E MULTIPLE |
Abbiamo visto la tabella semplice in cui c’è un carattere riportato su varie modalità e in cui contiamo le frequenze. Ci sono diversi modi di presentare diversi caratteri relativi agli stessi soggetti, alle stesse unità statistiche per mettere in un’unica tabella una serie di informazioni.
REGIONE |
PIL PRO CAPITE |
SPESA PRO CAPITE PER SPETTACOLI |
Questa tabella (non l’ho trascritta tutta) che si chiama tabella doppia, riporta per una serie di Regioni due diverse informazioni il prodotto interno lordo pro capite e la spesa pro capite per spettacoli. Riporta 2 informazioni abbastanza diverse che possono essere utile per chi le esamina per fare le sue considerazioni. Per ciascun individuo, unità statistica vengono riportate una affianco all’altra una serie di informazioni anche completamente diverse come materia. Queste si chiamano le tabelle doppie o multiple a seconda se ci sono più colonne.
Diverso il caso in cui io metto in diretta relazione 2 caratteri. Supponiamo che abbia rilevato diversi dati ad esempio titolo di studio e classe di reddito. Voglio studiare contemporaneamente come si presentano le modalità di titolo di studio e le modalità classe di reddito. Non mi limito a guardare semplicemente come si presenta o la classe di reddito o il titolo di studio, ma li voglio vedere in contemporanea. Per esempio voglio vedere quanti sono i soggetti che hanno scuola media superiore come titolo di studio e guadagnano tra 30 e 50 milioni.
Costruisco una tabella a doppia entrata. Supponiamo di avere due caratteri statistici qualunque e li chiamiamo A e B. Il carattere A può assumere certe modalità che chiameremo A1, A2,…..Ar , (il numero indica la modalità es. titolo di studio 1= media; 2=diploma; 3=laurea). Lo stesso dicasi per il carattere B che vede come ultima modalità Bs perché le modalità sono diverse da A (che ne ha 3 mentre B nel caso del reddito ne ha 4).
Nella tabella metto sulla testata le modalità di un dei due caratteri, in questo caso B, e sulla fiancata le modalità dell’altro carattere A.
A B |
b 1 |
b 2 |
--------- |
b j |
--------- |
b s |
Totale riga |
a 1 |
n 1 1 |
n 1 2 |
|
n 1 j |
|
n 1 s |
n 1. |
a 2 |
n 2 1 |
n 2 2 |
|
n 2 j |
|
n 2 s |
n 2. |
-------- |
|
|
|
|
|
|
|
a i |
n i 1 |
n i 2 |
|
n i j |
|
n i s |
n i.. |
-------- |
|
|
|
|
|
|
|
a r |
n r 1 |
n r 2 |
|
n r j |
|
n r s |
n r. |
TOTALE |
n .1 |
n . 2 |
---------- |
n . j |
---------- |
n .s |
n .. (N) |
n sono le frequenze cioè i numeri con cui si presentano i soggetti che abbiamo intervistato che presentano la modalità A e B contemporaneamente.
Ad esempio n11 sono i soggetti che presentano la modalità 1 del carattere A e la modalità 1 del carattere B
In fondo a ciascuna riga ci sono delle n indicate con 1 seguito da un puntino ed è il numero di soggetti intervistati che presentano la modalità A1 e non ci interessa di quali modalità assume del carattere B. Cioè per esempio ci saranno i soggetti ch hanno un reddito fino a 30 milioni a prescindere dal titolo di studio che hanno conseguito.
La seguente tabella mostra le frequenze doppie cioè dei soggetti che presentano contemporaneamente una particolare modalità del carattere CLASSE DI REDDITO ed una particolare modalità del carattere TITOLO DI STUDIO.
TITOLO DI STUDIO |
M |
D |
L |
AMPIEZZA CLASSE |
CLASSE DI REDDITO |
|
|
|
|
Fino a 30 |
1 |
1 |
1 |
3 |
Da 31 a 50 |
|
1 |
1 |
2 |
Da 51 a 70 |
|
2 |
2 |
4 |
Oltre 70 |
1 |
|
|
1 |
Totale colonna |
2 |
4 |
4 |
10 |
Un’informazione più è sintetica più è comprensibile.
Il modo corretto per approcciare i dati è :
Analitiche (caratteri quantitativi)
Medie
Lasche, non analitiche o di posizione (caratteri qualitativi)
Media aritmetica: individua il valore rappresentativo (centrale) di un carattere.
Bisogna però anche tener conto di come questo valore si spalma rispetto a tutte le unità statistiche in esame; per questo scopo esistono degli indici:
INDICI DI
VARIABILITà
(variabili quantitative) INDICI DI MUTABILITà
(caratteri qualitativi)
Variabilità: Attitudine di un carattere di assumere diverse modalità.
Esempio: DISTRIBUZIONE: A 5 7 8 4 6 M=6
B 6 6 6 6 6 M=6
Nei due casi la media è sempre 6 ma nel secondo caso non c’è variabilità.
Nel primo, la diversa attitudine che può assumere il carattere, viene misurata con indicatori o indici.
Nel caso in cui, fossero sottoposte a studio statistico due popolazioni molto ampie, per descriverle sinteticamente ci riferiremmo non solo al valore medio, ma anche all’indice di variabilità per vedere la concentrazione delle modalità (su una delle due delle popolazioni ci potrebbe essere più variabilità).
Tutti gli indici di variabilità o mutabilità, devono soddisfare alcuni requisiti formali di coerenza.
Ci sono migliaia di modi per costruire un indice di variabilità; Uno che negli anni ha resistito e che tuttora è ampiamente utilizzato è lo scarto quadratico medio (s. q. m.).
LO SCARTO QUADRATICO MEDIO.
Scarto = faccio la somma degli scarti di ciascuna modalità con la media
aritmetica.
Quadratico = perché gli scarti sono elevati al quadrato.
Medio = perché facendo la somma degli scarti al quadrato poi si fa la media
(divido per N).
Quella presentata è la formula più generica: moltiplico la somma degli scarti per la frequenza con cui si presenta la modalità.
s = (sigma minuscolo) indica lo scarto quadratico medio.
= frequenza delle modalità; (nel caso di modalità che si presentano con una sola frequenza n(base i) scompare).
= è la modalità che si presenta con una certa frequenza.
S = simbolo di somma
K = numero delle modalità che si presentano.
N = totale della popolazione
Ho 6 modalità, di ciascuna faccio lo scarto della media quadratica, lo moltiplico per il numero delle frequenze con cui la modalità si presenta e divido per n (numero totale della popolazione).
Se con un’operazione preliminare individuo la frequenza con cui si presentano le modalità, ottengo un numero k di modalità diverso da n.
Individuando la frequenza delle modalità, raggruppo le modalità e rendo più semplice il calcolo successivo.
La formula senza indice si chiama SIGMA QUADRATO o VARIANZA (usato fino a qualche anno fa soprattutto in Italia, oggi in disuso e sostituita dallo scarto quadratico medio).
N
Con la varianza indico la variabilità al quadrato, mentre con lo scarto quadratico medio indico la variabilità con numeri reali ed elimino “il quadrato” che da un’indicazione amplificata della variabilità.
L’indice di variabilità indica quanto si spalma mediamente il fenomeno in esame su diversi valori ed è espresso con la stessa unità di misura con cui è espresso il fenomeno.
VARIABILE PESO (in kg)
52 |
2 |
56 |
1 |
59 |
1 |
60 |
1 |
74 |
1 |
76 |
1 |
81 |
3 |
Totale |
10 |
Di cui viene calcolata la media aritmetica
M = 52*2 + 56*1 + 59*1 + 60*1 + 74*1 + 76*1 + 81*3 = 67.2
10
Procedimento :
(52 – 67.2) = 231.04 |
2 |
462.08 |
(56 – 67.2) = 125.44 |
1 |
125.44 |
(59 – 67.2) = 67.24 |
1 |
67.24 |
(60 – 67.2) = 51.84 |
1 |
51.84 |
(74 – 67.2) = 46.24 |
1 |
46.24 |
(76 – 67.2) = 77.44 |
1 |
77.44 |
(81 – 67.2) = 571.32 |
3 |
571.32 |
(56 – 67.2) = 125.44 |
10 |
1401.6 |
s =
In media lo spostamento delle modalità dalla media aritmetica è di 11.8 kg ( il fenomeno ha questa variabilità).
Se fosse stato 0 avrebbe voluto dire che le modalità erano concentrate su un unico valore.
Questo indice è ASSOLUTO : il minimo vale 0 e cresce senza un massimo definito, dipende dal fenomeno in esame.
Proprietà della media aritmetica
- La somma degli scarti dalla media aritmetica è sempre 0.
- La somma degli scarti dalla media aritmetica costituisce un minimo.
A è un numero diverso dalla media aritmetica.
Lo scarto della variabilità in questo modo indica non solo la variabilità media del fenomeno, ma la indica col numero più piccolo possibile, non c’è spreco.
Se i dati sono raggruppati in classi si prende come il valore centrale di ciascuna classe.
Classe di reddito |
|||
--| 30 |
24 * |
1 |
(24 - 64.1) = 1608.10 * 1 |
30 --| 50 |
40 |
1 |
(40 - 64.1) = 580.81 * 1 |
50 --| 70 |
60 |
4 |
(60 - 64.1) = 16.81 * 4 |
70 --| 90 |
80 |
3 |
(80 - 64.1) = 252.81 * 3 |
oltre 90 |
97 * |
1 |
(97 - 64.1) = 1082.41 * 1 |
|
|
10 |
4096.9 |
s =
Come per la media nel caso di dati raggruppati in classi, lo s.q.m. NON è PRECISO.
Lo s.q.m. può essere calcolato più velocemente con la seguente formula :
s =
M = media aritmetica
= media quadratica tutte le modalità sono elevate al quadrato e messe sotto radice (non ha utilizzo pratico, è utile solo per alcune formulazioni).
N
Come la media lo s.q.m. è espresso nella stessa unità di misura della variabile.
N
Dev =
Per la devianza vale un’importante proprietà, nota come
Dato un collettivo suddiviso in 2 o più gruppi, la devianza del collettivo (Dev T) è uguale alla somma delle devianze dei singoli gruppi (Dev W) più la devianza tra le medie dei gruppi (Dev B).
Ciascun termine della Dev B deve essere pesato con la numerosità del relativo gruppo.
T = totale
W = within (entro)
B = between (tra)
Dev(T) = Dev(W) + Dev(B)
Si ha un collettivo di 5 persone con la seguente distribuzione di reddito :
2 3 4 6 10
la media aritmetica è M = 5
e la devianza totale è
Dev(T) = (2 – 5) + (3 – 5)+ (4 - 5)+ (6 - 5)+ (10 - 5)=40
Dividiamo il collettivo in 2 gruppi e siano le relative distribuzioni dei redditi le seguenti:
gruppo A 2 6 10
gruppo B 3 4
per il gruppo A = 6
Dev = (2 – 6) + (6 – 6) + (10 – 6) = 32
per il gruppo B = 3.5
Dev = (3 – 3.5) + (4 – 3.5) = 0.5
La Dev W complessiva sarà : Dev W = Dev + Dev = 32.5
La devianza tra le medie dei due gruppi sarà:
DevB = ( - M) * + ( - M) * =
(6 – 5) * 3 + (3.5 – 5) * 2 = 7.5
DevT = DevW + DevB = 32.5 +7.5 = 40
Abbiamo visto che quando abbiamo a che fare con un carattere di tipo QUANTITATIVO ci sono diversi modi per misurare la VARIABILITA’. E’ importante che quando usiamo un indice di variabilità (qualsiasi costruiamo) dobbiamo ricordare che la variabilità deve essere sempre = 0 quando non c’è variabilità, e che cresce al crescere della variabilità e può dare solo valori positivi perché la variabilità o c’è o non c’è, non può essere negativa.
Tra i tanti tipi di variabilità quello più utilizzato è lo S.Q.M. (scarto quadratico medio) ed è probabilmente quello che più corrisponde a quello che effettivamente si fa. Si chiama così perché è la somma degli scarti di ciascuna modalità della media aritmetica (scarto elevato al quadrato).
Se non abbiamo a che fare con un carattere quantitativo la cosa si complica un po’ per quanto riguarda la misura della variabilità o MUTABILITA’ (nel caso di caratteri qualitativi). Si ragiona più o meno come si fa con la media cioè con caratteri quantitativi utilizzeremo un indice, un indicatore quantitativo con cui si possono fare i conti (vedi SQM). Se abbiamo a che fare con caratteri qualitativi come abbiamo utilizzato mediane, quartili, percentili, mode, ecc. per calcolare un valore medio, così per trovare la mutabilità che può assumere questo carattere utilizziamo degli indicatori che si rifanno all’ORDINE o alla FREQUENZA del carattere.
E’ importante ricordare che quando si ha a che fare con caratteri qualitativi, ad esempio per trovare la moda o la mediana questo si può fare soltanto se questi caratteri hanno il requisito dell’ordinabilità altrimenti non è passibile di essere sottoposto a mediana o quartile o percentile (modalità che divide in N parti la distribuzione ordinata).
DIFFERENZA INTERQUARTILICA |
E’ una misura di MUTABILITA’ usata nei casi in cui si ha a che fare con caratteri qualitativi ordinabili. Come per lo scarto quadratico medio noi ci agganciamo alla media aritmetica per vedere la variabilità che c’è, nel caso di caratteri qualitativi ordinabili ci agganciamo al concetto di percentile. Invece di fare gli scarti con la mediana, possiamo utilizzare dei punti di riferimento per vedere quanta parte di distribuzione cade tra questi punti di riferimento. Si può vedere che tra il minimo valore più piccolo ed il più grande abbiamo il 100% dei casi, la totalità della popolazione.
Prendiamo il campo di variazione che ci permette di avere l’informazione maggiore, cioè tra il 1° quartile (è la modalità che lascia alla sua sinistra tutte le modalità più piccole o uguali a se stessa) e il 3° percentile (lascia alla sua sinistra il 75% di modalità inferiori o uguali a se stessa). Così individuiamo lo spazio dove va a cadere il 50% dei casi centrali. Questo di dice quanto è concentrato quel fenomeno, nella parte centrale della distribuzione. Lo S.Q.M. per i caratteri quantitativi ci da un’indicazione di quanto è concentrata quella distribuzione intorno alla media. In mancanza di un valore medio analitico (numero) intorno al quale misurare la variabilità media, l’unico modo che abbiamo per vedere se questa distribuzione è concentrata o meno nel punto centrale è quello di prendere i 2 quartili (1° e 3°) e fare la differenza (75% e 25%) e viene fuori il 50% dei casi che sono concentrati nella zona centrale. Più le modalità sono simili e più è concentrata la distribuzione, viceversa più sono diverse tra loro e meno sono distribuite nel campo centrale.
ESEMPIO CARATTERE QUANTITATIVO
STATURE |
FREQ. |
FREQ.CUM. |
150 |
1 |
1 |
155 |
3 |
4 |
160 |
6 |
10 |
163 |
1 |
11 |
165 |
4 |
15 |
170 |
6 |
21 |
175 |
4 |
25 |
|
25 |
|
Come nel caso della mediana, percentili, che può essere usata anche per caratteri quantitativi così la differenza interquartilica può essere usata anche per caratteri quantitativi. Abbiamo rilevato la statura di 25 soggetti e costruito la distribuzione di frequenza in cui ci sono le frequenze cumulate. Individuiamo qual è la posizione del 1° e del 3° quartile.
Q1 = 1*N/4 = 25/4 = 6,25 sta tra quelli che misurano cm 160
Q3 = 3*N/4 = 3*25/4 = 18,75 corrisponde a cm 170
170 – 160 = 10
La differenza tra le modalità che corrisponde al 3° quartile e la modalità che corrisponde al 1° quartile è 10 centimetri. Sulla base di quanto fatto fino qui posso affermare che il 50% della popolazione presenta una altezza compresa tra 160 e 170 centimetri con una variabilità (o dispersione) di 10 centimetri. Se fosse stata una misura tra 180 e 160 il 50% della popolazione tra il 1° e 3° quartile avrebbe presentato una dispersione maggiore, cioè di un numero maggiore di modalità.
Prendiamo un carattere di tipo qualitativo ordinale “titolo di studio”. Abbiamo rilevato 16 soggetti
TITOLO DI STUDIO |
FREQ.ASS. |
FREQ.CUM. |
Elementare |
1 |
1 |
Medie |
3 |
4 |
Superiori |
6 |
10 |
Laurea |
2 |
12 |
Dottorato di ricerca |
4 |
16 |
|
16 |
|
Abbiamo trovato le frequenze cumulate; poi la posizione che occupa il 1° quartile
Q1 = 1*N/4 = 16/4 = 4 corrisponde alla scuola media
Q3 = 3*N/4 = 3*4 = 12 corrisponde alla laurea
Possiamo dire che il 50% della popolazione ha un titolo di studio tra la media e la laurea. Si può dire che c’è una contenuta variabilità tra i titoli di studio. Questa misura non essendo frutto di procedimento analitico (non ci sono calcoli) è un po’ grezza ma nel caso dei caratteri qualitativi ordinabili è l’unico strumento che abbiamo.
In pratica la DIFFERENZA INTERQUARTILICA è una misura delle modalità che mi serve per cercare di individuare la variabilità all’interno di una distribuzione dove le modalità sono di carattere qualitativo ordinale. Può esserci utile, come abbiamo visto per le medie di posizione, anche in qualche caso quando abbiamo a che fare con carattere di tipo quantitativo in cui per avere una indicazione migliore della variabilità può essere utile anche calcolare la differenza interquartilica.
Se invece abbiamo a che fare con dei caratteri qualitativi nominali non possiamo avvalerci di misure legate alla mediana o ai quartili. L’unica cosa a cui possiamo aggrapparci è la frequenza con cui si presenta una modalità cioè alla MODA.
Per calcolarci una misura di variabilità in caso di carattere qualitativi ordinali si ricorre ad una categoria particolare di indicatori che si chiamano INDICI DI ETEROGENEITA’, sono indici che ci indicano quanto il fenomeno è eterogeneo. Maggiore è il valore che assumono e maggiore è l’eterogeneità e minore l’omogeneità.
Devono soddisfare le seguenti condizioni:
Ne esistono molti ma ne vediamo uno tra i più usato: l’indice S di Gini che si costruisce in questo modo:
1 meno la sommatoria per i che va da 1 a P delle n con i diviso N dove “n” sono il numero delle frequenze di “i” modalità che sono previste, N sono le frequenze totali.
Supponiamo di avere 3 colori bianco, verde giallo
BIANCO |
VERDE |
GIALLO |
TOTALE |
3 |
5 |
2 |
10 |
0 |
0 |
10 |
10 |
Nel secondo caso il collettivo è più omogeneo perché presenta un unico colore rispetto al primo. Man mano che la distribuzione dei vari colori si spalma sulle varie modalità diventa più eterogeneo rispetto ai colori. Nel caso che tutte le frequenze siano “0” ed una sola prende tutte le frequenze del collettivo ni = 10 che diviso N 10 = 1. Quindi nel caso che il collettivo presenti OMOGENEITA’ rispetto a quel carattere l’indice assume valore “0”.
n1=n2=………….=np=N/P
Nel caso di massima eterogeità l’indice S sarà:
L’S di Gini è un indice assoluto di eterogeneità basato sempre sulle frequenze però non presenta il massimo dei valori. Se noi lo agganciamo al precedente che è il massimo abbiamo un indice relativo di eterogeneità:
l’indice relativo (di eterogeneità) sarà pertanto:
ESEMPIO
COLORE OCCHI |
|
|
X |
n |
ni/N |
Azzurri |
2 |
1/5 |
Castani |
3 |
3/10 |
Neri |
3 |
3/10 |
Verdi |
2 |
1/5 |
|
10 |
|
Sono 10 soggetti. Divido le varie frequenze per il totale (ni/N).
questo 0,74 è il valore di indice assoluto di eterogeneità.
Il massimo (in questo caso abbiamo 4 classi) e diventa 1 meno un quarto
poi dividiamo
che è l’indice molto elevato di eterogeneità. Questo corrisponde a quello che abbiamo davanti perché le frequenze non sono disuguali per tutte le classi ma sono molto simili quindi siamo molto vicini alla massima eterogeneità.
Per semplificare se abbiamo 4 modalità ed 8 casi per avere il massimo di eterogeneità dovremmo avere 2 casi per ogni modalità. Nel caso di massima eterogeneità vediamo che il massimo è dato da
se rapporto il mio indice che ho costruito prima e che deve essere assoluto lo rapporto al massimo, lo relativizzo,diventa un indice relativo che mi varierà tra 0 ed 1.
RAPPORTI STATISTICI |
Si parla di caratteri quantitativi. Si indica “rapporto” perché si mettono a confronto 2 quantità di 2 variabili. Per fare questo confronto possiamo utilizzare:
X-Y
Se noi facciamo con gli stessi caratteri due raffronti diversi facendo la loro differenza o il loro rapporto i risultati possono dare delle informazioni molto diverse.
|
Punti |
Reti fatte |
Reti subite |
Fatte-subite |
Fatte/subite |
SQUADRA A |
15 |
24 |
8 |
16 |
3 |
SQUADRA B |
15 |
40 |
20 |
20 |
2 |
Prendiamo 2 squadre di calcio. Mettiamo i punti in classifica e le reti fatte e subite. Facendo la differenza tra reti fatte e reti subite otteniamo una prevalenza della squadra B sulla squadra A. Se invece facciamo il loro rapporto vediamo che la situazione si inverte. Le informazioni possono essere ben diverse.
Della differenza non ci occupiamo più e ci occupiamo solo di RAPPORTI.
Un rapporto statistico è un quoziente tra 2 termini tra i quali esiste un legame logico e può essere utilizzato per comparazioni sia spaziali che temporali. Siccome metto a confronto queste due quantità posso utilizzare questo confronto per fare delle valutazioni per distribuzioni nel tempo (tra un periodo ed un altro) oppure nello spazio (da uno stato all’altro, da una regione all’altra). Ci sono molti modi di mettere in relazione dei dati. Si usa classificare i rapporti statistici secondo il legame logico che esiste tra le modalità che vengono messe in rapporto l’una all’altra.
CLASSIFICAZIONE DEI RAPPORTI STATISTICI SECONDO IL LEGAME LOGICO ESISTENTE FRA NUMERATORE E DENOMINATORE |
|
A – RAPPORTI CHE SI SEMPLIFICANO |
|
B- RAPPORTI CHE SI RISOLVONO |
1) Rapporti di durata |
A- Rapporti che si semplificano.
La scelta del denominatore viene fatta in relazione al significato più logico che si vuole attribuire al rapporto.
A.1. I rapporti medi.
Quando noi andiamo a fare una Media mettiamo in relazione tutte le modalità. Mettiamo al numeratore la quantità del carattere che si sta studiando ed al denominatore la numerosità del collettivo al quale viene riferito il carattere che stiamo studiando. Per esempio se stiamo studiando il reddito lo riferiamo al collettivo a cui ci stiamo riferendo e quindi avremo un rapporto Medio. Il concetto che viene fuori è analogo al numeratore, cioè il reddito medio sarà il reddito.
Prendiamo per esempio il carattere “numero di laureati”.
Se facciamo un rapporto tra il carattere A e B i) otteniamo un numero (sempre di laureati) che indica quanti laureati si sono registrati mediamente nelle università italiane.
Se invece lo rapportiamo alla popolazione di una regione otterremo sempre un numero medio di laureati ma rispetto all’unità geografica regione.
Quando sentiamo parlare di reddito medio pro capite abbiamo un reddito diviso per tutta la popolazione di riferimento. Quanto si vede “consumo medio per abitante” viene preso il consumo a livello nazionale e viene diviso per il numero di abitanti.
Il 2 ed il 3 del gruppo A li vedremo in seguito.
A.4. I rapporti di composizione
In questo caso mettiamo in relazione una parte di soggetti con il totale dei soggetti. Mi da una indicazione di come si compone quel fenomeno. E’ il rapporto più utilizzato. Serve per indicare quale è il peso di una modalità sul totale. Questi rapporti hanno delle peculiarità. Siccome si rapporta una parte al tutto l’unità di misura è la stessa quindi quello che viene è un numero puro, una percentuale non ha una unità di misura.
Sono numeri compresi tra 0 ed 1.
Siccome si rapporta una parte al tutto è indicato sempre in modo percentuale.
Si mette in rapporto una parte del fenomeno e la si divide per il totale cioè quando si vuole evidenziare il peso di una modalità rispetto alle altre.
Vediamo due tabelle dell’ISTAT su una indagine sulla condizione lavorativa a 3 anni dalla loro laurea o diploma.
Questa indica i diplomati per sesso e tipo di diploma maturità
DIPLOMA |
MASCHI |
FEMMINE |
TOTALE |
Professionale |
1.196 |
10.173 |
2.369 |
Tecnico |
16.021 |
9.420 |
25.441 |
Liceale |
30.677 |
36.851 |
67.478 |
Magistrale |
530 |
60841 |
7.371 |
Altri |
576 |
752 |
1.328 |
TOTALE |
48.950 |
55.037 |
103.987 |
Viene diviso per maschi e per femmine in base al tipo di diploma conseguito. Questa tabella ci dice poco. Allora ci facciamo un rapporto di composizione all’interno di ciascuna modalità sesso, cioè rapportiamo il numero di persone che hanno conseguito il tipo di diploma al totale, e lo facciamo per tutte le modalità.
LAUREATI |
MASCHI |
FEMMINE |
TOTALE |
Professionale |
2,4 |
2,1 |
2,3 |
Tecnico |
32,7 |
17,1 |
24,5 |
Liceale |
62,6 |
67,0 |
64,9 |
Magistrale |
1,1 |
12,4 |
7,1 |
Altri |
1,2 |
1,4 |
1,3 |
TOTALE |
100 |
100 |
100 |
Se il totale viene 100 è giusto.
Quando facciamo dei rapporti di composizione (rapportiamo ogni modalità al totale) deve venire un numero tra 0 e 1 ed il totale viene sempre 1 che espresso in forma percentuale è 100.
Se noi facciamo una costruzione in questo modo vediamo subito che la percentuale più frequente di diploma conseguito sia per i maschi che per le femmine è quello liceale, in particolare nella femmine pesa di più rispetto ai maschi. In successione viene per i maschi la scuola tecnica con 32,7 (circa 1/3) mentre è inesistente la scuola magistrale che invece per le femmine rappresenta il 12%.
A.3 Rapporti di coesistenza
In questi rapporti si mettono a confronto le frequenze di una modalità con quelle di un’altra modalità. Ci è utile per evidenziare immediatamente il peso di una modalità non rispetto al totale ma rispetto ad una modalità antagonista. Anche questa serve per ricavare più informazioni possibili dai dati che abbiamo a disposizione.
Facciamo un esempio riprendendo la tabella precedente. In questo caso mettiamo in rapporto per ciascun tipo di diploma conseguito la frequenza dei maschi sulla frequenza delle femmine.
DIPLOMA |
MASCHI |
FEMMINE |
% |
Professionale |
1.196 |
10.173 |
102,0 |
Tecnico |
16.021 |
9.420 |
170,0 |
Liceale |
30.677 |
36.851 |
83,1 |
Magistrale |
530 |
60841 |
7,7 |
Altri |
576 |
752 |
76,6 |
TOTALE |
48.950 |
55.037 |
88,9 |
Vediamo ad esempio nei totali (48.950:55.073) il rapporto maschi su femmine è l’88% e vuol dire che c’è un numero inferiore di maschi rispetto alle femmine che ha conseguito il diploma. Si ragiona in modo percentuale. Se il risultato del rapporto è inferiore a 100 vuol dire che i maschietti sono meno delle femmine. Se il rapporto da un numero superiore a 100 vuol dire che i maschi sono in numero superiore alle femmine. Si mettono in rapporto le quantità. Se le quantità sono uguali il rapporto è 1 se sono di più i maschi verrà 1,qualche cosa, se sono inferiori il numero tenderà verso lo 0.
Se mettiamo in relazione ciascun tipo di diploma conseguito dai maschi e ciascun tipo di diploma conseguito dalle femmine possiamo fare un tipo di osservazione che, nel caso del professionale sono leggermente inferiori i maschi, nel caso della scuola tecnica sono molto di più i maschi, nel caso del liceo i maschi sono un po’ meno ecc.
Queste tabelle ci permettono di trarre delle conclusioni su quale è la prevalenza di una delle due modalità sull’altra rispetto al carattere che stiamo studiando.
Un altro modo è mettere in relazione i vari tipi di diploma tra di loro. Esempio potremmo vedere quanto pesa di più il liceo rispetto ad altre categorie, cioè metto in relazione le frequenze del liceo con le altre modalità.
Diploma |
Maschi |
Femmine |
Totale |
Professionale |
25,6 |
31,4 |
28,5 |
Tecnico |
1,9 |
3,9 |
2,7 |
Liceo |
1,0 |
1,0 |
1,0 |
Magistrale |
57,8 |
5,4 |
9,2 |
Altri |
53,2 |
49,0 |
50,8 |
Chiaramente il liceo : liceo mi da 1 (30.627:30.627)
Il liceo rispetto alla scuola tecnica sarà 30.627:16.021=1,9 (per quanto riguarda i maschi)
COESISTENZA : rapportiamo la frequenza di una modalità al totale e
abbiamo immediatamente l’idea del peso di questa modalità nell’ambito
Rapporti di della distribuzione.
COMPOSIZIONE: rapportiamo le frequenze di una modalità alle
frequenze di un’altra modalità per avere un’idea del peso di una modalità rispetto ad un’altra
POPOLAZIONE PER CLASSI DI ETA’, INDICI DI VECCHIAIA E DIPENDENZA.
Anni |
Classi di età |
Indice di vecchiaia (a) |
Indice di dipendenza |
|||
|
0-14 |
15-64 |
65 e oltre |
|
degli anziani (b) |
Totale (c) |
1951 |
26.1 |
65.7 |
8.2 |
31.4 |
12.5 |
52.2 |
1961 |
24.5 |
66.0 |
9.5 |
38.8 |
14.4 |
51.5 |
1971 |
24.4 |
64.3 |
11.3 |
46.3 |
17.6 |
55.5 |
1981 |
21.5 |
65.3 |
13.2 |
61.4 |
20.2 |
53.1 |
Dalla tabella emerge che la popolazione giovane diminuisce piuttosto rapidamente, la popolazione lavorativa rimane pressoché stabile e che la popolazione in età da pensione cresce velocemente.
Tale tipo di rapporto ci dà un’idea della composizione della popolazione e può essere utile per programmare previdenze per determinate classi sociali.
Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 0-14 : mette in relazione diretta due modalità e dà un’idea precisa di quanto la popolazione anziana pesi rispetto a quella in età scolare.
Questo indice è usato largamente in tutto il mondo, più è alto questo indice più è vecchia la popolazione; è un rapporto di coesistenza.
Rapporto percentuale tra la popolazione in età da 65 anni in poi e quella della classe 15-64 :
dà un’idea di quanto la popolazione anziana pesi rispetto a quella in età lavorativa.
Rapporto percentuale tra la somma della popolazione in età 0-14 e quella in età da 65 anni in poi, e la classe 15-64 : in questo modo abbiamo la misura di quanto le popolazioni non attive da punto di vista lavorativo pesano sulla popolazione che lavora.
del numeratore.
Punti logici comuni
numeratore (il denominatore deve essere la base derivazione
assolutamente logica per poter essere il punto di
appoggio del numeratore).
LIVELLO TERRITORIALE |
TASSO DI I.V.G. |
TASSO DI MORTALITA’ INFANTILE |
TASSO GENERICO DI MORTALITA’ |
TASSO DI MORTALITA’ PER MALATTIE CARDIO-CIRCOLATORIE |
Anno |
1998 |
1997 |
1999 |
1997 |
Piemonte |
9.9 |
5.1 |
11.7 |
4.9 |
Valle d’Aosta |
10.6 |
5.9 |
10.7 |
4.3 |
Liguria |
11.2 |
5.5 |
13.8 |
5.6 |
Lombardia |
9.1 |
3.9 |
9.7 |
5.9 |
I.V.G. interruzione volontaria di gravidanza
Età feconda 15/49 anni
X 1000 (i rapporti di composizione vengono spesso moltiplicati x 100) per comodità visiva questi dati vengono moltiplicati x 1000, ma deve essere chiaramente specificato.
TASSO DI I.V.G. vengono messi in rapporto due fenomeni: il tasso di I.V.G. per 1000 donne (denominatore) e il numero delle donne in età feconda (numeratore).
TASSO DI MORTALITà INFANTILE vengono messi in rapporto due fenomeni: il numero dei nati vivi e i bambini che muoiono con età 0 anni, cioè non hanno ancora compiuto 1 anno (numeratore).
Questi tipi di tasso hanno una caratteristica comune : al numeratore c’è un numero che indica un fenomeno e al denominatore c’è un aggancio logico affinché il risultato abbia un senso.
Sono una particolare classe di rapporti, della quale fanno parte i tassi
Si differenziano tra loro per il fatto che al denominatore si trova il presupposto generico (generale) o specifico rispetto ad una certa modalità.
Quoziente generico di mortalità
Una popolazione A è composta nel 1999 (a metà anno per convenzione) da N individui. Nel corso dell’anno si sono verificati m decessi.
Il quoziente generico di mortalità è costituito dal rapporto
Supponiamo di conoscere della popolazione A anche la struttura in età; classificando i decessi utilizzando la stessa struttura della popolazione possiamo calcolare i quozienti specifici.
Età |
Popolazione |
Decessi |
Quozienti specifici di mortalità per classi di età |
0 – 14 |
500 |
2 |
4.0 |
14 – 29 |
2000 |
8 |
4.0 |
29 – 44 |
2000 |
12 |
6.0 |
44 – 59 |
1000 |
10 |
10.0 |
59 – 74 |
500 |
20 |
40.0 |
74 – oltre |
100 |
15 |
150.0 |
totale |
6100 |
67 |
11.0 |
Dai quozienti specifici si può risalire al quoziente generico relativo alla popolazione nel complesso, tramite una media di tutti i quozienti specifici, ciascuno ponderato con la relativa popolazione.
Il quoziente generico risente quindi sia delle variazioni della mortalità specifica che della variazione della struttura per età della popolazione.
Lo studio dei quozienti specifici risulta molto utile nel confronto tra 2 o più popolazioni rispetto al fenomeno preso in esame.
Sono costruiti in modo tale da eliminare l’influenza che la diversa struttura di uno o più caratteri di specificazione (sesso, età, titolo di studio) ha nella determinazione del fenomeno osservato su 2 o più popolazioni o sulla stessa popolazione in momenti diversi.
ES. : Fenomeno osservato : mortalità
Caratteri di specificazione : sesso ed età
Per eliminare l’influenza della diversa struttura per età delle 2 popolazioni scegliamo una struttura per età TIPO alla quale riferire i calcoli per tutte e due le popolazioni. Questa particolare struttura per età (popolazione tipo o popolazione standard) può essere scelta con una certa libertà :
Supponiamo di prendere come nostra popolazione standard la seguente :
Età (in classi) |
Popolazione standard |
0-14 |
500 |
14-29 |
2500 |
29-44 |
3000 |
44-59 |
3000 |
59-74 |
2500 |
74-oltre |
500 |
totale |
12000 |
Assumiamo che la struttura per età delle 2 popolazioni sia quella riportata in tabella.
Se applichiamo alla popolazione standard i quozienti di mortalità specifici della popolazione A e della popolazione B , otteniamo i quozienti di mortalità specifici che si otterrebbero nel caso in cui le 2 popolazioni A e B avessero la stessa struttura per età.
Età |
Popolazione standard |
Quoziente specifico di mortalità x classi di età. |
Morti attese popolazione A |
Quoziente specifico di mortalità x classi di età. |
Morti attese popolazione B |
0-14 |
500 |
4.0 |
2 |
2.5 |
1 |
14-29 |
2500 |
4.0 |
10 |
3.3 |
8 |
29-44 |
3000 |
6.0 |
18 |
5.0 |
15 |
44-59 |
3000 |
10.0 |
30 |
9.0 |
27 |
59-74 |
2500 |
40.0 |
100 |
35.0 |
88 |
74-oltre |
500 |
150.0 |
75 |
125.0 |
63 |
totale |
12000 |
|
235 |
|
202 |
Danno luogo ad un concetto diverso dai due fenomeni messi in rapporto.
a)rapporti di durata
mettono in relazione la consistenza di un fenomeno in un dato periodo con il flusso che la movimenta.
Es.:
Di frequente si fa riferimento alle consistenze e ai flussi MEDI del periodo.
Movimento di ricorsi in materia di pensioni presso la Corte dei Conti - 1994 |
Dipendenti inizio dell’anno |
Presentati nell’anno |
Esaminati nell’anno |
Pendenti a fine anno |
Civili |
79733 |
10113 |
2185 |
87661 |
Militari |
54335 |
3030 |
1835 |
55530 |
Di guerra |
133086 |
2808 |
4483 |
131441 |
totale |
267154 |
15951 |
8503 |
274632 |
Pensioni civili
Consistenza media = (situazione iniziale + situazione finale) / 2
(79733 + 87661) / 2 = 83697
(10113 + 2185) / 2 = 61491
RAPPORTO DI DURATA = 83687 / 6149 = 13.61 (in anni)
b)rapporti di ripetizione
indicano la velocità con il quale il fenomeno esaminato si rinnova nel corso di un periodo.
E’ espresso dal reciproco del rapporto di durata.
Rapporto di ripetizione = 1 / 13.61 = 0.07
7 aprile 2004
Chiarimento sull’esercitazione. Riprendiamo la scomposizione della devianza.
La devianza è il numeratore della varianza. Cioè la varianza non divisa per la numerosità si chiama devianza. La devianza così come è costruita non ha alcuna utilità pratica dal punto di vista operativo. Viene utilizzata per vedere nel dettaglio quello che avviene singolarmente nei gruppi e tra i gruppi.
Ad esempio prendiamo tutti i presenti in questa aula, dividiamo in due sottogruppi (quello di destra e quello di sinistra) possiamo analizzare nel dettaglio senza rifare tutte le volte le addizioni se abbiamo a disposizione sufficienti elementi dell’uno e dell’altro basandoci su questo principio di scomposizione della varianza. Abbiamo detto che la devianza totale si può spaccare in 2 pezzi:
Possiamo raggiungere il nostro obiettivo di arrivare ad un calcolo della varianza complessiva come medie delle varianze within e della varianza between.
Esempio tabella esercitazione.
Gruppo A |
Gruppo B |
126 |
122 |
132 |
125 |
140 |
128 |
144 |
140 |
150 |
144 |
158 |
145 |
161 |
149 |
164 |
150 |
173 |
153 |
176 |
156 |
Formula scomposizione della devianza
DEV(T)=DEV(W)+DEV(B)
La devianza totale di questi due gruppi è data dallo scarto di ciascun elemento dalla propria media aritmetica del gruppo A elevato al quadrato moltiplicato per la propria numerosità, più la sommatoria degli scarti di ciascun elemento dalla propria media del gruppo B al quadrato moltiplicato per la propria numerosità. Queste due insieme rappresentano la devianza between. La devianza within è quella che compare come scarto tra le due medie “Ma” ed “Mb”. Quindi M per k che va da 1 a 2 (in questo caso sono 2 gruppi) M di a meno M di b al quadrato. Questa è la formula della scomposizione della devianza.
Facendo opportune manipolazioni abbiamo una situazione di questo genere. Se mi riferisco al conto della varianza anziché della devianza, cioè ponderando e dividendo per le numerosità riesco ad avere una situazione in cui la varianza within è indicata come media delle varianze all’interno dei gruppi e la varianza between è indicata come media delle medie aritmetiche dei 2 gruppi. Quindi avendo a disposizione le varianze within, le medie dei 2 gruppi, le due numerosità e quella complessiva, partendo da questi elementi posso costruirmi la varianza complessiva.
Altro chiarimento sull’esercitazione
120├─┤130 131├─┤140 141├─┤150 |
Questa suddivisione andrebbe bene se i numeri fossero discreti (cioè se nell’ambito di un intervallo potrebbero assumere solo alcuni valori). Siccome questo è un carattere continuo (nell’arco di un intervallo può assumere tutti i valori – 130,1 130,2 130,3 ecc.) messo così ci sono dei buchi tra 130 e 131. |
Una regola da seguire quando si fa la suddivisione in classi, queste devono essere contigue, non ci devono essere buchi e non si devono sovrapporre.
Lo stesso vale per le rappresentazioni grafiche.
Tabella su indagine fatta negli USA pubblicata nel marzo 2004. Tratta lo stipendio di persone impiegata come biostatitici. Sono stati usati i percentili come indicativo di quanto prendono queste persone, invece di prendere i valori medi. Questo metodo non risente dei valori estremi.
Un ulteriore esempio di uso di rapporti statistici. Tabella situazione sociale comune di Bologna 1994 costruita da un questionario su: a) partito politico per cui si simpatizza; b) parere sulla natalità.
Ci sono le frequenze assolute cioè il numero degli intervistati. Le frequenze relative si costruiscono con un rapporto di composizione rapportando una parte di tabella al tutto. Oppure considerando separatamente ogni singola colonna (o ogni singola riga), le frequenze assolute per singola colonna vengono rapportate al totale della colonna stessa. Per esempio da questi dati posso vedere per coloro che hanno dato una risposta favorevole ad una alta natalità la relativa appartenenza politica.
NUMERI INDICE |
L’ultimo argomento per quanto riguarda i rapporti statistici. Sono un particolare tipo di rapporto che mette in relazione una quantità o una intensità di un fenomeno, rilevato in un certo momento, con l’intensità dello stesso fenomeno rilevato in un altro momento. Rispetto agli altri rapporti visti fino ad ora in questo caso non abbiamo un rapporto di una parte al tutto. Si può fare anche sotto il profilo spaziale nel senso che si prende una intensità di un fenomeno un una certa regione e lo rapportiamo all’intensità dello stesso fenomeno in un’altra regione.
Esempio tabella “Indice fatturato di una industria”. C’è sempre una dicitura che dice “base ” in questo caso “1995 base 100” che indica che si sta utilizzando come base del numero indice l’anno 1995.
MESE |
1999 |
2000 |
2001 |
Gennaio |
87,7 |
95,1 |
|
Febbraio |
98,1 |
|
|
Marzo |
118 |
|
|
Aprile |
104 |
|
|
Maggio |
104 |
|
|
Giugno |
117 |
|
|
Luglio |
121 |
|
|
Agosto |
64,9 |
|
|
Settembre |
|
|
|
Ottobre |
|
|
|
Novembre |
|
|
|
Dicembre |
|
|
|
NUMERI INDICE: rapporti che misurano le variazioni di una fenomeno in 2 diverse circostanze normalmente di tempo più raramente di luogo.
In base all’ordine temporale abbiamo 2 tipi di indice:
Nella pratica i numeri indice si indicano con la lettera I e alla sinistra in basso si mette l’anno base, sulla destra in basso si indica l’anno che sto studiando in quel momento.
se metto b=1995 ed i=1999
vuol dire che sto calcolando l’indice di base 1995 dell’anno 1999. Dato che Xi è il fatturato del 1999 e Xb è il fatturato del 1995 si mettono in rapporto questi 2. Il risultato può essere un numero inferiore o superiore ad 1. Si moltiplica tutto per cento perché normalmente è espresso in forma percentualizzata.
Costruendo i numeri indici abbiamo numeri relativi, numeri puri in cui non c’è più riferimento all’unità di misura né ai numeri grossi di partenza.
Tabella energia elettrica consumata a livello nazionale negli anni 1999, 2000, 2001 (impossibile da copiare!!!!!!!)
Parto dai numeri assoluti e mi costruisco dei numeri relativi prendendo ad esempio gennaio 1999 uguale a 100 e mi costruisco il rapporto prendendo e rapportando ciascun elemento a gennaio 1999. Ottengo una serie di numeri in cui vedo subito come è cambiata la situazione e l’andamento. Quando ci sono dei numeri inferiori a 100 vuol dire che c’è stato un calo; quando ci sono dei numeri superiori a 100 vuol dire che c’è stato un aumento.
Per farci un’idea vediamo un’altra tabella. Prendiamo come base una rilevazione che non compare. 1995=100
E’ normale che si faccia così sempre che il fenomeno che stiamo studiando nell’arco di tempo considerato (dall’anno base ad oggi) non abbia avuto forti salti, cioè quando andiamo a costruirci dei numeri indice facciamo in modo di andare a scegliere come base la rilevazione di un periodo non anomalo anche qualche anno prima. Nel giro di 3 o 4 anni la base viene cambiata per via dell’inflazione poiché la base non è più sufficientemente adeguata a darci una indicazione seria di quello che sta avvenendo.
INDICE FATTURATO INDUSTRIA A BASE GENERALE. |
|||
MESE |
1999 |
2000 |
2001 |
G |
87,7 |
95,1 |
110 |
F |
98,1 |
119 |
119 |
M |
118 |
134 |
138 |
A |
104 |
109 |
117 |
M |
104 |
126 |
130 |
G |
117 |
130 |
136 |
L |
121 |
131 |
133 |
A |
64,9 |
76,7 |
76,5 |
S |
121 |
131 |
|
O |
116 |
130 |
|
N |
117 |
129 |
|
D |
123 |
128 |
|
Se noi utilizziamo questa serie di numeri indice vediamo che da gennaio a febbraio c’è stato un calo rispetto al 1995=100, mentre invece nel periodo sett-dic c’è stato un fatturato superiore al periodo base. I numeri indice a base fissa sono sicuramente quelli più utilizzati.
I NUMERI INDICI A BASE MOBILE: come base non indichiamo più una base generica X ma una base variabile che varia in funzione dell’indice dell’anno o del mese di riferimento. Sono costruiti rapportando le quantità o l’intensità di un fenomeno verificate in un certo periodo all’intensità rilevate nel periodo immediatamente precedente.
i – 1 I i (i=1, ………, t)
i – 1 I i =
--------------------------------------------
Possiamo avere una serie di numeri di indici a base fissa e vedere cosa succede alla stessa serie a base mobile. Prendo l’indice a base fissa e ho il numero del tempo “i” e del tempo “i-1” (quello immediatamente precedente) sapendo che l’indice a base fissa tempo “i” è data dalla quantità, dalla densità del fenomeno tempo “i” rapportata al tempo base “b”,
Xi = indice base fissa
Xb = indice che si vuole cambiare
Le basi possono cambiare perché diventano vecchie quindi non più rappresentative quindi si possono sostituire. Per sostituire le basi si usa il COEFFICIENTE DI RAPPORTO.
Un indice a base fissa “b” è indicato così
se noi cambiamo base con un indice di base “c” possiamo passare da quelli con la vecchia base a quelli con la nuova base moltiplicando tutti per questo coefficiente di rapporto. Al denominatore sostituisco Xb (la vecchia base) con Xc (la nuova base). Il denominatore Xi rimane fisso.
CRb c=
In questo modo posso passare rapidamente dalla vecchia base alla nuova base.
Questo coefficiente mi serve come rapporto, come fattore di conversione dalla vecchia base alla nuova base.
dove Xb è l’indice che si vuole cambiare
cambiando base in C
si moltiplicano per il coefficiente i vecchi numeri
vecchia base su nuova base moltiplico *100 e poi moltiplico tutti i numeri indice vecchi per questo numero ed ottengo tutto nella nuova base.
Il nuovo numero mi indica il nuovo indice “I” rispetto alla nuova base “c”.
Questi qui si chiamano anche NUMERI INDICE SEMPLICI perché noi prendiamo il singolo carattere, il singolo fenomeno e ci calcoliamo il numero indice di quel fenomeno rispetto agli anni precedenti. Se invece passiamo ad un'altra serie di indici che si chiamano NUMERI INDICE SINTETICI O COMPLESSI che utilizziamo spesso per quanto riguarda gli effetti economici (inflazione) vediamo che si prende in considerazione non il singolo bene, ma una serie di beni. Si cerca di trovare un bilanciamento adeguato tra l’insieme dei beni che prendiamo in considerazione, il periodo o l’anno base, e siccome dobbiamo tirare fuori da questo insieme un indice sintetico dobbiamo trovare la media più appropriata (abbiamo detto che le medie sono indici sintetici).
Ecco i vari passaggi.
Si possono costruire diversi numeri indice sintetici per quanto riguarda i prezzi di tutti i tipi (di vendita, al dettaglio, all’ingrosso) oppure possiamo costruirci dei numeri indici sintetici delle quantità cioè come variano le quantità di questi prodotti che prendiamo in considerazione.
Ci sono diversi sistemi di ponderazione.
Uno è quello che si chiama PONDERAZIONE VALORI
p 01 *q 01
cioè si prende il prezzo e la quantità del bene (indicato con “i” quindi iesimo) al tempo 0 (con zero si indica l’anno base).
Questo indice si chiama INDICE DI LASPEYRES
In pratica per l’indice dei prezzi si prende un prezzo del bene “iesimo” a tempo 1 e a tempo zero e li moltiplichiamo per il valore a tempo base, il tutto viene rapportato alla sommatoria complessiva dei valori del bene considerato. Questo è un modo di ponderazione.
Al numeratore nella parentesi abbiamo il valore prezzo per quantità rilevato a tempo zero (cioè a tempo base) di ciascun bene. Al denominatore abbiamo il prezzo per la quantità rilevato a tempo zero cioè a tempo base.
Stesso discorso si può fare con le quantità.
Noi possiamo vedere delle variazioni e fare un numero indice non soltanto dei prezzi ma anche delle quantità. Cioè rilevo delle quantità in diversi periodi vedo come queste variano e sulla base di queste quantità pondero i valori e questo mi da una indicazione di come si stanno movendo, quello che consumo.
Le proprietà dell’INDICE DI LASPEYRES le vedere sul libro se non sono chiare ne riparliamo.
POTERE DI ACQUISTO
Per potere d’acquisto indichiamo la quantità di un bene K che ha un certo prezzo, che noi riusciamo a comprare con una quantità di moneta. Supponiamo che un certo bene costa 12 € al kg, e supponendo che la mia disponibilità di moneta sia di 100 €, il mio potere d’acquisto rispetto al bene K sarà indicato con 100 (quantità di moneta che ho disponibile) diviso il prezzo unitario di quel bene.
Per prezzo unitario sarà 12 € per un kg. Quindi in questo caso il risultato di questo divisione non è un numero puro ma è in chilogrammi. Vuol dire che io posso acquistare 8,34 kg con questa quantità di moneta. Questo l’anno scorso. Per vedere quest’anno che è successo, quindi per misurare la variazione del mio potere d’acquisto mi calcolo la quantità di bene che potevo comprarmi l’anno scorso (al tempo 1) con la mia quantità di moneta. Suppongo costante la mia quantità di moneta (al tempo 2) e vedo che essendo passato il prezzo da P1 a P2, vedo quanto bene mi posso comprare quest’anno con la stessa quantità di moneta.
M = P * Q
Allora mi prendo il mio potere d’acquisto al tempo 2 lo rapporto a quello del tempo 1 e quindi basta che io prendo il prezzo unitario al tempo 1 e lo rapporto al tempo 2 e immediatamente ho quanto è variato il mio potere d’acquisto.
Al tempo 1 il prezzo era 12 € al kg supponiamo che al tempo 2 fosse di 15 € al kg faccio il rapporto passo per passo e vediamo che mentre al tempo 1 potevo comprare 8,33 kg al tempo 2 ne posso comprare solo 6,67 kg
Quindi facendo questo tipo di rapporto, essendo inferiore ad 1 (0,80*100=80%) vuol dire che il mio potere d’acquisto è diminuito del 20%.
Ricapitolando tutti i numeri indici che sono particolari tipi di rapporto vengono utilizzati per mettere in evidenza la variazione intervenuta in un certo periodo di tempo di un bene o una serie di ben, il tutto più o meno ponderato a seconda che io abbia bisogno di evidenziare soltanto la variazione della quantità, di un prezzo singolo oppure ponderato se io voglio costruirmi un indicatore complessivo di una situazione che prende in considerazione una pluralità di beni.
a senso perché mette in relazione una certa quantità ad un'altra. Di questi indicatori ne posso costruire migliaia quando mi servono e come mi servono per poter mettere in evidenza particolari situazioni.
Il caso più comune è quando ci si trova di fronte a due o più caratteri statistici e si vuole capire che tipo di relazione c’è tra di loro.
La rappresentazione grafica con assi cartesiani e punti è la più usata per rappresentare relazioni statistiche tra caratteri quantitativi.
Se si nota che al crescere (o al diminuire) di una variabile anche l’altra cresce (o diminuisce) si dice che le due variabili hanno un andamento CONCORDE.
Se si nota che al crescere di una variabile l’altra tende a diminuire si dice che le due variabili hanno un andamento DISCORDE.
Per studiare il collegamento tra due caratteri quantitativi (variabili) si parla di CORRELAZIONE tra i due fenomeni.
Il concetto di correlazione specifica una simmetria : se si dice che la variabile X è correlata alla variabile Y , implicitamente si dice anche che la variabile Y è correlata alla variabile X.
La correlazione implica la INTERDIPENDENZA fra due variabili, ma non la DIPENDENZA dell’una dall’altra : cioè, c’è un collegamento tra le due variabili ma non un legame.
Date due variabili X e Y, se al crescere (decrescere) di X si osserva che Y cresce (decresce), si dirà che tra X e Y esiste una CORRELAZIONE POSITIVA (NEGATIVA).
Se al crescere (decrescere) di X, Y cresce (decresce) seguendo un andamento più o meno rettilineo, si dice che le due variabili sono correlate LINEARMENTE, e in un grafico questo andamento viene bene rappresentato da una retta.
In analisi statistica ci sono anche delle correlazioni di tipo superiore, curvilineo ad esempio, ma non sono usati molto. Se i punti dunque tendono a distribuirsi intorno ad una retta, si parla di correlazione lineare; se i punti invece si pongono in modo tale da costruire una curva crescente, c’è comunque un collegamento tra i due caratteri ma non lineare, bensì di ordine superiore.
Parlo di correlazione lineare molto alta se la retta che faccio passare tra i punti tende a coincidere con i punti; la correlazione è molto bassa se vedo che i punti si sparpagliano intorno a questa retta.
COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS-PEARSON.
Quando le variabili cominciano ad essere molte, non è più semplice individuare la correlazione, per cui si usa un indice. Ne esistono molti di indici ma uno dei più comuni è il COEFFICIENTE DI CORRELAZIONE LINEARE DI BRAVAIS–PEARSON.
Il coefficiente di correlazione lineare di Bravais-Pearson è dato dal rapporto di una quantità (covarianza) e il prodotto dello s.q.m. di una variabile per lo s.q.m. dell'altra variabile.
r = simbolo che indica questo coefficiente
= covarianza
Questa formula ricorda molto da vicino la varianza che è l’ indice di variabilità indicato dalla sommatoria degli scarti di ciascuna modalità dalla media aritmetica e tutto al quadrato.
La covarianza invece è la somma del prodotto degli scarti di ciascuna modalità della I^ variabile dalla media aritmetica, per gli scarti di ciascuna modalità della II^ variabile dalla propria media aritmetica, diviso la numerosità.
La media aritmetica rappresenta il punto di baricentro della distribuzione, il punto centrale; tanto è vero che la proprietà principale della media aritmetica è che la somma degli scarti dalla media aritmetica è sempre 0.
dove
è la covarianza.
Questa formula è più semplice per fare i calcoli: la sommatoria dei prodotti delle modalità dei due caratteri meno N volte (numerosità) il prodotto della media di x e della media di y.
Se il risultato di questa somma è negativo vuol dire che sono prevalenti i punti di discordanza e i due caratteri avranno un andamento discorde; se invece la somma è positiva, vuol dire che sono prevalenti i punti di concordanza.
Questo è un indice molto grezzo di “correlazione”, perché legato alle unità di misura di tutti e due i caratteri. E’ utile però per darci un’idea di come COVARIANO le variabili in esame. E’ importante per il segno ma non per il valore.
Il coefficiente di correlazione lineare r rapporta la covarianza al suo massimo (Schwartz).
Qualsiasi indice di variabilità dove rispondere a certi requisiti teorici:
Per quanto riguarda la covarianza, avendo due caratteri che possano avere andamento concorde o discorde, l’indice di variabilità varierà in questo modo:
-x 0 + y
L’indice assume valore 0 quando c’è un perfetto bilanciamento tra i segni positivi ed i segni negativi.
Con questo indice di correlazione :
costruisco un indicatore (r) che è un numero puro
–1 <= r <= +1 :
costruisco un indice relativo perché lo rapporto al suo massimo, e può assumere un valore tra –1 e +1 (tanto più il valore si avvicina a –1 tanto più i due i due caratteri sono incorrelati tra di loro linearmente; più il valore si avvicina a +1 e più i due caratteri tendono a distribuirsi su una retta (positivamente o negativamente)).
Più il valore tende ad avvicinarsi a 0 e più i due caratteri sono in correlati linearmente.
Esempio : calcoliamo il coefficiente di correlazione lineare per le due variabili peso e altezza.
X |
Y |
52 |
155 |
52 |
155 |
52 |
180 |
59 |
180 |
60 |
165 |
74 |
174 |
76 |
164 |
81 |
196 |
81 |
196 |
81 |
196 |
Innanzitutto calcoliamo la media aritmetica di x e di y :
Mx = 66.8 My = 174.1
Calcoliamo i rispettivi s.q.m. ed il loro prodotto:
σx = 12.27 σy = 16.08 σx * σy = 197.35
Calcoliamo la covarianza :
X |
Y |
(x – Mx) |
(y – My) |
(x – Mx) * (y – My) |
|
52 |
155 |
52-66.8 |
155-174.1 |
-14.80 * -19.10 |
282.68 |
52 |
155 |
52-66.8 |
155-174.1 |
-14.80 * -19.10 |
282.68 |
52 |
180 |
52-66.8 |
180-174.1 |
-14.80 * 5.90 |
-87.32 |
59 |
180 |
59-66.8 |
180-174.1 |
-7.80 * -14.10 |
109.98 |
60 |
165 |
60-66.8 |
165-174.1 |
-6.80 * -9.10 |
61.88 |
74 |
174 |
74-66.8 |
174-174.1 |
7.20 * -0.10 |
-0.72 |
76 |
164 |
76-66.8 |
164-174.1 |
9.20 * -1010 |
-92.92 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
81 |
196 |
81-66.8 |
196-174.1 |
14.20 * 21.90 |
310.98 |
|
|
|
|
|
|
Tot. |
|
0 |
0 |
0 |
1489.2 |
La somma degli scarti dalla media aritmetica deve
essere 0.
Cov(x,y) = 1489.2 / 10 = 148.92
r = 148/92 / 197.35 = 0.7546 questo numero è significativo ed indica che c’è una correlazione lineare piuttosto marcata
La covarianza da il segno del coefficiente di correlazione ed essendo il coefficiente un numero molto vicino a 100 vuol dire che c’è un maggior numero di punti concordi.
Lo stesso esempio adesso viene eseguito con la formula di calcolo più veloce:
X |
Y |
X * Y |
||
52 |
155 |
2704 |
24025 |
8060 |
52 |
155 |
2704 |
24025 |
8060 |
52 |
180 |
2704 |
32400 |
9360 |
59 |
180 |
3481 |
25600 |
9440 |
60 |
165 |
3600 |
27225 |
9900 |
74 |
174 |
5476 |
30276 |
12876 |
76 |
164 |
5776 |
26896 |
12464 |
81 |
196 |
6561 |
38416 |
15876 |
81 |
196 |
6561 |
38416 |
15876 |
81 |
196 |
6561 |
38416 |
15876 |
|
|
|
|
|
688 |
1741 |
46128 |
305695 |
177788 |
Numerosità = 10
Medie = 66.8 174.1 4612.8 30569.5 11778.8
s.q.m. = 12.27 16.0838
cov(x,y) = 148.92
r = 148.92 / (12.27 * 16.08) = 0.7546
Altro esempio: r = - 0,51
Se avessimo a disposizione solo questo dato, potremmo dedurre che:
Quando si analizzano due fenomeni lo si fa per avanzare delle ipotesi o per verificarne: bisogna prestare molta attenzione.
Se noi rileviamo una forte correlazione tra due fenomeni non è detto che il legame esistente sia di correlazione. Mi viene data una falsa indicazione perché i due fenomeni anche se fortemente correlati potrebbero non essere in alcun modo collegati = CORRELAZIONE SPURIA, si ha quando due fenomeni non hanno un collegamento logico tra di
loro ma presentano forti valori degli indici di correlazione.
Esempio.
Un’indagine ha rilevato una forte correlazione tra il Q.I. dei soggetti femminili intervistati e l’età del menarca. Sotto il profilo medico scientifico potrebbe non essere vero che uno sviluppo precoce sia collegato al Q.I.
Un’analisi più approfondita ha rivelato che un terzo fattore, l’appartenenza ad una certa classe sociale, influenzava entrambe le variabili. Le ragazze appartenenti ad una classe sociale elevata avevano un tenore di vita migliore, in particolare sotto il profilo nutrizionale: questo elemento induce un inizio precoce del ciclo mestruale.
Questo terzo elemento che prima non veniva identificato ha legato due fattori apparentemente non legati. Di questi casi ce ne sono moltissimi. E’ importante sempre verificare che i due fenomeni siano collegabili, anche se attraverso una terza entità.
Esempio.
In una grande città è stata rilevata una correlazione tra il passaggio di automobili su un ponte e il livello del fiume sottostante: il traffico è più intenso nei momenti di picco delle maree che coincidono con l’inizio e la fine della giornata.
Per individuare la presenza di una terza entità che influenza le altre due, e quindi di una correlazione spuria tra diverse variabili oggetto di indagine, ci sono molti modi; un sistema molto semplice ma efficace è il coefficiente di correlazione parziale.
Dato un insieme di variabili x1, x2,……. Xn (con n > 2) e calcolati tutti i coefficienti di correlazione lineare tra le diverse variabili
rij i <> j
si calcolano i coefficienti di correlazione parziale del primo ordine
(r12.3 vuol dire che misuro la correlazione tra la prima e la seconda variabile non considerando gli effetti della terza variabile)
e dove possibile i coefficienti di correlazione parziale di ordine superiore, per esempio il secondo
Esempio.
In una ricerca effettuata in alcune città degli Stati Uniti sono stati rilevati fra gli altri i valori delle seguenti variabili:
|
Composizione razziale |
Povertà |
Popolosità |
Tasso criminalità |
Composizione razziale |
1 * |
0.51 |
0.41 |
0.36 |
Povertà |
0.51 |
1 |
0.29 |
0.60 |
Popolosità |
0.41 |
0.29 |
1 |
0.49 |
Tasso criminalità |
0.36 |
0.60 |
0.49 |
1 |
* il coefficiente di correlazione lineare tra una variabile e se stessa è = 1.
Esaminiamo i valori calcolati :
Livello di povertà
Tasso di criminalità Composizione razziale
Popolosità
Questa situazione fornisce una prima indicazione sulla possibile presenza di una correlazione spuria fra tasso di criminalità e composizione razziale.
Calcolando il coefficiente di correlazione parziale del primo ordine tra tasso di criminalità e composizione razziale, rimovendo gli effetti della variabile povertà e della variabile popolosità separatamente
La riduzione sostanziale dei due coefficienti di regressione parziale si conferma nell’ipotesi che abbiamo fatto di presenza di correlazione spuria tra composizione razziale e tasso di criminalità.
Il fatto che tende a 0 ci rivela che la variabile livello di povertà influenza fortemente il coefficiente di correlazione tra composizione razziale e tasso di criminalità.
Calcolando il coefficiente di correlazione parziale tra composizione razziale e tasso di criminalità del secondo ordine si ottiene .
Possiamo concludere che la correlazione rilevata inizialmente fra composizione razziale e tasso di criminalità è spuria ed è determinata dall’influenza di povertà (principalmente) e di popolosità sulle due variabili.
Non vi è quindi un legame diretto tra la composizione razziale e il tasso di criminalità rilevato nelle diverse città.
RETTA DI REGRESSIONE
L’ esempio che segue riguarda il contenuto di carbonio e di nicotina in 100g di tabacco. Si vuole vedere se c’è dipendenza (nel senso che l’ammontare di una sostanza aumenta o diminuisce con una certa relazione) di una delle due sostanze dall’altra.
Con la retta di regressione ipotizziamo l’esistenza di una relazione funzionale di una variabile dall’altra possiamo cioè ricostruire i valori di una variabile in funzione dell’altra variabile
secondo un modello matematico.
CO |
NICOTINA |
x*y |
||||
6 |
0.4 |
0.1 |
|
|
|
|
8 |
0.4 |
0.1 |
|
|
|
|
6 |
0.5 |
0.2 |
|
|
|
|
9 |
0.5 |
0.2 |
|
|
|
|
9 |
0.7 |
0.4 |
|
|
|
|
11 |
0.7 |
0.4 |
|
|
|
|
9 |
0.8 |
0.6 |
|
|
|
|
15 |
0.8 |
0.6 |
|
|
|
|
11 |
0.8 |
0.6 |
|
|
|
|
15 |
0.9 |
0.8 |
|
|
|
|
13 |
1.1 |
1.2 |
|
|
|
|
16 |
1.1 |
1.2 |
|
|
|
|
12 |
1.2 |
1.4 |
|
|
|
|
18 |
1.2 |
1.4 |
|
|
|
|
13 |
1.3 |
1.6 |
|
|
|
|
17 |
1.3 |
1.6 |
|
|
|
|
14 |
1.4 |
1.8 |
|
|
|
|
22 |
1.4 |
1.8 |
|
|
|
|
224 |
16.6 |
17.3 |
227 |
224 |
209.465 |
314.444 |
Numerosità = 18
Media y = 12.44 Media x = 0.92
Varianza x = 0.11
Covxy = 1.13
Ipotizziamo che ci sia dipendenza della variabile y (carbonio) dalla variabile x (nicotina). Identifichiamo y come variabile dipendente dalla x secondo una relazione di tipo lineare.
Per identificare questa retta che tende a stimare i valori delle y in funzione della x (intesa come variabile indipendente) abbiamo bisogno di una serie di valori che sono il frutto di un processo di stima dato dal metodo dei minimi quadrati.
Occorrono :
Per stimare i due parametri servono :
B1 (coefficiente angolare) = 10.3 (covxy / varx)
B0 (intercetta) = 2.99 (My - B1 * Mx)
= B0 + B1 * x = 2.985 + 10.26 * x (l’asterisco a fianco della y vuol dire y teorico)
= 209.46 / 314.4 = 0.67
Abbiamo ipotizzato l’esistenza di una relazione di tipo lineare tra le due variabili e abbiamo individuato una retta col metodo dei minimi quadrati.
Tra le numerose proprietà che presenta questo metodo c’è n’è una particolarmente importante: la retta stimata col metodo dei minimi quadrati è la migliore retta possibile ai fini dell’accostamento ai punti.
Ma non è detto che la retta sia la migliore interpolante tra i due punti: verifico cioè quanta variabilità mi spiega questa retta di regressione e per il principio della scomposizione della devianza posso rapportare la devianza alla devianza totale.
Devianza dovuta alla regressione + devianza residua – devianza
dovuta all’errore.
Rapportiamo una parte al tutto RAPPORTO DI SCOMPOSIZIONE , varia da 0 a 1.
Utilizzando questa proprietà possiamo costruire un indice che mette in relazione la devianza dovuta alla regressione alla devianza totale.
Se la devianza dovuta alla regressione è 0 il rapporto sarà 0 e la retta non spiega nulla.
Se invece la variabilità dovuta alla regressione è completamente spiegata dalla retta di regressione (i punti si trovano tutti sulla retta), il rapporto è = 1.
Normalmente non ci si trova mai in questi due casi estremi.
Quando siamo di un 60% al di sopra dello 0 la retta è una buona interpolante.
= 0.67
La retta indica una buona interpolazione, ma i punti tendono a discostarsi abbastanza dalla retta.
(La variabilità dei punti intorno alla retta non è bassissima.)
2 RETTE DI REGRESSIONE
Possiamo ipotizzare la presenza di due rette di regressione esistenti sullo stesso piano : una retta di regressione in cui la variabile dipendente sia y e una in cui la variabile dipendente sia x.
Le due rette di regressione assumeranno normalmente una posizione sforbiciata tra di loro dove ci sarà un punto in cui si incrociano e che fa da perno, e che sarà il valore medio della x e della y.
Queste rette possono tendere a sovrapporsi o ad allargarsi fino a raggiungere un punto di perfetta perpendicolarità tra di loro. Tendono a sovrapporsi quando la correlazione sarà perfetta tra di loro, nel senso che tenderanno a disporsi in un’unica retta. Se invece la correlazione tende a diminuire (tende verso 0) le rette di regressione saranno perpendicolari e il coefficiente di correlazione lineare sarà = 1 (le due rette di regressione sono coincidenti e hanno un andamento crescente).
= -1 le due rette sono coincidenti ma hanno un andamento decrescente
= 0 le due rette sono posizionate perpendicolarmente sul piano, nel punto medio della x e della y, ed hanno un’angolazione nulla rispetto all’asse.
(Effetto della somministrazione di un farmaco sulla quantità di latte che viene prodotto in un allevamento di mucche.)
Grammi di farmaco |
Litri di latte |
Stime y |
Dev. Tot. |
Dev. Regressione |
(y – y*) |
65 |
62 |
63.76 |
157.64 |
116.64 |
3.08 |
75 |
65 |
66.45 |
91.31 |
65.61 |
2.12 |
65 |
72 |
69.16 |
6.53 |
29.16 |
8.09 |
55 |
72 |
71.86 |
6.52 |
7.29 |
0.02 |
45 |
76 |
74.56 |
2.09 |
1.81 |
2.09 |
35 |
77 |
77.26 |
5.98 |
7.28 |
0.07 |
25 |
80 |
79.96 |
29.64 |
29.16 |
0.00 |
15 |
84 |
82.66 |
89.20 |
65.81 |
1.81 |
5 |
83 |
85.36 |
71.31 |
116.64 |
5.55 |
|
|
|
|
|
|
385 |
671 |
671.03 |
460.22 |
437.40 |
22.82 |
Vediamo come questi dati possono essere rappresentati graficamente. All’aumentare della quantità di farmaco somministrato, la quantità di latte raccolto tende a diminuire (andamento discorde).
Ipotizziamo che ci sia una dipendenza della produzione di latte dalla quantità di farmaco somministrato. Calcoliamo i dati che ci servono (covarianza, varianza x, media x , media y)
Mx = 45 My = 74.56
σ= 666.67
σxy = -180
Si nota che la covarianza assume valore negativo.
Se la covarianza ha valore positivo vuol dire che c’è una andamento concorde (crescente o decrescente), se ha valore negativo vuol dire che c’è un andamento discorde.
Y* = 86.7 –0.27 * x (retta di regressione)
La devianza è spiegata dalla regressione
Indica un ottimo
accostamento ai dati
reali
REGRESSIONE MULTIPLA
Nella realtà si verifica molto spesso che una variabile non è dipendente da un’altra, ma da altre.
L’effetto congiunto di queste variabili indipendenti confluisce nel determinare il valore della variabile dipendente. Anziché avere a che fare con una sola variabile indipendente se ne trovano N.
Y = B0 + B1 * X1 + B2 * X2 +………BK * XK
Dal punto di vista tecnico non c’è molta differenza con la regressione semplice, ma la situazione si complica dal punto di vista dell’interpretazione, perché queste variabili normalmente interagiscono tra di loro. E’ vero che il valore della y dipende dal valore di x1 e x2; ma è vero anche che x1 è in qualche modo influenzato da x2 e x3.
E’ difficile individuare la responsabilità di ognuna delle variabili sulle altre.
Se abbiamo a che fare con poche variabili possiamo procedere all’analisi dell’INTERDIPENDENZA e calcolare i coefficienti di correlazione lineare parziali per mantenere distinti gli effetti delle diverse variabili.
CURVA DI GAUSS (o a campana, o normale)
Solo per fenomeni quantitativi.
I dati hanno un andamento piuttosto regolare: quelli con q.i. molto basso sono relativamente pochi; quelli con q.i. molto alto sono pochi; in mezzo ci sono quelli con q.i. medio.
Vengono fatte delle stime, delle ipotesi per avere supporti scientifici maggiori.
La distribuzione è rappresentata bene dal diagramma a forma di campana o Curva di Gauss.
Ma in questa rappresentazione non si individuano bene i valori intermedi (ad esempio 75) : cerchiamo quindi di individuare una funzione matematica che possa restituire una buona approssimazione di questa distribuzione vera.
Distribuzione normale = forma a campana
Questo tipo di distribuzione è molto frequente (vedi tabella primo bacio 23 marzo).
Le due distribuzioni hanno un andamento molto simile e qualcuno si è accorto che la gran parte dei fenomeni tende a distribuirsi in questo modo.
La curva di Gauss
Per costruire la curva sono necessari solo la media e lo s.q.m. della distribuzione.
La curva varia da – a + : le due punte della curva non toccano mai l’asse delle ascisse per cui sono in grado di comprendere tutti i casi possibili, anche quelli più infrequenti.
FUNZIONE DI DENSITà DI FREQUENZA : indica per ciascun punto sull’asse
dell’ascisse la relativa ordinata (consente di costruire la curva punto per punto).
Ma si usa con maggiore frequenza la sua CUMULATA detta FUNZIONE DI RIPARTIZIONE.
e
Questa funzione mi dà l’area sottostante la curva fino ad
un certo punto : rappresenta la frequenza dei punteggi inferiore
ad un certo valore.
Se sommo i punti prima di x avrò tutte le frequenze inferiori a x
corrispondenti a quest’area del grafico (quella sottostante la curva e
delimitata dalla linea tratteggiata).
Approssimare la distribuzione rilevata empiricamente attraverso una curva teorica ci consente di migliorare la stima dei valori che non abbiamo.
TEOREMA DI BIENAYME-CEBICEV
Questo teorema assicura che qualunque sia la forma della distribuzione nell’intervallo
M ± kσ
una certa percentuale di casi è compresa tra la media di + o – k volte lo scarto quadratico medio.
K = un qualunque numero intero positivo.
La percentuale che cade in questo intervallo non è inferiore a 1 – .
Ipotizziamo che : M = 101.99 σ = 16.24 k = 2
101.99 ± (16.24 * 2)
Il teorema ci dice che, avendo ipotizzato k=2, nell’intervallo
cade una percentuale di casi non inferiore al 75% del totale.
Questo teorema serve tutte le volte che devo dare un’indicazione di consistenza / frequenza di casi che cadono in un certo intervallo (è molto frequente).
Se la distribuzione ha una forma normale (vedi esempio che segue) la percentuale diventerà del 95% circa, migliorando la precisione della stima.
Q. i. |
F |
F* |
60-70 |
26 |
20 |
70-80 |
56 |
63 |
80-90 |
145 |
142 |
90-100 |
230 |
221 |
100-110 |
235 |
238 |
110-120 |
182 |
177 |
120-130 |
82 |
91 |
130-140 |
31 |
33 |
140-150 |
13 |
8 |
totale |
1000 |
994 |
Elementi di calcolo delle probabilità
Elementi di campionamento
Elementi di inferenza statistica
La statistica descrittiva non fa nessuna ipotesi di campionamento. Con l’inferenza statistica invece si vede come la variabile statistica, il carattere statistico riguarda l’intera popolazione. Il concetto di probabilità fa da cerniera tra caratteri statistici e variabili casuali.
La probabilità è legata al concetto di caso e di conoscenza parziale, interviene in tutte quelle situazione in cui non siamo in grado di descrivere un certo evento. Succede quando alcuni eventi che erano fino a quel momento indipendenti, coincidono.
In tutte le situazioni in cui fatti osservabili non sono prevedibili, il loro verificarsi e’ incerto e interviene dunque il calcolo delle probabilità. L'origine stessa della vita sembra sia stata originata dalla coincidenza assoluta (intersezione) di una serie di eventi casuali, fino ad allora totalmente indipendenti.
Non sarà mai possibile verificare empiricamente a posteriori in modo completo la probabilità di un evento casuale, ma sarà possibile stimarla empiricamente dandone una valutazione approssimativa.
La probabilità è un punto fisso attorno al quale fluttua, in modo imprevedibile (il caso non ha memoria) la frequenza relativa.
Esistono diverse definizioni ossia diverse procedure empiriche per stimare una probabilità.
Probabilità di un evento: esempio “lancio di una moneta” (esperimento prova)
Risultati= evento, frequenza evento
Frequenze relative= numero delle Testa/croce uscite sui lanci fatti.
Grafico
CENNI DI CALCOLO DELLE PROBABILITà.
La probabilità e il calcolo delle probabilità costituiscono la premessa indispensabile per introdurre l'altra branca della STATISTICA (oltre la STATISTICA DESCRITTIVA), ossia la STATISTICA INFERENZIALE.
L'inferenza statistica intesa come quel complesso di tecniche statistiche che permettono in base ai risultati relativi ad un gruppo di osservazioni ed esperimenti (detto CAMPIONE), di trarre conclusioni la cui validità per un collettivo più ampio è espressa in termini probabilistici.
La probabilità può essere considerata come l'elemento di passaggio, la cerniera di collegamento tra la variabile statistica e la variabile casuale.
Il calcolo delle probabilità nasce nel 1600 (Pascal Bayes; di cui i predecessori erano stati Cardoso, Keplero, Galileo). Tuttavia fino al 19° sec. esso si sviluppa indipendentemente dai due indirizzi della statistica universitaria e degli aritmetici politici (CAP 8 –p.341).
Diverse definizioni di probabilità.
La probabilità di un evento casuale (incerto, non prevedibile) è il rapporto tra il numero dei casi favorevoli al verificarsi dell' evento e il numero dei casi possibili purchè siano tutti ugualmente possibili.
Ad es. la probabilità P(E=esce il 6) nel lancio di un dado a 6 facce è
P(E) = 1/6 = 0,16 (casi favorevoli; casi possibili = le 6 facce del
dado)
Tale definizione si basa sul principio di "indifferenza" o ragione non sufficiente non sufficienti :
non sempre possiamo definire a priori i casi ugualmente possibili, specialmente in
ambito sociale.
già esposti nell'ARS CONJECTANDI di Bernoulli (postume del 1715) in cui viene
esposta per la prima volta la LEGGE EMPIRICA del caso (la legge dei grandi numeri),
mala definizione viene data da VON MIESES (1883-1953).
La probabilità di un evento E è il limite cui tende la frequenza relativa dell'evento E (data dal rapporto tra il numero delle volte che si è verificato E e il numero totale delle prove, quando il numero delle prove tende ad infinito).
La legge empirica del caso afferma che al crescere del numero delle prove la frequenza relativa tende alla probabilità.
Limiti: impossibilita’ di ripetere le prove nelle stesse condizioni oppure la non ripetibilità delle prove per dati eventi (es. incidenti nucleari).
Prova :qualsiasi esperimento casuale (di cui sono definite(?)le condizioni) i cui esiti sono osservabili.
DEFINIZIONE ASSIOMATICA DI PROBABILITA’
Evento casuale = è un risultato di una prova
Ω= tutti i possibili risultati di una prova
Se si definisce un evento casuale un sottoinsieme di Ω, ad ogni evento casuale E è possibile associare un numero REALE p(E) (p di e) chiamato probabilità, tale che
(es. p(Ω) = 1; se E è un evento impossibile p(E) = 0)
detto assioma dell' ADDITIVITA’, ossia la probabilità di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi.
Fonte: http://www.sociologia.uniroma1.it/users/studenti/Appunti/Appunti%20Statistica/statistica%20pieri.doc
Sito web da visitare: http://www.sociologia.uniroma1.it
Autore del testo: non indicato nel documento di origine
Il testo è di proprietà dei rispettivi autori che ringraziamo per l'opportunità che ci danno di far conoscere gratuitamente i loro testi per finalità illustrative e didattiche. Se siete gli autori del testo e siete interessati a richiedere la rimozione del testo o l'inserimento di altre informazioni inviateci un e-mail dopo le opportune verifiche soddisferemo la vostra richiesta nel più breve tempo possibile.
I riassunti , gli appunti i testi contenuti nel nostro sito sono messi a disposizione gratuitamente con finalità illustrative didattiche, scientifiche, a carattere sociale, civile e culturale a tutti i possibili interessati secondo il concetto del fair use e con l' obiettivo del rispetto della direttiva europea 2001/29/CE e dell' art. 70 della legge 633/1941 sul diritto d'autore
Le informazioni di medicina e salute contenute nel sito sono di natura generale ed a scopo puramente divulgativo e per questo motivo non possono sostituire in alcun caso il consiglio di un medico (ovvero un soggetto abilitato legalmente alla professione).
"Ciò che sappiamo è una goccia, ciò che ignoriamo un oceano!" Isaac Newton. Essendo impossibile tenere a mente l'enorme quantità di informazioni, l'importante è sapere dove ritrovare l'informazione quando questa serve. U. Eco
www.riassuntini.com dove ritrovare l'informazione quando questa serve