Errori controllabili

Non ci sono grossi problemi di sovra-sotto copertura. In linea di principio, costruendo bene un campione, vedrete con Persico come costruire un campione, per esempio stratificato, è possibile ottenere campioni che sono buone immagini della popolazione di riferimento. Se il campione è una buona immagine della popolazione di riferimento, uso l’informazione proveniente dal campione per l’intera popolazione. Procedo con un processo di induzione o di inferenza. Induzione significa dal particolare al generale. Gli errori sono più controllabili. Ho la possibilità di costruire, scegliere bene le unità statistiche da rilevare. Posso anche verificare, con maggior attenzione, la qualità dei dati raccolti. Più tempo nella verifica delle risposte sul questionario. La maggior frequenza è legata al fatto che avendo un costo minore, se l’informazione mi è d’interesse, ripeto l’indagine ogni sei mesi, ogni tre mesi, o, come fa La7 quando presenta i sondaggi elettorali ogni settimana (come cambia l’orientamento politico di settimana in settimana). Bisogna considerare che la variabilità di settimana in settimana di quei sondaggi elettorali può essere dovuta ad un fenomeno campionario. Non essere vere modifiche dell’orientamento politico degli italiani, ma che ci siano differenze del 0,5% legate al caso delle unità del campione. L’indagine campionaria, perché ha un costo limitato e un tempo di analisi veloce, si fa con maggior frequenza. Inoltre, con la maggior frequenza, è possibile costruire serie storiche. Torniamo ai sondaggi elettorali di La7. Se ogni settimana ho rilevazione sull’orientamento politico degli italiani, posso fare un raffronto dell’andamento di un partito rispetto a quest’altro. Posso vedere se l’orientamento rispetto al partito è salito, sceso o ha comportamenti particolari. Ci sono però degli svantaggi. Se non ci fossero svantaggi non avrebbe senso fare studi campionari

I valori che otteniamo sono stimati. Per stima, intendiamo un valore che ipotizziamo essere plausibile per una ignota quantità all’interno della popolazione. Se voglio sapere la percentuale d’italiani che oggi voterebbe per un certo partito, posso prendere 2000 4000 italiani e chiedere per che partito vota oggi? Partito Pinco Pallino, 12,7% Non è detto che la popolazione italiana sarebbe orientata su quella percentuale ma in quell’ordine. Con stima noi indichiamo un valore vicino ad una ignota quantità della popolazione.
Disaggregazione territoriale non articolata. Se facciamo un sondaggio elettorale su immaginiamo 4000 unità statistiche in tutta Italia, a Genova quanti volete che ce ne siano, visto che siamo 600 mila su 60 milioni? Ci saranno 5 persone che vengono intervistate a Genova. Non è neanche detto che Genova nei sondaggi elettorali venga considerata tutte le volte. Spesso si dice il 35% della popolazione italiana vive in città al di sopra dei 50.000 abitanti? Il 35% va intervistato in quelle città. Poi quali è tutto un altro paio di maniche È chiaro che non siamo più in grado di estendere una informazione campionaria diffusa su tutto il paese sino ad un livello comunale o di sezione di censimento. Se a Genova intervisto 5 persone sulle 2000 intervistate, l’informazione specifica su Genova non è utilizzabile per una divisione territoriale. Disaggregazione territoriale non articolata significa questo. Se voi vedete, gli approfondimenti di Mannaymer a Porta a Porta o di altri sondaggisti politici, non vanno mai a guardare il profilo geografico dell’elettorato quanto più sociologico, che è trasversale alle regioni. I laureati preferiscono Tizio; i disoccupati Caio. Coloro che hanno un diploma preferiscono quest’altro. In linea di massima la disaggregazione a livello territoriale non è molto articolata, proprio perché non si riesce ad arrivare ad un dettaglio articolato.
Diversamente è possibile avere una disaggregazione a livello di variabili socio economiche demografiche trasversali all’intera nazione. Ho 2000 persone? 400 sono laureati. Su 400 ho una rappresentatività che ci consente di affermare qualche .
Difficoltà di mantenere omogenei e confrontabili nel tempo gli aggregati.

Questo è un discorso complesso. Se facciamo un’indagine campionaria, è difficile riuscire a ripetere l’indagine sotto le medesime condizioni. Se abbiamo una popolazione molto fluida, cambia molto, di volta in volta, il mio campione deve essere molto modificato. Conseguentemente succede che si perda confrontabilità e omogeneità dei dati nel tempo. Questo si riesce a ovviare usando dei campioni un po’ particolari, chiamati Panels, si compongono di unità statistiche sulle quali si rilevano un insieme di fenomeni ripetutamente nel tempo. L’auditel è un classico esempio di panels. Si compone di un campione di popolazione italiana, selezionato secondo rappresentatività geografica, di titolo di studio, anagrafica, di genere, viene rilevato sera dopo sera cosa guardano in televisione. È un panels, le stesse unità statistiche sono rilevate ripetutamente nel tempo.

Il dato

È il risultato di una misurazione sperimentale. L’informazione raccolta mediante questionari e reperite da annuari statistici si chiama dato statistico. Se è acquisto per via amministrativa mediante la compilazione di appositi modelli che spesso sono cartacei si parla di dato amministrativo. Parliamo adesso di dati amministrativi, ritorneremo sui dati statistici per fare un po’ di raffronto. Le indagini basate sui dati amministrativi. Le informazioni sono raccolte per finalità diverse da quella di produrre informazione statistica. Abbiamo i certificati di nascita, archivi Inps sui dipendenti e archivi giudiziari. La raccolta avviene mediante compilazione cartacea, andiamo verso l’informatizzazione delle procedure. Se domani andate a fare il cambio di residenza, compilate il foglio di carta in cui scrivete dove andate ad abitare, chi avete lasciato nell’abitazione in cui abitavate. Dovete dire chi è residente nell’indirizzo di destinazione dove andate a vivere ora. I dati amministrativi sono raccolti su entità individuali. È importante avere in testa il concetto di unità statistica, per ogni analisi che dovrete fare. Un’anagrafe deve essere gestita su base individuale, per esempio. L’anagrafe demografica, del comune. Un registro di imprese deve avere come riferimento la ragione sociale, e la partita iva dell’azienda. I dati amministrativi sono raccolti su entità individuali. Questo è un punto base, visto nel censimento, quando si parlava di contare le teste, una per una, degli israeliti. L’unità statistica deve essere ben definita, tutte le misurazioni fanno riferimento ad una unità solamente. Se considerassimo le aziende non in base alla partita IVA, ma in relazione all’azionista di maggioranza e considerassimo il fatturato in base all’azionista di maggioranza, avremmo dei pasticci.

Le indagini basate sui dati amministrativi consentono azioni da parte delle amministrazioni che li gestiscono. Il fine statistico con cui si possono analizzare tali dati è rivolto alla produzione d’indicatori sintetici: frequenze, medie, indici, a partire dalle informazioni disponibili. Per esempio prendo le aziende di un certo settore, codificate secondo la codifica a-teco, e andare a vedere per esempio quante sono le aziende nel settore trasporto marittimo fallite negli anni. Oppure qual è la redditività media del settore? La confronto a quella del settore trasportistico terrestre. Gli archivi amministrativi possono essere distinti in relazione al grado di centralizzazione e informatizzazione. Posso avere un unico archivio gestito a livello centrale-nazionale, è il caso dell’archivio sulle denunce dei crimini; separati a livello locale (trasferimenti di residenza e anagrafi sociali). Non so se avrete letto il decreto sviluppo governo Monti. Pare che oltre al censimento annuale, vogliono anche un archivio centralizzato delle anagrafi. Le caratteristiche del sistema amministrativo si distinguono tra:

Archivio cartaceo
Archivio informatizzato

In linea di massima la modalità di acquisizione dei dati amministrativi avviene in due modi differenti. Uso di dati individuali (detti anche micro dati) o uso di dati aggregati (o macro dati). L’uso di dati individuali è abbastanza raro, ma non così raro. Per esempio, quando si dice che il numero di contratti di telefonia che Tim e Vodafone hanno attivato nel 2012 è tot, noi ci troviamo di fronte a dati amministrativi aggregati. 300 mila nuovi contratti è un dato amministrativo, perché alla Vodafone non interessa avere un archivio dei propri sottoscrittori, se non per avere nuovi contratti, definire nuovi profili e giustificare col mercato la propria espansione. 300 mila nuovi contratti? Dati aggregati diffusi con finalità di comunicazione ai mercati. Spesso sono quelli che interessano al mondo. La Apple ha ordinato dieci milioni di mini I-pad, notizia dell’altro ieri. Significa che la Apple ha in programma vendere un certo numero di unità di questo prodotto. Diverso discorso riguarda i dati individuali. Sicuramente venite contattati dal vostro gestore telefonico: promozione, buono di 60 euro al mese se riattivate il telefono eccetera. Loro cosa fanno? Hanno un grosso elenco come se fosse in Excel, in cui c’è nome cognome, telefono e codice fiscale, e quanto avete consumato in traffico voce, dati, sms, canoni eccetera. Utilizzando questi micro dati, questi dati che sono amministrativi, usati per fatturare i dati, la Vodafone o la Tim può decidere di attuare politiche differenziate di marketing. Può dire: se ha meno di 25 anni gli mandiamo la promozione x, se ha più di 65 anni gli mandiamo la promozione y, cose di questo tipo. Si possono differenziare le politiche di marketing a seconda del profilo del consumatore. Il dato stesso può avere caratteristiche sia di uso di dato individuale, per finalità di marketing o altro, e uso di dati aggregati che possono essere anche gli stessi che in origine erano disaggregati, ma che vengono trasferiti in forma aggregata.

Pubblicazioni Istat? Vi troverete di fronte a dati aggregati, in cui il livello di disaggregazione arriva al limite al livello comunale. A volte, per i dati demografici, voi potete sapere per ogni comune italiano quanti sono i residenti tra maschi femmine, celibi, nubili, vedovi, vedove per ogni età. Quello è il massimo livello di disaggregazione per i dati pubblicati dall’Istat. Dopodiché: io vorrei elenco di tutti i residenti del comune di Crevari per qualche ragione. Perché volete aiutare il comune nel scegliere il servizio sociale più opportuno da attivare per il 2013. Potete provare a chiedere i dati al comune che può darveli o meno per ragioni di privacy.

Lo sapevi che...