Fonti amministrative: potenzialità e limiti
Se noi abbiamo dati interessanti perché raccolgono informazione in sé, posso pensare di utilizzarli senza andare a disturbare ulteriormente la persona. Se volessi capire dove mettere il centro di ascolto per una comunità di sud americani, vado a vedere dove c’è la più alta concentrazione di sud americani a Genova e predisporla con delle persone che parlino per esempio lo spagnolo; lo stesso per comunità rumene o albanesi. Di cosa ha bisogno la comunità a Genova? Bisogna andare a raggiungere le unità statistiche e intervistarle per capire loro esigenze, bisogni, che possono essere differenti tra comunità e rispetto alla comunità italiana. Ecco che ci troviamo di fronte a due casi. In un primo possiamo agire senza procedere a indagini campionarie costose lo steso. Oppure noi dai dati amministrativi non raccogliamo tutta l’informazione di cui abbiamo bisogno e ci troviamo costretti a muoverci verso un’indagine di tipo campionario. Le fonti amministrative hanno un ruolo importante per la costruzione delle liste della indagine campionaria. Se devo fare un’indagine sulle necessità delle comunità straniere a Genova? Io creo un campione rappresentativo della popolazione straniera a Genova, quella regolare, la irregolare è più complesso. Mi prendo i dati anagrafe, vedo quanti stranieri ci sono, di che nazionalità, come si dividono in percentuale le varie nazionalità, e poi vado a condurre indagini campionarie avendo rispetto di questa proporzione. Se ho che il 35% dei residenti stranieri a Genova sono ecuadoriani? Il campione sarà composto per il 35% da ecuadoriani. Nazionalità meno rilevanti? Non valgono di meno, ma per rappresentatività rispetto alle nazionalità ci saranno meno unità nel campione. I dati amministrativi possono essere utilizzati per costruzioni di liste. La costruzione di lista rappresenta l’elenco di unità statistiche che compongono la popolazione. Quelle unità che potenzialmente possono essere raggiunte attraverso l’unità di campionamento. Le altre cose sono banali.
Le fonti amministrative hanno dei limiti.
- La raccolta dei dati amministrativi è progettata ed eseguita con fini diversi rispetto ai statistici. Possono esserci archivi amministrativi che non tengano contano di alcun archivio storico. Per esempio la Telecom potrebbe avere l’archivio storico delle persone che sono state titolari di un contratto di telefonia con loro come no. Potrebbero avere la anagrafe di tutti coloro che hanno numero di telefono attivo e non disattivo;
- C’è il cosiddetto muro che si muove. Ci sono data set che tengono traccia dei vecchi dati sino ad un anno e mezzo prima. ogni giorno che passa vengono cancellati i dati del giorno di un anno e mezzo fa. C’è una finestra temporale mobile di un anno e mezzo. Questo è un classico caso di società di logistica del fashion. Immaginate tutta attività di distribuzione di alcuni marchi, hanno magazzini che hanno informazioni su ricevimento, spedizione e stoccaggio, ma non tengono le informazioni per sempre. Tengono le informazioni sino ad un certo periodo. I dati hanno una dimensione non trascurabile, non ci sono molto spesso capacità di stoccaggio sufficienti a tenere le informazioni che si vorrebbe tenere. In alcuni casi le informazioni dopo un po’ di tempo non sono interessanti
- Ci sarebbero situazioni dove sarebbe bello avere uno storico. Sarebbe bello avere fotografie della popolazione genovese al primo gennaio di ogni anno.
- Dopodiché ci sono errori di copertura, non tutti i data set amministrativi corrispondono alle popolazioni di nostro interesse. Ci sono tanti data set che si rilevano incompleti rispetto agli scopi che ci prefiggiamo. È possibile che in anagrafe ci siano degli errori. Poniamo errori materiali, errori studiati da chi voleva essere escluso sfruttando delle incompletezze del sistema. È possibile che la popolazione residente e l’anagrafe non siano perfettamente coincidenti. Il censimento è una delle occasioni attraverso le quali questi errori di anagrafe vengono corrette.
- Ci sono poi classificazioni non corrette dal punto di vista statistico. L’ente ha interesse ad una certa tipologia di classificazione mentre la struttura statistica ha interesse ad altre classificazioni. È il caso degli animali. Ci sono alcuni allevamenti delle definizioni merceologiche che non hanno una perfetta coincidenza con le definizioni che magari dà l’Istat
- La qualità dei dati non è necessariamente certificata. Il processo statistico che sta alla base della generazione dei dati non rispetta i 15 punti del codice italiano sulle statistiche ufficiali. Non ci sono procedure ben determinate.
- Vi sono spesso tempi di attesa molto lunghi per avere i dati amministrativi.
La domanda che può nascere è perché usare fonti diverse? Perché non possiamo usare solo fonti statistiche o amministrative? Un pochino l’abbiamo già detto. C’è una mancata esaustività di ciascuna fonte nel cogliere il fenomeno oggetto di studio, a causa di errori nella rilevazione, anomalie e lacune o perché previsto dalla rilevazione stessa. Immaginiamo, per esempio, di voler fare una indagine sulle categorie deboli a Genova. Quali sono le categorie deboli? Anziani, bambini, portatori di handicap e stranieri. Deboli perché? Sono nelle difficoltà di non riuscire a difendersi da soli o perché sono nelle difficoltà di non riuscire ad affermarsi con lo stesso grado di autorevolezza di persone più giovani o più abbienti. L’archivio per esempio degli anziani, bambini e stranieri, immaginiamo di ricavarlo dalla anagrafe. Per i portatori di handicap non è così facile averlo come data set, come informazione. Bisogna riuscire ad integrare più fonti amministrative in un unico data set. Se immagino di andare in una associazione che assista una categoria di disabili e di trovare Marco Rossi. A Genova ce ne sono altri.
Come faccio a vedere se è lo stesso che troviamo nell’anagrafe? Devo riuscire a integrare i dataset per formare una lista unica. La chiave di riferimento univoca per incrociare i dataset è il codice fiscale. Molto spesso col codice fiscale riusciamo ad incrociare in maniera univoca dataset di origine differenti. Se siamo di fronte a più fonti amministrative differenti, con l’esigenza di confrontarle, succedono due operazioni distinte: integrazione dei database e armonizzazione. Obiettivo delle procedure d’integrazione è quello di ottenere maggiore copertura statistica dei dati osservati, anche con riferimento a livello territoriale. Nel mercato del lavoro, se voglio ottenere occupati o disoccupati, posso avere più registri differenti che devono essere integrati assieme. Se ci troviamo di fronte al problema dell’armonizzazione ci troviamo nella condizione di dover correggere o aggiustare i dati per ridurre o eliminare le differenze che determinano la non comparabilità. Problemi classici sono rilevazioni amministrative a base individuale confrontate con dati amministrativi a base familiare.
Per esempio ho il reddito dei singoli individui e il consumo delle famiglie. Come incrocio le informazioni? Ci troviamo di fronte ad una armonizzazione. L’unico modo è aggregare i dati che sono disaggregati. Se ho dati aggregati non possiamo disaggregarli a livello di singoli individui, ormai sono aggregati. L’aggregazione è un processo senza ritorno. Se ci troviamo di fronte ad un dataset disaggregato e lo dobbiamo legare ad uno che è aggregato, l’unica cosa da fare per armonizzarli è aggregare secondo un campo famiglia i dati a livello individuale e collegarli al dataset delle famiglie. Inizialmente, in origine, si pensava che la qualità dell’informazione statistica fosse solamente la sua accuratezza, la sua vicinanza tra la stima e ciò che realmente stavamo cercando di stimare, conoscere. Un’indagine, un dato statistico era appurato quando era vicino al vero valore della popolazione. Quanti sono i tossicodipendenti a Genova? Stima e valore reale dovevano essere vicini. Se la stima era totalmente sbagliata o lontana dal valore reale era inutile. Ci si è resi mano a mano conto, negli ultimi 50 anni che, per un dato di qualità, oltre alla accuratezza del secondo punto, vediamo la pertinenza, accuratezza, tempestività, accessibilità, comparabilità, completezza e coerenza.