Introduzione alle serie storiche: l’approccio classico
Le serie storiche guardando due impostazioni di queste analisi: analisi classica delle serie storiche, la seconda è l’analisi moderna. Iniziamo con la analisi classica, è anche quella più semplice. La classica è una tipologia di analisi più semplice che ricorda molto gli esercizi di statistica 1 in cui la variabile indipendente era una variabile di tempo. Adesso iniziamo a vedere l’approccio classico all’analisi delle serie storiche, faremo un intermezzo con le procedure di destagionalizzazione, per poi arrivare all’approccio moderno. Dopodiché arriveremo alla fine del corso parlando di indice dei prezzi al consumo con l’intervento del personale del comune di Genova. Abbiamo già accennato il concetto di serie storica. Per poter condurre una analisi economica di un fenomeno nel tempo è necessario riuscire a ricostruire una serie storica. Dobbiamo essere in grado di misurare lo stesso fenomeno nel tempo ad intervalli regolari. È anche importante che la modalità di misurazione del fenomeno sia omogenea, perché se va a cambiare la base di riferimento per il calcolo della serie storica, vediamo che il confronto temporale non regge e non è possibile condurre una analisi che abbia un senso. Qual è la definizione? Si definisce serie storica una successione ordinata rispetto ad un indice coincidente con la misura del tempo, una successione ordinata di un medesimo fenomeno rilevato nelle medesime condizioni. Perché è ordinata? Perché è importante l’ordine con cui queste misurazioni vengono effettuate nel tempo. In generale i dati vengono definiti in un periodo limitato, da una data di inizio t e fine T. Con la lettera t indico un pedice, cioè un valore che mettiamo in basso a destra, della serie storica, che è il nostro indice che misura la successione, l’ordine temporale delle misurazioni. X1 x2 x3 x4 sono le misurazioni del fenomeno in 4 istanti differenti, dove x4 è successivo a x3, x 3 è successivo a x2 che a sua volta è successivo a x1. La serie storica ha un termine e ha un inizio. Pensate per esempio a tutte le serie storiche che vedete nei mercati finanziari. L’andamento di un titolo, del tasso di cambio, lo spread sono serie storiche: misurazione di un certo fenomeno (valore di mercato di un titolo) che deve essere fatta ad intervalli regolari di tempo. Potremmo parlare tanto di mercati finanziari, è un classico ambiente di analisi delle serie storiche, ma adesso rimaniamo su discorsi più generali. Facciamo l’esempio di come l’ignorare la dimensione temporale possa portare a delle valutazioni contro intuitive o inesatte. Si considerano i seguenti dati che considerano l’intensità del traffico, numero di incidenti e il loro rapporto come misura del rischio di incidente. All’ora zero intensità di traffico 90, misurata per esempio col numero di automobili che transitano in un dato chilometro, il numero di incidenti rilevati sulla rete autostradale, una cosa di questo tipo, e il livello di rischio dato dal rapporto tra l’intensità del traffico e il numero di incidenti. Immaginiamo di non sapere che 0,1,2,3,4,5 siano delle successioni temporali, delle ore che mi possano rappresentare un indice di lettura del fenomeno. Se mettessi i dati sullo scatterplot o diagramma a punti, e metto insieme numero di incidenti e intensità del traffico, troverei correlazione piuttosto elevata, una retta di regressione con una buona bontà, ro quadro 0,63 che stabilisce che quando c’è tanto traffico ci sono meno incidenti, o che quando c’è poco traffico, intensità del traffico bassa, ci sono tanti incidenti. Sarebbe a dire che quante più automobili circolano, tanto minore è la possibilità che ci siano incidenti. Questo sembra strano: se ci sono poche macchine, che si vadano a cozzare l’una con l’altra dovrebbe essere minore. no, questo risultato è sbagliato. Non considero il fatto che c’è una relazione tra queste due variabili e un altro fenomeno, ora del giorno. Se noi andiamo a rappresentare su un grafico le ore nell’asse delle ascisse od orizzontale, ed in ordinata andiamo ad indicare i valori di traffico e gli incidenti e l’indice di rischio, usando due scale diverse, a sinistra trovo i valori di traffico e numero di incidenti, dove il traffico è il rosso (c’è un errore di colorazione), il numero di incidenti è il blu, l’indice di rischio è il verde, noi vediamo che in realtà, durante le ore notturne, abbiamo livelli di traffico più bassi, linea rossa, abbiamo dei livelli di incidenti più alti, mentre abbiamo una misura del rischio, data dal rapporto tra la blu e la rossa, più alta rispetto alle ore del giorno. Se vedo l’andamento del traffico, il traffico ha un andamento basso nelle ore notturne, inizia a cresce nelle ore della prima mattina, quando le persone iniziano a lavorare, ha un punto di flesso tra le 12-13 quando le persone si fermano per mangiare, riprende nel primo pomeriggio per andare a calare in tarda serata: questo è il classico andamento orario del flusso veicolare o di attività sociale. Se andate a vedere il numero di scippi e borseggi ha lo stesso profilo orario, anzi nella fase centrale della giornata ha dei cali: le ore maggiori di scippi e borseggi sono le ore di prima mattina e serali, quando le persone escono per fare la spesa e quando tornano a casa. Il blu, numero di incidenti che vengono misurati per ciascuna fascia oraria, ho tanti incidenti nelle ore notturne, ci sono i colpi di sonno, ci si addormenta, abbiamo un picco di incidenti nella notte e verso l’alba, attorno alle cinque, in quest’ora ho meno incidenti, e poi dopo aver mangiato ci viene l’abbiocco e abbiamo gli incidenti perché i riflessi si rallentano, viene il colpo di sonno a seguito della pennichella pomeridiana. Però vediamo che in realtà non c’è questo andamento di correlazione tra incidenti e traffico. Il problema è legato al fatto che quando noi abbiamo tanti incidenti c’è poco traffico quando abbiamo pochi incidenti c’è tanto traffico. La determinante livelli di traffico su incidenti non è così forte. È più importante, come causa di incidentalità, la componente oraria: la stanchezza del guidatore. È evidente che in un caso del genere utilizzare lo scatterplot visto prima per spiegare la relazione tra incidenti stradali e intensità del traffico non è adeguato, non ho considerato l’elemento temporale, che è fondamentale. Sono contesti in cui la variabile tempo diventa una variabile esplicativa importante per descrivere il fenomeno. Vediamo un po’ di esempi.
- Rapporto in percentuale tra debito e prodotto interno lordo italiano dal 1970 al 2009. È la stessa quantità rilevata ad intervalli annui. Bisognerebbe poi capire rispetto a che data, potrebbe essere al 31/12 o rispetto al valore medio dell’anno. Il PIL è quello, il PIL annuo è un valore ben preciso, ma il debito varia nel corso dell’anno, il numeratore può variare. Se scelgo di prendere il debito pubblico medio annuo o il massimo che raggiungo nell’anno, devo conservare la scelta negli anni che si susseguono;
- TSE MIB dal 2004 al 2010, indici di borsa. Gli indici di borsa, i titoli azionari, sono i classici esempi di serie storiche finanziarie. Quella di prima è una serie storica economica, questa è finanziaria. Non so se seguiate i corsi sui mercati finanziari: qualcosa sui mercati finanziari fanno Sciutti e la Resta, nell’ambito dei mercati finanziari lo studio delle serie storiche è importante per varie ragioni. Avete mai sentito parlare di analisi tecnica? È una metodologia di analisi che studia graficamente i grafici delle serie storiche. Individua, congiungendo tutti i minimi le basi, le resistenze, i trend di crescita e decrescita, cerca le figure delle serie storiche, testa e spalle, e così via, analizzando solamente l’andamento delle serie storiche.
- Le vittime per crimine violento per età. Un tasso calcolato per 1000 persone su popolazione con età superiore da 12 anni. Il tasso dal 1985 in poi è andato a crescere per 12-15 16-19 20-24. Si può dire che negli ultimi 15-20 anni sono aumentate le vittime per crimine violento nelle fasce di età più giovani. In linea di principio rimangono stabili le altre. Questo è un esempio di interpretazione che si può dare alla serie storica, le tendenze.
- Altra serie storica, sulle vendite di X box. È una console per video giochi. Più famosa la Play Station, Play Station 2-3, questa è la prima X box. Esiste anche la X box 360. Sono tutte serie storiche delle vendite mensili. Cosa sono quei picchi che vediamo nel grafico? Sono i vari Natale. A natale si vendono le console perché vengono regalate, o i ragazzi lo chiedono per regalo di natale.
Le serie storiche possono essere: economiche, finanziarie, di fenomeni sociali, anche serie storiche dei prezzi al consumo, di vendite. Serie storica è tutto ciò che viene rilevato ripetutamente nel tempo ad intervalli regolari. Abbiamo visto serie storiche annuali, in questo caso abbiamo serie storiche mensili, anche trimestrali quadrimestrali, semestrali e così via. In linea di massima, quello che si vuole fare nell’analisi delle serie storiche è costruire un modello che permetta di sintetizzare l’andamento della serie storica. Si vuole cercare di esprimere un modello statistico, immaginate modello di regressione, che sintetizzi l’evoluzione della serie storica, del fenomeno nel tempo.