L’approccio classico
Esistono due approcci: il primo è l’approccio classico, che andremo a vedere inizialmente, che ipotizza che i valori osservati di un fenomeno al tempo t siano spiegabili attraverso una componente deterministica, che per esempio può essere espressa attraverso una retta o parabola di regressione, più una componente residuale che non riusciamo a spiegare: è un po’ il concetto di varianza spiegata e residua della retta di regressione. Ipotizzo che il fenomeno inflazione segue un andamento deterministico e un valore casuale che non permette di individuare perfettamente i valori dell’inflazione sulla base del modello formulato. Modera? Considera la serie storica come una realizzazione discreta di un processo stocastico. Significa che il valore della serie di oggi è uguale a quello di ieri più una componente casuale che è strutturata in qualche modo. C’è una relazione tra il valore di oggi, di ieri ed una qualche componente residuale che può essere più o meno importante. Dato che l’impostazione moderna è stata individuata dopo, è la più difficile, vedremo di accorciarla un pochino rispetto all’anno scorso.
Approccio classico è molto semplice, quasi banale. Abbiamo una serie storica che può essere qualsiasi cosa. Non è importante sapere cosa sia x in questo grafico, può essere PIL, come possono essere vendite di frullatori, come possono essere i tassi di mortalità di bambini rispetto ad una certa malattia. Noi abbiamo X fenomeno che cerco di studiare e T, dove t è tempo. L’analisi classica delle serie storiche è uni dimensionale, esprimo il fenomeno che sto studiando x in funzione del tempo. Andrò a costruire modelli di dipendenza funzionale, rette e parabole, ma non solo. Come vedete, questo modello ha una caratteristica parabolica. La logica della analisi classica delle serie storiche è riuscire ad introdurre un modello funzionale, per esempio una parabola che vedete rappresentata in rosso, che vada a cogliere la tendenza generale di un fenomeno nel tempo. A cosa serve questo? Per cercare di formulare previsioni per la serie storica per il futuro. Non solo. A livello econometrico, cosa che studierete in altri corsi, interessa costruire un modello di serie storica e regressione in cui oltre al tempo inserisco altre variabili. A quel punto interpereto la variazione del fenomeno x nel tempo e in relazione alle altre variabili nello stesso istante temporale. Nell’approccio classico, la analisi condotta per le serie storica è cosiddetta TREND – CICLO. Si ritiene che il fenomeno xt sia legato ad una componente di trend e di ciclo economico più una componente di errore. Per procedere si scompone la componente di errore o di regressione sino a quando non è spiegabile attraverso un modello deterministico, cioè una funzione. Avevamo visto che la serie storica precedente, come cuore, può essere espressa attraverso la funzione indicata in rosso che rappresenta il nostro trend o la nostra tendenza di fondo. Si usa molto la parola trend, i fagiolini sono dati in trend negativo. Il trend è la tendenza, non significa che l’andamento della serie storica è esattamente coincidente con il trend, ma significa che la serie storica segue questo cuore rosso, cioè la tendenza di fondo. Se voi avrete un gruppo di persone che va in una direzione, avrete la linea della direzione e il verso, e le persone che vanno attorno a quella direzione. Trend è in linea di massima la direzione verso cui è andata la serie storica. A questo punto, una volta individuato l’elemento di fondo come il trend, ci si chiede: questa serie storica che ha avuto questo comportamento così deterministico, spiegabile attraverso una funzione ben precisa, ha altri elementi che possono essere descritti in maniera altrettanto descrittiva? Noi possiamo individuare il numero di persone che vanno a Limone Piemonte per vacanza. Quello può essere il numero di persone che ogni mese od semestre sono andate a Limone Piemonte. Ho ancora una oscillazione regolare attorno a questo trend. Oltre alla tendenza pluriennale, che potrebbe essere il trend rosso, ci sono oscillazioni che potrebbero essere legate ai fenomeni stagionali. A Limone Piemonte ci si va in estate ed in inverno, o per le festività, come nella maggior parte dei posti di montagna. La serie storica, artificiosa, non è una serie storica reale, presenta una evidente stagionalità. C’è una oscillazione, ogni tanto è sopra è sotto, ritorna sopra poi sotto, eccetera, della linea nera attorno alla linea rossa. Questa componente la potremmo andare a definire come stagionalità. La serie storica è la nera, mostra una evidente stagionalità dovuta per esempio alle stagioni naturali, stagionalità è legato proprio alla parola stagione, ai cicli giorno notte, che un trend parabolico non riesce a cogliere. Cosa si fa? Individuiamo e vediamo che la componente deterministica che abbiamo trovato inizialmente, il trend parabolico, è un elemento deterministico che non coglie la componente stagionale. La componente stagionale deve essere aggiunta alla componente trend per esprimere questo altro elemento periodico e quindi deterministico della serie storica. Cosa si fa? Prendo la serie storica, xt, elimino il valore teorico della retta di regressione, e calcolo gli scarti tra la nera e la rossa, e ottengo una rappresentazione dei residui. Et è il residuo di regressione, essendo xt il valore della serie storica al tempo t, e Tt il valore del trend, linea rossa, al tempo t. Et è la distanza dalla nera alla rossa per ogni istante temporale della serie storica. Tt è il trend,la rossa, mentre xt è la serie storica. Et è la differenza tra la linea nera, serie originale o grezza che abbiamo osservato, e la linea rossa, trend parabolico che abbiamo individuato prima. Facendo tutte le differenze, cosa otteniamo? Che la nera un po’ oscilla attorno alla rossa. Se sottraggo dalla nera la rossa, tolgo il trend parabolico all’intera serie storica. Quello che rimane è solo il residuo della serie storica dal trend. Se facciamo quelle differenze, la serie storica diventa così. Sono tutte le oscillazioni che noi abbiamo attorno alla serie storica. Per esempio. La serie è fatta così e questo è il trend. Facendo questa operazione xt meno Tt, per ogni istante temporale prendo lo scarto tra la serie storica e il valore sulla parabola di regressione. Se rappresento tutti questi scarti ottengo quello. È come se prendessi lo spaghetto, la rossa, lo tiro e vedo gli scarti che si hanno tra la serie storica e la parabola. È il grafico dei residui della serie storica dal trend parabolico. Questo residuo ha un andamento che presenta la componente di periodicità, che chiameremo stagionalità. Vedete come crescita e decrescita si alternano con una buona regolarità, non in maniera perfetta. Allora cosa posso fare? Inserire all’interno di questo elemento ondulatorio un modello periodico, in questo caso è la funzione seno, trigonometrica, da zero sale raggiunge massimo, scende raggiunge il minimo e torna al punto di partenza. Il seno è una funzione periodica perché oscilla tra due valori all’infinito. Ecco che, a questo punto, individuiamo una seconda componente deterministica, che è questa componente stagionale. Se questa componente stagionale è l’ultima componente deterministica, siamo riusciti a scomporre la serie in una componente deterministica, trend parabolico più componente stagionale e residuo, che è una componente non deterministica. I residui del modello rappresentano la componente accidentale, non prevedibile, non modellizzabile, perché totalmente casuale. I residui di regressione devono essere de strutturati, cioè non devono avere comportamenti regolari, devono essere incorrelati, non devono rappresentare alcun trend, devono essere una componente puramente casuale. Se prendessimo quello che abbiamo visto prima, serie storica senza il trend, detrendizzata, e se togliessimo anche la componente ciclica, otteniamo le oscillazioni della serie storica attorno alla componente trend e stagionale. In qualche modo scrivere trend più parte stagionale equivale a descrivere una serie storica con questo andamento. Attorno a questo modello deterministico avremo poi le oscillazioni della serie storica, e deriveremo di nuovo dei residui di regressione. Torniamo indietro, è facile ma importante. L’approccio classico all’analisi delle serie storiche è un approccio che intende prendere una serie storica e scomporla in componenti. Queste componenti saranno in linea di massima tre:
- Trend – ciclo;
- Stagionale;
- Residuale
La componente trend è la componente che deve cogliere, esprimere, la tendenza di fondo del fenomeno. È di solito un modello lineare di primo, secondo terzo grado, difficile andare ai gradi superiori, e quindi rappresenta la tendenza di fondo della serie storica. Questa serie storica ha una tendenza di fondo esprimibile attraverso questa parabola. Tuttavia, se noi facciamo una analisi attenta della serie storica e di come la rossa passi attraverso i punti della serie storica, possiamo vedere che la rossa non coglie perfettamente l’andamento della serie storica, se fosse un modello perfetto le linee nere e la linea rossa sarebbero coincidenti, ma non è così. Esiste un residuo di regressione. Il nostro obiettivo è esprimere attraverso formule e modelli, quanto più possibile, l’andamento della serie storica. Attraverso la formula abbiamo tolto la tendenza generale della serie storica. Però c’è questa oscillazione della nera attorno alla rossa. Questo residuo potrebbe ancora essere strutturato. Potrebbe avere elementi esprimibili attraverso una funzione matematica. Dal momento che ho individuato all’interno della nostra serie storica questo trend, allora lo mettiamo da parte e ci focalizziamo solo su quello che non abbiamo avuto modo di vedere bene. Capito questo, sottraggo il trend a tutta la serie storica e individuiamo tutta la componente di variabilità della serie storica, l’andamento della serie storica che non è espresso dalla rossa. Ci focalizziamo esclusivamente su quello che non abbiamo capito o il cui andamento no è stato modellizzato. Facciamo lo zoom sull’oscillazione tra la nera e la rossa. La rossa è una componente fondamentale della serie. Per fare questo utilizziamo le differenze tra la serie storica e il trend. Chiamiamo questa quantità errore. Perché? Non è un errore perché abbiamo sbagliato qualcosa, è la parte di serie storica che non è possibile prevedere utilizzando il trend. In particolare, vedo che la componente si presenta con una certa periodicità attorno alla linea rossa. Lavoro sulla differenza x-t, e vedo che l’errore è una componente con forte periodicità. L’obiettivo è dire: se c’è un’altra componente modellizzabile attraverso una formula matematica, io la modellizzo. Introduco per esempio una componente periodica che mi consente di descrivere meglio di quanto potesse fare il trend, la tendenza della serie storica. Anziché avere un trend parabolico puro e semplice ho un trend parabolico accompagnato da un andamento parabolico periodico. Questo lo portiamo avanti all’infinito, nella pratica ci fermiamo qua, le componenti sono di questa natura. Possiamo andare ulteriormente avanti. Siamo sicuri che utilizzando il trend parabolico e inserendo una funzione periodica di questo tipo, siamo arrivati ad esprimere completamente il modello deterministico che sottostà ai nostri dati? Ho individuato il miglior modello possibile? Per fare questo analizzo i nuovi residui. Serie storica meno trend, a questi valori sottraiamo il valore della rossa. Andiamo a vedere il residuo della nera rispetto ad un modello oscillante di questo tipo. Diremo, va bene: abbiamo completamente descritto il fenomeno che stiamo studiando, se la componente di errore, quindi questo residuo dal modello presenta alcune caratteristiche piuttosto importanti: se i residui non presentano comportamenti regolari, vedremo degli esempi, per esempio un residuo di questo tipo presenta una componente regolare, sale scende, sale scende, non è un residuo destrutturato, devono essere incorrelati, ne parleremo, non devono presentare alcun trend e devono essere una componente puramente casuale. L’analisi dei residui è una parte molto delicata, ne parleremo ancora per chiarire i concetti. Possibilmente, devono avere una varianza costante nel tempo, su questo ci torneremo tra due lezioni. Quello che vogliamo dire è: questa è la serie che oscilla. Voglio trovare una funzione che passi attraverso la serie storica e mi colga il trend e la stagionalità. Se il modello è buono, può essere così assunto a sintesi della serie storica. Se il mio modello è buono, quanto più è piccolo il residuo, l’errore, tanto migliore sarà la mia capacità esplicativa. Facendo un pochino un salto indietro alle cose viste a statistica 1, se noi avevamo la bontà del modello, questa era la varianza spiegata dal modello sulla varianza totale. Quanto più il mio errore è piccolo, tanto più la varianza residua dal modello è piccola. Lavorare sulla componente di errore, cercando di eliminare, sottrarre alla componente di errore ciò che è deterministico, mi serve per costruire il miglior modello possibile per sintetizzare l’andamento della serie storica nel tempo. Questo è il risultato finale al quale arriviamo utilizzando l’approccio classico nell’analisi delle serie storiche. Otteniamo una serie di osservazioni che già ad una prima ispezione visiva si presenta destrutturato. Vedremo poi le tecniche per analizzare i residui. Rispetto ai residui che abbiamo visto prima, questi si presentano non strutturati. Se troviamo una componente per la quale non riesco a trovare la causa, o una relazione spiegabile attraverso una funzione del tempo, allora diciamo che quelli sono residui non prevedibili. È qualcosa al di là della nostra capacità di previsione. Se un mese piove o un giorno c’è sciopero dei treni, non posso costruire un modello che includa la probabilità di pioggia o di sciopero dei treni per le persone che andranno a Limone. Esistono concause che fanno si che il modello esplicativo della serie non sia di fatto perfetto, ma ci sta, è accettabile. L’importante è che questa componente che io ritengo essere non prevedibile, e quindi totalmente casuale, sia la più piccola possibile. Tempo fa, mi hanno invitato ad una trasmissione a Bolzano alla radio rai come esperto di probabilità e statistica. Era sul gioco d’azzardo e sul caso. Con grande ingenuità il presentatore mi chiede: cosa è il caso? Non ha una definizione, non esiste una definizione. È qualcosa di molto affascinante. Per caso si può definire tutto ciò che può essere pensato in tanti modi. Cosa è questo residuo? Non lo so. C’è variabilità nella serie storica e non so dire perché esista. Perché se tiro un dado una volta esce 1 e una volta 6, è un caso, non c’è una giustificazione vera e propria. Lo stesso per le serie storiche: perché a volte la produzione industriale è più alta o più bassa rispetto al modello, o perché il prezzo del pane è più alta o più basso? In quel periodo il grano aumenti, c’è stata siccità in Brasile, perché è aumentato il prezzo del petrolio e tutto è diventato più caro, ci sono talmente tante concause che alla fine messe assieme diventano un brusio non capibile. Io voglio prendere una serie storica: la prendo, la affetto, prendo il trend e la stagionalità, se ci sono altri pezzi che so spiegare il perché lo metto nel modello, e quello che non so più spiegare è qualcosa di inspiegabile, è puro caso. Non esiste alcuna possibilità di modellizzare ciò che è puramente casuale. Non esiste modello che mi dica i prossimi sei numeri del Superenealotto. Non esiste alcun modello che mi dica se tiro la monetina se esce testa o croce. Prendo una serie storica e cerco di capire ciò che è esprimibile attraverso funzioni in relazione al tempo. Sino a qua riesco ad arrivare. Prendo T ed S, oltre a quello non riesco ad andare, perché tutto il resto è puro caso. Questo è l’approccio classico: cercare di ricondurre una serie storica ad una serie di formule in funzione del tempo e avere un residuo di questo modello puramente casuale.