Il programma X11
Le medie mobili sono ancora utilizzate molto. Anche con Excel, se voi avete un grafico messo come media mobile, in pochi clic potete ottenere le medie mobili. O anche Yahoo Finance, o qualsiasi sito che abbia un minimo di strumento di analisi finanziaria grafica, le medie mobili le trovate. Se prendete Milano Finanza, o altri giornali di tipo economico finanziario troverete sempre la scheda di analisi tecnica con due medie mobili: a breve e a lungo. Ci sono una serie di considerazioni che possono essere fatte sul modo in cui si comportano congiuntamente le due medie mobili. Le medie mobili le abbiamo anche viste in relazione alla stagionalità. Servono per individuare un trend, che non sia necessariamente un lineare o parabolico. Il vantaggio delle medie mobili come strumento di identificazione di un trend di una serie storica è legato al fatto che non hanno sottostante la necessità di sviluppare alcun modello parametrico. Non bisogna specificare una retta o parabola di regressione. Il problema che può nascere è selezionare l’ordine giusto delle medie mobili. Le medie mobili servono e vengono utilizzate, ora un pochino meno, perché sono una parte fondamentale del programma X11, programma di destagionalizzazione, sviluppato dal bureau of census negli anni 1960. Ora il programma è usato meno, ci sono state modifiche e migliorie nella metodologia, ma è un punto importante per capire come trattare la destagionalizzazione. In molti contesti, specie economici, è necessario riuscire a eliminare gli aspetti superflui, estranei alle mere dinamiche economiche. A noi interessa focalizzare l’attenzione sui processi economici, non tanto che l’agricoltura ha un ciclo legata alle stagioni. È importante riuscire ad utilizzare questi dati che siano depurati dal fenomeno della destagionalizzazione.
Introduzione. Il problema che abbiamo è questo. Ci troviamo di fronte a una serie storica di qualcosa: PIL, produzione industriale. Quello che vogliamo è eliminare la componente stagionale. Ci sarebbero tante cose da dire sulla analisi delle serie storiche. Non so se avete capito ma il corso serve per darvi una infarinatura di tante cose. Il problema di scegliere se destagionalizzare sulla serie grezza o sulle variazioni percentuali, come abbiamo fatto col PIL come visto precedentemente, non è una cosa così banale. In linea di principio cercate di capire, se vi capiterà di fare una analisi di serie storica per la vostra tesi, quale sia la scelta più opportuna. Molto spesso, le fonti statistiche ufficiali producono dati che sono già destagionalizzati. L’Istat per molte cose produce una serie di dati grezzi e destagionalizzato. Ma almeno sapete cosa si intende per destagionalizzazione. La serie grezza dell’indice di produzione industriale presenta una brusca caduta nel mese di agosto per le ferie estive. Ciò rende difficile un confronto corretto tra mesi contigui (nello specifico tra agosto e luglio), bisogna valutare nel tempo la serie storica grezza ricorrendo a variazioni percentuali tendenziali, calcolate rispetto allo stesso periodo dell’anno precedente. In questo caso vado a lavorare sulle variazioni della produzione industriale come tendenziali, non congiunturali, calcolate rispetto allo stesso periodo dell’anno precedente. La corrispondente serie destagionalizzata mostra una dinamica molto più omogenea, era quella tratteggiata, pur presentando reazioni significative dovute sia a fattori di natura ciclica sia alla presenza di una componente regolare. La destagionalizzazione permette di interpretare correttamente anche le variazioni percentuali congiunturali calcolate rispetto al periodo immediatamente precedente. Voglio capire come riuscire a costruire una serie storica di quel tipo. Avete anche capito che la morbidezza della linea tratteggiata dipende da quante unità temporali vado ad inserire nel calcolo della media mobile. Quello che vogliamo fare è cercare di sviluppare una procedura che ci consenta di procedere ad una destagionalizzazione della serie storica come questa. La procedura, o programma X11, è una serie di passi ben definiti che non comportano alcuna scelta soggettiva da parte della persona che fa la destagionalizzazione. Il programma X11 è un metodo sulla destagionalizzazione basato su filtro. La media mobile è un filtro, perché è una elaborazione dei dati che vengono filtrati secondo una operazione, della serie mensile dei numeri indici della produzione industriale. Sviluppato dal Bureau of Census degli Stati Uniti è anche stato notevolmente utilizzato in varie parti del mondo, anche dall’Istat, anche se in tempi più recenti si sia indirizzato su metodi di stagionalizzazione bastato sui modelli (X11 Arima, X12), la metodologia X11 rimane piuttosto nota. Il metodo x11 ha questi passi ben precisi e molto semplici:
- Si prende una stima iniziale mediante medie mobili del trend e si fa una stima di componente di stagionalità lorda, vedremo cosa si intenda per lordo e netto.
- Stima della componente stagionale netta. Parto da una prima stima di componente di stagionalità lorda, qualcosa che voglio eliminare.
- Stima iniziale della serie destagionalizzata
- Stima finale del trend- ciclo utilizzando medie mobili particolari di Henderson
- Stima finale dei rapporti lordi di stagionalità
Tutto questo ora non è chiaro. Questa è la produzione media giornaliera delle industrie della estrazione di petrolio e gas naturali. Anno 1980 è l’anno base come valore pari a 100. Come leggo le tabelle? Quando trovo anno base = 100, vuol dire che quello che mi trovo di fronte non sono valori assoluti, ma sono in realtà indici. Nel gennaio del 1983, la produzione media giornaliera delle industrie era 128,4. Significa che era il 28,4% superiore rispetto al valore medio del 1980. Se prendo dicembre 1985 era il 44,4% superiore al valore del 1980. Fatto 100 la produzione media giornaliera del 1980, la produzione di gennaio 1983 era 128,4, significa che la produzione era il 28,4% superiore rispetto alla produzione media del 1980. Questa è la serie storica, quelli sono i valori e questo è il grafico. Come vediamo c’è una prima fase calante, poi fase crescente che sembrerebbe essere abbastanza lineare. Ci sono in realtà delle oscillazioni che sembrerebbero legate a componenti stagionali. Riguardiamo assieme i dati. Ho che il mese di gennaio e di dicembre sono, insieme a novembre, i mesi con la produzione più alta, o rispetto alla parte centrale dell’anno, questo è vero. Giugno luglio agosto settembre hanno valori che sono, tranne l’86, in linea di massima più bassi rispetto ai valori dei mesi invernali, probabilmente perché la produzione risente anche delle temperature e di utilizzo di gas e petrolio per i riscaldamenti. Quello che vogliamo fare è costruire una serie che non abbia stagionalità, una serie storica che sia depurata da un effetto ciclico stagionale.
Fase 1. Nella fase 1, la serie storica viene inizialmente destagionalizzata usando una serie storica a 12 termini. I dati che abbiamo a disposizione sono mensili, 12 sono i mesi dell’anno, immagino che la stagionalità sia di periodo 12, e la media mobile che utilizziamo sarà di 12 termini. Notate che non è un ordine preciso, sarebbe 5,5. Non avendo il valore centrale, essendo pari, la media mobili è difficile da definire come ordine. Questa procedura comporta la perdita di sei valori all’inizio e alla fine della serie a causa della finestra temporale su cui le medie mobili sono calcolate. Che cosa succede? Prendiamo questi dati e calcolo le medie mobili di ordine 12. Prendo la prima colonna e ne calcolo la media, e la mettiamo per esempio in corrispondenza di luglio. Poi da febbraio 1983 a gennaio 1984, tutti questi valori ad eccezione del primo e questo, e ne calcolo la media in corrispondenza di agosto. Poi da marzo a febbraio in corrispondenza di settembre, e così via, da qua sino alla fine 1998. È chiaro che il 1998 si dovrà fermare a giugno, a questo punto avrò in giugno 1998 la media di tutti i 12 mesi del 1998. Non avendo i valori del 1982 e non avendo i valori del 1989, è chiaro che queste due parti non avranno dei corrispondenti di media mobile. Avremo la serie grezza ma non la media mobile corrispondente. Il risultato è questo. Mancano i primi e gli ultimi valori di queste medie mobili a 12 termini, perché non posso avere quelli ante cedenti a gennaio 1983 e posteriori a dicembre 1988. Anche se la serie storica è vecchia, è importante capire il metodo. Dopo che abbiamo effettuato questo lisciamento della serie storica, anche nota come perequazione dei dati grezzi, si calcola il quoziente tra dato grezzo e perequato, eliminando il trend. Questa operazione sembra un po’ strana, ma funziona. Calcolo il rapporto esistente tra questa tabella, cioè il dato grezzo 13, e questa tabella, 16, luglio 106,8. Faccio il quoziente tra questi valori e ottengo questi quozienti lordi di stagionalità. Vedete come è meccanico, non stiamo dando interpretazioni. Prendo la serie storica, ne facciamo un lisciamento attraverso media mobile di ordine 12, prendo i valori coi quali ho la media mobile, prendo le prime e ultime sei osservazioni e faccio rapporto tra serie storica originale e serie storica delle medie mobili di ordine dodici. Si ottiene in questo modo un quoziente che ci dice qual è il rapporto tra la serie grezza e la media mobile. Se il valore è al di sopra di 100, il valore grezzo è superiore al valore lisciato. Se è al di sotto del 100, il valore grezzo è più piccolo del valore della media mobile destagionalizzata. Se è uguale a 100 il valore reale grezzo e il valore della media mobile sono uguali. Con questa operazione, si va di fatto ad eliminare il trend che è stato individuato attraverso il modello media mobile di ordine 12, e il risultato è questo. Noi avevamo questa serie storica, calcoliamo la media mobile di ordine 12 per tutti i mesi ad eccezione dei primi sei e degli ultimi sei, ottengo la cosa in cima a pagina 19, molto liscia, sono 12, è un periodo lungo. Ogni nuova osservazione dà una informazione che pesa un dodicesimo. È una serie storica, quella lisciata, che ha una memoria molto lunga. È lenta a cambiare, ma mantiene un trend. Stavamo dicendo che ha un trend lineare. Coglie un primo trend-ciclo, ricordo che trend e ciclo sono difficili da separare. Facciamo il rapporto tra serie storica vista prima con questa che inizia luglio 83 e finisce a giugno 83. Prendo la serie storica solamente nei mesi dei quali ho le stime iniziali trend-ciclo e faccio il rapporto. Tutti i mesi in cui questa linea è al di sopra di cento, sono mesi in cui la serie storica originaria, i dati grezzi, sono al di sopra della stima provvisoria iniziale del trend ciclo. Tutti quelli che sono al di sotto? Sono valori che vengono sovra stimati dal trend-ciclo. Se potessimo rappresentare assieme le due serie, avremmo la serie originaria che passa attorno a quella lisciata, come avevamo visto prima. A volte la serie viene approssimata per eccesso, a volte per difetto, attraverso il modello a media mobile. Ma era quello che succedeva con la retta di regressione. Anziché calcolare i residui di regressione come differenza tra i valori teorici e il valore reale, qui calcoliamo i quozienti. Se voglio fare un piccolo confronto tra quanto facevamo prima nelle altre lezioni e a statistica 1, se a statistica 1 parlavamo di errore come differenza tra il valore reale e il valore teorico, l’abbiamo usato anche nell’ultima lezione quando guardavamo gli scarti dalla sere storica, ora uso il quoziente dato da Yi diviso Yi*. A questo punto andiamo ad eliminare di fatto quello che è il trend. C’è una dimostrazione, che possiamo saltare. Facendo il rapporto tra i valori reali e il valore del trend ciclo si elimina il trend. Vedete come sono belli orizzontale. Li avevamo chiamati residui di regressione, ma li abbiamo calcolati in questo secondo modo. Adesso ci poniamo ancora un’altra questione. Bene, vediamo se il nostro modello riesce a cogliere bene le componenti stagionali o è tanto soggetto alle variazioni molto diverse della serie storica. L’insieme dei rapporti lordi, qi o RL, viene corretto per ridurre la presenza di rapporti di stagionalità anomali, cercando di far pesare meno i valori che si discostano molto dalla media, e far pesare di più i valori che sono vicini alla media. Io dico questo: se ci sono dei quozienti lordi, molto lontani da questo 100, questi devono essere esclusi dalla costruzione del mio modello di trend, perché non c’entrano nulla, sono legati a fattori esterni. È un po’ il discorso che facevamo parlando di serie storica grezza della produzione industriale. Grossi crolli ad agosto, dicevamo va bene, c’è il crollo, però sappiamo bene qual è la ragione. L’idea di questo approccio è dire: i quozienti lordi non hanno tutti la stessa importanza. Per me hanno più importanza quelli che sono vicini al 100. Man mano che ci allontaniamo dal 100, hanno una importanza sempre meno rilevante. In questo modo andiamo a dare meno importanza i valori estremi, anomali e legati probabilmente ai fattori stagionali. Cosa si fa? Prendiamo i rapporti lordi, quanti sono? 5 per 12 = 60. Di questi rapporti lordi ne calcoliamo la media, supponiamo 100, non è detto che sia 100, lo supponiamo. Questi 60 rapporti lordi calcolo lo scardo quadratico medio, facciamo 10. Lo scarto medio dei rapporti lordi dalla media è 10, mediamente mi aspetto uno scarto di 10 dalla media come rapporti lordi. Non è media aritmetica ma quadratica. A questo punto ho i miei 60 rapporti lordi. RL 1-2-3-¼.-60. Ad ognuno di questi assegno un peso a seconda del valore che assume. Allora dico: il mio rapporto lordo risulta essere oltre più o meno 2,5 sigma dalla media, cosa è? Può essere minore di 2,5 per dieci, cioè 25, minore di meno 25 più 100, oppure maggiore di 25 più 100. Posso avere il rapporto lordo che sia maggiore di meno più 2,5 sigma dalla media. Significa minore di 75 oppure maggiore di 125. 75 è 2,5 per dieci, meno 25 più 100, o 125. Oppure può essere compreso tra 75 e 85 (meno 15 più 100) oppure compreso tra 115 e 125. Oppure il mio rapporto lordo può essere compreso tra 85 e 75. Cosa stiamo facendo? Stiamo definendo tre fasce. Qui abbiamo il nostro tempo, qui ho i nostri rapporti lordi, e qui la media del rapporto lordo. Ho la prima fascia: media del rapporto lordo +1,5 sigma e -1,5 sigma. Se questo fosse 100, questo sarebbe 115 e questo 85. Questa è una fascia che noi indichiamo con il numero 3. Poi posso avere un’altra fascia in cui ho media RL -2,5 sigma e media RL più 2,5 sigma. Questa fascia va da 115 a 125 e da 85 a 75. Questa fascia la chiamiamo 2. Infine, abbiamo tutto il resto che è la nostra fascia 1. Di fatto, noi ci troviamo ad avere tre fasce. La fascia 3 dei valori vicini alla media. La fascia due dei valori non proprio vicini alla media ma non proprio così lontani, e la fascia uno dei valori lontanissimi dalla media. A questo punto, ogni rapporto lordo si trova associato un peso. Se il rapporto lordo è compreso tra la media dei rapporti lordi meno 1,5 sigma e più 1,5 sigma, cioè è in fascia 3, il suo peso è pari a 1. Se è invece in fascia due, compreso tra media RL meno 2,5 sigma e più 1,5 sigma, varia da zero a 1 a seconda quanto sia vicino al valore di media RL meno 1,5 sigma e lo stesso dall’altra parte. I valori che invece sono al di fuori di questo range, hanno un peso pari a zero. In altri termini, se questa fosse la funzione del peso, andiamo a dare più importanza per la definizione del nostro modello destagionalizzato ai valori centrali e meno importanza dai valori lontani a quelli centrali. Tutto questo ovviamente è fatto col computer, non è una cosa manuale. Viene quindi calcolata la nuova media delle variazioni. Si vanno a ripesare tutti questi rapporti, queste osservazioni. Si ricalcola la media delle variazioni da mese a mese del trend-ciclo e si va a costruire un nuovo modello di trend basato su un coefficiente R. Il coefficiente R è un rapporto che risulta da questa operazione. A seconda del valore di questo coefficiente globale, è un numero solo su tutta la serie storica pulita, si utilizzano medie mobili differenti. A seconda di quanto è eterogenea la serie storica posso usare una media mobile di ordine 9,12 o 23. Questo indice R, il cui calcolo ve lo vedete, è facile, è una misura di eterogeneità della serie storica, di volatilità della serie storica e di importanza della componente stagionale. Se la componente stagionale non è molto rilevante, si utilizza una media mobile di 9 termini per identificare il trend della serie storica. Intermedia? 13 termini. Se il valore di R è al di sopra di 3,5 con forte variabilità della serie storica, è un modello a 23 termini. Il risultato finale è quindi una serie storica che non è depurata stagionalmente utilizzando solamente una media mobile di ordine 12, ma è depurata usando una media mobile il cui numero di elementi è determinato al termine di tutta la procedura, e consente di eliminare dal calcolo della media mobile quei valori di disturbo che ci fanno cadere la media mobile. Trovo il modo di ignorare i valori molto bassi. La serie storica sulla produzione industriale ha salti in basso molto forti. Ora li taglio e non ho problemi relativi alla stagionalità. Il risultato finale è una serie storica che non è brutta come quella liscia, contiene una sua variabilità generale ma risente molto meno delle componenti stagionali. La destagionalizzazione, in particolare il metodo X11, è usato perché si ritiene che la componente stagionale sia di disturbo per la comprensione dei fenomeni economici. È molto meccanica, abbiamo visto fasi. Serie grezza, lisciamento, quoziente, ponderazioni, indice R, e a seconda del valore dell’indice R ci dice quale media mobile utilizzare. È arbitrario considerare la serie storica aggiustata con una descrizione di ciò che il fenomeno sarebbe stato se non avessero agito i fattori dai quali si vuol prescindere la stagionalità. Non è fuori luogo ammettere che il risultato ottenuto possa valere come una descrizione del fenomeno delle componenti che si presume esso rappresenti qualora vengano utilizzate tecniche conformi all’ipotesi assunta sul comportamento interno alle componenti. Non mettiamo la mano sul fuoco che la procedura funzioni, ma è una descrizione dell’andamento. Di nuovo le medie mobili nascono per finalità descrittive e di comprensione, non tanto di previsione. I modelli visto sino ad adesso sono modelli di tipo descrittivo, a posteriori, e non previsto.