Écrit par Renato Henriques, PhD | 2020
Jean travaille au service des ventes de son entreprise. Par une journée pluvieuse de fin novembre, son patron lui demande d’estimer les revenus de l’entreprise pour le mois suivant. Dans son entreprise, les ventes sont calculées sur une base mensuelle. Il commence donc par examiner les revenus de l’entreprise pour les mois précédents et constate qu’ils augmentent d’un mois sur l’autre. Il sait que les ventes de décembre des années précédentes ont été plus élevées que d’habitude, peut-être à cause des fêtes de fin d’année, et il s’attend donc à ce que les ventes de décembre de cette année soient également élevées. Mais à quel point ? Quelle sera la différence entre son estimation et les ventes réelles de décembre ? John va avoir besoin de l’analyse des séries temporelles pour répondre à ces questions.
L’exemple ci-dessus illustre une utilisation classique de l’analyse des séries temporelles. En résumé, une série temporelle est un ensemble de mesures répétées prises séquentiellement dans le temps. Le principal objectif de l’analyse des séries temporelles est de prédire l’avenir d’un certain processus (par exemple, les ventes) sur la base de ce qui s’est passé dans le passé (historique des ventes). Par exemple, sur le marché financier, les traders veulent prédire le prix d’une certaine action dans les jours à venir sur la base des prix précédents.
Mais l’analyse des séries temporelles ne se limite pas aux questions commerciales ou financières. L’une des analyses de séries temporelles les plus connues, par exemple, est l’étude du changement climatique, dans laquelle des données sur les températures mondiales sont collectées chaque année par des climatologues afin de prédire les futures températures mondiales. Les services publics qui vendent de l’électricité ou de l’eau utilisent l’analyse des séries temporelles pour prévoir la quantité d’électricité ou d’eau qu’ils devront produire à l’avenir pour répondre à la demande, sur la base du comportement passé des consommateurs. Pour éviter de voler avec des avions à moitié vides, les compagnies aériennes recueillent des informations sur le nombre de passagers par mois afin de prévoir le nombre de passagers qu’elles devront accueillir aux dates futures. Ces informations sont ensuite utilisées pour planifier le nombre minimum d’avions dont elles auront besoin pour répondre à la demande, les avions étant notoirement coûteux à exploiter.
Avant d’effectuer tout type d’analyse sur des données de séries temporelles, nous devons d’abord évaluer certaines de leurs propriétés. Comprendre la structure temporelle d’une série temporelle nous aidera à choisir le bon modèle à exécuter.
Analyse des séries temporelles
Une série temporelle peut être décomposée en une série de composantes qui décrivent sa structure.
- La tendance est une augmentation ou une diminution globale de la série sur une période de temps relativement longue…
- La cyclicité décrit la hausse ou la baisse de la série causée par des circonstances qui n’ont pas de modèle régulier (à ne pas confondre avec saisonnalité!). Un marché boursier présente une grande cyclicité car il a tendance à avoir des périodes de valeurs élevées et des périodes de valeurs basses. Cependant, le passage d’une situation à une autre ne suit pas un modèle régulier. Note : Comme il est difficile d’estimer séparément les composantes tendance et cycle, elles sont regroupées dans une même composante appelée tendance-cycle (pas très original, je sais !). En fait, cette composante est généralement désignée comme la tendance. Mais gardez à l’esprit que toute cyclicité de vos séries temporelles sera incluse dans la composante tendance.
- La saisonnalité est la persistance des variations qui se produisent périodiquement à des intervalles réguliers spécifiques. Par exemple, les ventes de climatiseurs sont saisonnières et ont tendance à être plus élevées pendant les mois d’été et plus faibles pendant les mois d’hiver.
- Le résidu est essentiellement ce qui reste après avoir pris en compte la tendance et la saisonnalité. Il comprend tout, des erreurs de mesure ainsi que l’influence de facteurs imprévisibles.
Exemples
Par exemple, examinons une série temporelle décrivant la consommation trimestrielle de gaz au Royaume-Uni de 1960 à 1986, en millions de therms (thm).
Dans le cas ci-dessus, on observe une nette tendance à la hausse de la consommation de gaz au fil des ans. Il ne semble pas y avoir de cyclicité dans cette série. De plus, nous pouvons constater que la consommation de gaz est à son plus bas niveau au cours du troisième trimestre de chaque année. Ceci est logique car ce sont les mois d’été où le chauffage n’est pas nécessaire. D’autre part, la consommation la plus élevée de l’année se situe au premier trimestre, qui correspond à l’hiver. Le deuxième trimestre (printemps) et le quatrième trimestre (automne) se situent entre le premier et le troisième trimestre. C’est la composante saisonnière.
Mais ce n’est pas tout. Deux autres aspects doivent être pris en compte dans l’analyse des séries temporelles : l’autocorrélation et la stationnarité.
L’autocorrélation indique s’il existe une corrélation (c’est-à-dire une similitude) entre les observations de la série temporelle à certains décalages temporels. Pour vérifier la structure d’autocorrélation d’une série temporelle, nous pouvons utiliser une fonction d’autocorrélation, communément appelée ACF
Comme nous pouvons le voir dans la première figure, il existe une forte corrélation entre les 4 pas de temps en raison de la saisonnalité. En d’autres termes, la consommation de gaz du 1er trimestre (Q1) d’une année donnée sera similaire à la consommation de gaz du 1er trimestre de l’année précédente. Cependant, cette corrélation s’estompe après environ 40 décalages, comme le montre la deuxième figure. Cela signifie que les valeurs du 1er trimestre d’une année ne seront pas similaires à celles du 1er trimestre d’il y a 10 ans. Ceci est dû à la tendance de croissance positive que nous voyons dans la série temporelle originale.
La stationnarité indique que la moyenne, la variance et la structure d’autocorrélation de la série sont constantes dans le temps. Ce n’est clairement pas le cas pour la série temporelle présentée ci-dessus. La tendance positive montre que la moyenne de la série augmente avec le temps. Nous pouvons également observer que la variance de la série augmente également dans le temps. Entre 1960 et 1970, la volatilité de la série oscille autour de 100-200 millions de therms entre les trimestres de faible et de forte consommation. En revanche, pour la décennie suivante (1970-1980), on observe une forte augmentation de la volatilité. Par exemple, en 1980, le trimestre de faible consommation (Q3), environ 217 millions de therms de gaz ont été consommés alors que durant le trimestre de forte consommation (Q1) ce chiffre monte à plus de 840 millions de therms.
Décomposition pas à pas des séries temporelles
La première étape consiste à supprimer la tendance (la croissance positive au fil du temps). Une façon de le faire est de calculer la différence entre un pas de temps et le suivant. De cette façon, votre série temporelle sera centrée sur 0 et la tendance positive sera supprimée. Faisons cela et traçons à nouveau la série.
Maintenant que nous avons supprimé la tendance, la deuxième étape consiste à traiter la variance (ou volatilité) croissante dans le temps. Nous pouvons voir que la variance augmente chaque année. Une façon de traiter ce problème est de calculer l’écart type de la consommation de gaz (sans tendance) pour chaque année, puis de diviser la consommation de gaz (sans tendance) pour chaque trimestre par l’écart type de son année.
Super, maintenant la moyenne est centrée autour de 0, et la variance est constante dans le temps. Cependant, nous avons toujours le modèle saisonnier. Pour résoudre ce problème, nous allons procéder comme suit : au lieu de prendre l’écart type de chaque année, nous allons prendre la moyenne de chaque trimestre. Nous allons donc calculer la valeur moyenne de tous les Q1, Q2, Q3 et Q4. Comme nous l’avons mentionné précédemment lors de l’examen du schéma saisonnier, la demande de gaz est plus élevée pendant les mois d’hiver (T1), la consommation de gaz du T1 devrait donc avoir une valeur proche de la moyenne de la consommation de gaz du T1. Après avoir calculé la moyenne, nous soustrayons la valeur de chaque trimestre de la moyenne correspondante. Cela devrait éliminer la saisonnalité de la série. Notez que cette étape n’est souvent pas nécessaire car de nombreux modèles permettent d’incorporer la saisonnalité dans leur spécification.
C’est tout ! En résumé, pour obtenir cette dernière série temporelle, nous avons supprimé la tendance positive, nous nous sommes assurés que sa variance est constante dans le temps et nous avons également supprimé la composante saisonnière.
Nous avons maintenant nettoyé notre série temporelle et visuellement, elle semble plus stationnaire que la série originale. Vous pouvez également effectuer un test formel pour voir si votre série temporelle est vraiment stationnaire, comme le test de Dickey-Fuller
La stationnarité est importante car, en son absence, un modèle décrivant les données variera en précision à différents moments. Nous pouvons passer à la modélisation et à la prévision des séries temporelles. Dans un prochain article, je décrirai les modèles de séries temporelles les plus utilisés.