...

Impact des conditions météorologiques sur la fréquentation des répondeurs

by user

on
Category: Documents
1

views

Report

Comments

Transcript

Impact des conditions météorologiques sur la fréquentation des répondeurs
39
Impact des conditions
météorologiques
sur la fréquentation
des répondeurs
de Météo-France
Résumé
Cet article expose la méthode et les
premiers résultats d’une étude de
l’impact des conditions météorologiques sur la fréquentation des répondeurs téléphoniques de Météo-France,
plus communément appelés kiosques.
Une analyse statistique exploratoire
des données d’appels a d’abord été
effectuée et a fait ressortir deux
grands cycles non corrélés aux conditions atmosphériques. Ensuite les
efforts se sont portés sur la recherche
de paramètres météorologiques pouvant avoir une influence sur la fréquentation des kiosques, le but final
étant de modéliser la part d’appels
quotidiens due aux conditions climatiques. Les résultats sur un numéro
départemental, parmi les quatrevingt-quinze existants, semblent prometteurs et incitent à élargir ce
travail à d’autres départements afin
de confirmer la méthode utilisée.
Didier Grimal (1), Isabelle Chèze (2) et Christine Dreveton (3)
(1) Météo-France - Direction interrégionale Sud-Ouest
7, avenue Roland-Garros - 33692 Mérignac Cedex
[email protected]
(2) Météo-France - Direction de la production - Toulouse
(3) Météo-France - Direction commerciale et de la communication - Toulouse
’impact des conditions météorologiques sur le chiffre d’affaires de
nombreuses entreprises des secteurs de l’énergie, de l’agroalimentaire,
du tourisme, etc., s’impose comme une
évidence de nos jours et provoque
l’émergence d’un nouveau type de marché : les produits dérivés climatiques
(Marteau et al., 2004). Selon Van
Asseldonk (2003), de nombreuses activités économiques sont fortement
dépendantes des conditions météorologiques : ainsi, la demande énergétique
est fortement corrélée avec la température (Quayle et Diaz, 1979 ; Chauvin et
L
al., 1992 ; Lehmann et Warren, 1994 ;
Colombo et al., 1994 ; Boucher et
Crouzille, 2003). La vente des biens de
consommation est également très sensible aux conditions météorologiques
(Agnew et Palutikof, 1999), de même
que la production agricole (Kadioglu et
al., 1999). Météo-France est intervenu
plusieurs fois à la demande de grands
groupes dans ce domaine et a acquis un
certain savoir-faire. L’idée d’appliquer
ces connaissances à notre propre besoin
est apparue très naturellement car, s’il y
a bien des produits qui doivent réagir
aux conditions météorologiques, ce sont
Abstract
Impact of weather conditions
on the number of calls
to Météo-France answerphones
This paper describes the methodology
and the first results of a study of the
impact of weather conditions on the
number of calls to Météo-France’s
phone forecast service, usually known
as kiosque. Firstly, the analysis of data
calls shows two strong cycles which
are not connected to weather conditions. Secondly, we have looked for
meteorological parameters which can
have an impact on the use of kiosque
because our goal is estimating what
part of daily total calls is due to weather conditions. The results for calls to
one of the 95 departmental phone
numbers are promising and incline us
to continue with other ones in order to
confirm the methodology used.
Exemple de matériel de communication pour les numéros kiosqués de Météo-France.
Société
La Météorologie - n° 50 - août 2005
La Météorologie - n° 50 - août 2005
40
les bulletins de prévision diffusés quotidiennement sur les répondeurs, plus
communément appelés produits kiosqués(1). Ils sont une source de revenus
très importante pour Météo-France. On
rappellera, par exemple, que le total des
appels en 2003, tous numéros confondus, a été de 33,5 millions. C’est pourquoi il a été mené une étude de l’impact
des conditions météorologiques sur le
nombre d’appels. Repérer des paramètres influençant le nombre d’appels peut
permettre d’améliorer les bulletins, par
exemple, en mettant l’accent sur tel ou
tel point particulier ou en adoptant une
politique de réactualisation différente,
en meilleure adéquation avec la
demande du public. Ces résultats peuvent aussi servir à filtrer la contribution
des conditions météorologiques au
nombre d’appels. L’ utilisation de telles
données décorrélées des conditions
météorologiques peut être, par exemple,
l’évaluation d’une campagne de publicité ou de modifications apportées aux
bulletins. Nous avons donc tenté de
modéliser les comportements d’appel
provoqués par les conditions climatiques afin de déceler, par différences
avec les valeurs réellement observées,
les fréquentations « non météorologiques » des répondeurs.
Le travail a commencé par une analyse
statistique exploratoire de la fréquentation des numéros kiosqués. Premier
problème : sur quelles données travailler ? L’offre en matière de produits
kiosqués est assez large et va du grand
public à des secteurs plus spécialisés
(montagne, mer…). Il faut aussi disposer de séries suffisamment longues.
Finalement, la décision a été prise d’utiliser les données quotidiennes des
numéros départementaux en 08 92 68
02 XX (XX représentant le numéro du
département) sur la période 1992-2002.
Dans la suite de l’article, ces numéros
seront référencés uniquement par leur
suffixe 02 XX.
Nous parlerons, dans cet article, tout
d’abord de l’analyse descriptive du
nombre d’appels, puis de la recherche
des paramètres météorologiques pertinents qui a abouti finalement à la modélisation du nombre quotidien d’appels
pour le département de l’Yonne.
(1) Dans le langage de la télématique, le mot
« kiosque » désigne un mécanisme par lequel
l'opérateur d'accès à une plate-forme de télécommunications facture aux clients l'accès aux services accessibles par son entremise, en rémunérant
les services en ligne par un reversement sur les
sommes ainsi perçues.
Analyse descriptive
du nombre d’appels
Afin de faciliter les traitements, il est
apparu nécessaire de travailler sur un
échantillon restreint de départements.
L’idée était de mettre en évidence des
numéros aux comportements similaires
de manière à n’en choisir qu’un qui
serait représentatif de sa catégorie. En se
référant aux cumuls mensuels d’appels
de chaque numéro sur la période 19982000, nous avons construit des séries
d’écarts normés (encadré ci-contre) de
manière à pouvoir faire des comparaisons. Cela nous a permis de regrouper
les différents répondeurs à l’aide d’une
classif ication automatique. Cette
méthode procède par agglomération
successive des classes les plus proches
entre elles, au sens d’une distance (ici la
distance euclidienne) et d’un critère
d’agrégation (ici le critère de Ward). Le
critère de Ward retient la partition représentant le maximum de variance interclasse et le minimum de variance
intraclasse (Saporta, 1990). Cette technique de regroupement fournit un arbre
de classification partant de 95 classes
(les 95 départements) contenant chacune les écarts normés d’un répondeur,
pour arriver à une seule classe contenant
les données des 95 répondeurs. À l’utilisateur de choisir la règle d’arrêt. Pour
cette étude, nous avons considéré que
dix classes étaient suffisantes. Les résultats obtenus présentent une très bonne
cohérence spatiale, comme nous pouvons le constater sur la figure 1. Seuls
cinq départements sont isolés géographiquement des autres éléments de leur
classe : la Somme, l’Essonne, le Gers, le
Tarn-et-Garonne et le Haut-Rhin. Nous
avons alors sélectionné dix numéros
Région
Orléanaise
Nord Île-de-France
Languedoc Roussillon
PACA
Poitou Aquitaine
Normandie
Bretagne
Est
Centre
Pyrénées Alpes
Écart normé
L’écart normé est ici égal à la différence entre le cumul mensuel considéré et la moyenne de ce mois sur la
période d’étude, le tout divisé par cette
même moyenne.
Le numérateur représentant une valeur
désaisonnalisée, on limite ainsi les
effets du cycle annuel, ce qui permet
de constater les fluctuations d’appels
pour un mois donné d’une année sur
l’autre. Le fait de diviser cet écart par la
moyenne du mois permet de s’affranchir des effets de la population puisqu’il est logique de penser qu’il y aura
de plus forts cumuls pour des départements très peuplés. Nous pouvons
ainsi comparer les séries entres elles.
jugés représentatifs de leur zone (les étalons de chaque classe). Ils correspondent aux départements de la Creuse
(23), de l’Hérault (34), du Lot-etGaronne (47), de la Manche (50), de la
Marne (51), du Morbihan (56), de la
Haute-Saône (70), de la Savoie (73), du
Var (83) et de l’Yonne (89).
L’analyse statistique exploratoire a pu
démarrer sur la base de ce choix en utilisant cette fois-ci comme données le
nombre quotidien d’appels entre 1992 et
2002. Deux grands résultats en ressortent : l’existence d’un cycle saisonnier
annuel et d’un cycle hebdomadaire
forts. Voyons tout d’abord le cycle saisonnier (figures 2 et 3). Le volume d’appels est sensiblement équivalent sur les
mois de fin d’automne et d’hiver. Ce
volume augmente régulièrement à partir
du mois de mars ou avril, culmine aux
environs de juillet ou août et revient sur
des valeurs basses à partir d’octobre. Il y
a cependant des particularités comme nous
pouvons le constater
sur la figure 3. D’une
part, les départements
de montagne ont un
pic supplémentaire
dans l’année qui correspond à la saison de
ski. Ce résultat est
confirmé au vu des
données des HautesAlpes (05), de la
Haute-Savoie (74), de
l’Ariège (09) et des
Figure 1 - Zonage
en 10 classes
par classification automatique
des écarts normés
des répondeurs kiosqués
en 02 XX.
41
La Météorologie - n° 50 - août 2005
2,00
Creuse (23)
Lot & Garonne (47)
1,50
Manche (50)
Haute-Saône (70)
Écarts normés
1,00
lundi au jeudi ou au vendredi et chute
brutalement le samedi et le dimanche.
Ce cycle est particulièrement prononcé
pour l’Hérault, le Var et la Savoie, ce
qui doit également provenir de la place
prépondérante des activités de loisirs
dans ces départements.
Yonne (89)
France
0,50
0,00
-0,50
re
No
ve
mb
re
Dé
cem
bre
Oc
tob
re
ût
Se
pte
mb
Ao
Jui
lle
t
Jui
n
i
Ma
ril
Av
rs
Ma
rie
r
Fév
Jan
vie
r
-1,00
2,00
Hérault (34)
Marne (51)
1,50
Morbihan (56)
Savoie (73)
1,00
Écarts normés
Figure 2 - Variations saisonnières du nombre d’appels
aux numéros de suffixe 02 23, 02 47, 02 50,
02 70, 02 89, ainsi que du total
des 95 numéros de France métropolitaine.
Var (83)
France
0,50
Nous l’avons plus ou moins évoqué
dans les lignes précédentes, on peut se
poser la question de l’influence des
congés et des jours fériés sur le nombre
d’appels. En raisonnant à partir des
cumuls hebdomadaires, il ressort que
les semaines avec un jour férié ont une
fréquentation moyenne des répondeurs
plus importante. Pour les congés, les
résultats sont moins nets. Cependant, il
faut préciser que, pour faciliter les traitements, la définition des congés a été
la même pour toutes nos séries, sans
tenir compte du découpage en zones
scolaires. Cela a pu perturber un peu les
résultats.
0,00
-0,50
bre
Dé
cem
No
ve
mb
re
re
tob
Oc
re
mb
Se
pte
Ao
ût
t
lle
Jui
Jui
n
i
Ma
ril
Av
rs
Ma
r
rie
Fév
Jan
vie
r
-1,00
Figure 3 - Variations saisonnières du nombre d’appels aux numéros de suffixe 02 34, 02 51, 02 56, 02 73 et 02 83,
ainsi que du total des 95 numéros de France métropolitaine.
Quant au cycle hebdomadaire (figure
4), il est encore plus stable. Pour tous
les numéros étudiés, le nombre moyen
d’appels augmente régulièrement du
La méthode
Quelle méthode adopter pour faire ressortir la part des appels due aux conditions météorologiques ? Une première
idée a été d’utiliser le travail d’analyse
exploratoire précédent. Nous savons
0,40
Creuse
Hérault
0,30
Lot & Garonne
Manche
0,20
Marne
Écarts normés
Hautes-Pyrénées (65). D’autre part, les
départements de l’Hérault et du Var, qui
ont un caractère touristique prononcé,
semblent avoir un creux au mois de juin.
Cela peut s’interpréter également
comme un pic relatif d’appels au mois
de mai. En effet, à cette période où l’on
renoue avec les activités de plein air et
où les nombreux jours fériés permettent
de prendre des périodes de trois à quatre
jours de repos, l’élément météorologique devient primordial dans l’organisation des loisirs. L’adjonction des
données des numéros spécialisés marine
n’a pas changé la forme des courbes, ce
qui tend à prouver que ce phénomène
n’est pas provoqué par un transfert d’appels sur des bulletins de prévision particularisés, mais correspond plutôt à un
comportement général.
À la recherche
de paramètres
météorologiques
0,10
Morbihan
0,00
Haute-Saône
Savoie
-0,10
Var
Yonne
-0,20
France
Figure 4 - Variations hebdomadaires
des 10 numéros sélectionnés et du total
des 95 numéros de France métropolitaine.
-0,30
Lundi
Mardi
Mercredi
Jeudi
Vendredi
Samedi
Dimanche
La Météorologie - n° 50 - août 2005
42
que le jour de la semaine, la saison et
les congés contribuent fortement au
volume d’appels. Nous avons décidé de
créer une sorte d’année théorique en
calculant pour chacun des départements
étudiés la moyenne des appels de
chaque jour de la semaine en fonction
de la saison et de l’occurrence ou non
de congé. Nous disposons donc, pour
chaque lundi, mardi… dimanche, de
quatre valeurs moyennes d’appels possibles : valeur d’hiver sans congé, d’hiver avec congé, d’été sans congé et
d’été avec congé. L’hiver est défini ici
comme la période allant du mois d’octobre au mois de mars, l’été est composé du reste de l’année. La comparaison des données théoriques avec les
données observées doit normalement
faire apparaître la partie des appels provoqués par les conditions atmosphériques quotidiennes puisque nous avons
en quelque sorte « désaisonnalisé » nos
données (comprendre ici que les cycles
calendaires mis en évidence ont été
neutralisés). Le critère de comparaison
a été défini comme le rapport du cumul
quotidien observé sur le cumul théorique, que nous avons appelé rapport
de fréquentation. Ainsi, une valeur
inférieure à 1 indique une fréquentation
inférieure à la moyenne et une valeur
supérieure à 1 une fréquentation supérieure à la moyenne. Nous avons ensuite
sélectionné les journées avec des rapports de fréquentation extrêmes. Nous
avons choisi les seuils 4 et 1/4, et effectué une recherche, à l’aide des bulletins
Météo-Hebdo, des situations météorologiques correspondantes. Ce travail,
simple sur le principe, s’est révélé assez
fastidieux et ne correspondait pas totalement à notre besoin final puisque
nous ne faisions apparaître là que des
journées très particulières. Or, même
sans être exceptionnelle, une journée
plus fraîche que la normale, en été par
exemple, peut avoir une incidence sur
la fréquentation d’un répondeur. À
terme, il fallait donc trouver une autre
méthode.
Les résultats
Mais attardons-nous tout de même sur
les quelques résultats obtenus. Tout
d’abord, la majorité des journées avec des
rapports de fréquentation supérieurs à 4
correspond à des situations hivernales
avec des phénomènes dangereux, essentiellement pour la circulation. En tête de
palmarès, vient la neige qui provoque
des volumes d’appels très importants.
Ensuite, ce sont souvent des combinaisons de plusieurs phénomènes qui apparaissent : ainsi, à elle seule, une vague de
froid ne semble pas provoquer d’accroissement des appels ; il faut des phénomènes précipitants pour cela. Vent, orages,
verglas, froid ou pluie sont, pêle-mêle,
les autres paramètres marquants de ces
journées. Du côté des faibles fréquentations, on trouve des journées calmes, sans
particularité marquée, mais aussi parfois du brouillard. Dans les trois quarts
des cas, elles correspondent à des situations anticycloniques. Un autre élément
intéressant de ce type d’approche est l’analyse fréquentielle de ces chiffres. Pour
chaque numéro, à peu près 60 % des
journées de la période 1992-2002 ont un
rapport de fréquentation inférieur ou égal
à 1 et le volume d’appels correspondant représente 40 % du volume total
(figure 5).
100
80
70
60
Prédicteurs utilisés
Nous avons utilisé des prédicteurs climatologiques et des prédicteurs calendaires. Seuls certains d’entre eux sont
ensuite sélectionnés comme suffisamment représentatifs dans les équations
de régression linéaire.
Les prédicteurs climatologiques sont
les valeurs quotidiennes relevées à
Auxerre de :
– température minimale (Tn) et maximale (Tx) ;
– moyenne de la pression réduite au
niveau de la mer ;
– fraction d’insolation (nombre d’heures d’ensoleillement par rapport à la
durée du jour) ;
– vitesse moyenne du vent et rafale
maximale de la journée ;
– cumul quotidien de précipitations ;
– occurrences de neige, brouillard et
orage ;
– humidité maximale et humidité minimale quotidienne ;
– durée avec humidité inférieure à 40 %
et durée avec humidité supérieure à
80 % ;
– évapotranspiration quotidienne(1) ;
– écarts aux normales décadaires
(moyenne sur 30 ans par périodes de
10 jours : du 1er au 10, du 11 au 20 et
du 21 à la fin de chaque mois) de température minimale, maximale, de
cumul de précipitation, d'évapotranspiration et de durée d’insolation.
(1) Ce paramètre est utilisé en agrométéorologie. Il est élaboré à partir des températures, du
rayonnement solaire, de l’humidité et du vent.
Il caractérise le pouvoir d’évaporation de l’atmosphère. Il peut donc être un bon indicateur
de journées chaudes et ensoleillées (pour les
fortes valeurs) ou de journées maussades
(pour les faibles valeurs).
50
40
30
20
10
[ 0 ; 0,25 [
[ 0,25 ; 0,5 [
[ 0,5 ; 0,75 [
[ 0,75 ; 1 [
[ 1 ; 1,25 [
[ 1,25 ; 1,5 [
[ 1,5 ; 1,75 [
[ 1,75 ; 2 [
[ 2 ; 2,25 [
[ 2,25 ; 2,5 [
[ 2,5 ; 2,75 [
[ 2,75 ; 3 [
[ 3 ; 3,25 [
[ 3,25 ; 3,5 [
[ 3,5 ; 3,75 [
[ 3,75 ; 4 [
[ 4 ; 4,25 [
[ 4,25 ; 4,5 [
[ 4,5 ; 4,75 [
[ 4,75 ; 5 [
[ 5 ; 5,25 [
[ 5,25 ; 5,5 [
[ 5,5 ; 5,75 [
[ 5,75 ; 6 [
sup. à 6
Fréquence cumulée (%)
Revenons à notre but initial qui est, rappelons-le, de découvrir dans quelle
mesure la variabilité naturelle de certains
paramètres influe sur cette fréquentation.
Pour cela, la méthode adoptée en
deuxième approche s’est appuyée sur
l’utilisation d’outils statistiques tels que
les systèmes de classification et les
Les prédicteurs calendaires sont des
indicateurs de :
– saison et congé ;
– jours de la semaine (lundi… dimanche) ;
– mois de l’année (janvier… décembre) .
90
0
Méthode statistique
et modélisation
Rapports (classes de 0,25)
Figure 5 - Fréquence cumulée des journées
appartenant aux différentes classes de rapport
de fréquentation (en bleu foncé) et pourcentage
cumulé du nombre d’appels correspondants (en rose),
sur la période 1992-2002, pour le 02 89.
43
La Météorologie - n° 50 - août 2005
régressions linéaires multiples. Notre
variable à expliquer, ou à prédire, est le
cumul quotidien d’appels et nous supposons qu’elle réagit à divers autres paramètres, en l’occurrence des paramètres
météorologiques, d’une part, et calendaires (cycle saisonnier et hebdomadaire,
congés), d’autre part. L’utilisation de systèmes de classification aboutissant à des
arbres de décision a permis de repérer les
paramètres ayant le plus d’influence sur
les cumuls quotidiens d’appels. L’idée
était ensuite d’appliquer des régressions
linéaires multiples sur les séries correspondant aux classes obtenues, dans le
but de modéliser les comportements des
appelants.
Nous pouvions travailler sur deux variables à prédire : le rapport de fréquentation (puisque nous l’avions, il était
tentant de nous en servir) et le cumul
quotidien d’appels. L’étude a été menée
sur ces deux variables, mais il est apparu
que le rapport de fréquentation génère
des résultats instables et ne semble pas
approprié pour ce type de traitement. La
suite de cet article traitera donc uniquement du travail fait à partir du cumul
quotidien d’appels. De plus, ces traitements n’ont été appliqués qu’aux données du répondeur de l’Yonne.
Notre variable à prédire, le prédictand,
est donc le cumul quotidien d’appels
pour ce numéro. Les prédicteurs, c’està-dire les paramètres explicatifs, censés
agir sur le prédictand, sont les paramètres calendaires et les données
météorologiques quotidiennes relevées
à la station d’Auxerre. Le détail est listé
dans l’encadré page précédente.
L’arbre de décision
À chaque valeur de nombre quotidien
d’appels, ont été associées les valeurs des
prédicteurs utilisés. Nous avons utilisé
l’algorithme Exhaustive Chaid (Biggs et
al., 1991) du logiciel AnswerTree 3.0
(SPSS Inc., 2001). Cette méthode de
classification divise l’échantillon de
départ en sous-échantillons de données
qui s’excluent mutuellement sur la base
du prédicteur le plus représentatif au sens
statistique. La figure 6 nous montre par
exemple le résultat graphique (l’arbre de
décision) du premier niveau de classification. La première division de l’échantillon s’effectue par le jeu des critères
« saison » et « occurrence ou non de
Figure 6 - Premier niveau de l’arbre de décision
de la série d’appels quotidiens du 02 89.
congés ». Pour chacune de ces classes, la
moyenne du nombre d’appels est assez
différente, ce qui révèle des comportements d’appels particuliers. Chaque
classe est elle-même divisée suivant
d’autres critères et ainsi de suite jusqu’à
atteindre les règles d’arrêt fixées par
l’utilisateur. Il ressort du traitement
complet que les prédicteurs calendaires
sont très présents aux premiers niveaux,
notamment le mois, bien avant les prédicteurs climatologiques. C’est ce qui
nous a incités à travailler sur des classes
mensuelles par la suite. Mais les arbres
de décision peuvent aussi servir à repérer des effets de seuil. Ainsi, la classe
« hiver » se divise en deux branches :
« neige » et « sans neige ». La sousclasse « neige » se divise à nouveau en
deux classes : « Tn > -0,8 °C » et
« Tn < -0,8 °C ». Le cumul moyen d’appels quotidien augmente de 50 % dans
la classe « Tn < -0,8 °C ». On en déduit
naturellement que des situations neigeuses avec des températures négatives provoquent une fréquentation plus assidue
que lorsque les températures sont positives, et donc qu’un seuil proche de –1 °C
ou 0 °C provoque des comportements
différents. Cette manière d’opérer,
appliquée à quelques autres numéros, a
permis de proposer des seuils communs
à chaque département comme nouveaux
prédicteurs (l’idée au départ était de ne
pas trop particulariser les traitements).
Régressions linéaires
Sur la base d’un découpage de notre
fichier initial en classes mensuelles, la
deuxième étape a consisté à créer douze
séries (tous les mois de janvier de la
période 1992-2002, tous les mois de
février, etc.) et d’appliquer sur chacune
d’elles une régression linéaire multiple
(encadré ci-contre), avec toujours
comme prédictand le cumul quotidien
d’appels et comme prédicteurs ceux
listés précédemment auxquels nous
avons ajouté les seuils estimés à l’aide
des arbres de décision.
Régressions linéaires
Le but est de trouver une équation
linéaire de type Y=ƒ(X), permettant de
prévoir le nombre d’appels en fonction
des paramètres météorologiques et
calendaires.
En effet, on suppose à priori l’existence
d’une liaison fonctionnelle entre notre
variable à prédire et un groupe de N
paramètres. La méthode statistique la
plus largement utilisée est celle de la
régression linéaire multiple.
Nous distinguons :
– le prédictand, qui correspond à la
donnée que l’on cherche à prévoir
(paramètre Y dans l’équation) ;
– les prédicteurs, qui sont les variables
d’entrée de l’équation : paramètres Xi
dans l’équation.
L’équation linéaire est de la forme :
N
Y = ΣaiXi+b
i=1
avec : N, nombre de prédicteurs ; ai,
coefficient de la variable Xi ; et b, constante.
On parle de régression simple lorsqu’un seul prédicteur est retenu et de
régression multiple dans le cas de plusieurs prédicteurs.
Le nombre de prédicteurs utilisés a un
effet important sur le résultat, et l’utilisation de régressions linéaires multiples
ascendantes permet de les classer par
ordre croissant d’apport d’information.
Le principe consiste à sélectionner le
meilleur prédicteur, puis à trouver parmi
les autres celui qui forme avec le premier
le couple qui apporte le plus fort taux
d’accroissement du carré du coefficient
de corrélation (R2). On réitère l’opération plusieurs fois en cherchant parmi les
prédicteurs restants celui qui, associé
aux prédicteurs précédemment trouvés
(en nombre m-1), donne le meilleur
groupe possible de dimension m.
Il faut ensuite vérifier la significativité
de R pour le premier prédicteur et la
significativité de l’accroissement de R2
pour les paramètres suivants avec un
test de Fischer (Saporta, 1990).
Cumul d'appels
Quotidien
Effectif : 3 833
Moyenne : M
Hiver
Hiver et congés
Été
Été et congés
Effectif : 1 558
Moyenne : 0,75 M
Effectif : 445
Moyenne : 0,85 M
Effectif : 1 058
Moyenne : 1,24 M
Effectif : 772
Moyenne : 1,26 M
La Météorologie - n° 50 - août 2005
44
Validation
Restait ensuite à valider ce modèle sur le
fichier d’apprentissage (les onze années
de cumuls quotidiens) et sur un fichier
test qui, lui, n’avait pas servi à sa construction, en l’occurrence les données de
l’année 2003. Pour la validation sur le
fichier d’apprentissage, nous avons utilisé le principe de décomposition de la
5
4
3
Nombre d'appels
2
1
0
-1
-2
-3
01/01/03
15/01/03
29/01/03
12/02/03
26/02/03
12/03/03
26/03/03
09/04/03
23/04/03
07/05/03
21/05/03
04/06/03
18/06/03
02/07/03
16/07/03
30/07/03
13/08/03
27/08/03
10/09/03
24/09/03
08/10/03
22/10/03
05/11/03
19/11/03
03/12/03
17/12/03
31/12/03
Pour chacune des classes mensuelles,
l’outil statistique a retenu un certain nombre de prédicteurs affectés d’un coefficient dont la somme est censée donner
une estimation du nombre d’appels. Bien
entendu, tous les prédicteurs injectés dans
la moulinette statistique n’ont pas été retenus, seuls ceux apportant l’information la
plus pertinente ont été gardés. Notre
modèle est donc composé par l’ensemble
des douze équations issues des résultats
des régressions linéaires multiples appliquées aux classes mensuelles. Pour les
mois d’hiver, les principaux paramètres
météorologiques qui ressortent concernent essentiellement la neige et les basses
températures et, pour les mois d’été, les
températures, l’insolation et la pression
moyenne au niveau de la mer. Il faut préciser également que nous retrouvons souvent des indicateurs du jour de la semaine
dans ces équations, preuve que le cycle
hebdomadaire est très fort.
Figure 7 - Cumuls quotidiens d’appels (rapportés à la moyenne sur l'année), observés en 2003 (courbe bleu foncé),
estimés par le modèle (courbe rose) et différences estimation moins observation (courbe orange), pour le 02 89.
variance : par construction, la variance
totale de la variable à prédire est égale à
la somme de la variance expliquée par le
modèle et de la variance des erreurs (ou
résidus). Cette variance expliquée nous a
servi de critère de qualité. Le résultat
trouvé est encourageant puisque, sur le
fichier d’apprentissage (1992-2002),
nous expliquons 67 % de la variance
totale des appels. Quant à l’estimation de
l’année 2003, les résultats sont donnés
sous forme graphique sur la figure 7.
Nous voyons que les pics et les creux sont
dans l’ensemble assez bien simulés avec
ce modèle. On constate certes des erreurs
(sous-estimations ou surestimations par-
fois fortes), mais globalement les résultats sont satisfaisants. Le coefficient de
corrélation entre les cumuls observés et
estimés est égal à 0,755, soit un pourcentage de variance expliquée de 57 % sur ce
fichier test (le carré du coefficient de corrélation s’interprète comme la variance
expliquée par le modèle).
Attardons-nous sur les deux plus importantes erreurs. Elles correspondent aux
journées du 14 et 30 janvier 2003. Pour le
mois de janvier, les prédicteurs qui
contribuent le plus à l’estimation des
appels sur le répondeur de l’Yonne sont
l’occurrence de neige, la température
Les situations de neige, que ce soit à la campagne…
Photo Météo-France
45
La Météorologie - n° 50 - août 2005
minimale inférieure à -0,8 °C et la température maximale inférieure à 5,6 °C. Le
13 janvier, un épisode neigeux touche
l’Yonne, le modèle voit un pic d’appels,
bien que celui-ci soit sous-estimé. En
revanche, le 14 janvier, les conditions
sont plus clémentes : pas d’occurrence de
neige et la température minimale passe
au-dessus de -0,8°C. La contribution de
ces deux derniers prédicteurs est devenue
nulle, d’où une estimation du nombre
d’appels beaucoup plus faible. Mais, ce
jour-là le sol est resté glissant, le public a
donc ressenti la situation comme identique à la veille. Cela explique un niveau
réel d’appels du même ordre de grandeur
que durant l’événement verglaçant. Pour
la fin du mois de janvier, les surplus d’appels dus aux épisodes neigeux des trois
derniers jours sont vus, mais sous-estimés, surtout le 30. La contribution des
températures minimales qui passent sous
le seuil de -0,8 °C le 31 vient ensuite nettement réduire l’erreur.
France, elle doit pour l’instant être considérée comme un travail préliminaire qui a
permis de tester une méthodologie, c’està-dire l’application de régressions linéaires sur des classes déterminées par des
méthodes de classification par arbre de
décision, autorisant en particulier la prise
en compte des effets de seuil. Nous avons
confirmé ainsi qu’il est envisageable de
travailler sur des estimations quotidiennes du nombre d’appels. Les premiers
résultats sur le répondeur de l’Yonne sont
encourageants. Ce genre de modèle ne
reconstitue pas bien les fréquentations
extrêmes, mais en général les pics et les
creux sont bien représentés.
Bien entendu, tout cela est perfectible ;
certains prédicteurs méritent d’être affinés. La hauteur de neige peut, par exemple, apporter plus d’informations dans le
modèle qu’une simple indication d’occurrence. De même, d’autres paramètres,
représentant la prévision ou les effets de
changement ou de persistance de type de
temps, peuvent apporter une amélioration. Un travail dans ce sens a été effectué
récemment par des élèves ingénieurs de
l’École nationale de la météorologie. Les
résultats devraient permettre de poser les
premières bases d’une méthodologie
généralisable à l’ensemble des départements et de créer ainsi un outil opérationnel de suivi de la fréquentation des
répondeurs.
Remerciements
Nous remercions Nathalie Bécourt et
Thierry Garnier de Météo-France pour
leur travail de désarchivage des données
quotidiennes des numéros kiosqués et les
informations précieuses sur leurs historiques, ce qui nous a permis de travailler
sur des données fiables. Remerciements
aussi à Marie-Madeleine Couruol, JeanPierre Mac Veigh et Marc Payen de
Météo-France pour leur participation assidue aux réunions de suivi de cette étude.
Conclusion
Cette étude est une bonne illustration
d’une nouvelle forme d’application de la
météorologie aux entreprises, dans un
cadre dépassant la gestion à quelques
jours des stocks, du personnel ou des travaux, opérations qui sont possibles avec
un produit de prévision. Bien plus, ce
genre d’approche apporte une information complémentaire sur la réaction de
l’activité de l’entreprise à un paramètre
particulier. Cela peut permettre, à la fois,
d’affiner sa gestion, d’améliorer son produit et d’aller jusqu’à une politique de
protection de type assurance contre les
variations du chiffre d’affaires provoquées par les aléas climatiques. Dans son
application aux répondeurs de Météo-
… ou en ville, génèrent toujours de nombreux appels.
Photo Météo-France, P. Taburet
Bibliographie
Agnew M. D. et J. P. Palutikof, 1999 : The impacts of climate on retailing in the UK with particular reference to the anomalously hot summer of 1995. Int. J. Climatol.,
19, 1493-1507.
Biggs D., B. de Ville et E. Suen, 1991 : A method of choosing multiway partitions from classification and décision trees. J. Appl. Statistic, 18, 49-62.
Boucher O. et B. Crouzille, 2003 : Pics de consommation d’électricité en janvier. La Météorologie, 8e série, 41, 5.
Chauvin F., J.-P. Javelle et A.-M. Calvayrac, 1992 : Influence des conditions météorologiques sur la consommation électrique française. La Météorologie, 7e série, 42, 28-36.
Colombo A. F., D. Etkin et B. W. Karney, 1999 : Climate variability and the frequency of extreme temperature events for nine sites across Canada: implications for
power usage. J. Climate, 12, 2490-2502.
Kadioglu M., Z. Sen et L. Gültekin, 1999 : Spatial heating monthly degree-day features and climatological patterns in Turkey. Theor. Appl. Climatol., 64, 263-269.
Lehman R. L. et H. E. Warren, 1994 : Projecting monthly natural gas sales for space heating using a monthly updated model and degree-days from monthly outlooks.
J. Appl. Meteor., 33, 96-106.
Marteau D., J. Carle, S. Fourneaux, R. Holz et M. Moreno, 2004 : La gestion du risque climatique. Economica, Paris, 204 p.
Quayle R. G. et H. F. Diaz, 1979 : Heating degree-day data applied to residential heating energy consumption. J. Appl. Meteor., 19, 241-246.
Saporta G., 1990 : Probabilité-analyse des données et statistique. Technip, Paris, 528 p.
SPSS Inc., 2001 : Answer Tree 3.0 User’s Guide. SPSS Inc.
Van Asseldonk M. A. P. M., 2003 : Insurance against weather risk: Use of heating degree-days from non-local stations for weather derivatives. Theor. Appl. Climatol., 74, 137-144.
Fly UP