Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre - Université Paris 1 Panthéon-Sorbonne Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre

Résumé

In this study, we propose an automatic learning method for variables selection based on Lasso in epidemiology context. One of the aim of this approach is to overcome the pretreatment of experts in medicine and epidemiology on collected data. These pretreatment consist in recoding some variables and to choose some interactions based on expertise. The approach proposed uses all available explanatory variables without treatment and generate automatically all interactions between them. This lead to high dimension. We use Lasso, one of the robust methods of variable selection in high dimension. To avoid over fitting a two levels cross-validation is used. Because the target variable is account variable and the lasso estimators are biased, variables selected by lasso are debiased by a GLM and used to predict the distribution of the main vector of malaria which is Anopheles. Results show that only few climatic and environmental variables are the mains factors associated to the malaria risk exposure.
Nous étudions dans ce travail une méthode de sélection de variables basée sur le Lasso dans le contexte épidémiologique. L'un des objectifs est de construire automatiquement un modèle prédictif en limitant le recours aux experts médicaux qui opèrent des prétraitements sur les données collectées. Ces prétraitements consistent entre autres à recoder certaines variables en classe et à choisir manuellement certaines interactions en se basant sur la connaissance des données. L'approche proposée utilise toutes les variables explicatives sans traitement et génère automatiquement toutes les interactions entre les variables, ce qui nous conduit en grande dimension. Nous utilisons le Lasso qui est une méthode robuste de sélection de variables en grande dimension. Le nombre d'observations dans les études épidémiologiques étant faible, nous proposons une validation croisée à deux niveaux pour éviter le risque de sur apprentissage dans la phase de sélection de variables. Les estimateurs Lasso étant biaisés et la variable d'intérêt qu'est le nombre d'anophèles à prédire étant discret, nous utilisons un modèle GLM pour débiaiser les variables sélectionnées par le Lasso et faire de la prédiction. Les résultats montrent que quelques variables climatiques et environnementales seulement sont des facteurs principaux liés au risque d'exposition au paludisme.
Fichier principal
Vignette du fichier
kouwayefontonetal2015jds.pdf (78.53 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01196450 , version 1 (09-09-2015)

Licence

Paternité

Identifiants

Citer

Bienvenue Kouwayè, Noël Fonton, Fabrice Rossi. Sélection de variables par le GLM-Lasso pour la prédiction du risque palustre. 47èmes Journées de Statistique de la SFdS, Société Française de Statistique, Jun 2015, Lille, France. ⟨hal-01196450⟩
193 Consultations
809 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More