25 - Texte seulement Forêts aléatoires : sélection de variables et bornes de risque ( Robin Genuer (Université Paris Sud et Paris 5))

Share:

Listens: 0

Séminaires de probabilités et statistiques (SAMM, 2009-2010)

Education


Dans un premier temps, nous présentons une méthode de sélection de variables basée sur l'algorithme des forêts aléatoires. Les forêts aléatoires, introduites par Léo Breiman en 2001, sont une technique statistique très utilisée dans des problèmes pratiques aussi bien en régression qu'en classification. En plus d'être très performantes en prédiction, les forêts aléatoires calculent un indice d'importance des variables. Basée sur cet indice d'importance, notre procédure de sélection de variables cherche à traiter deux problèmes distincts : trouver toutes les variables reliées à la variable réponse (interprétation) ; et trouver un ensemble de variables suffisant pour prédire la variable réponse (prédiction). Nous illustrons cette procédure sur des données réelles d'IRMf (Imagerie à Résonance Magnétique fonctionnelle) de très grande dimension. Dans un deuxième temps, nous présentons des résultats théoriques pour une version simple de forêt aléatoire. Dans un contexte de régression avec une seule variable explicative, nous montrons que les arbres aléatoires ainsi que les forêts aléatoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forêts améliorent les performances des arbres, en réduisant la variance d'un facteur trois quarts.