Détection par boosting de données aberrantes en régression Article - 2008

Nathalie Chèze, Jean-Michel Poggi

Nathalie Chèze, Jean-Michel Poggi, « Détection par boosting de données aberrantes en régression  », Revue des Nouvelles Technologies de l’Information, 2008, pp. 159—171. ISSN 1764-1667

Résumé

Nous proposons une méthode basée sur le boosting, pour la détec-tion des données aberrantes en régression. Le boosting privilégie naturellement les observations difficiles à prévoir, en les surpondérant de nombreuses fois au cours des itérations. La procédure utilise la réitération du boosting pour sélec-tionner parmi elles les données effectivement aberrantes. L’idée de base consiste à sélectionner l’observation la plus fréquemment rééchantillonnée lors des itéra-tions du boosting puis de recommencer après l’avoir retirée. Le critère de sélec-tion est basé sur l’inégalité de Tchebychev appliquée au maximum du nombre moyen d’apparitions dans les échantillons bootstrap. Ainsi, la procédure ne fait pas d’hypothèses sur la loi du bruit. Des exemples tests bien connus sont consi-dérés et une étude comparative avec deux méthodes classiques illustrent le com-portement de la méthode.

Voir la notice complète sur HAL

Actualités