Home » Sciences et technologies » La technique de validation pourrait aider les scientifiques à faire des prévisions plus précises | NOUVELLES MIT

La technique de validation pourrait aider les scientifiques à faire des prévisions plus précises | NOUVELLES MIT

by Nouvelles

Devriez-vous attraper votre parapluie avant de sortir? La vérification des prévisions météorologiques ne sera utile que si ces prévisions sont exactes.

Les problèmes de prédiction spatiale, comme les prévisions météorologiques ou l’estimation de la pollution atmosphérique, impliquent de prédire la valeur d’une variable dans un nouvel emplacement basé sur des valeurs connues à d’autres endroits. Les scientifiques utilisent généralement des méthodes de validation éprouvées pour déterminer la quantité à faire confiance à ces prédictions.

Mais les chercheurs du MIT ont montré que ces méthodes de validation populaires peuvent échouer très mal pour les tâches de prédiction spatiale. Cela pourrait amener quelqu’un à croire qu’une prévision est exacte ou qu’une nouvelle méthode de prédiction est efficace, alors qu’en réalité ce n’est pas le cas.

Les chercheurs ont développé une technique pour évaluer les méthodes de validation de prédiction et l’ont utilisé pour prouver que deux méthodes classiques peuvent être substantiellement erronées sur les problèmes spatiaux. Ils ont ensuite déterminé pourquoi ces méthodes peuvent échouer et ont créé une nouvelle méthode conçue pour gérer les types de données utilisées pour les prévisions spatiales.

Dans les expériences avec des données réelles et simulées, leur nouvelle méthode a fourni des validations plus précises que les deux techniques les plus courantes. Les chercheurs ont évalué chaque méthode en utilisant des problèmes spatiaux réalistes, notamment en prédisant la vitesse du vent à l’aéroport de Chicago O-Hare et en prévoyant la température de l’air à cinq emplacements de métro américains.

Leur méthode de validation pourrait être appliquée à une gamme de problèmes, de l’aide aux climatologues prédire les températures de surface de la mer pour aider les épidémiologistes à estimer les effets de la pollution atmosphérique sur certaines maladies.

«Espérons que cela conduira à des évaluations plus fiables lorsque les gens proposent de nouvelles méthodes prédictives et une meilleure compréhension de la façon dont les méthodes fonctionnent», explique Tamara Broderick, professeur agrégé du Département de génie électrique et informatique du MIT (EECS). , membre du Laboratoire pour l’information et les systèmes de décision et l’Institut de données, de systèmes et de société, et une filiale du Laboratoire d’intelligence informatique et d’intelligence artificielle (CSAIL).

Broderick est rejoint sur le papier par l’auteur principal et le MIT Postdoc David R. Burt et l’étudiant diplômé de l’EECS Yunyi Shen. La recherche sera présentée à la Conférence internationale sur l’intelligence artificielle et les statistiques.

Évaluation des validations

Le groupe de Broderick a récemment collaboré avec les océanographes et les scientifiques atmosphériques pour développer des modèles de prédiction d’apprentissage automatique qui peuvent être utilisés pour des problèmes avec une forte composante spatiale.

Grâce à ce travail, ils ont remarqué que les méthodes de validation traditionnelles peuvent être inexactes en milieu spatial. Ces méthodes maintiennent une petite quantité de données de formation, appelées données de validation et les utilisent pour évaluer la précision du prédicteur.

Les méthodes traditionnelles supposent que les données de validation et les données de test sont indépendantes et distribuées de manière identique, ce qui implique que la valeur de tout point de données ne dépend pas des autres points de données. Mais dans une application spatiale, ce n’est souvent pas le cas.

Par exemple, un scientifique peut utiliser des données de validation des capteurs de pollution atmosphérique de l’EPA pour tester la précision d’une méthode qui prédit la pollution de l’air dans les zones de conservation. Cependant, les capteurs EPA ne sont pas indépendants – ils étaient situés en fonction de l’emplacement d’autres capteurs.

De plus, peut-être que les données de validation proviennent de capteurs de l’EPA près des villes tandis que les sites de conservation sont dans les zones rurales. Parce que ces données proviennent de différents endroits, elles ont probablement des propriétés statistiques différentes, elles ne sont donc pas réparties de manière identique.

“Nos expériences ont montré que vous obtenez des réponses vraiment mauvaises dans le cas spatial lorsque ces hypothèses formulées par la méthode de validation se décomposent”, explique Broderick.

Les chercheurs devaient proposer une nouvelle hypothèse.

Spécifiquement spatial

En pensant spécifiquement à un contexte spatial, où les données sont recueillies à partir de différents endroits, ils ont conçu une méthode qui suppose que les données de validation et les données de test varient en douceur dans l’espace.

Par exemple, il est peu probable que les niveaux de pollution atmosphérique changent considérablement entre deux maisons voisines.

«Cette hypothèse de régularité convient à de nombreux processus spatiaux et nous permet de créer un moyen d’évaluer les prédicteurs spatiaux dans le domaine spatial. À notre connaissance, personne n’a fait une évaluation théorique systématique de ce qui a mal tourné pour trouver une meilleure approche », explique Broderick.

Pour utiliser leur technique d’évaluation, on saisirait son prédicteur, les emplacements qu’ils souhaitent prédire et leurs données de validation, puis il fait automatiquement le reste. En fin de compte, il estime à quel point les prévisions du prédicteur seront précises pour l’emplacement en question. Cependant, l’évaluation efficace de leur technique de validation s’est avérée être un défi.

«Nous n’évaluons pas une méthode, nous évaluons plutôt une évaluation. Nous avons donc dû prendre du recul, réfléchir attentivement et faire preuve de créativité sur les expériences appropriées que nous pourrions utiliser », explique Broderick.

Tout d’abord, ils ont conçu plusieurs tests à l’aide de données simulées, qui avaient des aspects irréalistes mais leur ont permis de contrôler soigneusement les paramètres clés. Ensuite, ils ont créé des données semi-simulées plus réalistes en modifiant les données réelles. Enfin, ils ont utilisé des données réelles pour plusieurs expériences.

L’utilisation de trois types de données à partir de problèmes réalistes, comme prédire le prix d’un appartement en Angleterre en fonction de son emplacement et de la prévision de la vitesse du vent, leur a permis de procéder à une évaluation complète. Dans la plupart des expériences, leur technique était plus précise que la méthode traditionnelle à laquelle ils l’ont comparée.

À l’avenir, les chercheurs prévoient d’appliquer ces techniques pour améliorer la quantification de l’incertitude en milieu spatial. Ils veulent également trouver d’autres domaines où l’hypothèse de régularité pourrait améliorer les performances des prédicteurs, comme avec les données de la série chronologique.

Cette recherche est financée, en partie, par la National Science Foundation et l’Office of Naval Research.

#technique #validation #pourrait #aider #les #scientifiques #faire #des #prévisions #précises #NOUVELLES #MIT

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.