5 questions avec Jay Qi, scientifique principal des données chez DrivenData – Center for Data Innovation

5 questions avec Jay Qi, scientifique principal des données chez DrivenData – Center for Data Innovation

Le Center for Data Innovation s’est entretenu avec Jay Qi, scientifique principal des données chez DrivenData, une organisation basée à Denver, au Colorado, qui organise des concours de science des données pour créer des solutions d’IA pour le bien social. Qi a expliqué comment DrivenData a aidé à développer des modèles capables d’identifier les espèces menacées et comment les techniques améliorant la confidentialité peuvent aider à débloquer des données sensibles pour le bien social.

L’interview a été éditée.

Riche Omar: Pouvez-vous parler des concours de machine learning de DataDriven ?

Jay Qi : Dans DrivenData concours d’apprentissage automatique en ligne, les data scientists du monde entier s’affrontent pour créer les meilleurs algorithmes pour résoudre des problèmes concrets et percutants. Les performances des différentes solutions sont évaluées automatiquement et affichées sur un classement en direct, une structure qui s’est avérée augmenter les plus hauts niveaux de performance et d’engagement atteints pour les problèmes d’apprentissage automatique. Notre spécialité, et la principale chose qui nous différencie des autres plateformes de compétition d’apprentissage automatique, est l’accent que nous mettons sur les applications de bien social. Au cours des 8 dernières années, nous avons organisé plus de 65 concours et décerné un total de plus de 3,3 millions de dollars en prix. Nos concours couvrent un large éventail de domaines d’application, de la durabilité à la santé en passant par la modération des médias sociaux et bien plus encore. Nous avons besoin de code et de documentation pour les modèles gagnants seront open source afin de servir de ressource ouvertement accessible et durable.

Nos partenaires du défi utilisent le format du concours comme moyen de rechercher des solutions à leur problème auprès de scientifiques de données qualifiés du monde entier. La modélisation de la science des données est un processus itératif réputé, et un concours est un moyen efficace d’explorer l’espace des solutions en parallèle. Si le problème repose sur un bon ensemble de données et des mesures d’évaluation claires, un concours offre beaucoup plus d’exploration que ce qu’un seul data scientist ou même une petite équipe de data scientists serait capable de faire.

Pour notre communauté de data scientists, les concours DrivenData sont un moyen pour eux de s’engager dans des applications intéressantes et percutantes pour mettre en pratique leurs compétences et potentiellement même gagner un prix. Définir un problème bien formulé avec un bon ensemble de données est un obstacle courant au démarrage d’un projet de science des données, et nous avons fait le gros du travail initial.

Lire aussi  Coûte peu, va loin

Les concours d’apprentissage automatique ne sont qu’une des nombreuses activités menées par DrivenData. Nous avons aussi consulter directement avec des organisations axées sur une mission, a créé un modèle de projet de science des données populairemaintenir de nombreux outils logiciels open sourceet publier des ressources d’apprentissage sur notre blog.

Omar: Selon vous, quels sont les impacts concrets les plus intéressants que vous ayez eus ?

Qi: Nos concours couvrent un éventail assez large de problèmes, et ils sont tous intéressants à leur manière, ce qui peut être difficile à comparer. Pour en citer quelques-uns comme un avant-goût de l’étendue :

  • Notre Défi des mèmes haineux en collaboration avec Meta AI Research, ils ont étudié l’identification des contenus haineux dans les publications sur les réseaux sociaux qui dépendaient à la fois du contenu textuel et image.
  • Notre Défi VisioMel utilisé des images microscopiques numérisées de mélanome cutané pour prédire la probabilité de rechute du cancer.
  • Notre Confrontation avec Snowcast Le défi visait à estimer l’eau douce contenue dans le manteau neigeux saisonnier pour la gestion de l’eau et a été évalué en direct par rapport aux données collectées dans l’ouest des États-Unis au cours de l’hiver 2022.
  • Notre Spectrométrie de Mars Ce concours, en collaboration avec des chercheurs de la NASA, consistait à analyser les données géochimiques collectées par le rover Curiosity sur Mars.

Une compétition que je considère comme l’une de mes préférées est notre Où est la baleine concours. La tâche consistait à identifier des bélugas individuels à partir de photographies d’une population en voie de disparition qui visitent Cook Inlet chaque année près d’Anchorage, en Alaska, ce que les biologistes de recherche de la NOAA Fisheries doivent autrement faire minutieusement manuellement.

Omar: Une partie de ce que vous faites semble être d’ouvrir les yeux d’une organisation sur le potentiel de ses propres données. Qu’est-ce qui empêche les organisations de voir ce que vous voyez en premier lieu ?

Qi: Aujourd’hui, j’ai l’impression que la plupart des organisations ont rattrapé l’idée que leurs données peuvent avoir un énorme potentiel pour améliorer leur travail. Tout le monde parle de données et d’apprentissage automatique depuis des années, et désormais tout le monde est enthousiasmé par l’IA et les grands modèles de langage (LLM). Cependant, savoir quoi faire à ce sujet peut encore être difficile !

Dans notre travail de conseil en science des donnéesnous travaillons en étroite collaboration avec des organisations partenaires en utilisant les principes de conception centrée sur l’humain comprendre leurs besoins et identifier la bonne façon d’aborder le problème. En fin de compte, il est important de se concentrer sur le problème à résoudre du point de vue des parties prenantes, plutôt que d’essayer d’utiliser les données pour le plaisir des données. Une autre chose que nous avons trouvée particulièrement utile est de pouvoir discuter de cas d’utilisation similaires issus de nos expériences avec d’autres organisations ou que nous avons vus dans l’industrie. Avoir des exemples pour étayer les discussions fait une grande différence pour aider les organisations à comprendre ce qui est possible et ce qui vaut la peine d’être fait.

Lire aussi  Expulser les leaders toxiques des réseaux sociaux réduit la propagation de la haine en ligne | Technologie

De plus, l’utilisation efficace des données nécessite un investissement dans la technologie, les processus et le personnel. Il y a un article fantastique sur le « Hiérarchie des besoins en science des données »— un jeu de mots sur la célèbre hiérarchie des besoins de Maslow — qui fournit un cadre utile pour réfléchir à ce qui est fondamentalement requis pour réussir la science des données. Une organisation doit d’abord comprendre la collecte de données, puis le déplacement et l’infrastructure de stockage des données, puis le nettoyage des données, etc. Lorsque nous travaillons avec une organisation, il est essentiel de répondre de manière appropriée à leur position dans la hiérarchie des besoins pour réussir à long terme.

Omar: S’il existait un type de données que vous pouviez débloquer pour mieux servir le bien social, lequel serait-il ?

Qi: L’un des défis auxquels nous sommes confrontés est que les données impactantes peuvent souvent être sensibles. Il est logique que les données utiles pour aider les gens concernent souvent aussi les personnes, mais les données sur les personnes ont souvent des implications en matière de confidentialité et de sécurité. Nous avons discuté avec des parties prenantes et des dirigeants d’organisations allant des gouvernements municipaux aux programmes médicaux. Ils savent que pouvoir collaborer avec d’autres organisations en partageant des données pourrait présenter de nombreux avantages, mais ils ne peuvent tout simplement pas le faire car cela comporte trop de risques du point de vue de la confidentialité et de la conformité. Comment pouvons-nous utiliser des données sensibles sur des personnes en analyse ou en apprentissage automatique, tout en protégeant leur vie privée ? Ce problème n’est pas entièrement résolu, même si nous sommes ravis de suivre la poursuite des recherches dans le domaine des technologies améliorant la confidentialité. De nombreuses approches prometteuses, telles que la confidentialité différentielle, l’apprentissage fédéré et le cryptage homomorphe, sont en cours de développement pour résoudre ce problème. DrivenData a même participé à l’avancement de la recherche dans ce domaine : nous avons organisé quelques concours en partenariat avec le NIST et d’autres agences pour soutenir la recherche dans ce domaine. confidentialité différentielle et apprentissage fédéré préservant la confidentialité. Les technologies améliorant la confidentialité ne sont pas encore prêtes à dépendre d’elles pour organiser un concours d’apprentissage automatique ouvert et public sur des données sensibles, mais nous sommes impatients de savoir quand ce jour viendra.

Lire aussi  Travis Kelce révèle que son père l'a contacté après avoir lu les rumeurs de relation avec Taylor Swift sur Facebook

Omar: DrivenData gère un certain nombre de projets open source populaires pour les données science. Pouvez-vous expliquer brièvement pourquoi cela est important pour l’innovation ?

Qi: En ayant le les modèles gagnants de nos concours soient open source, tout le monde peut utiliser ou développer les résultats, pas seulement les sponsors du concours, maximisant ainsi notre impact social. Nous avançons parfois des solutions de concurrence pour devenir des logiciels open source prêts à la production, comme Projet Zamba pour soutenir la surveillance de la faune et la CyFi outil de recherche de cyanobactéries pour les gestionnaires de l’eau. Beaucoup de nos concours également publier des données ouvertes après leur conclusion pour rendre possible la poursuite de la recherche et du développement. Tout code ouvert et toutes données ouvertes finissent en outre par devenir une ressource d’apprentissage qui renforce les capacités, non seulement dans la tâche particulière d’apprentissage automatique, mais également dans l’utilisation des données dans ce domaine d’application du bien social.

De plus, nous pensons qu’il est important de contribuer à l’ensemble des outils de science des données open source qui rendent notre travail possible. C’est pourquoi nous publions et maintenons outils open source que nous pensons pouvoir être généralement utiles comme notre modèle de projet de science des donnéesune bibliothèque Python pour accéder au stockage de fichiers dans le cloudou un outil de création de diagrammes pour les modèles de données. Plus que de simples outils, nous bénéficions également beaucoup de la large disponibilité de ressources d’apprentissage en science des données disponibles gratuitement en ligne, et nous contribuons souvent en retour avec des articles de blog utiles, d’un introduction aux données satellite à un guide de publication de packages Python à Tutoriels « Prise en main » pour nos concours.

2023-11-10 01:43:22
1699570583


#questions #avec #Jay #scientifique #principal #des #données #chez #DrivenData #Center #Data #Innovation

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.