▷ Les facteurs clés de succès d’un projet de data visualisation

Home » Économie » ▷ Les facteurs clés de succès d’un projet de data visualisation

Les équipes data d’une entreprise manipulent des quantités de données importantes. Beaucoup ont vocation à être restituées à des équipes opérationnelles afin de leur donner une vision quantitative de leur contexte pour appuyer leur prise de décisions. Quels sont alors les bons réflexes et les bonnes méthodes à adopter pour réussir son projet de data visualisation ?

Choisir une représentation efficace est un élément essentiel pour faciliter cette prise de décision. La disposition, les choix de représentation des différents KPIs, et les fonctionnalités de navigation proposées peuvent faire toute la différence entre un outil intuitif qui facilite la lecture d’un contexte, et un format tabulaire qui ne permet pas d’apprécier d’un coup d’œil une tendance ou un contexte.

Cependant, les projets de data visualisation sont régulièrement sous-estimés, et donnent lieu à de nombreux échecs. Comment les éviter et envisager à la fois les aspects métiers et techniques du projet ?

Métier : l’approche product design

90% du travail sur un projet de data visualisation se déroule avant même de toucher à un outil de Business Intelligence ou de faire appel à des compétences de développement en data visualisation.

1^èreétape : cadrer le besoin et définir les méthodes de suivi et la gouvernance autour du projet

La première étape est fondamentale dans la réussite d’un projet de Data Visualisation. Il s’agit de définir la roadmap du projet :

Déterminer les besoins des utilisateurs finaux ;
Identifier les profils et compétences nécessaires à la bonne conduite du projet ;
Définir un calendrier précis permettant d’engager les équipes sur des échéances réalistes ;
Constituer un RACI [1] autour du projet, afin d’éviter les doublons ou les trous de responsabilité.

2e étape : bien définir les métriques et dimensions qui seront utilisées

Une métrique est une valeur numérique et une dimension peut être associée à des valeurs de différents formats. La définition de chacune doit se faire de manière itérative entre deux aspects clés et indissociables :

La constitution d’une nomenclature de métriques et dimensions : définir les métriques, leurs méthodes de calculs, les granularités temporelles souhaitées, les dimensions d’observation, et faire valider le tout par l’ensemble des parties prenantes afin d’éviter un conflit d’interprétation a posteriori ;
La mise en place d’un audit de la donnée confirmant si les métriques et dimensions, telles que souhaitées, sont réellement disponibles ou calculables.

L’ensemble de ce travail pourra par ailleurs s’appuyer sur – ou nourrir – un dictionnaire de données déjà présent – ou à construire – dans l’entreprise.

3e étape : créer une maquette avant de produire

Parfois un outil de maquettage dynamique est nécessaire, parfois un simple slide sur Powerpoint peut suffire.

Cet exercice est vertueux sur de nombreux aspects car il permet :

Sur le fond, de s’assurer, par des logiques d’itérations avec les utilisateurs finaux, de la bonne correspondance entre le besoin exprimé et la réponse apportée, et ainsi garantir une bonne adoption de l’outil in fine.
Sur la forme, de co-concevoir avec les utilisateurs finaux une interface efficace que les équipes métiers pourront rapidement s’approprier.
De ne pas perdre de temps lors d’allers-retours une fois l’outil en production.
De révéler parfois des besoins métiers qui n’avaient pas été clairement exprimés en phase de définition.

4e étape : ne pas hésiter à découper un projet de data visualisation en plusieurs lots

L’ensemble de ces phases préparatoires peuvent en effet être coûteuses en temps.

Tech : la partie immergée de l’iceberg

Architecture des données : datalake, data warehouse et datamart

L’architecture de données ne doit pas être sous-estimée.

Les entrepôt de données est composé de trois couches :

La couche mise en scène stocke les données des systèmes sources sans aucun retraitement. Cette couche peut être appelée lac de donnéesles couches du dessus data lakehouse.
Le modèle central va lui organiser les données, donner un langage commun à des champs issus de sources différentes mais qui représentent la même information ; c’est l’élément le plus critique du entrepôt de données.
Les datamarts vont faciliter l’exploitation.

Ce sont eux qui feront la différence dans la qualité et la durabilité des visualisations qui seront construites dans cette logique.

La question de la qualité des données

Qualité “interne”

Des règles basiques de surveillance des données internes peuvent être appliquées : monitoring de la volumétrie des données reçues et validation des données entre chaque couche du entrepôt de données.

Plusieurs étapes constituent une démarche de mise en qualité :

Définir des indicateurs de qualité sur la donnée :
- Les règles techniques : la donnée est-elle disponible ? Est-elle unique ? Répond-elle aux nomenclatures définies ?
- Les règles métier : sa fraîcheur permet-elle d’en déduire des enseignements cohérents ? Sa valeur est-elle cohérente d’un point de vue métier ?
Produire des rapports de qualité de données qui permettent de montrer une vue par catégorie de données et une vue par outil afin de pouvoir prioriser et cibler les actions de mise en qualité.
Mettre en place des processus et des instances de mise en qualité de la donnée afin de suivre l’évolution de la qualité de la donnée et d’identifier des actions de remédiations.

Référentiels

Les données référentielles sont utilisées pour faire correspondre les informations issues de différents systèmes. Dans l’idéal, ces référentiels doivent être poussés au plus près de la création des données, donc dans les systèmes sources, mais cette approche demande une gouvernance très forte entre les responsables de chacun des systèmes sources. On peut intégrer ces référentiels dans le entrepôt de donnéeset alléger la charge de gouvernance.

Catalogues de données

Exposer les données contenues dans le entrepôt de données permet à chacun de venir consulter celles disponibles dans le modèle central et dans les datamarts. Cet outil sert le double objectif de lister les données disponibles et de mettre en évidence un manque ou un problème de qualité le cas échéant.

La mise en place de ce catalogue de données permet de :

Faciliter la découverte : inclure des fonctionnalités de recherche, de profilage, de détection des données identifiantes, voire de demandes auprès de la communauté de sachants. Sa prise en main doit être facile pour tous.
Maintenir une connaissance à jour : privilégier un outil dynamique qui permet d’importer et d’indexer les tables de données automatiquement avec des mises à jour récurrentes afin d’éviter l’écueil d’une démarche uniquement déclarative.
Générer de la confiance : permettre aux utilisateurs de comprendre le contexte de la donnée, de contribuer avec des commentaires, voire de noter des ensembles de données.
S’intégrer aux parcours des utilisateurs de la donnée : mettre en place des passerelles avec les autres outils.

De nombreux projets de gouvernance de la donnée n’aboutissent pas à cause de cartographies faites sur des supports Powerpoint ou Excel dont la mise à jour, l’utilisation et le partage sont grandement limités.

Fonctionnalités avancées et choix d’outils

La plupart des outils habituels du marché remplissent sensiblement les mêmes fonctionnalités. Néanmoins, quelques fonctions permettent de servir des objectifs encore plus ambitieux et dont l’évaluation peut permettre de faire pencher la balance vers l’un ou l’autre des outils du marché, ou au contraire de pousser à adopter une logique de make vs. buy si l’ADN technique de l’entreprise est prépondérant. Ces fonctions doivent être également adressées dans leur détail lors de la phase de la conception des produits pour une vision complète du produit.

Ingénierie des fonctionnalités

Ce sujet s’adresse aux organisations pour lesquelles le apprentissage automatique fait partie du quotidien. Il peut être alors intéressant de regrouper certaines caractéristiques ou de les transformer pour des raisons propres aux modèles utilisés.

ETL inversé

Si la visualisation tient correctement son rôle, elle doit permettre à l’utilisateur de prendre une décision, et donc dans certains contextes d’initier une nouvelle action, comme créer par la suite un segment dans son outil CRM. Cette fonctionnalité permet d’automatiser et d’accélérer des processus qui peuvent mobiliser plusieurs équipes et prendre plusieurs jours.

Réécriture

La réécriture consiste à permettre à un utilisateur de modifier les données du ECS à partir de son tableau de bord ; on est finalement à mi-chemin entre le ingénierie des fonctionnalités et le ETL inversé. Cette fonctionnalité ne doit pas être oubliée lors des ateliers de la conception des produits ; des cas d’usages insoupçonnés jusqu’ici pourront émerger.

La démarche de design produit, à savoir prendre le temps de se mettre à la place de l’utilisateur final, de formaliser les objectifs que l’on souhaite atteindre, de maquetter la mise en forme et de formuler les fonctionnalités souhaitées, permettra de partager une vision commune à l’ensemble des parties prenantes sur ces projets.

Les aspects plus techniques comme les caractéristiques de l’outil choisi ou l’architecture de données seront des éléments facilitateurs pour atteindre l’objectif et permettront de pérenniser les assets technologiques, mais il est toujours sain de se rappeler que la technique travaille pour le métier et non l’inverse !

[1] La matrice RACI est un outil permettant de définir les responsabilités et les rôles de chaque acteur d’un processus ou d’un projet.

A propos de l’auteur

Thibault Lefèvre (à gacuhe) : Expert des sujets d’architecture et d’exploitation de données, Thibault est Senior Lead Data chez Converteo. Il a rejoint Convertéo en 2020 où il apporte sa contribution sur les sujets Data Engineering / Ops / Science et les programmes de transformation digitale par la donnée.

Thomas Dubois (à droite) : Expert des sujets de data visualisation et data engineering. Thomas est Senior Manager au sein de la practice Data Business Consulting chez Converteo.

Les aliments riches en graisses augmentent le risque d’anxiété

KOMPAS.com – Un régime riche en graisses peut affecter la santé du cerveau et provoquer des changements

Biden à Camp David avec sa famille alors que les démocrates évaluent l’impact suite à un débat calamiteux – The Irish Times

La tourmente et l’incertitude continuent de tourbillonner autour du Parti démocrate alors qu’il cherche à se rassurer

Nouvelles Du Monde