Retour

7 octobre 2019

DataOps : le « Not Only » DevOps pour l’Analytics

Digital Factory

DataOps Suisse SERIAL Geneve

Depuis plus de 2 ans, SERIAL fait partie de la Positive Thinking Company, un écosystème de 9 marques aux univers complémentaires. Parmis ces entités figure BGFi, qui développe une expertise en Data & Analytics depuis 2002, et qui a la particularité de compter dans ses rangs des anciens de SERIAL avec Sébastien Peyron (Analytics Domain Leader) et Cédric Antonini (Responsable Marketing).
Nos liens et notre passé professionnel nous permettent ainsi de pouvoir oeuvrer ensemble sur des problématiques communes. Nous sommes ainsi très heureux de vous proposer cet article dédié au DataOps, le « petit-frère » du DevOps qui nous est si cher à SERIAL.



Comment imaginer d’attendre dix-huit mois entre la conception d’un modèle prédictif et sa mise en production alors que les données qui l’alimentent changent tous les jours ? Bienvenue dans l’ère du DataOps, qui s’inspire des méthodes issues du DevOps, de l’Agile et du Lean pour favoriser une exploitation rapide et efficace de la donnée.

Dans ses prédictions 2019, Gartner affirme qu’en 2022, 80% des informations issues de l’analyse de données ne produiront encore aucun résultat opérationnel concret. Le tableau peut sembler pessimiste, mais il illustre bien les difficultés posées par le développement d’une application d’analyse de données.

Not Only DevOps

On y retrouve en premier lieu toutes les problématiques traditionnelles du développement logiciel couvertes par les méthodologies Agile et DevOps, auxquelles viennent s’ajouter toutes les considérations liées au travail d’analyse des données. Un outil d’aide à la décision ne peut en effet fonctionner efficacement que s’il est ajusté en permanence et mis à jour pour correspondre à la fois aux données fournies en entrée et aux besoins de l’utilisateur métier.

Ces contraintes inhérentes au monde de l’analyse de données ont un impact direct sur le développement : elles entraînent une modification régulière du code et de sa mise en production. Cette agilité suppose également la mise en place de contrôles, pour vérifier l’évolution de la qualité au fil du temps.

La culture DataOps réunit l’ensemble des outils et méthodes visant à adresser ces problématiques. Comme la culture DevOps dont elle découle, elle ambitionne d’améliorer la rapidité de livraison et la qualité des applications, mais elle ne se limite pas aux phases de développement, d’intégration, de tests et de déploiement : elle englobe également les aspects liés à l’orchestration des données ainsi qu’à la supervision des résultats.

Les trois volets du DataOps

Le DataOps invoque en premier lieu la méthode de développement Agile. Il applique au travail analytique des pratiques comme le versioning ou l’utilisation d’un référentiel commun, qui permettent de gérer de façon plus dynamique le projet en fonction des priorités business et des retours utilisateurs. Le passage de l’environnement de développement à la production se fait de façon régulière, sur un mode itératif, comme avec du code applicatif traditionnel.

Il emprunte ensuite au DevOps son approche collaborative. Dans une équipe DataOps, les data scientists qui conçoivent les modèles travaillent donc en lien direct avec les data engineers qui leur donnent corps, mais aussi avec les équipes en charge de la production et les utilisateurs qui valideront en fin de parcours l’efficacité de la démarche. L’axe technique englobe quant à lui l’ensemble des leviers traditionnels liés à la livraison continue, de la création d’environnements préconfigurés au déploiement automatisé.

La maîtrise statistique des processus (Statistical Process Control, ou SPC) représente le troisième volet du DataOps. Inspirée par le lean manufacturing, cette brique réunit l’ensemble des techniques qui vont permettre de vérifier la qualité des résultats fournis par l’application. Elle permet une supervision constante des traitements et donne l’alerte dès qu’un résultat s’écarte de façon anormale des prévisions attendues.

Vers une culture data-driven

Ces trois volets participent à la constitution d’un véritable flux de données qui part de l’alimentation du data lake pour aller jusqu’au consommateur final. Les outils d’orchestration et d’automatisation y sont mis au service de la collaboration pour garantir à la fois la rapidité de livraison et les performances du modèle analytique. Le DataOps devient ainsi le pilier d’une véritable gouvernance de la donnée à l’échelle de l’entreprise.

Par Sébastien Peyron (BGFi)

Articles de la même catégorie

carre1 carre2 circle1 circle2 circle3 triangle1 triangle2 triangle3