Transcription de l'entretien
ARTHUR DERENNES
VP Data Engineering chez Artefact
"La modern data stack : Kezako et impact sur les métiers."
Qu’est-ce que la Modern Data Stack (MDS) et pourquoi cela va façonner le futur de l’industrie et la façon de travailler des ingénieurs. Une répercussion sur l’évolution des métiers data et les nouvelles technologies IA utilisées.
Emmanuel : Bonjour Arthur, bonjour Emmanuel. Peux-tu nous présenter un peu qui tu es et ton point de vue sur (00:30) la modern data stack ?
Arthur : Je suis Arthur Derennes. Le Modern Data Stack Qu’est-ce que ça veut dire ? Je suis responsable de l’équipe de développement logiciel chez Artefact en France, à Paris plus précisément. La Modern Data Stack que l’on adore, c’est un pilier aujourd’hui du nouvel écosystème data. Qu’est-ce que c’est en fait, qu’est-ce que ça veut dire ? Très simplement, c’est un nouvel ensemble d’outils pour collecter, stocker, transformer et exposer de la donnée à tout un tas de populations techniques, et moins techniques.
Emmanuel :Est-ce que tu aurais des exemples d’outils concrètement sur cette Modern Data Stack ?
Bien sûr. Alors, comme je disais, il y a quatre principaux piliers dans la data : il y a la collecte, le stockage, la transformation et la visualisation. En termes de collecte, on va avoir des outils comme par exemple Fivetran, Stitch, Airbyte, qu’on affectionne particulièrement. Au niveau du stockage, on a les dataware Modern Data Stack, les entrepôts de données modernes, à savoir par exemple Bequilleri, Snowflake, Redshift. Pour toute transformation associée à cette dataware, on va avoir des technologies comme Databrick, comme des BTS, comme DataForm par exemple. Et après, sur tout ce qui est visualisation, on va avoir des outils par exemple de maîtrise, Slayer qu’on appelle des outils vendeurs, de calculer des KPI un peu plus agrégés, des outils qui vont nous permettre de visualiser ces KPI. Comme par exemple, en maîtrise lateur, on peut penser à Métabase. En visualisation, on peut penser à Looker, on peut penser à Power BI, DataStudio.
(01:55) Emmanuel : Cela fait beaucoup d’outils et donc, comment ça se passe en pratique sur un projet? Comment ça transforme un projet de ton point de vue de VP?
Arthur : Alors, il y a trois grandes qualités à ce nouvel ensemble d’outils. Tout d’abord, ce qui est important de comprendre, c’est que la modern data stack est par définition, par essence, elle est cloud, donc avec tout ce que ça implique de bonnes propriétés, à savoir déjà la robustesse du cloud, puisque ce sont des outils qui se basent
(02:27) sur des technologies qui ont fait leurs preuves, d’ une disponibilité immédiate et souvent, il y a la roue du stress très importante, et 3, un modèle de pricing intéressant, puisque du coup qui dit cloud dit aussi serverless, ce qui permet en fait d’obtenir des modèles de pricing qui sont psgos, c’est à dire que fini le temps où on loue des machines à l’heure, maintenant, on paye au volume de données qu’on collecte. On va avoir des modèles par exemple qui vont nous faire payer à la ligne en stockage au Gigabyte
(03:00) stocker, puis procéder en fonction des différents outils, etc.
Emmanuel : Donc le pricing, le prix c’est important, forcément, mais est-ce que tu vois d’autres impacts que le pricing ?
Arthur : Alors oui, tout à fait effectivement, le fait d’être sur le Cloud permet d’accéder à d’autres avantages assez intéressants, et la plupart de ces outils sont aussi pensés avec l’intégration en tête. Quand je parle d’intégration, c’est des intégrations natives entre outils, par exemple, une stack marketing un peu classique avec du Google ou du Adobe, etc.
(03:29) Dans les outils de la Modern Data Stack, que ce soit des outils de collecte voire même des outils de visualisation, on va pouvoir retrouver en fait des connecteurs des façons de récupérer cette donnée et de l’exposer qui vont être déjà présentes dans ces outils par défaut. On peut penser notamment dans le processing à quelque chose d’assez intéressant, que fait notamment des BTS avec Fivetran dans cette intégration ou des BTS eux-mêmes ont des modules pour venir structurer de la donnée qui vient de Five, ce qui est hyper intéressant.
(03:58) Parce que, du coup, on économise tout ce travail de compréhension de la donnée, de restructuration, etc. pour la stocker dans l’entrepôt. Après, oui, donc pour l’expérience, c’est vrai que c’est vraiment beaucoup de bénéfices, mais est-ce que ces nouvelles technologies demandent de beaucoup travailler pour monter à bord? Alors l’avantage, c’est que ça ne va pas réinventer la roue. Déjà, on parlait d’expérience utilisateurs qui, du coup, vont permettre à notre boarding assez rapide des équipes sur ces outils.
(04:23) Là, parce que, du coup, par définition, ces outils vont être construits de façon à être ergonomiques, à être pris en main rapidement sans forcément avoir besoin de suivre des formations dédiées. Un deuxième point assez important, c’est que ces outils utilisent, pour la plupart, des interfaces qui sont déjà connues, notamment si on parle de traitement et de stockage. Les moteurs de stockage et de calculs qui tournent derrière ces outils vont venir s’interfacer avec
(04:50) du SQL, ou en tout cas une certaine, on va dire, saveur du SQL qui va être spécifique à un modèle système, mais l’interface reste standard. De même, pour, par exemple, Databrix, l’interface de choix reste un notebook en python, ce qui permet d’être tout à fait dans les standards de l’industrie. Donc, concrètement, coder des requêtes SQL et des notebooks, c’est ça, tout à fait, c’est merveilleux.
Un sujet aussi très intéressant que j’aimerais aborder c’est tout l’aspect d’acculturation à la data.
(05:17) L’idée, c’est que la Modern Data Stack, c’est un ensemble d’outils qui remet en fait la data au cœur des processus. Alors, la data, c’est une façon, en tout cas pour moi, c’est une façon un petit peu, on va dire, remise au goût du jour de parler d’information, d’informations en général. L’IT, ça a toujours été la science de la donnée. Maintenant, on a des outils très particuliers pour faire de l’analytics et pour pouvoir, en fait, faire comprendre à tout le monde dans un monde qui est.
(05:40) très digital, qui est très data en fait l’importance de la donnée et ça va toute cette stagne d’outils est aussi construite pour rendre la donnée plus accessible aux entreprises et aux organisations notamment en embarquant des fonctionnalités de Data gouvernance de data scalabilité de test de qualité de données etc toutes ces notions qui sont très très importantes aujourd’hui pour les entreprises ça fait quand même un gros changement et en termes de d’un point de vue plus de geek de codeur
(06:07) Comment tu expliquerais le changement que ça implique du point de vue du développeur? C’est assez intéressant aussi, parce que ce sont des outils qui sont modernes, qui ont été construits avec des pratiques modernes de développement elles-mêmes. Cela fait que l’expérience du développement va être mise un peu au centre aussi de l’outil, notamment ça va créer, ça va faire des outils qui vont être simples à utiliser, et qui sortent des plateformes très très complexes avec 150 000 options dans plein de menus cachés. »
(07:02) « Là, c’est souvent très très simple, très focus sur l’utilisateur. Et dans un second temps aussi, quelque chose de très important, c’est que ça permet d’aller plus vite, de développer plus vite avec des frameworks qui sont plus ergonomiques. Donc c’est vraiment hyper hyper efficace. Et comment tu vois justement la manière intacte d’un point de vue de transformation du métier de se faire ingénieur? Alors ça, c’est super intéressant et c’est pour ça qu’on aura aussi par la suite Brian nous disait et Chloé qui vont nous parler de comment cette galaxie d’outils va venir influencer leur métier. Mais tout simplement, ça crée de nouveaux métiers, ça crée une nouvelle pratique, notamment on pense aux nouveaux postes d’Analytics ingénieur qui est quelque chose qui revient de plus en plus en ce moment. Analytics, qu’est-ce que ça veut dire? On prend en fait l’ancienne dénomination de Business Intelligence, on lui colle dessus des outils modernes et ça devient du coup un métier plus riche. Du coup, l’analyse devient à la fois aussi garde son rôle d’analyse, mais il devient aussi quelque part un intégrateur, un développeur comme nous tous. Mais c’est un excellent teaser pour le prochain data coffee d’Olivier.
Emmanuel : Merci Arthur c’était hyper clair hyper intéressant en plus avec des teasers pour les prochains épisodes de ces data Coffes sur la modern data stack.