> Accueil / data intelligence, bi et cloud / Les Instants Infeeny : Analyse...
Les Instants Infeeny : Analyse prédictive
Avec l'analyse prédictive et prescriptive, tirez profit de votre patrimoine de données pour changer votre métier
Comprendre la notion d'analyse prédictive et prescriptive
Découvrir des cas d'application
Comment Infeeny vous aide
Les Instants Infeeny : Analyse prédictive et Machine Learning
Echange chez Infeeny autour de l’analyse prédictive et du Machine Learning
Les instants Infeeny : Machine Learning, analyse descriptive et prescriptive dans l’environnement Microsoft Azure
Grâce aux algorithmes mathématiques et à la puissance du Cloud, il est maintenant possible de faire plus dans la prise de décision et de se “projeter dans le temps” plus efficacement.
Transcription de l’interview vidéo
Les Instants Infeeny : Analyse prédictive et Machine Learning avec Microsoft azure
Hubert de Charnacé, Président Infeeny & Paul Peton, Consultant Senior de la Practice Data Experience
Hubert : Paul bonjour. Tu t’occupes de la Data Science chez nous. L’idée d’utiliser au maximum les données d’entreprise pour prendre des décisions. Est-ce que tu pourrais nous expliquer l’Advanced Analytics ? Est-ce que tu pourrais nous expliquer l’historique des principes et ce que c’est ?
Paul : Alors je vais revenir, si tu veux bien Hubert, d’abord sur cette idée d’intelligence artificielle qui est aujourd’hui peut-être le terme que l’on retrouve le plus dans les communications qui peuvent être faites autour de la donnée. Et ce qu’il faut bien voir derrière cette intelligence artificielle, derrière ces chatbots qui sont souvent la vitrine de ce type de méthodes c’est que derrière tout ça il va falloir apprendre de la donnée. Il va falloir trouver une intelligence dans la donnée et ces mécanismes d’intelligence ce sont effectivement les méthodes de Data Science aujourd’hui, alors plus particulièrement ce qu’on appelle le Machine Learning, qui vont permettre de rendre ces robots intelligents, de leur donner des conversations qui sont enrichissantes et de déployer comme ça une intelligence au travers d’une interface.
Hubert : D’accord. Et si on remonte dans le temps quel est l’historique ?
Paul : Alors effectivement ce sont des méthodes qui s’appuient en fait sur tout un passé mathématique qui est presque quasi millénaire, sur des méthodes statistiques qui se sont développées petit à petit au cours du dernier siècle et toutes ces méthodes-là finalement aujourd’hui bénéficient d’un essor considérable depuis on va dire le début des années 2010 grâce à l’arrivée du Big Data. Le Big Data disons que c’est à la fois des technologies, des capacités, des ressources machines qui explosent complètement grâce à cette idée de distribution de calcul globalement et à la fois aussi des volumes de données qui sont de plus en plus importants. Et tout ça va nous constituer finalement un terrain d’apprentissage, on va retrouver très souvent cette idée d’apprendre à un algorithme, qui va apprendre de la donnée, qui va apprendre du passé et tout ce terrain-là donc propre au Big Data va faire qu’aujourd’hui les méthodes de Machine Learning, de Data Science explosent complètement en termes de réussite, en termes de qualité résultats.
Hubert : D’accord. Donc il y a vraiment l’idée de dire l’entreprise a des données et si elle sait les utiliser pour se projeter, pour comprendre sa vie et pour aller plus loin elle peut en tirer un intérêt stratégique. Est-ce que tu peux réintégrer, réinstaller la Data Science dans la notion d’usage de la donnée ?
Paul : Exactement parce qu’on sait aujourd’hui que dans la plupart des entreprises on a une information traitée dans une chaîne décisionnelle. On parle de Business Intelligence et ça, ça fait quand même aller on va dire peut-être une vingtaine d’années que c’est en essor et que c’est aujourd’hui très implanté dans des stratégies de reporting, de dashboard, de tableau de bord… Tout ça aujourd’hui c’est une vision des données qu’on pourrait presque qualifier de vision dans le rétroviseur c’est-à-dire qu’on regarde, alors même si c’est à très court terme, on regarde ce qui s’est passé et on se pose des questions… « Pourquoi est-ce que tel client m’a quitté ? », « Pourquoi tel produit s’est mieux vendu ? », « Pourquoi telle campagne marketing a bien fonctionnée ? » … Donc ces réponses aujourd’hui on peut les trouver et on est vraiment dans la recherche d’explications au travers de la donnée. Mais ce que nous apporte aujourd’hui la Data Science au travers justement de l’essor de ces nouvelles technologies c’est cette idée de regarder plus en avant et de commencer à prédire le futur. Donc se poser ici finalement la question de « que suis-je en droit d’attendre pour mon entreprise dans les jours à venir, dans les semaines à venir ? » et « comment puis-je faire pour, moi, agir sur le futur ? ». Donc c’est-à-dire d’être ici dans une idée prescriptive. On va parler, donc tu citais le terme d’Advanced Analytics, on parle aussi d’analyse prédictive et nous allons pousser vers l’analyse qu’on appelle prescriptive c’est-à-dire vraiment donner des clés pour que le futur se passe mieux.
Hubert : D’accord. Dans ce que tu m’as expliqué il y a aussi cette idée que puisqu’on peut prescrire on peut aussi faire des choses plus automatiques ? C’est-à-dire essayer de dire que cette prescription se réintègre dans le système d’information pour agir directement sur le système d’information ?
Paul : Exactement. Parce que tu disais que l’entreprise aujourd’hui est déjà pilotée par la donnée au travers de sa chaîne décisionnelle et l’objectif est bien sûr de passer de la donnée à la prise de décision. La prise de décision étant aidée justement par l’information recueillie. Ce que va apporter la Data Science ici c’est une prise de décision beaucoup plus rapide, voire carrément automatiser. On va avoir cette idée d’avoir des algorithmes donc des modèles mathématiques en quelque sorte qui vont nous aider à transformer la donnée très rapidement en prise de décision. Et cette prise de décision très concrètement elle peut se faire par exemple sur l’envoi d’un mail à un client qu’on sent peut-être en rupture, ou un arrêt de chaîne de production si on voit qu’on peut avoir une dérive de qualité… Donc tout ça nous aide à automatiser la prise de décision.
Hubert : D’accord. C’est intéressant d’avoir des exemples. Là tu en as donné deux, est-ce que tu en as d’autres qui pourraient être parlant ? Et qui pourraient essayer de nous permettre de nous projeter dans des cas d’utilisation ?
Paul : Alors je citais en effet à l’instant cet exemple qu’on appelle le churn ou l’attrition en marketing, donc le fait qu’un client quitte… le risque de perdre un client. Ça, ça fait beaucoup de temps que ça existe, on parlait de scoring. Ce qui change aujourd’hui avec les nouveaux outils et ces capacités qu’on a de traitement c’est qu’on va être en capacité de détecter très vite les clients à risque. Peut-être par exemple en regardant les événements des dernières 24h on va prédire les clients qui nous quitteront demain. Alors qu’auparavant on faisait des modèles peut-être sur 3 à 6 mois et on les remettait à jour périodiquement. Aujourd’hui on est vraiment dans un quasi temps réel pour détecter ces clients à risque. Autre exemple et on parle ici souvent d’industrie 4.0, c’est tout ce qu’on va traiter autour de la maintenance prédictive. On peut imaginer voilà une imprimante qui est en disfonctionnement dans une entreprise. Pour traiter cette imprimante, le recueil de données qui aura été fait au préalable va peut-être aider le technicien à partir avec les bons outils, la bonne pièce de rechange parce qu’on aura finalement identifier ou en tout cas donner une classification de la panne potentielle. Donc ça bien sûr c’est déjà trop tard mais on peut même pousser l’analyse prédictive en essayant de détecter le matériel qui sera défaillant et en allant du coup… le technicien peut voilà faire une visite préventive cette fois-ci pour éviter la panne. Donc voici deux premiers exemples. On va si on se rapproche par exemple d’une DSI au sein d’une entreprise avec aujourd’hui l’émergence du Cloud on va être vraiment sur des problématiques de gestion des ressources, on parle de « capacity planning ». Ces ressources là on les connait, on connait leur utilisation dans le passé donc à nouveau ici ces méthodes de Machine Learning, nos algorithmes vont nous aider à prédire les besoins en ressources et donc du coup à dimensionner notre Cloud. Et on sait que c’est aujourd’hui fondamental de bien dimensionner ses ressources par rapport au besoin. On trouve aussi des méthodes d’analyse avancée en termes de données RH, toujours dans l’entreprise, et là on va aller vers des données qu’on appelle données non structurées c’est-à-dire que si vous imaginez une pile de CV sur le coin du bureau et bien tous ces CV ce sont de la donnée textuelle, c’est de la donnée qu’il va falloir comprendre, retraitée pour ensuite pouvoir passer des méthodes un peu plus classiques d’analyse. Mais tout ça aujourd’hui se fait très bien, on a cette idée de requalification, de restructuration de la donnée pour la mettre à disposition de nos algorithmes.
Hubert : Dans les démonstrations que je t’ai vu faire il y a aussi un scénario assez intéressant sur des personnes qui souhaitent voyager et l’idée c’est de les aider à faire un choix et que ce choix soit le plus intelligent possible, même s’il est automatique…
Paul : Oui. On va parler ici en fait des algorithmes de recommandation qui sont assez connus si vous consommer de la vidéo en VOD où on a des grands acteurs du e-commerce qui annoncent d’ailleurs avoir des gains de chiffre d’affaires phénoménaux grâce à cette idée de recommander les meilleurs produits. Donc tout ça ce sont effectivement des méthodes de Data Science qui se basent par exemple sur des profils similaires et on a effectivement une démonstration qu’on donne dans les événements Cafés Data chez Infeeny qui est la recommandation de la prochaine destination pour un utilisateur d’un site de voyage.
Hubert : Dans tout ce que l’on dit, effectivement, il y a l’idée d’utiliser la richesse de la donnée d’une entreprise et il y a aussi cette notion du temps. Donc en fait on veut agir le plus tôt possible. C’est un ressenti qu’on a. C’est qu’effectivement on essaie de faire les choses dans un temps le plus court possible. Est-ce que c’est une … ?
Paul : Oui effectivement c’est un point central alors dans le Big Data et puis dans la Data Science. On sait, c’est ça déjà avec la BI, on sait que l’on a cette notion de vraiment de viser le temps réel pour avoir l’information la plus fraîche possible. C’est également le besoin qu’on a dans les prévisions, on va souhaiter pouvoir intervenir suffisamment à temps donc il faut que nos prévisions nous arrivent très vite et c’est vraiment une notion fondamentale et un des bénéfices attendus de la Data Science.
Hubert : Et je suppose que cela à un impact sur les choix technologiques puisque pour décider rapidement ou se projeter dans le futur rapidement il faut aussi une infrastructure technique adaptée. Est-ce que tu peux nous parler du pendant technologique ? Comment on fait ? Comment on arrive à mettre en place de l’Advanced Analytics efficace dans une entreprise ?
Paul : Alors on a aujourd’hui des besoins d’architecture qui vont pour répondre à ces éléments de temps réel ou de traitement de gros volumes de données et là je reviens sur la discussion que l’on avait tout à l’heure autour de la BI. On s’est dis donc que justement Décisionnel, Advanced Analytics, Data Science tout ça c’était du traitement de la donnée et ça s’inscrivait dans un processus commun finalement d’aide à la décision. Là où on va apporter nous peut-être un regard plus technique sur le type d’architecture c’est qu’il va falloir éviter ici de se couper finalement du potentiel de la Data Science. Par là je veux dire que quand on agrège la donnée on regroupe, on perd peut-être finalement de l’information nécessaire à nos modèles prédictifs. C’est une idée forte en Data Science que plus la donnée est fine, plus elle est brute finalement, plus elle est proche de sa source meilleure sera notre prévision. Et ici la conséquence technologique, et on le voit d’ailleurs sur le marché, c’est l’arrivée du Data Lake, le « lac de données » donc cette idée vraiment de stocker l’information de manière horizontale, complètement à plat, pas de hiérarchie, et d’avoir cette historisation qui permet d’aller piocher à la demande les données nécessaires pour nos modèles.
Hubert : C’est ne pas se donner de contraintes dans le stockage de la donnée pour être créatif ?
Paul : Ne s’interdire aucune analyse à partir de nos données parce qu’on aura justement les idées, on le verra dans la démarche de la Data Science, ces idées viennent aussi des découvertes qui sont faites dans la donnée qui nous donne de nouvelles idées pour aller creuser à nouveau l’information.
Hubert : Tu me disais aussi que l’on n’est pas obligé non plus de mettre en place une architecture très complexe pour démarrer un projet de Data Science
Paul : Alors voilà et c’est un point que je voulais évoquer avec toi et qui est une force aujourd’hui de l’offre Microsoft… Et alors je vais peut-être te surprendre mais je vais parler de Microsoft et en même temps te parler d’Open Source. Ce qui n’aurait peut-être pas été le cas il y a encore quelques années et ce qu’il faut voir aujourd’hui au travers de tous les grands outils Microsoft dédiés à la Data c’est qu’on va retrouver les deux produits phares aujourd’hui, les deux langages phares de la programmation Open Source qui sont R et Python. Deux langages qui se partagent aujourd’hui vraiment… Le métier de Data Scientist c’est aujourd’hui de programmer en R ou en Python principalement et ces langages-là sont aujourd’hui présents dans la quasi-totalité des plateformes Microsoft. Et je vais te citer celle qui est peut-être la plus connue dans le domaine de la BI ou de la Data en entreprise c’est la solution SQL Server. SQL Server depuis sa version 2016 accepte justement de lancer des algorithmes et on va parler ici de « In Database Analytics » c’est-à-dire que vraiment le changement de modèle c’est de lancer le traitement de la donnée et le traitement avancé de la donnée directement sur la base. Donc ce qu’il faut voir ici concrètement c’est que pour des entreprises aujourd’hui qui ont déjà positionné cette architecture SQL Server il n’y a absolument aucun changement d’architecture.
Hubert : On a déjà travaillé sur le fait de stocker sa donnée à des fin de pilotage ou de décision. On peut partir de ce point là et mettre des statistiques, mettre des algorithmes, écrire des algorithmes et chercher à prédire des choses en fait. C’est ça ce que tu veux dire ?
Paul : Voilà et on va passer ces algorithmes directement sur les données avec un gain de performance vraiment conséquent. On parlait il y a encore une bonne dizaine d’années de Data Mining et justement on avait ces pistes prédictives, ces algorithmes. La différence c’était qu’on travaillait sur un échantillon. On allait sortir quelques données en faisant l’hypothèse qu’après les conclusions s’appliquaient à l’ensemble de l’information. Aujourd’hui on profite justement d’avoir ces technologies qui nous permettent de prendre toutes les données comme terrain de jeu.
Hubert : D’accord. Donc ça, tu parlais de SQL Server, et donc effectivement on peut le faire dans SQL Server. On a aussi toute la force du Cloud donc d’Azure et donc Azure permet aussi de diminuer le temps parce qu’on va effectivement avoir accès à une puissance de calcul forte. C’est ça ? Donc ça peut être une deuxième étape ? Ça peut être un choix à faire initialement ? Mais on peut dans l’offre de Microsoft aussi partir avec Azure ?
Paul : Oui
Hubert : Et donc est-ce que tu peux nous compléter un petit peu une vision de ce que peut nous offrir Azure dans le cas d’un projet Data Science ?
Paul : Alors le terme d’étape que tu emploies est bien choisi parce qu’à mon avis il faut vraiment voir la chose comme une progression. On va pouvoir toujours, ça reste vrai, on va pouvoir toujours analyser la donnée peut-être sur une extraction simple, se faire déjà une première idée, valider des hypothèses qu’on peut avoir sur la formation. Ensuite comme on l’a dit avec SQL Server on aura cette idée de tout de suite passer nos algorithmes mais en restant sur l’architecture interne de l’entreprise et quand cette étape là atteindra ses limites on ira chercher toute la puissance du Cloud. Et là ce que le Cloud va nous offrir c’est à la fois ce dimensionnement des ressources nécessaires pour de très gros volumes mais aussi cette idée d’aller chercher des sources de données un petit peu plus originales, peut-être aujourd’hui pour l’entreprise traditionnelle, que peuvent être des flux vidéo ou du son, du texte et toutes ces données là vont trouver leur terrain de jeu sur le Cloud.
Hubert : Dans le Cloud Azure on aura beaucoup plus de possibilités de mélanger des choses. On pourra créer un Data Lake, ce que tu disais tout à l’heure, donc un stockage de la donnée sans limite. Et puis on aura toute la capacité de mettre en place tous les algorithmes qui permettent de répondre à des scénarios jusqu’à des scénarios automatiques. C’est ça ? Est-ce que j’ai bien résumé ?
Paul : C’est ça ! Et alors la dernière brique qui va manquer pour avoir vraiment ce scénario complètement automatique ce sera tout simplement, d’une manière assez classique finalement, des web services, des APIs, donc qui vont communiquer une fois que les résultats seront obtenus… Ces web services vont nous permettre de communiquer et d’obtenir des réponses en temps réel. Des nouvelles données arrivent, le modèle les évalue. Alors ça peut être par exemple un risque de fraude, ça peut être une catégorisation d’un nouveau client qui rejoint une société et derrière la prévision, la donnée avancée, le résultat du modèle est obtenu.
Hubert : D’accord. Et il est exposé aux autres applications qui peuvent l’utiliser pour agir, pour en tirer un bénéfice. Très bien. Si jamais, voilà, je veux me lancer dedans et je fais appel à tes compétences, à tes équipes, la première phase, rapidement, c’est quoi ? C’est d’imaginer, de dialoguer, de… ?
Paul : On va toujours inscrire nos projets de Data Science dans la chaîne de création de valeur de l’entreprise, de l’organisation. Et pour ça on va vraiment commencer par échanger, travailler avec les métiers sur l’émergence de problématiques. Alors des problématiques pour le coup très concrètes pour l’entreprise mais que nous, avec notre regard de Data Scientist, nous allons reformuler sous forme d’algorithmes et proposer derrière des résultats de ces méthodes.
Hubert : Oui commencer à tester des scénarios essayer de créer et puis après on continue j’imagine la chaîne…
Paul : Et ensuite on continue la phase d’industrialisation si les scénarios sont validés.
Hubert : Très bien. Et bien écoute merci beaucoup Paul
Comment démarrer ?
+ de 300 personnes à votre disposition, n'hésitez pas, contactez-nous !
Parlons ensemble de votre objectif et des outils et solutions qui peuvent vous permettre d'y répondre.