Big Data, Machine Learning : comment valoriser vos données ?

Il ne se passe pas une journée sans entendre ou lire un reportage économique dans lequel le mot magique est prononcé : « Data » ! Data Scientist, Data Intelligence, Data management et bien évidemment Big Data. Pour les rares personnes qui ne sont pas rebutées par ces termes et qui tendent un peu plus l’oreille, les notions de Machine Learning, Deep Learning ou Intelligence Artificielle arrivent souvent par le deuxième train des expressions à la mode.

Les experts en la matière n’apprendront rien (ou pas grand-chose) de cet article. L’idée de cet article est simplement de démystifier ces concepts pour les professionnels du commerce ou de l’industrie qui négligent trop souvent la mine d’or numérique qui sommeille au fond de leur système informatique et qui ne demande qu’à être utilisée.

Big Data à toutes les sauces

« Big data » : c’est sans doute le mot qui effraie le plus et qui fait fuir la plupart des gens normaux (c’est-à-dire ceux qui ne passent pas leur vie devant un ordinateur !). Très peu d’entreprises ou d’organisations n’ont à l’heure actuelle à se soucier du big data. On pourrait le traduire simplement par « beaucoup de données ». La progression de données numériques générées quotidiennement dans le monde est exponentielle. Il y a de plus en plus de données stockées et cela engendre à la fois problématiques et opportunités. Mais qu’on se rassure, pas besoins de disposer de milliards ou millions de données pour commencer à s’intéresser à leur potentiel. Quelques milliers de lignes peuvent déjà renfermer des informations cachées essentielles… Ce sont les data scientists qui peuvent les trouver et les valoriser !

Data Scientist : statisticien des temps modernes

Les « Data Scientists » sont à mi-chemin entre statistique et informatique. Ils utilisent la puissance de l’informatique pour appliquer des méthodes statistiques des plus éprouvées aux plus révolutionnaires ! Un data scientist est comme un ingénieur : il ne peut pas être spécialiste en tout mais il a l’état d’esprit et la formation pour analyser toute situation et trouver la solution la plus adaptée.

Intelligence Artificielle : du plus simple au plus complexe

Ces méthodes de modélisation éprouvées ou révolutionnaires sont regroupées sous le terme de « Intelligence Artificielle ». Une combinaison de mots étranges, mais ce n’est pas le débat. A l’inverse de ce que l’on pourrait penser, l’intelligence artificielle peut être d’une simplicité déconcertante. Une simple formule Excel sur un fichier clients qui dirait « SI la température prévue pendant le week-end dépasse 25° ALORS je fais une promotion sur les chapeaux SINON j’offre un pull pour 2 achetés » est déjà un petit algorithme qui rentre dans le cadre de l’Intelligence artificielle. Pas de quoi être effrayé. Mais bien sûr, on peut proposer des algorithmes plus sophistiqués et plus intéressants. C’est souvent à ce moment que l’on entend parler de « Machine Learning ».

Machine Learning : l’apprentissage presque automatique

J’aime à expliquer aux professionnels du marketing et de la communication que le « Machine Learning » n’est ni plus ni moins qu’une super régression ! Rappelez-vous les cours de mathématiques au collège. Une régression consiste à faire passer une ligne (droite ou courbe) au plus proche d’une série de points. Cette ligne, c’est le modèle ou la prédiction : le résultat de l’algorithme. On peut en trouver plusieurs, et on peut noter leur pertinence, c’est-à-dire évaluer si elle passe suffisamment proche des points. Le Data Scientist pourra alors choisir le meilleur modèle en fonction des scores obtenus. Je vous ai parlé de « super régression ». Il existe des dizaines de méthodes pour faire des régressions ou des classifications (bon vin ou vin médiocre ?) en fonction de la structure et de la taille des données disponibles. C’est cela le « machine learning » ou « apprentissage automatique » en français. Pourquoi apprentissage ? Parce que l’ordinateur calcule lui-même les paramètres de l’équation.

Deep learning : c’est l’ordinateur qui choisit !

Mais dans l’exemple ci-dessus, c’est l’humain qui détermine les variables sur lesquels faire les calculs (par exemple : nombre de commandes dans le mois, date de la dernière commande, montant de chaque commande etc.). Lorsque c’est l’ordinateur qui choisit les variables significatives pour faire sa modélisation, on parle de « Deep Learning ». Pour faire simple, il est impossible pour un humain de définir de manière exhaustive ce qui fait la différence entre une image de chien et une image de chat. C’est ce que permettent de faire les algorithmes tels que les réseaux de neurones qui rentrent dans le cadre du « Deep Learning », particulièrement adapté et puissant pour faire de la reconnaissance automatique d’images ou classifier du texte (spam ou pas ? propos haineux ou pas ? etc.).

Data Intelligence et Data Management

Le Data Management est simplement la gestion industrialisée de vos bases de données. Très orienté IT, un bon data manager vous permettra de disposer de données bien structurées et facilement accessibles, véritable carburant de vos modèles. Comment disent les anglo-saxons : « garbage in, garbage out », qu’on peut traduire poliment par « poubelle en entrée, poubelle en sortie ».

La Data Intelligence est finalement un état d’esprit… utiliser (a minima) intelligemment (c’est encore mieux) ses données pour extraire de la valeur et accompagner ses décisions en cohérence avec sa ligne stratégique : c’est ce que nous prônons à nos clients.

En conclusion

Chez 37.5 nous ciblons notre offre autour du « Machine Learning » pour créer des modèles prédictifs apportant une valeur ajoutée sur des bases de données qui ne nécessitent pas forcément des millions de lignes. La partie gestion des données, stockage et infrastructure peut également être assurée par nos partenaires. C’est le terrain de jeu des « Data Engineers » ou « Data Managers ».


Nicolas CLÉMENT

Consultant Data Intelligence

Limagrain