Collecter, traiter et exploiter les données : introduction au Data Mining.

Tout récemment, les étudiants en Mastère 1 Big Data & IA à Bordeaux ont participé au module Data Mining enseigné par Antoine Girard. Ce module se positionne au cœur des enseignements techniques de leur cursus, à l’image de modules connexes type Machine Learning, Hadoop ou encore Extraction et Transformation de la donnée.

Au même titre que le module de Pentest abordé dans un article précédent, on entre avec le Data Mining dans des enseignements experts et très techniques qui nécessitent un niveau avancé dans leurs domaines respectifs.

C’est pourquoi, nous avons fait appel à Antoine Girard afin de vous expliquer en quoi consiste son cours et de vulgariser les enjeux de ces pratiques.

Commençons par le commencement : qu'est ce que le Data Mining ?

La définition du Data Mining peut varier un petit peu. Comme je dis à mes étudiants, c’est un terme qui était à la mode il y a 10 ans. Et à cette époque-là, toutes les personnes qui travaillaient dans la data faisaient du Data Mining. Dorénavant, le terme est un peu tombé en désuétude, et on parle plus de Data science. Les frontières sont assez floues et il y a un peu de subjectivité sur ce qu’on inclut dans telle ou telle appellation.

Concrètement, ce sont des techniques qui sont utilisées pour des algorithmes de prévision, des algorithmes d’analyse non supervisés, ou plus classiquement de la description et visualisation de données afin de créer des relations et faire ressortir des insights.

En vulgarisant : cela veut dire que je traite des gros volumes de données et puis je lance des méthodes, des calculs, des traitements pour pouvoir comprendre plus de choses via ces données.

Cours de Big Data à sup de vinci Bordeaux

Dernière chose très importante : pour moi, aujourd’hui quand on parle de Data Mining, on fait plus référence à l’aspect intelligence humaine à partir des données, en opposition à la mise en place d’un programme informatique qui va juste prévoir et puis sortir un résultat.

Quels types d’organisations l'utilisent ?

Etudiant qui travaille sur un ordinateur, big data écran avec le langage R

Dans le Data Mining, on adopte plus une posture d’analyste. On cherche à comprendre ce qu’il se passe. On utilise les mêmes techniques qu’en Data science globalement mais la finalité est différente : je vais chercher à comprendre ce qu’il se passe dans mes données, le restituer, en parler et expliquer.

Les techniques de la discipline sont utilisées à peu près partout du moment qu’il y a des volumes importants de données à traiter. Toutefois, dans une exploitation analytique des données, on va plus souvent les retrouver dans des postes de Data Analyst que sur des postes de création d’algorithme. Il y en a dans tout type de secteur : marketing, santé, finance, recherche et ingénierie.

Dans ton cours, tu proposes de l’orientation théorique ou tu mets la main à la pâte ?

En cinq jours : j’explique les méthodes, quand et comment les utiliser, l’interprétation qui est nécessaire. Mais dans les faits, il y a quand même beaucoup de pratique.

Toutes les méthodes qu’on voit, on les met directement en application sur des exemples. C’est primordial pour laisser une trace de ce qu’on fait.

Quels sont les outils incontournables du Data Mining ?

Concernant les outils logiciels moi j’utilise le langage R. C’est un choix qui m’est propre parce que c’est l’outil que j’utilise le plus. Cependant, comme je l’explique aux étudiants, tout ce qu’on voit avec R, ils peuvent le faire quasiment de manière identique avec Python qui est l’autre outil majoritairement utilisé dans la donnée. 99% de ce qu’on voit dans le module avec R a une équivalence dans Python. Le choix du logiciel réside plus dans l’expérience personnel ou l’environnement d’entreprise.

Par ailleurs, on voit que R est très représenté dans les domaines de sciences de la vie, sciences humaines, biologie… Ce qui est marrant c’est que plus on s’éloigne du domaine informatique pur et qu’on se rapproche de la statistique, plus R devient présent. C’est souvent plus par tradition que par nécessité.

Pour revenir à la partie technique, les méthodes vues ensemble seront réutilisées dans le cours de Machine Learning. C’est intéressant d’un point de vue pédagogique parce que les modules se complètent. Sur le Machine Learning il y a vraiment une composante informatique qui est plus forte parce que d’un côté je vais chercher à mettre en relation mes données mais dans le même temps je vais créer un algorithme qui va marcher, et le but c’est qu’il fonctionne.

Aujourd’hui dans le monde professionnel, quels sont les enjeux du Data Mining ?

Il y a la question de l’intelligence artificielle qui se pose de plus en plus forcément.

Dans le milieu, on voit de plus en plus que l’IA va être capable d’automatiser les travaux de fouille de données. Cela risque de simplifier techniquement les choses mais parallèlement le risque est de ne plus trop savoir où est-ce qu’on crée la connaissance ? Est-ce qu’on se fie trop à la machine ? Quel est le risque de perdre la connexion humaine avec la donnée ?

Etudiant qui travaille sur un ordinateur, big data

Par exemple, je charge un jeu de donnée dans une IA et je lui demande « Quels sont les critères qui vont le plus influencer la notation des films sur Allociné ? », l’IA lance automatiquement le traitement du jeu de donnée via cette demande et sort « les critères qui influencent le plus sont X, Y et Z » en une quinzaine de minutes alors qu’on passerait trois jours humains à faire ça.

On a le temps de faire plus de choses bien entendu avec ce fonctionnement. Pour autant, le danger va être que l’IA -et ça arrive- soit totalement à côté de la plaque, et qu’on ne s’en rende pas forcément compte car on n’a pas écrit l’exécution du process.

Le Data Mining constitue un outil puissant pour extraire des informations précieuses de vastes ensembles de données. En étudiant ses bases théoriques et en explorant les applications pratiques, il devient un élément prépondérant pour une prise de décisions éclairées. Le Data Mining est, plus que jamais, au cœur des solutions pour répondre aux besoins de nombreux secteurs d’activité.

L’objectif de ce module pour nos étudiants en Mastère Big Data & IA est, bien sûr, de leur apporter de solides bases techniques et de leur permettre d’assimiler l’état d’esprit du problem solving dans des environnements concurrentiels.

/formation/data-mining/2024-01-10Formation
Quentin Faure

Par Quentin Faure
Chargé de communication