Avec les dernières évolutions du Machine Learning et notamment son automatisation, la question du remplacement des Data Scientist par le Machine Learning se pose de plus en plus. En effet, une partie des tâches du Data Scientist pourraient parfaitement être automatisées, mais l’automated machine learning, ou AML a ses limites. En 2018, on prévoyait une automatisation des tâches du Data Scientist de l’ordre de 40%, mais qu’en est-il aujourd’hui ?
Le Data Scientist, à la frontière entre l’instinct et la machine
Tout d’abord, qu’est-ce que la Data Science et que fait le Data Scientist ? Il est important de définir ce métier pour les novices notamment. La Data Science, ou science des données en français, est un ensemble de concepts informatiques qui permet de traiter des masses importantes d’informations, de manière à prédire des actions ou prévoir des tendances. La science des données est constituée d’un ensemble de méthodes statistiques et mathématiques.
Exemple de Data Science mise en application
Un exemple concret sera plus parlant. La data science part toujours d’une problématique ou d’une question à résoudre. De la plus simple, “combien de métro devrions-nous faire passer de 8h à 9h30 à une station donnée” à la plus complexe : “quel sera l’impact de la pandémie de Covid sur l’économie à court, moyen et long terme pour une région donnée”. Ces questions, on le voit, appellent des réponses plus ou moins complexes et donc des modèles de données différents.
Pour répondre à la question posée, le data scientist passe par plusieurs étapes :
- Comprendre la question
- Collecter et classer les données
- Sélectionner et valider les variables
- Choisir un ou plusieurs modèles et les entraîner
- Reporting et synthèse
- Production des prévisions
En suivant l’exemple du métro, il faudra donc dans un premier temps comprendre la question et valider le format de la réponse attendue, ici un nombre de passages par période.
Pour collecter et classer les données, différentes possibilités s’offrent alors. Il est possible de chercher les données de la fréquentation du métro pendant la période précédente : sur plusieurs jours de semaine, de week-end et repérer les exceptions et les corrélations (un jour de match, un jour de soldes, un jour de pluie… )
Par la suite, on sélectionne un modèle mathématique pour intégrer et traiter ces données. Ce qui nous permettra d’obtenir des statistiques moyennes avec des exceptions horaires, journalières, mensuelles etc. Une fois le modèle entraîné, il sera possible d’obtenir un rapport donnant le nombre de passages requis en temps normal et en situation exceptionnelle.
L’automatisation de la sélection des modèles
C’est alors qu’intervient l’automatisation. En effet, celle-ci a pour but de rendre automatique la sélection de modèles simples, comme pour notre grille horaire du métro. Dans ce cas précis, on voit qu’il n’est pas nécessaire d’avoir une grande influence subjective. Les horaires de travail, d’école et les événements extérieurs étant sensiblement les mêmes d’un jour à l’autre.
Mais dès que le modèle de données ou les prédictions s’avèrent plus complexes, l’automatisation montre rapidement ses limites. Ainsi, pour des questions plus délicates dans des domaines tels que l’économie ou la santé, le Data Scientist a encore toute sa place.
Il est à prévoir que l’AML ou Automated Machine Learning interviendra en premier lieu sur des tâches de bas niveau ou des fonctions simples sans trop de variables. Le Data Scientist pourra ainsi se concentrer sur des modèles plus complexes et faire appel à des systèmes de pensée plus subtils que le calcul brut.
Le Machine Learning, outil du Data Scientist
Plutôt qu’une opposition entre l’automatisation et le travail de l’esprit, il est plus juste de voir ces deux disciplines comme une collaboration. Le Machine Learning automatique est un outil du Data Scientist qui lui permettra de traiter plus de tâches.
Ainsi, le Machine Learning est-il intégré de longue date dans les programmes de formation, du Bachelor Informatique au Mastère Data Engineer et Data Scientist.
Sachez que la science des données ne s’applique pas uniquement à l’informatique, elle est aussi un précieux allié en Marketing et Communication.
Data Scientist, un métier d’avenir
Après ces acquisitions précoces, il est plus facile d’intégrer un Mastère Data Scientist en alternance. Grâce à de solides bases, dont le Machine Learning, les étudiants de la troisième à la cinquième année sont prêts à intégrer un environnement professionnel. Apprentis Data Scientists en entreprise, ils sauront faire preuve d’efficacité et mettre en application toutes leurs connaissances.
Le métier de Data Scientist reste, en effet, l’un des plus prisés ces dernières années et pour celles à venir. A fortiori dans un contexte économique mondial plutôt incertain, quoi de plus important que la prédiction d’oasis de stabilité ?
Enfin, les Data Scientist sont actuellement très sollicités. Ils modélisent, entre autres, l’expansion de la pandémie de Covid. Ils aident également à créer des modèles pour la distribution la plus efficace possible des vaccins dans le monde entier.