Data analyst ou data scientist : quelles sont les différences ?

Tu hésites entre data analyst et data scientist ? Les deux bossent avec des données, mais pas à la même profondeur ni avec les mêmes objectifs. L’un traduit le présent en insights actionnables, l’autre modélise l’avenir avec du machine learning.

Définitions rapides

Data analyst : l’expert des décisions du présent

Le data analyst explore, nettoie et analyse des données déjà disponibles (CRM, ERP, analytics, bases métier). Son but : produire des tableaux de bord, des indicateurs et des analyses qui orientent les équipes marketing, produit, finance ou opérations. Il répond à des questions concrètes : quels segments performent ? quel canal convertit ? où se perd la marge ?

Data scientist : l’architecte des modèles prédictifs

Le data scientist construit des modèles statistiques et d’apprentissage automatique pour prédire, classer, recommander, détecter. Il manipule de gros volumes, conçoit des features, évalue des métriques, et pense industrialisation avec l’équipe data/tech. Ses livrables vont du prototype à l’API qui tourne en production.

« Analyst : raconter ce qui se passe et pourquoi. Scientist : prévoir ce qui va se passer et comment agir. »

Ce qui les différencie vraiment

Portée temporelle et finalité

Data analyst : focalisé sur le présent et le passé récent. Il explique, mesure, compare, suit des KPI.
Data scientist : orienté futur. Il estime des probabilités, simule des scénarios, automatise des décisions.

Niveau de technicité

Les deux maîtrisent SQL, les stats et un langage comme Python ou R. Le data scientist pousse plus loin : ML, deep learning, évaluation de biais, MLOps. Le data analyst excelle en BI, data viz, storytelling et qualité des données.

Livrables et impact

Analyst : dashboards, reports automatisés, ad hoc analyses, recommandations opérationnelles.
Scientist : notebooks, modèles entraînés, APIs, pipelines de scoring, expérimentations A/B.

Collaborations au quotidien

Analyst ↔ équipes métiers (marketing, produit, ventes, finance) + data engineer/analytics engineer.
Scientist ↔ data engineers, ML engineers, produit, sécurité/infra pour déployer.

Missions types et workflows

Pipeline côté data analyst

Collecte : requêtes SQL, connecteurs BI, exports.
Nettoyage : gestion des valeurs manquantes, déduplication, normalisation.
Analyse : stats descriptives, corrélations, cohortes, attribution.
Viz : Power BI, Tableau, Looker Studio, Metabase.
Story : synthèse, recommandations, suivi mensuel.

Pipeline côté data scientist

Préparation : sampling, feature engineering, split train/val/test.
Modélisation : scikit-learn, XGBoost, LightGBM, TensorFlow, PyTorch.
Évaluation : métriques (AUC, F1, RMSE), cross-validation, sensibilité aux biais.
Industrialisation : MLflow, DVC, Docker, APIs, monitoring (drift).

Outils et stack technique

Langages et bibliothèques

SQL (PostgreSQL, MySQL, Snowflake, BigQuery).
Python : pandas, NumPy, SciPy, scikit-learn, Plotly, Seaborn.
R : tidyverse, ggplot2, caret, shiny.
ML avancé : TensorFlow, PyTorch, Transformers, ONNX.

BI, data viz et narration

Power BI, Tableau, Looker, Metabase.
Dashboards avec filtres, segmentation, cohortes, alertes.
Best practices de data storytelling : hiérarchie visuelle, couleurs utiles, échelles honnêtes.

Data engineering et orchestrations

Airflow, Prefect pour l’orchestration.
dbt pour transformer et documenter les modèles.
Kafka, Pub/Sub pour le streaming.
Lakes/warehouses : Delta Lake, Snowflake, BigQuery, Redshift.

Mlops et suivi en production

Suivi d’expériences : MLflow, Weights & Biases.
Versioning des données : DVC.
Déploiement : Docker, FastAPI, Ray Serve, Kubernetes.
Monitoring : prometheus, evidently pour le drift.

Compétences clés

Statistiques et probas

Incontournables pour les deux. Estimations, tests t, ANOVA, intervalle de confiance, bayésien, A/B testing. Le data scientist pousse vers la régularisation, les modèles linéaires généralisés, les réseaux, les méthodes d’ensemble.

Qualité et gouvernance des données

Qualité : complétude, exactitude, fraîcheur, unicité.
Gouvernance : catalogues (DataHub, Amundsen), lignage, RGPD et gestion des PII.
Sécurité : accès par rôles, masquage, audit.

Communication et impact

Savoir raconter une découverte, cadrer une demande vague, transformer une courbe en décision. Le storytelling est une compétence cœur du data analyst, et un vrai plus pour le data scientist.

« Une bonne analyse n’existe vraiment que si quelqu’un s’en sert pour agir. »

Formations et chemins d’accès

Devenir data analyst

Parcours Bac+3 à Bac+5 (stats, éco-maths, informatique décisionnelle, data).
Bootcamps orientés pratiques pour accélérer.
Projet de portfolio (dashboards, analyses réelles, SQL propre).

Devenir data scientist

Parcours Bac+5 (data science, math appli, ingénierie) ou équivalents solides.
Stage/projets en ML + sens produit/industrialisation.
Compétences en Python, stats, maths, MLOps.

Portfolio : idées concrètes

Analyst : tableau de bord e-commerce (cohortes, LTV, CAC, marge), audit de tracking, segmentation clients.
Scientist : détection de churn (XGBoost + SHAP), recommandation produits, prévision de demande (Prophet/ARIMA + exogènes).

Cas d’usage concrets

Marketing et growth

Analyst : attribution, entonnoir de conversion, cohortes, tests créa.
Scientist : propension à l’achat, look-alike, recommandations, enchères automatiques.

Produit et expérience utilisateur

Analyst : cartes de chaleur, rétention, activation, NPS.
Scientist : ranking de contenu, personnalisation, détection d’anomalies.

Finance et risque

Analyst : suivi du P&L, contrôle de gestion, forecasts simples.
Scientist : scoring de risque, détection de fraude, modèles de stress.

Industrie et supply chain

Analyst : OEE, temps d’arrêt, qualité, retours.
Scientist : maintenance prédictive, optimisation d’itinéraires, prévision de demande multivariée.

Salaires et évolutions

Les rémunérations varient selon le pays, la ville, le secteur et l’expérience. En général, le data scientist démarre un peu au-dessus du data analyst, et l’écart grandit avec l’expertise ML et l’industrialisation. Les deux postes offrent de très belles trajectoires, surtout si tu prends des responsabilités produit ou management.

Data analyst → senior analyst → analytics lead → head of analytics → director.
Data scientist → ML engineer → staff/principal → head of data science → chief data officer.
Passerelles : analytics engineer, data engineer, product data.

Éthique, biais et responsabilité

Modèles et analyses doivent respecter la vie privée, éviter les biais (genre, origine, âge) et garder une traçabilité claire. Un modèle performant mais injuste peut nuire à la marque et aux utilisateurs. Les deux rôles sont concernés, avec une vigilance renforcée côté ML.

Questions / Réponses

Faut-il être « très bon en maths » pour débuter ?

Pour data analyst, un socle solide en statistiques et logique suffit pour démarrer. Pour data scientist, vise des bases plus poussées (algèbre linéaire, probas, optimisation) pour comprendre et diagnostiquer les modèles.

C’est quoi la différence avec un data engineer ?

Le data engineer construit et fiabilise l’infrastructure data (pipelines, entrepôts, qualité). L’analyst exploite et raconte, le scientist modélise et déploie des algos. Les trois se complètent.

Peut-on passer de data analyst à data scientist ?

Oui, c’est un chemin classique : consolide Python, stats, ML, réalise des projets de bout en bout, et participe à des déploiements avec l’équipe technique.

Peut-on passer de data analyst à data scientist ?

SQL + Python (pandas/scikit-learn) + un outil BI. Ensuite, selon la voie, ajoute ML avancé et MLOps ou data viz et analytics engineering.

Checklist pour choisir ta voie

Tu aimes raconter des résultats, convaincre et suivre des KPI ? → data analyst.
Tu vibres pour les modèles, l’expérimentation et l’algo ? → data scientist.
Tu veux un mix entre les deux avec un côté ingénierie ? → analytics engineer.

Mini-roadmaps de 3 à 6 mois

Pour data analyst

Mois 1-2 : SQL (jointures, fenêtres), Excel/Sheets, bases de stats.
Mois 3-4 : Python (pandas), projet dashboard BI end-to-end.
Mois 5-6 : cohortes, A/B test, dbt basique, portfolio public.

Pour data scientist

Mois 1-2 : stats et algebre linéaire, Python data (pandas/NumPy).
Mois 3-4 : scikit-learn, XGBoost, évaluation, SHAP.
Mois 5-6 : déploiement FastAPI + Docker, suivi MLflow, projet réel.