Définitions rapides
Data analyst : l’expert des décisions du présent
Le data analyst explore, nettoie et analyse des données déjà disponibles (CRM, ERP, analytics, bases métier). Son but : produire des tableaux de bord, des indicateurs et des analyses qui orientent les équipes marketing, produit, finance ou opérations. Il répond à des questions concrètes : quels segments performent ? quel canal convertit ? où se perd la marge ?
Data scientist : l’architecte des modèles prédictifs
Le data scientist construit des modèles statistiques et d’apprentissage automatique pour prédire, classer, recommander, détecter. Il manipule de gros volumes, conçoit des features, évalue des métriques, et pense industrialisation avec l’équipe data/tech. Ses livrables vont du prototype à l’API qui tourne en production.
« Analyst : raconter ce qui se passe et pourquoi. Scientist : prévoir ce qui va se passer et comment agir. »
Ce qui les différencie vraiment
Portée temporelle et finalité
- Data analyst : focalisé sur le présent et le passé récent. Il explique, mesure, compare, suit des KPI.
- Data scientist : orienté futur. Il estime des probabilités, simule des scénarios, automatise des décisions.
Niveau de technicité
Les deux maîtrisent SQL, les stats et un langage comme Python ou R. Le data scientist pousse plus loin : ML, deep learning, évaluation de biais, MLOps. Le data analyst excelle en BI, data viz, storytelling et qualité des données.
Livrables et impact
- Analyst : dashboards, reports automatisés, ad hoc analyses, recommandations opérationnelles.
- Scientist : notebooks, modèles entraînés, APIs, pipelines de scoring, expérimentations A/B.
Collaborations au quotidien
- Analyst ↔ équipes métiers (marketing, produit, ventes, finance) + data engineer/analytics engineer.
- Scientist ↔ data engineers, ML engineers, produit, sécurité/infra pour déployer.
Missions types et workflows
Pipeline côté data analyst
- Collecte : requêtes
SQL
, connecteurs BI, exports. - Nettoyage : gestion des valeurs manquantes, déduplication, normalisation.
- Analyse : stats descriptives, corrélations, cohortes, attribution.
- Viz : Power BI, Tableau, Looker Studio, Metabase.
- Story : synthèse, recommandations, suivi mensuel.
Pipeline côté data scientist
- Préparation : sampling, feature engineering, split
train/val/test
. - Modélisation : scikit-learn, XGBoost, LightGBM, TensorFlow, PyTorch.
- Évaluation : métriques (AUC, F1, RMSE), cross-validation, sensibilité aux biais.
- Industrialisation : MLflow, DVC, Docker, APIs, monitoring (drift).
Outils et stack technique
Langages et bibliothèques
- SQL (PostgreSQL, MySQL, Snowflake, BigQuery).
- Python : pandas, NumPy, SciPy, scikit-learn, Plotly, Seaborn.
- R : tidyverse, ggplot2, caret, shiny.
- ML avancé : TensorFlow, PyTorch, Transformers, ONNX.
BI, data viz et narration
- Power BI, Tableau, Looker, Metabase.
- Dashboards avec filtres, segmentation, cohortes, alertes.
- Best practices de data storytelling : hiérarchie visuelle, couleurs utiles, échelles honnêtes.
Data engineering et orchestrations
- Airflow, Prefect pour l’orchestration.
- dbt pour transformer et documenter les modèles.
- Kafka, Pub/Sub pour le streaming.
- Lakes/warehouses : Delta Lake, Snowflake, BigQuery, Redshift.
Mlops et suivi en production
- Suivi d’expériences : MLflow, Weights & Biases.
- Versioning des données : DVC.
- Déploiement : Docker, FastAPI, Ray Serve, Kubernetes.
- Monitoring : prometheus, evidently pour le drift.
Compétences clés
Statistiques et probas
Incontournables pour les deux. Estimations, tests t, ANOVA, intervalle de confiance, bayésien, A/B testing. Le data scientist pousse vers la régularisation, les modèles linéaires généralisés, les réseaux, les méthodes d’ensemble.
Qualité et gouvernance des données
- Qualité : complétude, exactitude, fraîcheur, unicité.
- Gouvernance : catalogues (DataHub, Amundsen), lignage, RGPD et gestion des PII.
- Sécurité : accès par rôles, masquage, audit.
Communication et impact
Savoir raconter une découverte, cadrer une demande vague, transformer une courbe en décision. Le storytelling est une compétence cœur du data analyst, et un vrai plus pour le data scientist.
« Une bonne analyse n’existe vraiment que si quelqu’un s’en sert pour agir. »
Formations et chemins d’accès
Devenir data analyst
- Parcours Bac+3 à Bac+5 (stats, éco-maths, informatique décisionnelle, data).
- Bootcamps orientés pratiques pour accélérer.
- Projet de portfolio (dashboards, analyses réelles, SQL propre).
Devenir data scientist
- Parcours Bac+5 (data science, math appli, ingénierie) ou équivalents solides.
- Stage/projets en ML + sens produit/industrialisation.
- Compétences en Python, stats, maths, MLOps.
Portfolio : idées concrètes
- Analyst : tableau de bord e-commerce (cohortes, LTV, CAC, marge), audit de tracking, segmentation clients.
- Scientist : détection de churn (XGBoost + SHAP), recommandation produits, prévision de demande (Prophet/ARIMA + exogènes).
Cas d’usage concrets
Marketing et growth
- Analyst : attribution, entonnoir de conversion, cohortes, tests créa.
- Scientist : propension à l’achat, look-alike, recommandations, enchères automatiques.
Produit et expérience utilisateur
- Analyst : cartes de chaleur, rétention, activation, NPS.
- Scientist : ranking de contenu, personnalisation, détection d’anomalies.
Finance et risque
- Analyst : suivi du P&L, contrôle de gestion, forecasts simples.
- Scientist : scoring de risque, détection de fraude, modèles de stress.
Industrie et supply chain
- Analyst : OEE, temps d’arrêt, qualité, retours.
- Scientist : maintenance prédictive, optimisation d’itinéraires, prévision de demande multivariée.
Salaires et évolutions
Les rémunérations varient selon le pays, la ville, le secteur et l’expérience. En général, le data scientist démarre un peu au-dessus du data analyst, et l’écart grandit avec l’expertise ML et l’industrialisation. Les deux postes offrent de très belles trajectoires, surtout si tu prends des responsabilités produit ou management.
- Data analyst → senior analyst → analytics lead → head of analytics → director.
- Data scientist → ML engineer → staff/principal → head of data science → chief data officer.
- Passerelles : analytics engineer, data engineer, product data.
Éthique, biais et responsabilité
Modèles et analyses doivent respecter la vie privée, éviter les biais (genre, origine, âge) et garder une traçabilité claire. Un modèle performant mais injuste peut nuire à la marque et aux utilisateurs. Les deux rôles sont concernés, avec une vigilance renforcée côté ML.
Questions / Réponses
Faut-il être « très bon en maths » pour débuter ?
Pour data analyst, un socle solide en statistiques et logique suffit pour démarrer. Pour data scientist, vise des bases plus poussées (algèbre linéaire, probas, optimisation) pour comprendre et diagnostiquer les modèles.
C’est quoi la différence avec un data engineer ?
Le data engineer construit et fiabilise l’infrastructure data (pipelines, entrepôts, qualité). L’analyst exploite et raconte, le scientist modélise et déploie des algos. Les trois se complètent.
Peut-on passer de data analyst à data scientist ?
Oui, c’est un chemin classique : consolide Python, stats, ML, réalise des projets de bout en bout, et participe à des déploiements avec l’équipe technique.
Peut-on passer de data analyst à data scientist ?
SQL + Python (pandas
/scikit-learn
) + un outil BI. Ensuite, selon la voie, ajoute ML avancé et MLOps ou data viz et analytics engineering.
Checklist pour choisir ta voie
- Tu aimes raconter des résultats, convaincre et suivre des KPI ? → data analyst.
- Tu vibres pour les modèles, l’expérimentation et l’algo ? → data scientist.
- Tu veux un mix entre les deux avec un côté ingénierie ? → analytics engineer.
Mini-roadmaps de 3 à 6 mois
Pour data analyst
- Mois 1-2 : SQL (jointures, fenêtres), Excel/Sheets, bases de stats.
- Mois 3-4 : Python (
pandas
), projet dashboard BI end-to-end. - Mois 5-6 : cohortes, A/B test, dbt basique, portfolio public.
Pour data scientist
- Mois 1-2 : stats et algebre linéaire, Python data (
pandas
/NumPy
). - Mois 3-4 : scikit-learn, XGBoost, évaluation, SHAP.
- Mois 5-6 : déploiement FastAPI + Docker, suivi MLflow, projet réel.