Ce que Reddit reproche à Perplexity
Dans sa plainte, Reddit affirme que Perplexity a récupéré en masse des messages publiés sur le forum, malgré des barrières techniques. Le cœur de l’accusation : un contournement des mesures anti-scraping, y compris via les pages de résultats de Google (SERP). Pour étayer ce point, Reddit dit avoir créé un message test uniquement accessible au moteur de recherche ; le contenu serait ensuite apparu dans les réponses de Perplexity en quelques heures.
« Les scrapers contournent les protections pour dérober des données, puis les revendent à des clients avides de contenus d’entraînement. Reddit est une cible de premier choix. »
Pour Reddit, l’enjeu n’est pas théorique : ses communautés produisent l’une des plus vastes collections de conversations en ligne. Une matière première très convoitée pour entraîner des modèles capables de répondre à des questions, résumer des fils ou générer des contenus.
Les co-défendeurs dans le viseur
Outre Perplexity, la plainte cite Oxylabs, AWMProxy et SerpApi, des sociétés connues pour fournir des outils de scraping ou des proxies. Reddit leur reproche d’avoir facilité l’aspiration de données à grande échelle. Chacune conteste ou nuance ces accusations, mettant en avant la légalité de la collecte de données publiques lorsqu’elle respecte la loi et les conditions d’usage.
Qu’est-ce qui est « public » sur Internet ?
Beaucoup de contenus en ligne sont visibles sans compte. Cela ne signifie pas pour autant qu’ils sont libres de droits. Deux cadres s’entrechoquent :
- Le droit d’auteur protège les textes originaux publiés par des internautes.
- Les conditions d’utilisation des sites peuvent limiter l’extraction automatique (scraping) et l’usage des données.
Pour l’IA, la frontière est encore floue : l’entraînement à partir de contenus « publics » est-il autorisé sans licence ? Les réponses varient selon les juridictions, les usages et la façon dont les données ont été collectées.
Pourquoi cette affaire compte pour l’IA générative
Le secteur se structure autour de deux voies :
- Les accords de licences : certaines plateformes négocient l’accès à leurs données contre rémunération et garde-fous (cas d’acteurs ayant signé avec des géants de l’IA).
- La collecte sans accord : défendue par des entreprises au nom de l’accès à la connaissance, mais contestée lorsqu’elle viole des mesures techniques ou les conditions d’utilisation.
La plainte contre Perplexity intervient après d’autres actions de Reddit contre des acteurs de l’IA. Dans le même temps, plusieurs médias et éditeurs ont lancé des procédures similaires, tandis que d’autres ont conclu des accords donnant un cadre légal et financier à l’usage de leurs contenus. Le paysage se recompose : entre plaintes, jurisprudences et deals, chaque cas fait évoluer la ligne.
Ce que dit Perplexity… et ce que cela révèle
Perplexity, qui se présente comme un moteur de réponse fondé sur l’IA, défend une approche « responsable » et « factuelle ». L’entreprise revendique l’indexation et la synthèse de contenus pour produire des réponses, tout en renvoyant vers des sources. Le différend porte précisément sur l’origine et les conditions d’acquisition de ces données, ainsi que sur la rapidité avec laquelle elles seraient intégrées au système.
« Nous défendrons le droit d’accéder librement et équitablement à la connaissance », assure la société, qui conteste les accusations de contournement illégal.
Les questions clefs que ce procès va trancher
- Le contournement technique (direct ou via des intermédiaires) peut-il être établi et prouvé ?
- Les SERP de moteurs de recherche peuvent-elles servir légalement de canal pour réutiliser des contenus protégés ?
- Quelles limites au text and data mining lorsque les sites imposent des restrictions explicites ?
- Quel rôle pour les accords de licence à l’ère des modèles d’IA ?
À suivre
Le dossier « Reddit vs Perplexity » s’ajoute à une série de contentieux qui redessinent les règles du jeu entre plateformes, éditeurs, utilisateurs et constructeurs d’IA. L’issue influencera la manière dont les modèles sont entraînés, quelles données ils peuvent exploiter, et comment les créateurs seront rémunérés ou protégés. Pour l’instant, une chose est sûre : la bataille des contenus ne fait que commencer.