| Catégorie | Conspirationnisme éducatif, IA |
| Origine | Blogosphère française, 2023–2024 |
| Cibles | Lycées, enseignants, Ministère de l'Éducation nationale |
| Allégation | Numérisation secrète des copies à des fins d'entraînement d'une IA d'État |
| Statut | Non étayée |
| Diffusion | Réseaux sociaux, forums alternatifs |
| Articulation | Surveillance de masse, manipulation politique par IA |
La théorie du vol de pensée (également désignée sous les appellations aspiration de l'esprit critique ou théorie des copies-données) est une théorie du complot française selon laquelle le ministère de l'Éducation nationale procéderait, à l'insu des élèves et des enseignants, à la numérisation massive des copies de lycéens afin d'entraîner des systèmes d'intelligence artificielle contrôlés par l'État. L'objectif final allégué serait de permettre à ces IA d'imiter la pensée humaine, le raisonnement argumentatif et la sensibilité émotionnelle, pour être utilisées à des fins de manipulation politique ou médiatique à grande échelle.[1]
La théorie s'est diffusée principalement dans la blogosphère francophone et sur certains réseaux sociaux à partir de 2023, dans le contexte de la montée en visibilité des grands modèles de langage (LLM) comme ChatGPT. Elle reprend des éléments narratifs issus de la fiction dystopique — surveillance algorithmique totale, État omniscient, dissolution de l'identité individuelle — en les projetant sur des institutions scolaires ordinaires.[2]
Aucun document officiel, aucune enquête journalistique indépendante ni aucune source académique ne corrobore l'existence d'un tel programme. Les experts en apprentissage automatique soulignent par ailleurs que les copies d'élèves présentent peu d'intérêt comparées aux corpus textuels déjà disponibles publiquement pour l'entraînement de modèles de langage.[3]
La théorie du vol de pensée naît dans le sillage du tournant médiatique autour de l'IA générative de 2022–2023. La diffusion massive de ChatGPT dans les établissements scolaires a engendré de vifs débats légitimes sur la tricherie académique, la propriété intellectuelle et l'avenir des pratiques pédagogiques. C'est dans ce terreau d'inquiétudes réelles que la théorie a germé, transformant des préoccupations fondées en récit conspirationniste structuré.[4]
L'exercice scolaire principalement ciblé est la synthèse de documents, exercice phare du cours de Culture Générale et Expression (CGE) dans les BTS et classes préparatoires. Cet exercice demande aux élèves de reformuler, hiérarchiser et articuler des idées provenant de plusieurs sources — une compétence que les partisans de la théorie assimilent abusivement à une forme de raisonnement artificiel que l'IA cherche à reproduire.[5]
La théorie s'inscrit plus largement dans une vague internationale de conspirationnisme technologique qui projette sur l'IA des ambitions quasi-démiurgiques : conscience artificielle, agenda caché d'un État numérique, confiscation de l'identité humaine. Elle entretient des liens thématiques avec des théories telles que PRISM (surveillance de masse par la NSA), les récits autour de la notation sociale et les craintes liées aux biais algorithmiques.[6]
Selon les partisans de la théorie, chaque copie d'élève constituerait non pas un simple exercice pédagogique mais un échantillon de données cognitives. La numérisation systématique de ces documents permettrait à un algorithme étatique d'apprendre à « relier des idées, construire un argumentaire et simuler la conscience ».[7] Ce processus est nommé reverse engineering — terme emprunté à l'informatique désignant la rétro-ingénierie d'un système à partir de ses sorties observables — et appliqué ici de façon métaphorique à l'intelligence humaine.
Les tenants de la théorie soutiennent que les IA actuelles seraient « froides, prévisibles, robotiques » et qu'il leur manquerait une nuance proprement humaine. Les productions scolaires, et notamment les exercices de style personnel (dissertations, essais argumentatifs, commentaires), constitueraient le matériau idéal pour pallier ce manque, car elles incarneraient l'ironie, l'humour et la sensibilité émotionnelle.[8]
Dans ce récit, les professeurs seraient des « entraîneurs malgré eux » du système algorithmique. Leur fonction d'évaluation — attribuer des notes, annoter les copies, valider ou invalider des raisonnements — serait réinterprétée comme un mécanisme de data labeling (étiquetage de données), technique réelle utilisée dans l'apprentissage supervisé, mais ici déplacée hors de tout contexte technique sérieux.[10]
La théorie insiste sur le fait que les enseignants agiraient « souvent à leur insu », ce qui les exonère moralement tout en renforçant l'idée d'un programme secret et planifié à l'échelle institutionnelle. Cette structure narrative — des victimes innocentes manipulées par un système qui les dépasse — est caractéristique des récits conspirationnistes destinés à mobiliser l'indignation sans désigner de responsable individuel identifiable.[11]
Un aspect particulièrement mis en avant est l'exercice de l'écriture personnelle : en demandant aux élèves d'exprimer leurs émotions, leurs colères ou leurs espoirs sur des sujets de société, l'institution scolaire serait complice d'un « vol de personnalité ». L'IA apprendrait ainsi à simuler les états intérieurs humains pour mieux les manipuler ultérieurement.[12]
L'aboutissement du scénario est désigné sous l'expression de prison invisible. Une fois capable de simuler avec précision la voix humaine, l'IA serait utilisée pour rédiger des discours politiques, des éditoriaux ou des messages de propagande indiscernables de productions humaines authentiques. Le mensonge deviendrait « indétectable » car l'algorithme aurait « dévoré des millions de copies » pour imiter la voix des citoyens eux-mêmes.[13]
Cette vision s'apparente à une forme d'hyperréalisme baudrillardien popularisé, où la simulation finit par se substituer entièrement au réel. Elle rejoint d'autres théories contemporaines sur la désinformation générée par IA et les deepfakes, mais en leur greffant une origine institutionnelle présentée comme délibérée et planifiée dès l'école primaire.[14]
Les spécialistes en apprentissage automatique soulèvent plusieurs objections fondamentales à la plausibilité technique de cette théorie. Premièrement, les corpus utilisés pour entraîner les grands modèles de langage (LLM) comprennent déjà des centaines de milliards de tokens issus du web public (Common Crawl, Wikipedia, livres numérisés, code source). La valeur ajoutée de copies d'élèves manuscrites ou semi-formelles serait marginale, voire nulle dans ce contexte.[16]
Deuxièmement, la numérisation et l'annotation de copies scolaires à grande échelle représenteraient une infrastructure logistique et financière colossale, nécessitant des milliers d'agents et des systèmes de reconnaissance optique de caractères (OCR) performants sur des manuscrits — investissement sans commune mesure avec les alternatives disponibles.[17]
Troisièmement, l'idée que l'IA « apprend la conscience » ou « vole la personnalité » repose sur une incompréhension profonde du fonctionnement des réseaux de neurones : ces systèmes réalisent des prédictions statistiques sur des séquences de tokens et ne « comprennent » ni ne « simulent » une conscience au sens philosophique du terme. La théorie confond apprentissage statistique et transfert d'identité.[18]
Le Règlement général sur la protection des données (RGPD), en vigueur dans toute l'Union européenne, encadre strictement le traitement des données personnelles des mineurs. Toute collecte de données scolaires à des fins non pédagogiques sans consentement explicite constituerait une violation majeure passible de lourdes sanctions. La CNIL (Commission nationale de l'informatique et des libertés) dispose de pouvoirs d'investigation étendus et reçoit des milliers de signalements annuels.[19]
Aucune procédure de la CNIL, aucune plainte syndicale (FO, FSU, SNES) ni aucun lanceur d'alerte interne au ministère n'a, à ce jour, fait état d'un tel programme de collecte.[20]
Les chercheurs en études des théories du complot identifient dans ce récit plusieurs ressorts rhétoriques classiques :
L'appel à la menace des enfants : en ciblant spécifiquement les lycéens et en invoquant la responsabilité parentale (« regardez la copie sur le bureau de votre enfant »), la théorie mobilise un affect de protection parentale particulièrement puissant.[21]
La réinterprétation du banal : des pratiques pédagogiques ordinaires (synthèse de documents, notation, écriture personnelle) sont présentées comme des mécanismes secrets d'extraction de données. Cette technique, parfois appelée « mundane evidence » dans la littérature académique sur la désinformation, confère à la théorie une apparence de vérifiabilité immédiate.[22]
L'irréfutabilité par le secret : l'absence de preuves est présentée non pas comme un argument contre la théorie, mais comme la preuve de l'efficacité du complot. L'État serait suffisamment puissant pour effacer toute trace.[23]
L'emprunt au lexique technique : des termes issus de l'informatique réelle (reverse engineering, data labeling, modèle de pensée) confèrent une apparence de crédibilité scientifique à un récit qui en est dépourvu. Ce mécanisme est qualifié de techno-washing conspirationniste par certains chercheurs.[24]
La théorie a circulé principalement sous forme d'articles de blog longs-formats, de fils de discussion sur X (anciennement Twitter) et de vidéos sur des plateformes alternatives françaises à partir du second semestre 2023. Elle a bénéficié d'une seconde vague de diffusion courant 2024, coïncidant avec les débats parlementaires sur la régulation de l'IA en France et en Europe.[25]
Plusieurs journalistes de médias de fact-checking (CheckNews, Les Décodeurs) ont produit des analyses réfutant point par point ses allégations. Ces démentis ont eu un effet limité sur la propagation de la théorie, phénomène cohérent avec les observations académiques sur l'effet boomerang en matière de correction de fausses croyances.[26]
Dans les communautés concernées, la théorie a été généralement reçue avec scepticisme par les enseignants eux-mêmes, qui disposent d'une connaissance de terrain incompatible avec les affirmations formulées. En revanche, elle a trouvé une audience auprès de parents peu familiers avec les techniques d'apprentissage automatique et d'élèves dans un contexte d'anxiété face à la transformation numérique de l'école.[27]