Professeur de linguistique anglaise, université Bordeaux Montaigne
Les agents conversationnels tels que ChatGPT facilitent parfois notre quotidien en prenant en charge des tâches rébarbatives. Mais, ces robots intelligents ont un coût. Leur bilan carbone et hydrique désastreux est désormais bien connu. Un autre aspect très préoccupant l’est moins : l’intelligence artificielle pollue les écrits et perturbe l’écosystème langagier, au risque de compliquer l’étude du langage.
Une étude publiée en 2023 révèle que l’utilisation de l’intelligence artificielle (IA) dans les publications scientifiques a augmenté significativement depuis le lancement de ChatGPT (version 3.5).
Ce phénomène dépasse le cadre académique et imprègne une part substantielle des contenus numériques, notamment l’encyclopédie participative Wikipedia ou la plate-forme éditoriale états-unienne Medium.
Le problème réside d’abord dans le fait que ces textes sont parfois inexacts, car l’IA a tendance à inventer des réponses lorsqu’elles ne figurent pas dans sa base d’entraînement. Il réside également dans un style impersonnel et uniformisé.
La contamination textuelle par l’IA menace les espaces numériques où la production de contenu est massive et peu régulée (réseaux sociaux, forums en ligne, plates-formes de commerce…). Les avis clients, les articles de blog, les travaux d’étudiants, les cours d’enseignants sont également des terrains privilégiés où l’IA peut discrètement infiltrer des contenus générés et finalement publiés.
La tendance est telle qu’on est en droit de parler de pollution textuelle.
Les linguistes ont de solides raisons de s’en inquiéter. Bientôt, la proportion de données en langues naturelles sur le Web pourrait diminuer au point d’être éclipsée par des textes générés par l’IA. Une telle contamination faussera les analyses linguistiques et conduira à des représentations biaisées des usages réels du langage humain. Au mieux, elle ajoutera une couche de complexité supplémentaire à la composition des échantillons linguistiques que les linguistes devront démêler.
Quel impact sur la langue ?
Cette contamination n’est pas immédiatement détectable pour l’œil peu entraîné. Avec l’habitude, cependant, on s'aperçoit que la langue de ChatGPT est truffée de tics de langage révélateurs de son origine algorithmique. Il abuse aussi bien d’adjectifs emphatiques, tels que « crucial », « essentiel », « important » ou « fascinant », que d’expressions vagues (« de nombreux… », « généralement… »), et répond très souvent par des listes à puces ou numérotées. Il est possible d’influer sur le style de l’agent conversationnel, mais c’est le comportement par défaut qui prévaut dans la plupart des usages.
Un article de Forbes publié en décembre 2024 met en lumière l’impact de l’IA générative sur notre vocabulaire et les risques pour la diversité linguistique. Parce qu’elle n’emploie que peu d’expressions locales et d’idiomes régionaux, l’IA favoriserait l’homogénéisation de la langue. Si vous demandez à un modèle d’IA d’écrire un texte en anglais, le vocabulaire employé sera probablement plus proche d’un anglais global standard et évitera des expressions typiques des différentes régions anglophones.
L’IA pourrait aussi simplifier considérablement le vocabulaire humain, en privilégiant certains mots au détriment d’autres, ce qui conduirait notamment à une simplification progressive de la syntaxe et de la grammaire. Comptez le nombre d’occurrences des adjectifs « nuancé » et « complexe » dans les sorties de l’agent conversationnel et comparez ce chiffre à votre propre usage pour vous en rendre compte.
Ce qui inquiète les linguistes
La linguistique étudie le langage comme faculté qui sous-tend l’acquisition et l’usage des langues. En analysant les occurrences linguistiques dans les langues naturelles, les chercheurs tentent de comprendre le fonctionnement des langues, qu’il s’agisse de ce qui les distingue, de ce qui les unit ou de ce qui en fait des créations humaines. La linguistique de corpus se donne pour tâche de collecter d’importants corpus textuels pour modéliser l’émergence et l’évolution des phénomènes lexicaux et grammaticaux.
Les théories linguistiques s’appuient sur des productions de locuteurs natifs, c’est-à-dire de personnes qui ont acquis une langue depuis leur enfance et la maîtrisent intuitivement. Des échantillons de ces productions sont rassemblés dans des bases de données appelées corpus. L’IA menace aujourd’hui la constitution et l’exploitation de ces ressources indispensables.
Pour le français, des bases comme Frantext (qui rassemble plus de 5 000 textes littéraires) ou le French Treebank (qui contient plus de 21 500 phrases minutieusement analysées) offrent des contenus soigneusement vérifiés.
Cependant, la situation est préoccupante pour les corpus collectant automatiquement des textes en ligne. Ces bases, comme frTenTen ou frWaC, qui aspirent continuellement le contenu du Web francophone, risquent d’être contaminées par des textes générés par l’IA. À terme, les écrits authentiquement humains pourraient devenir minoritaires.
Les corpus linguistiques sont traditionnellement constitués de productions spontanées où les locuteurs ignorent que leur langue sera analysée, condition sine qua non pour garantir l’authenticité des données. L’augmentation des textes générés par l’IA remet en question cette conception traditionnelle des corpus comme archives de l’usage authentique de la langue.
Alors que les frontières entre la langue produite par l’homme et celle générée par la machine deviennent de plus en plus floues, plusieurs questions se posent : *Quel statut donner aux textes générés par l’IA ? *Comment les distinguer des productions humaines ? * Quelles implications pour notre compréhension du langage et son évolution * Comment endiguer la contamination potentielle des données destinées à l’étude linguistique ?
Une langue moyenne et désincarnée
On peut parfois avoir l’illusion de converser avec un humain, comme dans le film « Her » (2013), mais c’est une illusion. L’IA, alimentée par nos instructions (les fameux « prompts »), manipule des millions de données pour générer des suites de mots probables, sans réelle compréhension humaine. Notre IA actuelle n’a pas la richesse d’une voix humaine. Son style est reconnaissable parce que moyen. C’est le style de beaucoup de monde, donc de personne.
À partir d’expressions issues d’innombrables textes, l’IA calcule une langue moyenne. Le processus commence par un vaste corpus de données textuelles qui rassemble un large éventail de styles linguistiques, de sujets et de contextes. Au fur et à mesure, l’IA s’entraîne et affine sa « compréhension » de la langue (par compréhension, il faut entendre la connaissance du voisinage des mots) mais en atténue ce qui rend chaque manière de parler unique. L’IA prédit les mots les plus courants et perd ainsi l’originalité de chaque voix.
Bien que ChatGPT puisse imiter des accents et des dialectes (avec un risque de caricature), et changer de style sur demande, quel est l’intérêt d’étudier une imitation sans lien fiable avec des expériences humaines authentiques ?
Quel sens y a-t-il à généraliser à partir d’une langue artificielle, fruit d’une généralisation déshumanisée ?
Parce que la linguistique relève des sciences humaines et que les phénomènes grammaticaux que nous étudions sont intrinsèquement humains, notre mission de linguistes exige d’étudier des textes authentiquement humains, connectés à des expériences humaines et des contextes sociaux. Contrairement aux sciences exactes, nous valorisons autant les régularités que les irrégularités langagières. Prenons l’exemple révélateur de l’expression « après que » : normalement suivie de l’indicatif, selon les livres de grammaire, mais fréquemment employée avec le subjonctif dans l’usage courant. Ces écarts à la norme illustrent parfaitement la nature sociale et humaine du langage.
La menace de l’ouroboros
La contamination des ensembles de données linguistiques par du contenu généré par l’IA pose de grands défis méthodologiques. Le danger le plus insidieux dans ce scénario est l’émergence de ce que l’on pourrait appeler un « ouroboros linguistique » : un cycle d’auto-consommation dans lequel les grands modèles de langage apprennent à partir de textes qu’ils ont eux-mêmes produits.
L'ouroboros est un dessin ou un objet représentant un serpent ou un dragon qui se mord la queue. Il s'agit d'un mot grec ancien, οὐροϐόρος / ourobóros, formé à partir des deux mots οὐρά (queue) et βορός (vorace, glouton), qui signifie littéralement « qui se mord la queue » ; il a été latinisé sous la forme uroborus. WIKIPEDIA
Cette boucle d’autorenforcement pourrait conduire à une distorsion progressive de ce que nous considérons comme le langage naturel, puisque chaque génération de modèles d’IA apprend des artefacts et des biais de ses prédécesseurs et les amplifie.
Il pourrait en résulter un éloignement progressif des modèles de langage humain authentique, ce qui créerait une sorte de « vallée de l’étrange » linguistique où le texte généré par l’IA deviendrait simultanément plus répandu et moins représentatif d’une communication humaine authentique. SYNTHÈSES Cet article exprime de sérieuses inquiétudes concernant l'impact de l'intelligence artificielle générative, comme ChatGPT, sur le langage. Ils soutiennent que, bien qu'utile pour certaines tâches, l'IA contribue à une pollution textuelle significative. Cette pollution provient notamment de la tendance de l'IA à inventer des informations et à produire des textes au style impersonnel et standardisé. Cette uniformisation linguistique menace non seulement la diversité du vocabulaire et l'usage authentique de la langue, mais rend également plus ardue l'étude du langage en contaminant les corpus de données sur lesquels les linguistes s'appuient. Le danger d'un "ouroboros linguistique", où l'IA apprend de ses propres créations, est également mis en avant. (NotebooKLM)
Commentaire
Excellent point de vue qui nous alerte sur les dérives de l'IA, ici une interférence entre le langage humain et celui de l'IA avec un appauvrissement de ce dernier.
Cette constatation est normale quand on prend conscience des pouvoirs du cerveau humain et donc de notre langage.
Les outils conversationnels sont une simplification du langage humain et c'est tout.
Si on considère que l'IA n'est qu'un outil, et c'est ce qu'elle est , son langage ne peut être à la fois que simpliste et qu'elle ne peut pas tout connaître. L'IA compense par une inventivité qui conduit quelquefois aux erreurs.
Nous avons déjà connu ces écarts de langage avec le langage "SMS" qui reste souvent difficile à comprendre, la lecture à haute voix résout ce problème.
Notre civilisation décadente engendre des phénomènes qu'il faut simultanément assimiler et combattre, c'est ainsi. Mais ne perdons jamais de vue que l'IA est un outil inventé par l'homme. C'est un outil dont nous devons garder la maîtrise, surtout en particulier pour la médecine.
Le langage humain a le pouvoir de transmettre mille et une choses en quelques mots, l'IA n'en est pas capable. Il faut donc garder notre langage, celui des humains, et dans le même temps admettre que le langage de l'IA est plus simple pour dire finalement des choses simples. Ne perdons pas de vie que les systèmes conversationnels sont là "pour nous faire plaisir.......jamais de contradiction", or c'est dans la contradiction que le langage humain s'épanouit .
Le point avec PERPLEXITY/IA
Différence entre le langage humain et le langage conversationnel
Langage humain Le langage humain est naturel, riche, nuancé et contextuel. Il inclut des éléments complexes comme le sarcasme, les métaphores, les variations de structure, les exceptions grammaticales, les émotions et les références culturelles. Les humains adaptent spontanément leur langage selon le contexte, l’interlocuteur et l’intention, ce qui rend la communication humaine extrêmement flexible et dynamique.
Langage conversationnel (utilisé par les agents conversationnels) Le langage conversationnel désigne la manière dont les agents conversationnels (chatbots, assistants virtuels, etc.) communiquent avec les humains. Il est généré à partir de modèles d’intelligence artificielle, de traitement automatique du langage naturel (TALN/NLP), et de compréhension du langage naturel (NLU).
Les agents conversationnels s’efforcent d’imiter le langage humain. Ils se basent cependant sur des algorithmes et des bases de données pour comprendre les intentions et générer des réponses. Leur capacité à comprendre le contexte, l’ambiguïté ou les subtilités reste limitée par rapport à un humain, même si les progrès récents permettent des dialogues de plus en plus naturels.