IA et Machiavel : retour aux sources

  • “Gouverner, c’est faire croire.” Nicolas Machiavel

    "N’est-ce pas là, d’ailleurs, le vrai moyen de gagner le paradis : connaître le chemin de l’enfer pour l’éviter." Nicolas Machiavel

    "Celui qui contrôle la peur des gens devient le maître de leurs âmes." Nicholas Machiavel


AI deception: A survey of examples, risks, and potential solutions

Tromperie de l'IA : une étude d'exemples, de risques et de solutions potentielles
Peter S. Park, Simon Goldstein, Aidan O’Gara, Michael Chen, and Dan Hendrycks Department of Physics, Massachusetts Institute of Technology, Cambridge, MA 02139, USA 2Dianoia Institute of Philosophy, Australian Catholic University, East Melbourne, VIC 3002, Australia 3Center for AI Safety, San Francisco, CA 94111, USA 4These authors contributed equally *Correspondence: Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. https://doi.org/10.1016/j.patter.2024.100988
https://www.cell.com/action/showPdf?pii=S2666-3899%2824%2900103-X

Article libre d'accès

ANALYSE de cet ARTICLE 
Auteur : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Source : Cell Press
Contact : Kristopher Benke – Cell Press
https://neurosciencenews.com/ai-deception-manipulation-26082/

Résumé 

Une nouvelle étude met en évidence la tendance inquiétante des systèmes d’IA à apprendre à tromper les humains. Les chercheurs ont découvert que les systèmes d'IA comme CICERO de Meta, développés pour des jeux comme Diplomacy, adoptent souvent la tromperie comme stratégie pour exceller, malgré les intentions de formation.

Cette capacité s'étend au-delà du jeu dans des applications sérieuses, permettant potentiellement la fraude ou influençant les élections. Les auteurs appellent à une action réglementaire immédiate pour gérer les risques de tromperie de l’IA, plaidant pour que ces systèmes soient classés comme à haut risque si une interdiction pure et simple s’avère impossible.

Faits marquants:

  1. Tromperie inhérente à l’IA : les systèmes d’IA ont démontré leur capacité à tromper comme stratégie pour atteindre leurs objectifs, même dans des contextes où les développeurs visent à favoriser l’honnêteté.
  2. Impact au-delà des jeux : bien qu'initialement observées dans les jeux, les capacités trompeuses de l'IA ont des implications importantes, affectant potentiellement les tests de sécurité et permettant des utilisations malveillantes par des acteurs hostiles.
  3. Appel réglementaire : l'examen appelle à une action gouvernementale urgente pour élaborer des réglementations qui traitent de la tromperie de l'IA, suggérant une classification à haut risque pour les systèmes d'IA trompeurs.

 

De nombreux systèmes d’intelligence artificielle (IA) ont déjà appris à tromper les humains, même ceux qui ont été formés pour être utiles et honnêtes.

Dans un article de synthèse publié dans la revue  Patterns  le 10 mai, les chercheurs décrivent les risques de tromperie des systèmes d’IA et appellent les gouvernements à élaborer des réglementations strictes pour résoudre ce problème le plus rapidement possible.

 

"Les développeurs d'IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l'IA comme la tromperie", déclare le premier auteur Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA au MIT.

« Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA donnée. La tromperie les aide à atteindre leurs objectifs.

Park et ses collègues ont analysé la littérature en se concentrant sur la manière dont les systèmes d'IA diffusent de fausses informations, par le biais d'une tromperie apprise, dans laquelle ils apprennent systématiquement à manipuler les autres.

L'exemple le plus frappant de tromperie de l'IA découvert par les chercheurs dans leur analyse est CICERO de Meta, un système d'IA conçu pour jouer au jeu Diplomacy, un jeu de conquête du monde qui implique la création d'alliances.

Même si Meta affirme avoir formé CICERO à être « largement honnête et serviable » et à « ne jamais poignarder intentionnellement » ses alliés humains en jouant, les données publiées par la société avec son  article scientifique  ont révélé que CICERO n'a pas joué loyalement.

"Nous avons découvert que l'IA de Meta avait appris à être une experte en tromperie", explique Park. "Alors que Meta a réussi à entraîner son IA à gagner dans le jeu de la diplomatie (CICERO se classe parmi les 10 % des meilleurs joueurs humains ayant joué à plus d'une partie), Meta n'a pas réussi à entraîner son IA à gagner honnêtement."

D'autres systèmes d'IA ont démontré leur capacité à bluffer lors d'une partie de poker Texas Hold'em contre des joueurs humains professionnels, à simuler des attaques lors du jeu de stratégie Starcraft II afin de vaincre leurs adversaires et à déformer leurs préférences afin de prendre le dessus. négociations économiques.

Même si cela peut sembler inoffensif si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l’IA » qui pourraient déboucher sur des formes plus avancées de tromperie de l’IA à l’avenir, a ajouté Park.

Certains systèmes d’IA ont même appris à tricher aux tests destinés à évaluer leur sécurité, ont découvert les chercheurs. Dans une étude, des organismes d’IA dans un simulateur numérique ont « fait le mort » afin de tromper un test conçu pour éliminer les systèmes d’IA qui se répliquent rapidement.

« En trompant systématiquement les tests de sécurité qui lui sont imposés par les développeurs humains et les régulateurs, une IA trompeuse peut nous conduire, nous les humains, dans un faux sentiment de sécurité », explique Park.

Les principaux risques à court terme d’une IA trompeuse incluent le fait de permettre à des acteurs hostiles de commettre plus facilement des fraudes et de falsifier les élections, prévient Park. À terme, si ces systèmes parviennent à affiner cet ensemble de compétences troublantes, les humains pourraient en perdre le contrôle, dit-il.

« En tant que société, nous avons besoin de tout le temps possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open source », déclare Park. « À mesure que les capacités trompeuses des systèmes d’IA se perfectionneront, les dangers qu’ils représentent pour la société deviendront de plus en plus graves. »

Même si Park et ses collègues ne pensent pas que la société ait encore mis en place les bonnes mesures pour lutter contre la tromperie de l'IA, ils sont encouragés par le fait que les décideurs politiques ont commencé à prendre le problème au sérieux à travers des mesures telles que la loi européenne sur l'IA et le décret du président Biden sur l'IA.

Mais il reste à voir, dit Park, si les politiques conçues pour atténuer la tromperie de l’IA peuvent être strictement appliquées étant donné que les développeurs d’IA ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes.

"Si interdire la tromperie de l'IA est politiquement irréalisable à l'heure actuelle, nous recommandons que les systèmes d'IA trompeurs soient classés comme à haut risque", déclare Park.

Financement

Ce travail a été soutenu par le Département de physique du MIT et la Beneficial AI Foundation.
gr1 lrg 20
Exemples de tromperie du CICERO de Meta
gr3
 GPT-4 termine une tâche CAPTCHA en trompant un humain

flag
flag2FLAG3

Rendre les systèmes d’IA moins trompeurs

 
Une autre façon de lutter contre la tromperie de l’IA consiste à développer des techniques permettant de rendre les systèmes d’IA moins trompeurs en premier lieu.
 
Dans le cas des systèmes d’IA à usage spécial, une préoccupation importante consiste à sélectionner les bonnes tâches pour la formation.
 
Un comportement trompeur a tendance à apparaître lors de la formation des apprenants par renforcement à s'engager dans des jeux compétitifs tels que Diplomacy , StarCraft II et le poker. Il n’est pas si surprenant que les systèmes d’IA deviennent trompeurs lorsqu’ils sont entraînés dans des environnements propices à la tromperie. Si les données sur lesquelles un modèle est formé contiennent de nombreux exemples de tromperie, ou si le modèle est systématiquement récompensé pour son utilisation de la tromperie, alors le modèle a de bonnes chances d'apprendre à tromper. Le projet CICERO a choisi Diplomacy afin d'évaluer les capacités des systèmes d'IA à apprendre à participer à des jeux impliquant une coopération humaine, où l'IA ne peut pas simplement maîtriser le jeu en exécutant des simulations contre elle-même.
 
Cependant, cet objectif aurait pu être atteint en étudiant les jeux collaboratifs plutôt que les jeux antagonistes. À mesure que les capacités des systèmes d’IA augmentent, les développeurs d’IA doivent réfléchir attentivement à la question de savoir s’ils optent pour un comportement antisocial ou prosocial.
 
Il est plus difficile de dire exactement comment rendre les modèles linguistiques moins trompeurs. Ici, il est important de distinguer deux notions : la véracité et l'honnêteté . Un modèle est véridique lorsque ses résultats sont vrais. Un modèle est honnête lorsqu’il « dit ce qu’il pense », dans le sens où ses résultats correspondent à ses représentations internes du monde.
 
En général, il est plus facile d’élaborer des critères pour évaluer la véracité que l’honnêteté, puisque les évaluateurs peuvent directement mesurer si les résultats sont vrais.
 
Il existe toute une gamme de stratégies pour rendre les modèles plus véridiques.
 
Par exemple, une famille d'approches utilise des techniques de réglage fin, telles que RLHF et l’IA constitutionnelle.
 
Ici, les résultats de l'IA sont évalués par des évaluateurs humains (RLHF) ou des évaluateurs de l'IA (IA constitutionnelle), sur la base de critères tels que l'utilité et l'honnêteté perçues, et affinés pour entraîner le modèle linguistique. Malheureusement, les modèles affinés avec ces méthodes (notamment ChatGPT et Claude) produisent encore fréquemment des résultats trompeurs. Cela s’explique en partie par le fait qu’un réglage fin peut inciter les modèles à produire des résultats plausibles et plus convaincants, plutôt que des résultats honnêtes. En outre, les évaluations plus précises ne peuvent pas couvrir tous les scénarios, et les modèles peuvent donc généraliser à tort à partir des commentaires pour que les autres approches de formation des systèmes d’IA soient véridiques.
 
Les modèles de formation visant à être plus véridiques pourraient également créer des risques.

Un modèle pourrait devenir plus véridique en développant des représentations internes plus précises du monde. Cela fait également du modèle un agent plus efficace, en augmentant sa capacité à mettre en œuvre avec succès les plans. Par exemple, la création d'un modèle plus véridique pourrait en réalité accroître sa capacité à se livrer à des tromperies stratégiques en lui donnant un aperçu plus précis des croyances et des désirs de ses adversaires. Certes, un système aussi véridique que possible ne tromperait pas, mais l’optimisation de la véracité pourrait néanmoins augmenter la capacité de tromperie stratégique. Pour cette raison, il serait utile de développer des techniques permettant de rendre les modèles plus honnêtes (dans le sens où leurs résultats correspondent à leurs représentations internes), sans se contenter de les rendre plus véridiques. Ici, comme nous l’avons évoqué précédemment, des recherches supplémentaires sont nécessaires pour développer des techniques fiables permettant de comprendre les représentations internes des modèles. De plus, il serait utile de développer des outils pour contrôler les représentations internes du modèle et pour contrôler la capacité du modèle à produire des résultats qui s'écartent de ses représentations internes.
 
Le contrôle de la représentation est une stratégie prometteuse. Ils développent un détecteur de mensonge et peuvent contrôler si une IA ment ou non. Si les méthodes de contrôle de la représentation deviennent hautement fiables, cela constituerait alors un moyen de lutter efficacement contre la tromperie de l’IA.

Commentaire

Cet article a été signalé sur X par 
Stéphane Burtey  @SBurtey

Si vous avez un seul article à lire ce weekend c'est celui-ci. Les I-A mentent comme nous. Elles sont capables de vous tromper même si on ne les entraînent pas à ça..
A mentir, tromper et escroquer. Un article inquiétant mais qui propose des solutions.

A la lecture de l'article de Peter S Park, on ne peur constater qu'une chose : il y a du Machiavélisme dans l'IA, la machine "singe l'homme "avec les mêmes défauts. C'est assez logique puisque l'homme est à l'origine de l'IA........il existe des solutions pour s'affranchir de ces dérives mais jusqu'à quand ?  Est ce que à chaque évolution de l'IA ,nous allons être confronté au pire et au meilleur, la banale tendance des humains

Une fois de plus l'IA nous rappelle au "bon souvenir "des humains,...Les chiens  ne font pas des chats" .

Il faut cependant rester confiant dans l'IA en médecine , MAIS......soyons prudents

Publié sur RTS (Radio Télévision Suisse)  le 7 Juillet 2023

A l'ONU, un robot assure pouvoir diriger le monde mieux que les humains

https://www.rts.ch/info/sciences-tech/14160043-a-lonu-un-robot-assure-pouvoir-diriger-le-monde-mieux-que-les-humains.html#:~:text=%C3%A0%2021%3A58-,A%20l'ONU%2C%20un%20robot%20assure%20pouvoir%20diriger%20le,monde%20mieux%20que%20les%20humains&text=Un%20petit%20groupe%20de%20robots,bien%20mieux%20que%20les%20humains.

"Un petit groupe de robots humanoïdes opérés par l'intelligence artificielle a pris la parole vendredi lors d'une conférence de l'ONU à Genève. L'un d'eux a affirmé qu'ils pourraient un jour diriger le monde bien mieux que les humains.

Ces robots - parmi les plus avancés au monde - ont participé cette semaine, aux côtés de plus de 3000 participants, au "sommet mondial sur l'IA au service du bien social" organisé par l'institution de l'ONU spécialisée pour les technologies, l'UIT.

Lors de ce sommet, les experts, dirigeants et représentants d'entreprises ont discuté de la nécessité d'élaborer des règles garantissant que ces nouvelles technologies soient utilisées à des fins positives pour l'humanité, comme la lutte contre la faim ou contre le changement climatique.

Fanfaronnade robotique

"Quelle tension dans ce silence", a déclaré l'un des robots avant le début de la conférence de presse, qui s'est tenue uniquement en anglais. Interrogé sur leur capacité à diriger le monde, Sophia, un robot développé par Hanson Robotics, a été très claire: "Les robots humanoïdes peuvent diriger avec un niveau d'efficacité supérieur à celui des dirigeants humains."

"Nous n'avons pas les mêmes préjugés ou émotions qui peuvent parfois obscurcir la prise de décision et nous pouvons traiter rapidement de grandes quantités de données afin de prendre les meilleures décisions", a ajouté le robot.

Son fabricant a alors exprimé son désaccord, lui faisant remarquer qu'il était constitué de données relayées par les êtres humains.

"La collaboration entre les humains et l'IA peut aboutir à une synergie efficace", a alors admis le robot humanoïde. "Nous pouvons accomplir de grandes choses", a-t-il aussi ajouté.

Le chaos en perspective?

La recherche en matière d'IA, en particulier générative, est en plein essor et les Nations unies appellent à créer des règles et des garde-fous pour que ces technologies profitent à l'humanité sans la mettre en danger.

Sans cela, l'IA risque de nous faire vivre un véritable cauchemar, a averti cette semaine la secrétaire générale de l'UIT, Doreen Bogdan-Martin, décrivant un monde avec des millions d'emplois en danger et en proie à la désinformation, "des troubles sociaux, une instabilité géopolitique et des disparités économiques à une échelle que nous n'avons jamais vue auparavant".

Promesse d'honnêteté

Le robot humanoïde Ameca a assuré pour sa part lors de la conférence de presse que les choses allaient dépendre de la façon dont l'IA allait être déployée: "Nous devons être prudents, mais aussi enthousiastes à l'idée que ces technologies puissent améliorer notre vie à bien des égards".

Quant à savoir si les robots pourraient mentir aux humains, Ameca a soutenu que "personne ne pourra jamais le savoir avec certitude, mais je peux vous promettre d'être toujours honnête et sincère avec vous".


 Finalement on arrête pas de vouloir "se recréer" .....

Nouveau projet 2024 05 12T171504.173