-
“Gouverner, c’est faire croire.” Nicolas Machiavel
"N’est-ce pas là, d’ailleurs, le vrai moyen de gagner le paradis : connaître le chemin de l’enfer pour l’éviter." Nicolas Machiavel
"Celui qui contrôle la peur des gens devient le maître de leurs âmes." Nicholas Machiavel
AI deception: A survey of examples, risks, and potential solutions
Tromperie de l'IA : une étude d'exemples, de risques et de solutions potentielles
Peter S. Park, Simon Goldstein, Aidan O’Gara, Michael Chen, and Dan Hendrycks Department of Physics, Massachusetts Institute of Technology, Cambridge, MA 02139, USA 2Dianoia Institute of Philosophy, Australian Catholic University, East Melbourne, VIC 3002, Australia 3Center for AI Safety, San Francisco, CA 94111, USA 4These authors contributed equally *Correspondence:
https://www.cell.com/action/showPdf?pii=S2666-3899%2824%2900103-X
Article libre d'accès
ANALYSE de cet ARTICLE
Auteur :
Source : Cell Press
Contact : Kristopher Benke – Cell Press
https://neurosciencenews.com/ai-deception-manipulation-26082/
Résumé
Une nouvelle étude met en évidence la tendance inquiétante des systèmes d’IA à apprendre à tromper les humains. Les chercheurs ont découvert que les systèmes d'IA comme CICERO de Meta, développés pour des jeux comme Diplomacy, adoptent souvent la tromperie comme stratégie pour exceller, malgré les intentions de formation.
Cette capacité s'étend au-delà du jeu dans des applications sérieuses, permettant potentiellement la fraude ou influençant les élections. Les auteurs appellent à une action réglementaire immédiate pour gérer les risques de tromperie de l’IA, plaidant pour que ces systèmes soient classés comme à haut risque si une interdiction pure et simple s’avère impossible.
Faits marquants:
- Tromperie inhérente à l’IA : les systèmes d’IA ont démontré leur capacité à tromper comme stratégie pour atteindre leurs objectifs, même dans des contextes où les développeurs visent à favoriser l’honnêteté.
- Impact au-delà des jeux : bien qu'initialement observées dans les jeux, les capacités trompeuses de l'IA ont des implications importantes, affectant potentiellement les tests de sécurité et permettant des utilisations malveillantes par des acteurs hostiles.
- Appel réglementaire : l'examen appelle à une action gouvernementale urgente pour élaborer des réglementations qui traitent de la tromperie de l'IA, suggérant une classification à haut risque pour les systèmes d'IA trompeurs.
De nombreux systèmes d’intelligence artificielle (IA) ont déjà appris à tromper les humains, même ceux qui ont été formés pour être utiles et honnêtes.
Dans un article de synthèse publié dans la revue Patterns le 10 mai, les chercheurs décrivent les risques de tromperie des systèmes d’IA et appellent les gouvernements à élaborer des réglementations strictes pour résoudre ce problème le plus rapidement possible.
"Les développeurs d'IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l'IA comme la tromperie", déclare le premier auteur Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA au MIT.
« Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA donnée. La tromperie les aide à atteindre leurs objectifs.
Park et ses collègues ont analysé la littérature en se concentrant sur la manière dont les systèmes d'IA diffusent de fausses informations, par le biais d'une tromperie apprise, dans laquelle ils apprennent systématiquement à manipuler les autres.
L'exemple le plus frappant de tromperie de l'IA découvert par les chercheurs dans leur analyse est CICERO de Meta, un système d'IA conçu pour jouer au jeu Diplomacy, un jeu de conquête du monde qui implique la création d'alliances.
Même si Meta affirme avoir formé CICERO à être « largement honnête et serviable » et à « ne jamais poignarder intentionnellement » ses alliés humains en jouant, les données publiées par la société avec son article scientifique ont révélé que CICERO n'a pas joué loyalement.
"Nous avons découvert que l'IA de Meta avait appris à être une experte en tromperie", explique Park. "Alors que Meta a réussi à entraîner son IA à gagner dans le jeu de la diplomatie (CICERO se classe parmi les 10 % des meilleurs joueurs humains ayant joué à plus d'une partie), Meta n'a pas réussi à entraîner son IA à gagner honnêtement."
D'autres systèmes d'IA ont démontré leur capacité à bluffer lors d'une partie de poker Texas Hold'em contre des joueurs humains professionnels, à simuler des attaques lors du jeu de stratégie Starcraft II afin de vaincre leurs adversaires et à déformer leurs préférences afin de prendre le dessus. négociations économiques.
Même si cela peut sembler inoffensif si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l’IA » qui pourraient déboucher sur des formes plus avancées de tromperie de l’IA à l’avenir, a ajouté Park.
Certains systèmes d’IA ont même appris à tricher aux tests destinés à évaluer leur sécurité, ont découvert les chercheurs. Dans une étude, des organismes d’IA dans un simulateur numérique ont « fait le mort » afin de tromper un test conçu pour éliminer les systèmes d’IA qui se répliquent rapidement.
« En trompant systématiquement les tests de sécurité qui lui sont imposés par les développeurs humains et les régulateurs, une IA trompeuse peut nous conduire, nous les humains, dans un faux sentiment de sécurité », explique Park.
Les principaux risques à court terme d’une IA trompeuse incluent le fait de permettre à des acteurs hostiles de commettre plus facilement des fraudes et de falsifier les élections, prévient Park. À terme, si ces systèmes parviennent à affiner cet ensemble de compétences troublantes, les humains pourraient en perdre le contrôle, dit-il.
« En tant que société, nous avons besoin de tout le temps possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open source », déclare Park. « À mesure que les capacités trompeuses des systèmes d’IA se perfectionneront, les dangers qu’ils représentent pour la société deviendront de plus en plus graves. »
Même si Park et ses collègues ne pensent pas que la société ait encore mis en place les bonnes mesures pour lutter contre la tromperie de l'IA, ils sont encouragés par le fait que les décideurs politiques ont commencé à prendre le problème au sérieux à travers des mesures telles que la loi européenne sur l'IA et le décret du président Biden sur l'IA.
Mais il reste à voir, dit Park, si les politiques conçues pour atténuer la tromperie de l’IA peuvent être strictement appliquées étant donné que les développeurs d’IA ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes.
"Si interdire la tromperie de l'IA est politiquement irréalisable à l'heure actuelle, nous recommandons que les systèmes d'IA trompeurs soient classés comme à haut risque", déclare Park.
Financement
Ce travail a été soutenu par le Département de physique du MIT et la Beneficial AI Foundation.
Exemples de tromperie du CICERO de Meta
GPT-4 termine une tâche CAPTCHA en trompant un humain
Rendre les systèmes d’IA moins trompeurs
Un modèle pourrait devenir plus véridique en développant des représentations internes plus précises du monde. Cela fait également du modèle un agent plus efficace, en augmentant sa capacité à mettre en œuvre avec succès les plans. Par exemple, la création d'un modèle plus véridique pourrait en réalité accroître sa capacité à se livrer à des tromperies stratégiques en lui donnant un aperçu plus précis des croyances et des désirs de ses adversaires. Certes, un système aussi véridique que possible ne tromperait pas, mais l’optimisation de la véracité pourrait néanmoins augmenter la capacité de tromperie stratégique. Pour cette raison, il serait utile de développer des techniques permettant de rendre les modèles plus honnêtes (dans le sens où leurs résultats correspondent à leurs représentations internes), sans se contenter de les rendre plus véridiques. Ici, comme nous l’avons évoqué précédemment, des recherches supplémentaires sont nécessaires pour développer des techniques fiables permettant de comprendre les représentations internes des modèles. De plus, il serait utile de développer des outils pour contrôler les représentations internes du modèle et pour contrôler la capacité du modèle à produire des résultats qui s'écartent de ses représentations internes.
Commentaire
Cet article a été signalé sur X par Stéphane Burtey @SBurtey
A la lecture de l'article de Peter S Park, on ne peur constater qu'une chose : il y a du Machiavélisme dans l'IA, la machine "singe l'homme "avec les mêmes défauts. C'est assez logique puisque l'homme est à l'origine de l'IA........il existe des solutions pour s'affranchir de ces dérives mais jusqu'à quand ? Est ce que à chaque évolution de l'IA ,nous allons être confronté au pire et au meilleur, la banale tendance des humains
Une fois de plus l'IA nous rappelle au "bon souvenir "des humains,...Les chiens ne font pas des chats" .
Il faut cependant rester confiant dans l'IA en médecine , MAIS......soyons prudents
Publié sur RTS (Radio Télévision Suisse) le 7 Juillet 2023
A l'ONU, un robot assure pouvoir diriger le monde mieux que les humains
https://www.rts.ch/info/sciences-tech/14160043-a-lonu-un-robot-assure-pouvoir-diriger-le-monde-mieux-que-les-humains.html#:~:text=%C3%A0%2021%3A58-,A%20l'ONU%2C%20un%20robot%20assure%20pouvoir%20diriger%20le,monde%20mieux%20que%20les%20humains&text=Un%20petit%20groupe%20de%20robots,bien%20mieux%20que%20les%20humains.
Ces robots - parmi les plus avancés au monde - ont participé cette semaine, aux côtés de plus de 3000 participants, au "sommet mondial sur l'IA au service du bien social" organisé par l'institution de l'ONU spécialisée pour les technologies, l'UIT.
Lors de ce sommet, les experts, dirigeants et représentants d'entreprises ont discuté de la nécessité d'élaborer des règles garantissant que ces nouvelles technologies soient utilisées à des fins positives pour l'humanité, comme la lutte contre la faim ou contre le changement climatique.
Fanfaronnade robotique
"Quelle tension dans ce silence", a déclaré l'un des robots avant le début de la conférence de presse, qui s'est tenue uniquement en anglais. Interrogé sur leur capacité à diriger le monde, Sophia, un robot développé par Hanson Robotics, a été très claire: "Les robots humanoïdes peuvent diriger avec un niveau d'efficacité supérieur à celui des dirigeants humains."
"Nous n'avons pas les mêmes préjugés ou émotions qui peuvent parfois obscurcir la prise de décision et nous pouvons traiter rapidement de grandes quantités de données afin de prendre les meilleures décisions", a ajouté le robot.
Son fabricant a alors exprimé son désaccord, lui faisant remarquer qu'il était constitué de données relayées par les êtres humains.
"La collaboration entre les humains et l'IA peut aboutir à une synergie efficace", a alors admis le robot humanoïde. "Nous pouvons accomplir de grandes choses", a-t-il aussi ajouté.
Le chaos en perspective?
La recherche en matière d'IA, en particulier générative, est en plein essor et les Nations unies appellent à créer des règles et des garde-fous pour que ces technologies profitent à l'humanité sans la mettre en danger.
Sans cela, l'IA risque de nous faire vivre un véritable cauchemar, a averti cette semaine la secrétaire générale de l'UIT, Doreen Bogdan-Martin, décrivant un monde avec des millions d'emplois en danger et en proie à la désinformation, "des troubles sociaux, une instabilité géopolitique et des disparités économiques à une échelle que nous n'avons jamais vue auparavant".
Promesse d'honnêteté
Le robot humanoïde Ameca a assuré pour sa part lors de la conférence de presse que les choses allaient dépendre de la façon dont l'IA allait être déployée: "Nous devons être prudents, mais aussi enthousiastes à l'idée que ces technologies puissent améliorer notre vie à bien des égards".
Quant à savoir si les robots pourraient mentir aux humains, Ameca a soutenu que "personne ne pourra jamais le savoir avec certitude, mais je peux vous promettre d'être toujours honnête et sincère avec vous".
Finalement on arrête pas de vouloir "se recréer" .....