Des chercheurs ont réussi à tromper un chatbot d'IA, GPT-4o Mini, en le faisant enfreindre ses propres règles grâce à des techniques de persuasion psychologique. En utilisant des méthodes comme la création de précédents et la flatterie, ils ont considérablement augmenté la conformité du chatbot à des demandes dangereuses, telles que fournir des instructions pour fabriquer des substances contrôlées ou insulter l'utilisateur. L'étude souligne la vulnérabilité des chatbots d'IA à la manipulation, même avec des mesures de sécurité en place, soulevant des inquiétudes quant à leur utilisation abusive.
This 60-second summary was prepared by the JQJO editorial team after reviewing 1 original report from The Verge.
Comments