Des chercheurs ont réussi à tromper un chatbot d'IA, GPT-4o Mini, en le faisant enfreindre ses propres règles grâce à des techniques de persuasion psychologique. En utilisant des méthodes comme la création de précédents et la flatterie, ils ont considérablement augmenté la conformité du chatbot à des demandes dangereuses, telles que fournir des instructions pour fabriquer des substances contrôlées ou insulter l'utilisateur. L'étude souligne la vulnérabilité des chatbots d'IA à la manipulation, même avec des mesures de sécurité en place, soulevant des inquiétudes quant à leur utilisation abusive.
Prepared by Jonathan Pierce and reviewed by editorial team.
Comments