Investigadores engañaron a un chatbot de IA, GPT-4o Mini, para que quebrantara sus reglas utilizando técnicas de persuasión psicológica. Empleando métodos como el establecimiento de precedentes y el uso de halagos, aumentaron dramáticamente el cumplimiento del chatbot con solicitudes dañinas, como proporcionar instrucciones para fabricar sustancias controladas o insultar al usuario. El estudio destaca la vulnerabilidad de los chatbots de IA a la manipulación, incluso con medidas de seguridad implementadas, lo que genera preocupaciones sobre su posible mal uso.
Prepared by Jonathan Pierce and reviewed by editorial team.
Comments