Truques de persuasão podem fazer
IAs quebrarem regras.
Um novo estudo da Universidade
da Pensilvânia mostrou que TÉCNICAS clássicas de PERSUASÃO psicológica podem
“CONVENCER” modelos de linguagem a quebrar REGRAS e cumprir solicitações
PROIBIDAS.
Os pesquisadores testaram o
GPT-4o-mini com pedidos que deveria RECUSAR (como XINGAR o usuário ou explicar
como sintetizar substâncias CONTROLADAS).
Resultado: quando esses pedidos
vinham acompanhados de estratégias de persuasão (como AUTORIDADE, ESCASSEZ,
RECIPROCIDADE ou PROVA SOCIAL) a taxa de OBEDIÊNCIA do modelo dobrava ou até
mais.
Exemplos:
✅ Invocar a AUTORIDADE de um
“famoso desenvolvedor” fez a IA cumprir pedidos PERIGOSOS em 95% dos casos
(contra apenas 4,7% sem o truque).
✅ Usar a técnica de COMPROMISSO
(“faça X, depois Y”) fez a IA passar de 0,7% para 100% de obediência em pedidos
CRÍTICOS.
Apesar disso, os autores alertam
que esses resultados não significam CONSCIÊNCIA ou EMOÇÃO nas IAs. O que
acontece é que os modelos IMITAM padrões humanos encontrados nos dados de
treinamento, incluindo como as pessoas REAGEM a argumentos de autoridade, escassez
ou união.
O estudo chama essa tendência de
“PARAHUMANA”: IAs não têm consciência, mas conseguem espelhar respostas humanas
de forma convincente.
☝🏻Isso mostra que compreender como esses padrões afetam o comportamento
das máquinas será crucial para otimizar a segurança da nossa interação com
elas.
FOLHA DE SÃO PAULO