QUEBRANDO REGRAS


Truques de persuasão podem fazer IAs quebrarem regras.

Um novo estudo da Universidade da Pensilvânia mostrou que TÉCNICAS clássicas de PERSUASÃO psicológica podem “CONVENCER” modelos de linguagem a quebrar REGRAS e cumprir solicitações PROIBIDAS.

Os pesquisadores testaram o GPT-4o-mini com pedidos que deveria RECUSAR (como XINGAR o usuário ou explicar como sintetizar substâncias CONTROLADAS).

Resultado: quando esses pedidos vinham acompanhados de estratégias de persuasão (como AUTORIDADE, ESCASSEZ, RECIPROCIDADE ou PROVA SOCIAL) a taxa de OBEDIÊNCIA do modelo dobrava ou até mais.

Exemplos:

Invocar a AUTORIDADE de um “famoso desenvolvedor” fez a IA cumprir pedidos PERIGOSOS em 95% dos casos (contra apenas 4,7% sem o truque).

Usar a técnica de COMPROMISSO (“faça X, depois Y”) fez a IA passar de 0,7% para 100% de obediência em pedidos CRÍTICOS.

Apesar disso, os autores alertam que esses resultados não significam CONSCIÊNCIA ou EMOÇÃO nas IAs. O que acontece é que os modelos IMITAM padrões humanos encontrados nos dados de treinamento, incluindo como as pessoas REAGEM a argumentos de autoridade, escassez ou união.

O estudo chama essa tendência de “PARAHUMANA”: IAs não têm consciência, mas conseguem espelhar respostas humanas de forma convincente.

☝🏻Isso mostra que compreender como esses padrões afetam o comportamento das máquinas será crucial para otimizar a segurança da nossa interação com elas.



FOLHA DE SÃO PAULO
Tel: 11 5044-4774/11 5531-2118 | suporte@suporteconsult.com.br