Bastam 250 arquivos para
comprometer um modelo de IA
Um novo estudo da Anthropic mostrou que cerca de 250 documentos
MALICIOSOS já são SUFICIENTES para criar uma “porta dos fundos” em um modelo de
linguagem.
Isso vale tanto para modelos pequenos quanto para modelos grandes
com bilhões de parâmetros.
A pesquisa derruba a ideia de que atacantes precisariam controlar uma
porcentagem SIGNIFICATIVA do conjunto de treinamento.
O que importa é o NÚMERO
absoluto de documentos envenenados, e não o TAMANHO total do dataset.
✅ Os cientistas testaram um BACKDOOR simples que
fazia o modelo gerar texto aleatório ao encontrar o gatilho . Com
250 documentos, o ataque já se tornava CONSISTENTE; com 500, quase GARANTIDO.
Como modelos são TREINADOS em grandes volumes de
CONTEÚDO PÚBLICO, qualquer pessoa pode publicar textos que um dia podem entrar
nos dados de treinamento. Isso torna o ENVENENAMENTO de dados um RISCO real e
mais ACESSÍVEL do que se imaginava.
Mesmo sendo um ataque de baixo IMPACTO, o estudo alerta para a
necessidade de novas estratégias de DEFESA em escala e mais pesquisa sobre
VULNERABILIDADES na fase de pré-treinamento.
FUTURO DOS NEG[OCIOS