Médicos vs. ChatGPT
O que importa é
saber usar a experiência
Estou me divertindo nesta semana com as matérias
completamente diferentes publicadas pelos maiores veículos da imprensa
estadunidense sobre a utilidade da inteligência artificial para a medicina.
Segundo o Washington Post, "o ChatGPT pouco ajuda médicos a
fazer diagnósticos". Para o New York Times, ao contrário,
o ChatGPT "ganha dos médicos em
matéria de diagnosticar doenças". Fica parecendo que o ChatGPT ao mesmo tempo presta e não
presta.
O divertido é que as duas notícias tratam do
mesmo estudo, publicado em
outubro no periódico JAMA Network Open, e as chamadas das duas matérias estão
tecnicamente corretas, mas nenhuma menciona a conclusão mais importante: o
ChatGPT é de pouca ajuda apenas porque os médicos não sabem usar a ferramenta.
Cinquenta médicos em três hospitais diferentes
toparam se submeter a um teste que consistia em diagnosticar, em uma hora,
relatórios escritos de seis casos clínicos preparados pelos autores do estudo.
Chegar ao diagnóstico correto não bastava; o teste exigia elaborar três
diagnósticos possíveis; relatar os indícios contra e a favor de cada um; e
apontar o diagnóstico mais provável, e os exames que poderiam confirmar o
diagnóstico.
O resultado do teste, como uma prova na faculdade, foi então
corrigido por avaliadores externos, com nota de zero a dez.
Metade dos médicos podia consultar o ChatGPT,
ferramenta de inteligência artificial disponível comercialmente; a outra
metade, não.
Resultado: nota 7.4 para uns, 7.6 para os outros –donde a chamada
da matéria do Washington Post.
Mas os autores também experimentaram, eles mesmos,
consultar o ChatGPT com a descrição dos seis casos clínicos, e dar os testes,
repetidos três vezes, para os mesmos avaliadores. Resultado: nota 9.5 –donde a
chamada do New York Times.
Porém, a conclusão mais óbvia, para mim, é outra. Se o
ChatGPT na mão dos autores dá conta do recado, mas na mão dos médicos não faz
diferença, é porque os médicos que fizeram o teste não sabem usar a ferramenta
à sua disposição.
Se soubessem, teriam tido a cola perfeita, e tirado ao menos
9.5, como o algoritmo sozinho.
O problema é que a qualidade do resultado de
algoritmos do tipo large language models, como o ChatGPT, depende crucialmente
da formulação do prompt, a requisição feita ao algoritmo.
Os autores do estudo,
que sabiam o que estavam fazendo, formularam sua requisição de maneira eficaz,
com instruções diretas, completas, e todas as informações que os médicos
receberam; já os médicos que tiveram acesso à mesma ferramenta obviamente não
souberam usá-la.
Se aprenderem, poderão gabaritar diagnósticos em muito menos tempo.
ChatGPT obviamente não sabe nada, muito menos é
médico: é apenas um algoritmo que gera texto usando a probabilidade de
ocorrência de palavras no material usado para seu treino.
Dada muita energia,
oportunidade para tentativa e erro e feedback de instrutores, o resultado, para
médicos e algoritmo, é geração de padrões, em uns pelo cérebro, em outros pelos
seus circuitos.
A diferença fundamental é que somente um deles
entende o que e por que está fazendo, e ainda se importa profundamente com o
resultado –a começar pelo exame clínico, feito em pessoa, que levanta os dados
para o diagnóstico.
O ChatGPT só faz o que faz porque usa os padrões do
conhecimento gerado por médicos. Sem médicos, o algoritmo não tem o que
aprender, e para no tempo.
SUZANA HERCULANO – HOUZEL - Bióloga e
neurocientista da Universidade Vanderbilt (EUA).