Médicos vs. ChatGPT


Médicos vs. ChatGPT

O que importa é saber usar a experiência

Estou me divertindo nesta semana com as matérias completamente diferentes publicadas pelos maiores veículos da imprensa estadunidense sobre a utilidade da inteligência artificial para a medicina

Segundo o Washington Post, "o ChatGPT pouco ajuda médicos a fazer diagnósticos". Para o New York Times, ao contrário, o ChatGPT "ganha dos médicos em matéria de diagnosticar doenças". Fica parecendo que o ChatGPT ao mesmo tempo presta e não presta.

O divertido é que as duas notícias tratam do mesmo estudo, publicado em outubro no periódico JAMA Network Open, e as chamadas das duas matérias estão tecnicamente corretas, mas nenhuma menciona a conclusão mais importante: o ChatGPT é de pouca ajuda apenas porque os médicos não sabem usar a ferramenta.

Cinquenta médicos em três hospitais diferentes toparam se submeter a um teste que consistia em diagnosticar, em uma hora, relatórios escritos de seis casos clínicos preparados pelos autores do estudo. 

Chegar ao diagnóstico correto não bastava; o teste exigia elaborar três diagnósticos possíveis; relatar os indícios contra e a favor de cada um; e apontar o diagnóstico mais provável, e os exames que poderiam confirmar o diagnóstico. 

O resultado do teste, como uma prova na faculdade, foi então corrigido por avaliadores externos, com nota de zero a dez.

Metade dos médicos podia consultar o ChatGPT, ferramenta de inteligência artificial disponível comercialmente; a outra metade, não. 

Resultado: nota 7.4 para uns, 7.6 para os outros –donde a chamada da matéria do Washington Post.

Mas os autores também experimentaram, eles mesmos, consultar o ChatGPT com a descrição dos seis casos clínicos, e dar os testes, repetidos três vezes, para os mesmos avaliadores. Resultado: nota 9.5 –donde a chamada do New York Times.

Porém, a conclusão mais óbvia, para mim, é outra. Se o ChatGPT na mão dos autores dá conta do recado, mas na mão dos médicos não faz diferença, é porque os médicos que fizeram o teste não sabem usar a ferramenta à sua disposição. 

Se soubessem, teriam tido a cola perfeita, e tirado ao menos 9.5, como o algoritmo sozinho.

O problema é que a qualidade do resultado de algoritmos do tipo large language models, como o ChatGPT, depende crucialmente da formulação do prompt, a requisição feita ao algoritmo. 

Os autores do estudo, que sabiam o que estavam fazendo, formularam sua requisição de maneira eficaz, com instruções diretas, completas, e todas as informações que os médicos receberam; já os médicos que tiveram acesso à mesma ferramenta obviamente não souberam usá-la. 

Se aprenderem, poderão gabaritar diagnósticos em muito menos tempo.

ChatGPT obviamente não sabe nada, muito menos é médico: é apenas um algoritmo que gera texto usando a probabilidade de ocorrência de palavras no material usado para seu treino. 

Dada muita energia, oportunidade para tentativa e erro e feedback de instrutores, o resultado, para médicos e algoritmo, é geração de padrões, em uns pelo cérebro, em outros pelos seus circuitos.

A diferença fundamental é que somente um deles entende o que e por que está fazendo, e ainda se importa profundamente com o resultado –a começar pelo exame clínico, feito em pessoa, que levanta os dados para o diagnóstico. 

O ChatGPT só faz o que faz porque usa os padrões do conhecimento gerado por médicos. Sem médicos, o algoritmo não tem o que aprender, e para no tempo.

SUZANA HERCULANO – HOUZEL - Bióloga e neurocientista da Universidade Vanderbilt (EUA).

Tel: 11 5044-4774/11 5531-2118 | suporte@suporteconsult.com.br