IA da OpenAI passa em residência de medicina na USP
e gabarita matemática no vestibular do ITA
Empresa não
divulgou detalhes técnicos do modelo, que se destaca nas provas objetivas,
mesmo sem interpretar imagens
O novo modelo de inteligência artificial da OpenAI, o o1, acertou 82% das questões da
prova qualificatória para o curso de residência na Faculdade de Medicina da USP
e gabaritou a desafiadora seção de matemática do vestibular do ITA (Instituto
Tecnológico de Aeronáutica).
O modelo acertou 98 das 120 questões da prova da
Fuvest para prosseguir os estudos em medicina.
O resultado garantiria acesso a
todas as residências de acesso direto, em que os alunos entram logo após
concluir a graduação, a fim de se especializarem.
O teste tem questões das cinco grandes áreas da
medicina: clínica, cirurgia, pediatria, obstetrícia e ginecologia, além de
medicina preventiva.
De acordo com o especialista em educação em saúde Matheus
Ferreira, que fez o teste, trata-se de um exame desafiador por trabalhar com
casos clínicos.
"É
necessário fazer raciocínios em série para chegar à melhor escolha, usa muita
imagem, se errar em uma parte do exercício, compromete todo o resultado",
diz. São poucas as questões conceituais ou de "decoreba", segundo
Ferreira.
Também
médico, o especialista usou a API, um canal de comunicação direta com a IA por
meio de código de programação, para enviar 20 questões por vez ao o1, conhecido
internamente na OpenAI como projeto strawberry.
O
modelo conseguiu o resultado surpreendente mesmo sem poder analisar imagens
—diferentemente do GPT-4o, o o1 trabalha apenas com texto, por enquanto. Também
não faz buscas na internet.
Várias das questões trazem exame de imagem para análise do
candidato —em alguns casos a resposta também é uma figura. O GPT-4o, levando as
imagens em consideração, acertou 91 questões.
Em vez de pensar em substituição dos médicos,
Ferreira avalia que a tecnologia será uma ferramenta útil de estudo para os
recém-graduados que se preparam para a residência.
Para o especialista, o o1 ainda tem um ponto fraco
quando se trata de medicina: não dá referência, passo a passo, para seus
argumentos. "Para ser uma conclusão reprodutível, precisamos entender
tudo, conforme o método científico."
Além da prova objetiva, que vale 90% do exame, os
candidatos passam por uma fase de avaliação de currículo e entrevista de peso
equivalente a 10% do resultado final.
O fundador da empresa de software Stealth, Vinícius
Soares, também testou o modelo. O desafio foi a notoriamente difícil prova de
matemática do ITA.
Soares enviou ao o1 uma pergunta do exame de 2024
por vez. Eram 10 questões envolvendo conjuntos, funções, geometria,
trigonometria e estatística —tudo em notação matemática, sem imagens. A IA
acertou todas.
De acordo com o texto de divulgação da OpenAI,
a tecnologia estaria entre os 500 melhores
alunos nas olimpíadas de matemática dos Estados Unidos, e teria resultados
equivalente aos candidatos a doutorado no país.
Circulam, por outro lado, no LinkedIn, imagens
retratando que a IA continua a ter problemas com tarefas simples, como contar
letras.
Em um dos casos, os especialistas perguntaram
quantos "r"s havia na palavra "strawberry". O modelo
respondeu dois e justificou a resposta ao "r duplo" entre as duas
últimas sílabas da palavra.
Além disso, o projeto strawberry, já disponível
para os usuários pagantes do ChatGPT, requer mais processamento computacional,
o que aumenta a demanda por data centers e energia.
COMO FUNCIONA
A OpenAI não divulgou os detalhes técnicos por trás
do salto de performance do o1. Alegou questões concorrenciais e de segurança da
IA, como é comum na indústria da tecnologia.
Na imprensa, se especula que o modelo seja capaz de
dividir a tarefa em etapas, o que permitiria a resolução de exercícios
complexos —teóricos chamam a técnica de "cadeia de pensamento".]
O projeto strawberry, ainda de acordo com a
imprensa internacional, teria sido a tecnologia que assustou o
ex-cientista-chefe da startup, Ilya Sutskever.
Uma das mentes por trás do ChatGPT, ele criou a própria empresa, a
Superintelligence, com a proposta de criar modelos seguros e já arrecadou US$ 1
bilhão em investimento.
Uma das poucas pistas que a OpenAI deu foi de que o
modelo "pensa mais" e faz isso a partir de regras.
Em 17 de julho, a criadora do ChatGPT publicou um
artigo sobre uma melhoria nos resultados de uma inteligência artificial,
obtidos com o auxílio de um jogo baseado em regras.
A solução foi treinar uma inteligência artificial
assistente menos inteligente para avaliar a legibilidade da resposta da IA
principal, que era o GPT-4 mais robusto.
Os pesquisadores pediram, então, que os modelos
superassem um ao outro, em busca de um resultado satisfatório. O teste foi
feito com problemas de matemática —o grande trunfo do o1.
A estratégia da OpenAI teve base em um artigo de
pesquisadores da Universidade de Toronto, que buscou desenvolver uma técnica
para "incentivar redes neurais a resolver problemas de decisão de maneira
verificável".
Os pesquisadores da OpenAI, porém, adicionaram um
elemento ao jogo.
O provador foi configurado de duas maneiras: para ser
"prestativo" e tentar fornecer a resposta correta ao verificador ou
"sorrateiro" e convencer o verificador da validade do argumento
inicial, independentemente de estar correta ou não.
O modelo verificador menos inteligente não sabia se
estava interagindo com um provador prestativo ou sorrateiro. Por isso, teve que
apenas avaliar as respostas com base apenas em seu treinamento.
Os pesquisadores da OpenAI, por fim,
retroalimentaram as IAs com os resultados das rodadas anteriores, para que elas
melhorassem nas suas respectivas tarefas. Essa técnica é chamada aprendizado de
reforço
Avaliadores humanos deram notas de
compreensibilidade das respostas finais ao longo do processo.
Esses
pesquisadores constataram que o modelo verificador se tornou melhor em resistir
às técnicas de persuasão do modelo sorrateiro —o o1, por exemplo, consegue
dizer "eu não sei".
PEDRO S. TEIXEIRA
- formado em
Jornalismo pela USP, escreve em Mercado sobre tecnologia