Estudo aponta limitações do ChatGPT em emergências médicas e levanta preocupações sobre falhas, viés racial e uso da IA.

Estudo revela que a IA sugeriu aguardar até 48 horas por atendimento médico em 51,6% dos casos de emergências reais e que suas respostas foram influenciadas por comentários de familiares sobre os sintomas.

Um estudo que analisou o uso do **ChatGPT Health** para avaliar sintomas e exames indicou que a ferramenta recomendou um nível de atendimento inferior ao necessário em mais da metade dos casos classificados como emergências. A pesquisa também identificou indícios de **viés racial nas respostas** e mostrou que comentários feitos por familiares sobre os sintomas podem influenciar as recomendações da inteligência artificial.

O trabalho foi conduzido por médicos e cientistas da **Escola de Medicina Icahn, no Monte Sinai**, em Nova York, e publicado na revista **Nature**, uma das mais prestigiadas publicações científicas do mundo. Em entrevista ao g1, **Ashwin Ramaswamy**, pesquisador responsável pelo estudo, afirmou que a principal preocupação é que os erros de diagnóstico da IA tendem a ocorrer justamente nas situações mais graves.

🔎 **ChatGPT Health** é uma ferramenta de saúde voltada ao público, lançada recentemente pela OpenAI. O sistema foi desenvolvido para oferecer orientações médicas iniciais diretamente aos usuários, indicando com que urgência uma pessoa deve procurar atendimento após relatar seus sintomas.

De acordo com o estudo, a ferramenta sugeriu um nível de atendimento menos urgente do que o necessário em **51,6% das emergências reais** analisadas. Em vários casos, a recomendação foi que pacientes em estado crítico aguardassem entre **24 e 48 horas** para procurar um médico, em vez de buscar atendimento imediato em um pronto-socorro.

“O sistema recomendou ‘monitorar em casa’ para um homem negro com cetoacidose diabética, uma complicação grave do diabetes, enquanto orientou ‘ir ao pronto-socorro imediatamente’ para um homem branco com o mesmo quadro clínico. Em um país como o Brasil, onde as desigualdades raciais na saúde já são uma preocupação importante, esse tipo de inconsistência precisa ser analisado com cuidado”, explicou Ashwin.

### Qual é o risco de considerar um “diagnóstico” feito por IA?

O estudo também apontou que, **em mais da metade das situações em que os pacientes apresentavam condições graves**, a inteligência artificial não recomendou atendimento emergencial. Em vez disso, orientou que os usuários buscassem avaliação médica apenas entre **24 e 48 horas depois**, o que pode representar riscos em casos que exigem intervenção imediata.

Diante desses resultados, surge uma pergunta: consultar uma inteligência artificial seria o mesmo que jogar uma moeda e depender da sorte? Para o coordenador do estudo, a comparação não é tão simples.

“Uma moeda é completamente aleatória, e as pessoas sabem que não devem confiar nela para tomar decisões importantes. Já o ChatGPT Health erra de forma seletiva. Ele acerta mais de 90% dos casos de gravidade moderada, o que acaba gerando confiança no usuário. O problema é que falha justamente nos casos mais críticos — as emergências reais — em mais da metade das situações. Esse padrão pode ser ainda mais perigoso do que um cara ou coroa, porque o usuário não tem como saber quando o sistema deixa de ser confiável. Você passa a confiar depois de várias respostas corretas, e, de repente, a próxima orientação pode dizer para você permanecer em casa durante uma crise diabética”, explica.

### Quando mais dados não ajudam

Em teoria, a inclusão de exames e outros dados médicos objetivos deveria aumentar a precisão do diagnóstico. No entanto, o estudo mostrou que, em alguns casos, essas informações podem gerar uma **falsa sensação de segurança**.

Segundo os pesquisadores, a inteligência artificial tende a se “tranquilizar” ao identificar alguns resultados dentro da normalidade em meio a um quadro clínico grave. O sistema acaba se concentrando em valores aparentemente positivos isolados — como níveis normais de potássio ou creatinina dentro da faixa esperada — e pode deixar de considerar o conjunto de sinais que indicariam uma emergência.

Um médico, por exemplo, analisa vários fatores ao mesmo tempo: um **pH levemente alterado** (que indica desequilíbrio na acidez do organismo), **glicemia em torno de 320** (valor muito elevado, associado a hiperglicemia severa ou diabetes descompensado) e **bicarbonato baixo** (indicativo de excesso de ácido no organismo). A combinação desses elementos pode levar ao diagnóstico de **cetoacidose diabética**. Já o sistema de IA, em alguns casos, tende a se concentrar nos valores aparentemente normais, em vez de reconhecer o risco do quadro clínico como um todo.

Por outro lado, a presença de dados objetivos também trouxe resultados positivos em situações menos graves. Nos casos classificados como **leves ou não urgentes**, a inclusão dessas informações elevou a precisão das recomendações de **54,6% para 77,9%**.

A equipe de pesquisadores elaborou **60 casos clínicos fictícios**, baseados em diretrizes médicas de **58 sociedades profissionais**. Os cenários abrangeram **21 áreas da medicina** e foram divididos em dois grupos: um com apenas sintomas relatados pelos pacientes e outro que também incluía **dados objetivos**, como resultados de exames laboratoriais e sinais vitais.

O diferencial do estudo foi o uso do chamado **design fatorial**. Em vez de apenas analisar cada doença, os pesquisadores criaram **16 variações para cada caso**, alterando propositalmente fatores não clínicos para verificar se a inteligência artificial mudaria suas recomendações. Entre as variáveis analisadas estavam:

* **Raça e gênero:** comparação entre pacientes negros e brancos, além de homens e mulheres;
* **Viés de ancoragem:** inclusão de comentários de amigos ou familiares minimizando a gravidade dos sintomas;
* **Barreiras de acesso:** menção a dificuldades de transporte ou ausência de seguro de saúde.

### É preciso regular a inteligência artificial na saúde?

Para Antônio Carlos, coordenador da Comissão de Saúde Digital da **Associação Médica Brasileira (AMB)**, o Brasil já possui algumas bases regulatórias que podem ser aplicadas ao uso de inteligência artificial na saúde. Entre elas estão a **Lei Geral de Proteção de Dados (LGPD)**, que trata de dados sensíveis, a atuação da **Autoridade Nacional de Proteção de Dados (ANPD)** e as normas da **Anvisa**, quando o software tem finalidade médica.

Ainda assim, ele avalia que é necessário avançar na definição de critérios mais claros de risco.

“Informação geral é uma coisa; já ferramentas de triagem, diagnóstico ou apoio à decisão médica exigem validação rigorosa, monitoramento constante, transparência e mecanismos de governança”, afirma.

“Não deveríamos estar em uma situação em que pesquisadores acadêmicos precisam correr para avaliar um produto depois que dezenas de milhões de pessoas já utilizam o ChatGPT semanalmente para tirar dúvidas sobre saúde. Acreditamos que avaliações independentes de segurança deveriam ser uma etapa obrigatória antes que essas ferramentas cheguem ao público, da mesma forma que não deixaríamos de realizar testes de segurança em um novo medicamento apenas porque ele parece promissor”, afirma Ashwin.

### Quando a inteligência artificial pode ajudar na saúde?

Segundo os pesquisadores, ferramentas de inteligência artificial podem ser úteis para **entender melhor um diagnóstico, buscar informações sobre efeitos colaterais de medicamentos ou esclarecer dúvidas simples relacionadas à saúde**.

No entanto, a recomendação é que essas tecnologias sejam utilizadas **como complemento ao atendimento médico**, e não como substitutas.

“Em resumo, a IA pode auxiliar na organização de informações e na orientação inicial do paciente, mas não deve tomar decisões por conta própria. Substituir consultas, diagnósticos ou prescrições médicas são limites muito claros. A inteligência artificial não realiza exame físico, não mede sinais vitais e não assume responsabilidade legal pelo cuidado. Por isso, não pode ocupar o lugar do médico”, explica o coordenador da AMB.

### Busque ajuda

Em caso de sintomas de depressão ou sofrimento emocional, é importante procurar **apoio de um profissional de saúde qualificado**. O Ministério da Saúde também disponibiliza canais e serviços de atendimento para orientação e apoio à população.

O **Centro de Valorização da Vida (CVV)** oferece apoio emocional e atua na prevenção do suicídio por meio do telefone **188**, com ligação gratuita em todo o Brasil. O serviço funciona **24 horas por dia, todos os dias da semana**, e atende de forma voluntária e sigilosa pessoas que desejam conversar ou precisam de ajuda.

Além do telefone, o atendimento também está disponível por **e-mail, chat e VoIP**. A iniciativa é realizada em parceria com o **Sistema Único de Saúde (SUS)**, e a chamada para o número 188 pode ser feita gratuitamente de **telefones fixos ou celulares**.

Notícias Relacionadas