O AI Chatbot de Harvard supera o GPT-4V com detecção de tumor 90%

Categorias: AI NewsTags: , , Publicado em: Julho 12, 2024Leitura mínima de 5,1
PathChat

Superando GPT-4V! Chatbot de IA da Harvard Medical School é destaque na Nature com precisão de detecção de tumores de quase 90%

Atualmente, o câncer se tornou uma das principais causas de morte no mundo, com milhões de pessoas morrendo dele a cada ano. A Organização Mundial da Saúde declarou que um terço dos cânceres podem ser curados por meio da detecção precoce e tratamento precoce.

No entanto, o rastreio do câncer sempre foi um grande desafio na área médica. Em particular, a identificação e o diagnóstico precisos de tumores são cruciais para o tratamento do paciente na análise patológica. Os exames patológicos tradicionais dependem amplamente da perícia e do conhecimento profissional de especialistas.

Com o desenvolvimento de grandes modelos como o GPT-4, a pesquisa sobre o uso inteligência artificial (IA) para auxiliar no diagnóstico patológico surgiu gradualmente. No entanto, muitos sistemas de IA ainda enfrentam deficiências de desempenho e baixa interatividade em aplicações práticas.

Recentemente, uma equipe de pesquisa da Harvard Medical School e seus colaboradores desenvolveram um assistente de IA geral de linguagem visual para patologia humana chamado PathChat. Este sistema pode identificar corretamente doenças a partir de lâminas de biópsia em quase 90% de casos, superando modelos de IA geral como GPT-4V e modelos médicos profissionais atualmente disponíveis no mercado.

O artigo de pesquisa relacionado, intitulado “Um copiloto de IA generativa multimodal para patologia humana” foi publicado na revista científica Nature.

Um copiloto de IA generativa multimodal para patologia humana

Um copiloto de IA generativa multimodal para patologia humana

Vale ressaltar que essa tecnologia inovadora não só consegue identificar tumores, mas também interagir com os usuários, fornecendo novas ferramentas e perspectivas para o diagnóstico e a pesquisa em patologia.

PathChat: Assistente de IA para detecção de patologias multimodais

Por muitos anos, a patologia computacional fez progressos significativos na análise de dados de morfologia patológica e dados de detecção molecular. Este campo de pesquisa de nicho, formado pela intersecção da patologia com tecnologias de IA e visão computacional, está gradualmente se tornando um hotspot de pesquisa em análise de imagens médicas.

A patologia computacional envolve o uso de processamento de imagem e tecnologia de IA para construir modelos de patologia computacional de IA. Esses modelos adquirem imagens histopatológicas e conduzem avaliações preliminares da aparência morfológica dessas imagens para auxiliar no diagnóstico, avaliação quantitativa e tomada de decisão por meio de técnicas automatizadas de análise de imagem.

Atualmente, com o crescimento explosivo de tecnologias de IA generativas representadas pelo ChatGPT, modelos de linguagem multimodais grandes (MLLMs) estão sendo cada vez mais aplicados em pesquisa de patologia computacional e prática clínica em patologia. No entanto, no subcampo altamente especializado de patologia anatômica, a pesquisa sobre a construção de assistentes de IA gerais e multimodais para patologia ainda está em seus estágios iniciais.

Neste trabalho, a equipe de pesquisa projetou um assistente de IA generativo multimodal especificamente para pesquisa de patologia humana — PathChat. Eles pré-treinaram o sistema por meio de aprendizado autossupervisionado em mais de 100 milhões de fragmentos de imagem de tecido celular de mais de 1 milhão de slides. Ao combinar isso com um codificador visual puro de última geração, UNI, eles geraram um MLLM capaz de raciocinar sobre entradas visuais e de linguagem natural. Após o ajuste fino em um conjunto de dados de mais de 450.000 pontos de dados de instrução, o PathChat foi construído.

A pesquisa descobriu que o PathChat não só pode lidar com entradas multimodais, mas também responder com precisão a consultas complexas relacionadas a patologias, identificando corretamente doenças em lâminas de biópsia em quase 90% dos casos.

CaminhoCaht

CaminhoCaht

Superando GPT-4V com precisão de quase 90%

Para testar o desempenho de detecção do PathChat, a equipe de pesquisa comparou o PathChat com o modelo de código aberto LLaVA, o LLaVA-Med específico para uso biomédico e o GPT-4V.

Eles projetaram o experimento de comparação PathQABench, analisando casos patológicos de diferentes órgãos e práticas para comparar o desempenho de detecção do PathChat com LLaVA, LLaVA-Med e GPT-4V.

Os resultados mostraram que, sem fornecer contexto clínico, a precisão diagnóstica do PathChat foi significativamente maior do que a do LLaVA 1.5 e do LLaVA-Med. Ao avaliar imagens sozinhas, o PathChat atingiu uma precisão de 78,1% em todos os benchmarks combinados, o que é 52,4% maior do que o LLaVA 1.5 e 63,8% maior do que o LLaVA-Med.

Com a inclusão do contexto clínico, a precisão do PathChat aumentou ainda mais para 89,5%, que é 39,0% maior que o LLaVA 1,5 e 60,9% maior que o LLaVA-Med.

O experimento comparativo revelou que o PathChat pode derivar capacidade preditiva substancial somente das características visuais das imagens, em vez de depender somente do contexto clínico. Ele pode utilizar informações multimodais de forma eficaz e flexível para diagnosticar com precisão imagens histológicas ao incorporar informações não visuais fornecidas por meio de linguagem natural comum.

Para avaliar objetivamente a precisão das respostas de cada modelo a perguntas abertas, a equipe de pesquisa recrutou sete patologistas para formar um painel de avaliação. Comparando as respostas dos quatro modelos a 260 perguntas abertas, a precisão das detecções do modelo foi analisada.

Finalmente, em questões abertas onde os sete especialistas puderam chegar a um consenso, a precisão geral do PathChat foi de 78,7%, que foi 26,4%, 48,9% e 48,1% maior que GPT-4V, LLaVA 1.5 e LLaVA-Med, respectivamente. No geral, o PathChat demonstrou desempenho superior em comparação aos outros três modelos.

Pesquisadores indicaram que o PathChat pode analisar e descrever detalhes morfológicos sutis em imagens de tecidos patológicos. Além de entradas de imagem, ele também pode responder perguntas que exigem patologia e conhecimento geral de base biomédica, tornando-o uma ferramenta promissora para auxiliar patologistas e pesquisadores.

Apesar do excelente desempenho do PathChat em experimentos, ele ainda enfrenta alguns desafios em aplicações práticas. Isso inclui garantir que o modelo possa identificar consultas inválidas e evitar saídas errôneas, manter a sincronização com o conhecimento médico mais recente e abordar o fato de que os dados de treinamento do PathChat vêm principalmente de dados históricos, que podem refletir "consenso científico passado" em vez das informações mais recentes.

Pesquisadores declararam que estudos futuros podem aprimorar ainda mais as capacidades do PathChat, incluindo suporte a entradas WSI de gigapixel inteiro ou múltiplas WSI e integração de suporte mais específico para tarefas, como contagem precisa ou localização de objetos. Além disso, integrar o PathChat com visualizadores de slides digitais ou registros médicos eletrônicos pode melhorar ainda mais sua praticidade na prática clínica.

Recentemente, o modelo de IA generativa multimodal PathChat 2 foi lançado. Ele pode raciocinar sobre imagens e texto de patologia, aceitando entradas alternadas de múltiplas imagens e texto de alta resolução em um visualizador de slides interativo, fornecendo assim avaliações mais abrangentes para cada caso de consulta.

Comparado ao PathChat 1, ele melhorou significativamente o desempenho em diagnóstico diferencial e descrição morfológica. Ele também melhorou as capacidades em tarefas como seguir instruções, responder perguntas abertas e sumarizar relatórios.

Confira as outras notícias de IA e eventos de tecnologia direito aqui no AIfuturize!

Deixe um comentário