Le chatbot IA de Harvard surpasse le GPT-4V avec la détection des tumeurs 90%

Catégories : AI NewsÉtiquettes : , , Publié sur : juillet 12, 20245,1 lecture minimale
CheminChat

Surpassant GPT-4V ! Le chatbot IA de la Harvard Medical School présenté dans la nature avec une précision de détection des tumeurs proche de 90%

Actuellement, le cancer est devenu l’une des principales causes de décès dans le monde, avec des millions de personnes qui en meurent chaque année. L'Organisation mondiale de la santé a déclaré qu'un tiers des cancers peuvent être guéris grâce à une détection et un traitement précoces.

Cependant, le dépistage du cancer a toujours constitué un défi majeur dans le domaine médical. En particulier, l’identification et le diagnostic précis des tumeurs sont cruciaux pour le traitement des patients en analyse pathologique. Les examens pathologiques traditionnels dépendent en grande partie de l'expertise et des connaissances professionnelles de spécialistes.

Avec le développement de grands modèles tels que GPT-4, les recherches sur l'utilisation intelligence artificielle (IA) pour aider au diagnostic pathologique a progressivement émergé. Cependant, de nombreux systèmes d’IA sont encore confrontés à des défauts de performances et à une faible interactivité dans les applications pratiques.

Récemment, une équipe de recherche de la Harvard Medical School et ses collaborateurs ont développé un assistant général d’IA en langage visuel pour la pathologie humaine appelé PathChat. Ce système peut identifier correctement les maladies à partir de lames de biopsie dans près de 90% de cas, surpassant ainsi les modèles d'IA généraux comme le GPT-4V et les modèles médicaux professionnels actuellement disponibles sur le marché.

Le document de recherche connexe, intitulé « Un copilote d'IA générative multimodale pour la pathologie humaine » a été publié dans la revue scientifique Nature.

Un copilote d'IA générative multimodale pour la pathologie humaine

Un copilote d'IA générative multimodale pour la pathologie humaine

Il convient de noter que cette technologie révolutionnaire peut non seulement identifier les tumeurs, mais également interagir avec les utilisateurs, offrant ainsi de nouveaux outils et perspectives pour le diagnostic et la recherche en pathologie.

PathChat : Assistant IA de détection de pathologie multimodale

Depuis de nombreuses années, la pathologie computationnelle a fait des progrès significatifs dans l’analyse des données de morphologie pathologique et des données de détection moléculaire. Ce domaine de recherche de niche, formé par l’intersection de la pathologie avec les technologies de l’IA et de la vision par ordinateur, devient progressivement un haut lieu de la recherche en analyse d’images médicales.

La pathologie informatique implique l’utilisation du traitement d’image et de la technologie de l’IA pour créer des modèles de pathologie informatique de l’IA. Ces modèles acquièrent des images histopathologiques et effectuent des évaluations préliminaires de l'apparence morphologique de ces images pour faciliter le diagnostic, l'évaluation quantitative et la prise de décision grâce à des techniques d'analyse d'images automatisées.

Actuellement, avec la croissance explosive des technologies d’IA générative représentées par ChatGPT, les grands modèles multimodaux de langage (MLLM) sont de plus en plus appliqués dans la recherche en pathologie informatique et dans la pratique clinique en pathologie. Cependant, dans le sous-domaine hautement spécialisé de l’anatomopathologie, la recherche sur la création d’assistants d’IA généraux et multimodaux pour la pathologie en est encore à ses débuts.

Dans ce travail, l’équipe de recherche a conçu un assistant d’IA générative multimodale spécifiquement destiné à la recherche en pathologie humaine : PathChat. Ils ont pré-entraîné le système grâce à un apprentissage auto-supervisé sur plus de 100 millions de fragments d’images de tissus cellulaires provenant de plus d’un million de diapositives. En combinant cela avec un encodeur visuel pur de pointe, UNI, ils ont généré un MLLM capable de raisonner à la fois sur les entrées visuelles et en langage naturel. Après avoir affiné un ensemble de données de plus de 450 000 points de données d’instructions, PathChat a été construit.

La recherche a révélé que PathChat peut non seulement gérer des entrées multimodales, mais également répondre avec précision à des demandes complexes liées à la pathologie, en identifiant correctement les maladies à partir de lames de biopsie dans près de 901 TP3T de cas.

CheminCaht

CheminCaht

Surpassant le GPT-4V avec une précision de près de 90%

Pour tester les performances de détection de PathChat, l’équipe de recherche a comparé PathChat au modèle open source LLaVA, au LLaVA-Med spécifique au domaine biomédical et au GPT-4V.

Ils ont conçu l'expérience de comparaison PathQABench, analysant les cas pathologiques de différents organes et pratiques pour comparer les performances de détection de PathChat avec LLaVA, LLaVA-Med et GPT-4V.

Les résultats ont montré que sans fournir de contexte clinique, la précision du diagnostic de PathChat était significativement supérieure à celle de LLaVA 1.5 et LLaVA-Med. Lors de l'évaluation des images seules, PathChat a atteint une précision de 78,1% sur tous les points de référence combinés, soit 52,4% de plus que LLaVA 1,5 et 63,8% de plus que LLaVA-Med.

Avec l'inclusion du contexte clinique, la précision de PathChat a encore augmenté pour atteindre 89,5%, soit 39,0% de plus que LLaVA 1,5 et 60,9% de plus que LLaVA-Med.

L'expérience comparative a révélé que PathChat peut tirer une capacité prédictive substantielle à partir des seules caractéristiques visuelles des images, plutôt que de s'appuyer uniquement sur le contexte clinique. Il peut utiliser de manière efficace et flexible les informations multimodales pour diagnostiquer avec précision les images histologiques en incorporant des informations non visuelles fournies par le langage naturel ordinaire.

Pour évaluer objectivement l'exactitude des réponses de chaque modèle aux questions ouvertes, l'équipe de recherche a recruté sept pathologistes pour former un panel d'évaluation. En comparant les réponses des quatre modèles à 260 questions ouvertes, l'exactitude des détections du modèle a été analysée.

Enfin, sur les questions ouvertes sur lesquelles les sept experts ont pu parvenir à un consensus, la précision globale de PathChat était de 78,7%, soit 26,4%, 48,9% et 48,1% de plus que GPT-4V, LLaVA 1,5 et LLaVA-Med, respectivement. Dans l'ensemble, PathChat a démontré des performances supérieures par rapport aux trois autres modèles.

Les chercheurs ont indiqué que PathChat peut analyser et décrire des détails morphologiques subtils dans des images de tissus pathologiques. Outre les entrées d’images, il peut également répondre à des questions nécessitant des connaissances en pathologie et en médecine biomédicale générale, ce qui en fait un outil prometteur pour aider les pathologistes et les chercheurs.

Malgré les excellentes performances expérimentales de PathChat, il reste confronté à certains défis dans les applications pratiques. Il s'agit notamment de garantir que le modèle peut identifier les requêtes invalides et éviter les résultats erronés, de maintenir la synchronisation avec les dernières connaissances médicales et de tenir compte du fait que les données de formation de PathChat proviennent principalement de données historiques, qui pourraient refléter un « consensus scientifique passé » plutôt que les informations les plus récentes.

Les chercheurs ont déclaré que de futures études pourraient améliorer davantage les capacités de PathChat, notamment en prenant en charge des gigapixels WSI entiers ou plusieurs entrées WSI et en intégrant une prise en charge plus spécifique à des tâches, telles que le comptage précis ou la localisation d'objets. De plus, l’intégration de PathChat à des visionneuses de diapositives numériques ou à des dossiers médicaux électroniques pourrait encore améliorer son caractère pratique dans la pratique clinique.

Récemment, le modèle d'IA générative multimodale PathChat 2 a été publié. Il peut raisonner sur des images et des textes pathologiques, en acceptant des entrées alternées de plusieurs images et textes haute résolution dans une visionneuse de diapositives interactive, fournissant ainsi des évaluations plus complètes pour chaque cas de consultation.

Par rapport à PathChat 1, il a considérablement amélioré les performances en matière de diagnostic différentiel et de description morphologique. Il dispose également de capacités améliorées dans des tâches telles que le suivi d'instructions, la réponse à des questions ouvertes et la synthèse de rapports.

Découvrez les autres actualités et événements technologiques sur l'IA à droite ici dans AIfuturize!

Laissez un commentaire