El chatbot de IA de Harvard supera al GPT-4V con la detección de tumores 90%

Categorías: AI NewsEtiquetas: , , Publicado en: julio 12, 2024Lectura mínima de 5,1
RutaChat

¡Superando al GPT-4V! Chatbot de IA de la Facultad de Medicina de Harvard presentado en la naturaleza con una precisión de detección de tumores de casi 90%

Actualmente, el cáncer se ha convertido en una de las principales causas de muerte en todo el mundo, muriendo millones de personas cada año. La Organización Mundial de la Salud ha afirmado que un tercio de los cánceres se pueden curar mediante una detección y un tratamiento tempranos.

Sin embargo, la detección del cáncer siempre ha sido un gran desafío en el campo médico. En particular, la identificación y el diagnóstico precisos de los tumores son cruciales para el tratamiento del paciente en el análisis patológico. Los exámenes patológicos tradicionales dependen en gran medida de la experiencia y el conocimiento profesional de los especialistas.

Con el desarrollo de modelos grandes como el GPT-4, la investigación sobre el uso inteligencia artificial (IA) para ayudar en el diagnóstico patológico ha ido surgiendo gradualmente. Sin embargo, muchos sistemas de IA todavía enfrentan deficiencias de rendimiento y poca interactividad en aplicaciones prácticas.

Recientemente, un equipo de investigación de la Facultad de Medicina de Harvard y sus colaboradores desarrollaron un asistente de inteligencia artificial general en lenguaje visual para patología humana llamado PathChat. Este sistema puede identificar correctamente enfermedades a partir de portaobjetos de biopsia en casi el 90% de los casos, superando a los modelos generales de IA como GPT-4V y los modelos médicos profesionales disponibles actualmente en el mercado.

El artículo de investigación relacionado, titulado "Un copiloto de IA generativa multimodal para patología humana" ha sido publicado en la revista científica Nature.

Un copiloto de IA generativa multimodal para patología humana

Un copiloto de IA generativa multimodal para patología humana

Vale la pena señalar que esta innovadora tecnología no sólo puede identificar tumores sino también interactuar con los usuarios, proporcionando nuevas herramientas y perspectivas para el diagnóstico y la investigación en patología.

PathChat: Asistente de IA para detección de patologías multimodal

Durante muchos años, la patología computacional ha logrado avances significativos en el análisis de datos de morfología patológica y datos de detección molecular. Este campo de investigación especializado, formado por la intersección de la patología con la inteligencia artificial y las tecnologías de visión por computadora, se está convirtiendo gradualmente en un punto de investigación en el análisis de imágenes médicas.

La patología computacional implica el uso de procesamiento de imágenes y tecnología de inteligencia artificial para construir modelos de patología computacional de inteligencia artificial. Estos modelos adquieren imágenes histopatológicas y realizan evaluaciones preliminares de la apariencia morfológica de estas imágenes para ayudar en el diagnóstico, la evaluación cuantitativa y la toma de decisiones mediante técnicas automatizadas de análisis de imágenes.

Actualmente, con el crecimiento explosivo de las tecnologías de IA generativa representadas por ChatGPT, los modelos de lenguaje grande multimodal (MLLM) se aplican cada vez más en la investigación de patología computacional y la práctica clínica en patología. Sin embargo, en el subcampo altamente especializado de la patología anatómica, la investigación sobre la creación de asistentes de IA multimodales y generales para patología aún se encuentra en sus primeras etapas.

En este trabajo, el equipo de investigación diseñó un asistente de IA generativa multimodal específicamente para la investigación de patología humana: PathChat. Preentrenaron el sistema mediante aprendizaje autosupervisado en más de 100 millones de fragmentos de imágenes de tejido celular de más de 1 millón de diapositivas. Al combinar esto con un codificador visual puro de última generación, UNI, generaron un MLLM capaz de razonar sobre entradas de lenguaje tanto visual como natural. Después de realizar ajustes en un conjunto de datos de más de 450.000 puntos de datos de instrucciones, se construyó PathChat.

La investigación encontró que PathChat no solo puede manejar entradas multimodales sino también responder con precisión a consultas complejas relacionadas con patologías, identificando correctamente enfermedades a partir de portaobjetos de biopsia en casi el 90% de los casos.

CaminoCaht

CaminoCaht

Superando al GPT-4V con una precisión cercana a 90%

Para probar el rendimiento de detección de PathChat, el equipo de investigación comparó PathChat con el modelo de código abierto LLaVA, el LLaVA-Med específico para uso biomédico y el GPT-4V.

Diseñaron el experimento de comparación PathQABench, analizando casos patológicos de diferentes órganos y prácticas para comparar el rendimiento de detección de PathChat con LLaVA, LLaVA-Med y GPT-4V.

Los resultados mostraron que sin proporcionar un contexto clínico, la precisión diagnóstica de PathChat fue significativamente mayor que la de LLaVA 1.5 y LLaVA-Med. Al evaluar imágenes solas, PathChat logró una precisión de 78,1% en todos los puntos de referencia combinados, lo que es 52,4% más alto que LLaVA 1.5 y 63,8% más alto que LLaVA-Med.

Con la inclusión del contexto clínico, la precisión de PathChat aumentó aún más a 89,5%, que es 39,0% más alta que LLaVA 1.5 y 60,9% más alta que LLaVA-Med.

El experimento comparativo reveló que PathChat puede obtener una capacidad predictiva sustancial únicamente de las características visuales de las imágenes, en lugar de depender únicamente del contexto clínico. Puede utilizar de forma eficaz y flexible información multimodal para diagnosticar con precisión imágenes histológicas incorporando información no visual proporcionada a través del lenguaje natural ordinario.

Para evaluar objetivamente la precisión de las respuestas de cada modelo a preguntas abiertas, el equipo de investigación reclutó a siete patólogos para formar un panel de evaluación. Al comparar las respuestas de los cuatro modelos a 260 preguntas abiertas, se analizó la precisión de las detecciones del modelo.

Finalmente, en preguntas abiertas en las que los siete expertos pudieron llegar a un consenso, la precisión general de PathChat fue 78,7%, que fue 26,4%, 48,9% y 48,1% mayor que GPT-4V, LLaVA 1,5 y LLaVA-Med, respectivamente. En general, PathChat demostró un rendimiento superior en comparación con los otros tres modelos.

Los investigadores indicaron que PathChat puede analizar y describir detalles morfológicos sutiles en imágenes de tejidos patológicos. Además de las entradas de imágenes, también puede responder preguntas que requieren conocimientos patológicos y biomédicos generales, lo que la convierte en una herramienta prometedora para ayudar a patólogos e investigadores.

A pesar del excelente desempeño de PathChat en los experimentos, todavía enfrenta algunos desafíos en las aplicaciones prácticas. Estos incluyen garantizar que el modelo pueda identificar consultas no válidas y evitar resultados erróneos, mantener la sincronización con los conocimientos médicos más recientes y abordar el hecho de que los datos de entrenamiento de PathChat provienen principalmente de datos históricos, que podrían reflejar un "consenso científico pasado" en lugar de la información más reciente.

Los investigadores afirmaron que estudios futuros podrían mejorar aún más las capacidades de PathChat, incluido el soporte de WSI de gigapíxeles completos o múltiples entradas de WSI y la integración de soporte más específico para tareas, como el recuento preciso o la localización de objetos. Además, la integración de PathChat con visores de diapositivas digitales o registros médicos electrónicos podría mejorar aún más su practicidad en la práctica clínica.

Recientemente, se lanzó el modelo de IA generativa multimodal PathChat 2. Puede razonar sobre imágenes y texto de patología, aceptando entradas alternas de múltiples imágenes y texto de alta resolución en un visor de diapositivas interactivo, proporcionando así evaluaciones más completas para cada caso de consulta.

En comparación con PathChat 1, ha mejorado significativamente el rendimiento en el diagnóstico diferencial y la descripción morfológica. También tiene capacidades mejoradas en tareas como seguir instrucciones, responder preguntas abiertas y resumir informes.

Consulte los otros eventos de tecnología y noticias sobre IA directamente aquí en AIfuturize!

Deja un comentario