Vale la pena señalar que esta innovadora tecnología no sólo puede identificar tumores sino también interactuar con los usuarios, proporcionando nuevas herramientas y perspectivas para el diagnóstico y la investigación en patología.
PathChat: Asistente de IA para detección de patologías multimodal
Durante muchos años, la patología computacional ha logrado avances significativos en el análisis de datos de morfología patológica y datos de detección molecular. Este campo de investigación especializado, formado por la intersección de la patología con la inteligencia artificial y las tecnologías de visión por computadora, se está convirtiendo gradualmente en un punto de investigación en el análisis de imágenes médicas.
La patología computacional implica el uso de procesamiento de imágenes y tecnología de inteligencia artificial para construir modelos de patología computacional de inteligencia artificial. Estos modelos adquieren imágenes histopatológicas y realizan evaluaciones preliminares de la apariencia morfológica de estas imágenes para ayudar en el diagnóstico, la evaluación cuantitativa y la toma de decisiones mediante técnicas automatizadas de análisis de imágenes.
Actualmente, con el crecimiento explosivo de las tecnologías de IA generativa representadas por ChatGPT, los modelos de lenguaje grande multimodal (MLLM) se aplican cada vez más en la investigación de patología computacional y la práctica clínica en patología. Sin embargo, en el subcampo altamente especializado de la patología anatómica, la investigación sobre la creación de asistentes de IA multimodales y generales para patología aún se encuentra en sus primeras etapas.
En este trabajo, el equipo de investigación diseñó un asistente de IA generativa multimodal específicamente para la investigación de patología humana: PathChat. Preentrenaron el sistema mediante aprendizaje autosupervisado en más de 100 millones de fragmentos de imágenes de tejido celular de más de 1 millón de diapositivas. Al combinar esto con un codificador visual puro de última generación, UNI, generaron un MLLM capaz de razonar sobre entradas de lenguaje tanto visual como natural. Después de realizar ajustes en un conjunto de datos de más de 450.000 puntos de datos de instrucciones, se construyó PathChat.
La investigación encontró que PathChat no solo puede manejar entradas multimodales sino también responder con precisión a consultas complejas relacionadas con patologías, identificando correctamente enfermedades a partir de portaobjetos de biopsia en casi el 90% de los casos.
CaminoCaht
Superando al GPT-4V con una precisión cercana a 90%
Para probar el rendimiento de detección de PathChat, el equipo de investigación comparó PathChat con el modelo de código abierto LLaVA, el LLaVA-Med específico para uso biomédico y el GPT-4V.
Diseñaron el experimento de comparación PathQABench, analizando casos patológicos de diferentes órganos y prácticas para comparar el rendimiento de detección de PathChat con LLaVA, LLaVA-Med y GPT-4V.
Los resultados mostraron que sin proporcionar un contexto clínico, la precisión diagnóstica de PathChat fue significativamente mayor que la de LLaVA 1.5 y LLaVA-Med. Al evaluar imágenes solas, PathChat logró una precisión de 78,1% en todos los puntos de referencia combinados, lo que es 52,4% más alto que LLaVA 1.5 y 63,8% más alto que LLaVA-Med.
Con la inclusión del contexto clínico, la precisión de PathChat aumentó aún más a 89,5%, que es 39,0% más alta que LLaVA 1.5 y 60,9% más alta que LLaVA-Med.
El experimento comparativo reveló que PathChat puede obtener una capacidad predictiva sustancial únicamente de las características visuales de las imágenes, en lugar de depender únicamente del contexto clínico. Puede utilizar de forma eficaz y flexible información multimodal para diagnosticar con precisión imágenes histológicas incorporando información no visual proporcionada a través del lenguaje natural ordinario.
Para evaluar objetivamente la precisión de las respuestas de cada modelo a preguntas abiertas, el equipo de investigación reclutó a siete patólogos para formar un panel de evaluación. Al comparar las respuestas de los cuatro modelos a 260 preguntas abiertas, se analizó la precisión de las detecciones del modelo.
Finalmente, en preguntas abiertas en las que los siete expertos pudieron llegar a un consenso, la precisión general de PathChat fue 78,7%, que fue 26,4%, 48,9% y 48,1% mayor que GPT-4V, LLaVA 1,5 y LLaVA-Med, respectivamente. En general, PathChat demostró un rendimiento superior en comparación con los otros tres modelos.
Los investigadores indicaron que PathChat puede analizar y describir detalles morfológicos sutiles en imágenes de tejidos patológicos. Además de las entradas de imágenes, también puede responder preguntas que requieren conocimientos patológicos y biomédicos generales, lo que la convierte en una herramienta prometedora para ayudar a patólogos e investigadores.
A pesar del excelente desempeño de PathChat en los experimentos, todavía enfrenta algunos desafíos en las aplicaciones prácticas. Estos incluyen garantizar que el modelo pueda identificar consultas no válidas y evitar resultados erróneos, mantener la sincronización con los conocimientos médicos más recientes y abordar el hecho de que los datos de entrenamiento de PathChat provienen principalmente de datos históricos, que podrían reflejar un "consenso científico pasado" en lugar de la información más reciente.
Los investigadores afirmaron que estudios futuros podrían mejorar aún más las capacidades de PathChat, incluido el soporte de WSI de gigapíxeles completos o múltiples entradas de WSI y la integración de soporte más específico para tareas, como el recuento preciso o la localización de objetos. Además, la integración de PathChat con visores de diapositivas digitales o registros médicos electrónicos podría mejorar aún más su practicidad en la práctica clínica.
Recientemente, se lanzó el modelo de IA generativa multimodal PathChat 2. Puede razonar sobre imágenes y texto de patología, aceptando entradas alternas de múltiples imágenes y texto de alta resolución en un visor de diapositivas interactivo, proporcionando así evaluaciones más completas para cada caso de consulta.
En comparación con PathChat 1, ha mejorado significativamente el rendimiento en el diagnóstico diferencial y la descripción morfológica. También tiene capacidades mejoradas en tareas como seguir instrucciones, responder preguntas abiertas y resumir informes.