Es ist erwähnenswert, dass diese bahnbrechende Technologie nicht nur Tumore identifizieren kann, sondern auch mit Benutzern interagieren kann und neue Werkzeuge und Perspektiven für die Diagnose und Forschung in der Pathologie bietet.
PathChat: KI-Assistent zur multimodalen Pathologieerkennung
Seit vielen Jahren macht die Computerpathologie bedeutende Fortschritte bei der Analyse pathologischer Morphologiedaten und molekularer Erkennungsdaten. Dieses Nischenforschungsfeld, das durch die Schnittstelle zwischen Pathologie, KI und Computervisionstechnologien entstanden ist, entwickelt sich allmählich zu einem Forschungsschwerpunkt in der medizinischen Bildanalyse.
In der Computerpathologie werden Bildverarbeitungs- und KI-Technologien verwendet, um KI-basierte Computerpathologiemodelle zu erstellen. Diese Modelle erfassen histopathologische Bilder und führen vorläufige Bewertungen des morphologischen Erscheinungsbilds dieser Bilder durch, um durch automatisierte Bildanalysetechniken bei der Diagnose, quantitativen Bewertung und Entscheidungsfindung zu helfen.
Angesichts des explosiven Wachstums generativer KI-Technologien, die durch ChatGPT repräsentiert werden, werden multimodale Large Language Models (MLLMs) derzeit zunehmend in der computergestützten Pathologieforschung und der klinischen Praxis in der Pathologie eingesetzt. Im hochspezialisierten Teilgebiet der anatomischen Pathologie befindet sich die Forschung zum Aufbau allgemeiner, multimodaler KI-Assistenten für die Pathologie jedoch noch in einem frühen Stadium.
Im Rahmen dieser Arbeit entwickelte das Forschungsteam einen multimodalen generativen KI-Assistenten speziell für die humanpathologische Forschung – PathChat. Sie trainierten das System vorab durch selbstüberwachtes Lernen anhand von über 100 Millionen Zellgewebe-Bildfragmenten von mehr als 1 Million Objektträgern. Durch die Kombination mit einem hochmodernen rein visuellen Encoder, UNI, generierten sie ein MLLM, das sowohl visuelle als auch natürliche Spracheingaben verarbeiten kann. Nach der Feinabstimmung anhand eines Datensatzes mit mehr als 450.000 Anweisungsdatenpunkten wurde PathChat erstellt.
Die Forschung ergab, dass PathChat nicht nur multimodale Eingaben verarbeiten, sondern auch präzise auf komplexe pathologiebezogene Anfragen reagieren kann und in fast 901 TP3T der Fälle Krankheiten anhand von Biopsieobjektträgern richtig identifiziert.
Pfadname
Übertrifft GPT-4V mit nahezu 90% Genauigkeit
Um die Erkennungsleistung von PathChat zu testen, verglich das Forschungsteam PathChat mit dem Open-Source-Modell LLaVA, dem biomedizinspezifischen LLaVA-Med und GPT-4V.
Sie entwickelten das Vergleichsexperiment PathQABench, bei dem pathologische Fälle aus verschiedenen Organen und Praxen analysiert wurden, um die Erkennungsleistung von PathChat mit LLaVA, LLaVA-Med und GPT-4V zu vergleichen.
Die Ergebnisse zeigten, dass die diagnostische Genauigkeit von PathChat ohne Bereitstellung eines klinischen Kontexts deutlich höher war als bei LLaVA 1.5 und LLaVA-Med. Bei der alleinigen Auswertung von Bildern erreichte PathChat eine Genauigkeit von 78,11 TP3T über alle kombinierten Benchmarks hinweg, was 52,41 TP3T höher ist als bei LLaVA 1.5 und 63,81 TP3T höher als bei LLaVA-Med.
Durch die Einbeziehung des klinischen Kontexts erhöhte sich die Genauigkeit von PathChat weiter auf 89,51 TP3T, was 39,01 TP3T höher ist als bei LLaVA 1.5 und 60,91 TP3T höher als bei LLaVA-Med.
Das Vergleichsexperiment ergab, dass PathChat allein aus den visuellen Merkmalen von Bildern erhebliche Vorhersagefähigkeiten ableiten kann, anstatt sich ausschließlich auf den klinischen Kontext zu verlassen. Es kann multimodale Informationen effektiv und flexibel nutzen, um histologische Bilder genau zu diagnostizieren, indem es nicht-visuelle Informationen einbezieht, die durch gewöhnliche natürliche Sprache bereitgestellt werden.
Um die Genauigkeit der Antworten jedes Modells auf offene Fragen objektiv zu bewerten, rekrutierte das Forschungsteam sieben Pathologen, um ein Bewertungsgremium zu bilden. Durch den Vergleich der Antworten der vier Modelle auf 260 offene Fragen wurde die Genauigkeit der Modellerkennungen analysiert.
Bei offenen Fragen, bei denen die sieben Experten zu einem Konsens gelangen konnten, betrug die Gesamtgenauigkeit von PathChat 78,71 TP3T, was 26,41 TP3T, 48,91 TP3T bzw. 48,11 TP3T höher war als bei GPT-4V, LLaVA 1.5 und LLaVA-Med. Insgesamt zeigte PathChat im Vergleich zu den anderen drei Modellen eine bessere Leistung.
Forscher gaben an, dass PathChat subtile morphologische Details in pathologischen Gewebebildern analysieren und beschreiben kann. Neben Bildeingaben kann es auch Fragen beantworten, die pathologisches und allgemeines biomedizinisches Hintergrundwissen erfordern, was es zu einem vielversprechenden Werkzeug zur Unterstützung von Pathologen und Forschern macht.
Trotz der hervorragenden Leistung von PathChat in Experimenten gibt es in der praktischen Anwendung noch einige Herausforderungen. Dazu gehört, sicherzustellen, dass das Modell ungültige Abfragen identifizieren und fehlerhafte Ausgaben vermeiden kann, die Synchronisierung mit dem neuesten medizinischen Wissen aufrechtzuerhalten und die Tatsache zu berücksichtigen, dass die Trainingsdaten von PathChat hauptsächlich aus historischen Daten stammen, die eher den „wissenschaftlichen Konsens der Vergangenheit“ als die neuesten Informationen widerspiegeln könnten.
Forscher gaben an, dass zukünftige Studien die Fähigkeiten von PathChat weiter verbessern könnten, einschließlich der Unterstützung ganzer Gigapixel-WSI oder mehrerer WSI-Eingaben und der Integration aufgabenspezifischerer Unterstützung, wie z. B. präzises Zählen oder Objektlokalisierung. Darüber hinaus könnte die Integration von PathChat mit digitalen Objektträgerbetrachtern oder elektronischen Krankenakten seine Praktikabilität in der klinischen Praxis weiter verbessern.
Kürzlich wurde das multimodale generative KI-Modell PathChat 2 veröffentlicht. Es kann Bilder und Texte aus der Pathologie analysieren, indem es abwechselnd mehrere hochauflösende Bilder und Texte in einen interaktiven Folienbetrachter eingibt und so umfassendere Auswertungen für jeden Konsultationsfall bereitstellt.
Im Vergleich zu PathChat 1 weist es eine deutlich verbesserte Leistung bei der Differentialdiagnose und morphologischen Beschreibung auf. Darüber hinaus verfügt es über erweiterte Fähigkeiten bei Aufgaben wie dem Befolgen von Anweisungen, dem Beantworten offener Fragen und der Berichtszusammenfassung.