Perlu dicatat bahwa teknologi terobosan ini tidak hanya dapat mengidentifikasi tumor tetapi juga berinteraksi dengan pengguna, menyediakan alat dan perspektif baru untuk diagnosis dan penelitian di bidang patologi.
PathChat: Asisten AI Deteksi Patologi Multimodal
Selama bertahun-tahun, patologi komputasi telah membuat kemajuan signifikan dalam menganalisis data morfologi patologis dan data deteksi molekuler. Bidang penelitian khusus ini, yang dibentuk oleh persilangan antara patologi dengan AI dan teknologi visi komputer, secara bertahap menjadi pusat penelitian dalam analisis citra medis.
Patologi komputasi melibatkan penggunaan pemrosesan gambar dan teknologi AI untuk membangun model patologi komputasi AI. Model ini memperoleh gambar histopatologis dan melakukan evaluasi awal terhadap tampilan morfologi gambar tersebut untuk membantu diagnosis, penilaian kuantitatif, dan pengambilan keputusan melalui teknik analisis gambar otomatis.
Saat ini, dengan pesatnya pertumbuhan teknologi AI generatif yang diwakili oleh ChatGPT, model bahasa besar multimodal (MLLM) semakin banyak diterapkan dalam penelitian patologi komputasi dan praktik klinis di bidang patologi. Namun, dalam subbidang patologi anatomi yang sangat terspesialisasi, penelitian untuk membangun asisten AI multimodal umum untuk patologi masih dalam tahap awal.
Dalam karya ini, tim peneliti merancang asisten AI generatif multimodal khusus untuk penelitian patologi manusia—PathChat. Mereka melatih sistem tersebut melalui pembelajaran mandiri pada lebih dari 100 juta fragmen gambar jaringan sel dari lebih dari 1 juta slide. Dengan menggabungkan ini dengan encoder visual murni yang canggih, UNI, mereka menghasilkan MLLM yang mampu mempertimbangkan masukan bahasa visual dan alami. Setelah menyempurnakan kumpulan data lebih dari 450.000 titik data instruksi, PathChat dibuat.
Penelitian tersebut menemukan bahwa PathChat tidak hanya dapat menangani masukan multimoda tetapi juga secara akurat menanggapi pertanyaan terkait patologi yang kompleks, mengidentifikasi penyakit dengan tepat dari slide biopsi pada hampir 90% kasus.
JalurCaht
Melampaui GPT-4V dengan Akurasi Hampir 90%
Untuk menguji kinerja deteksi PathChat, tim peneliti membandingkan PathChat dengan model sumber terbuka LLaVA, LLaVA-Med khusus biomedis, dan GPT-4V.
Mereka merancang eksperimen perbandingan PathQABench, menganalisis kasus patologis dari berbagai organ dan praktik untuk membandingkan kinerja deteksi PathChat dengan LLaVA, LLaVA-Med, dan GPT-4V.
Hasilnya menunjukkan bahwa tanpa memberikan konteks klinis, akurasi diagnostik PathChat secara signifikan lebih tinggi dibandingkan LLaVA 1.5 dan LLaVA-Med. Saat mengevaluasi gambar saja, PathChat mencapai akurasi 78.1% di semua tolok ukur gabungan, yaitu 52.4% lebih tinggi dari LLaVA 1.5 dan 63.8% lebih tinggi dari LLaVA-Med.
Dengan dimasukkannya konteks klinis, akurasi PathChat semakin meningkat menjadi 89.5%, yaitu 39.0% lebih tinggi dari LLaVA 1.5 dan 60.9% lebih tinggi dari LLaVA-Med.
Eksperimen komparatif mengungkapkan bahwa PathChat dapat memperoleh kemampuan prediktif yang substansial hanya dari fitur visual gambar, dibandingkan hanya mengandalkan konteks klinis. Ia dapat secara efektif dan fleksibel memanfaatkan informasi multimodal untuk mendiagnosis gambar histologis secara akurat dengan menggabungkan informasi non-visual yang disediakan melalui bahasa alami biasa.
Untuk mengevaluasi secara obyektif keakuratan respons masing-masing model terhadap pertanyaan terbuka, tim peneliti merekrut tujuh ahli patologi untuk membentuk panel penilaian. Dengan membandingkan respons keempat model terhadap 260 pertanyaan terbuka, keakuratan deteksi model dianalisis.
Terakhir, pada pertanyaan terbuka di mana tujuh ahli dapat mencapai konsensus, akurasi keseluruhan PathChat adalah 78.7%, yaitu 26.4%, 48.9%, dan 48.1% lebih tinggi masing-masing dari GPT-4V, LLaVA 1.5, dan LLaVA-Med. Secara keseluruhan, PathChat menunjukkan kinerja yang unggul dibandingkan tiga model lainnya.
Para peneliti menunjukkan bahwa PathChat dapat menganalisis dan mendeskripsikan detail morfologi halus dalam gambar jaringan patologis. Selain masukan gambar, alat ini juga dapat menjawab pertanyaan yang memerlukan pengetahuan latar belakang patologi dan biomedis umum, menjadikannya alat yang menjanjikan untuk membantu ahli patologi dan peneliti.
Meskipun kinerja PathChat luar biasa dalam eksperimen, PathChat masih menghadapi beberapa tantangan dalam penerapan praktis. Hal ini termasuk memastikan model dapat mengidentifikasi kueri yang tidak valid dan menghindari keluaran yang salah, menjaga sinkronisasi dengan pengetahuan medis terkini, dan mengatasi fakta bahwa data pelatihan PathChat sebagian besar berasal dari data historis, yang mungkin mencerminkan “konsensus ilmiah masa lalu” dan bukan informasi terbaru.
Para peneliti menyatakan bahwa penelitian di masa depan mungkin lebih meningkatkan kemampuan PathChat, termasuk mendukung seluruh WSI gigapixel atau beberapa input WSI dan mengintegrasikan lebih banyak dukungan tugas spesifik, seperti penghitungan yang tepat atau lokalisasi objek. Selain itu, mengintegrasikan PathChat dengan penampil slide digital atau rekam medis elektronik mungkin lebih meningkatkan kepraktisannya dalam praktik klinis.
Baru-baru ini, model AI generatif multimodal PathChat 2 dirilis. Ini dapat mempertimbangkan gambar dan teks patologi, menerima masukan bergantian dari beberapa gambar dan teks beresolusi tinggi dalam penampil slide interaktif, sehingga memberikan evaluasi yang lebih komprehensif untuk setiap kasus konsultasi.
Dibandingkan dengan PathChat 1, ini telah meningkatkan kinerja secara signifikan dalam diagnosis banding dan deskripsi morfologi. Ini juga telah meningkatkan kemampuan dalam tugas-tugas seperti mengikuti instruksi, menjawab pertanyaan terbuka, dan meringkas laporan.