यह ध्यान देने योग्य है कि यह अग्रणी प्रौद्योगिकी न केवल ट्यूमर की पहचान कर सकती है, बल्कि उपयोगकर्ताओं के साथ बातचीत भी कर सकती है, जिससे पैथोलॉजी में निदान और अनुसंधान के लिए नए उपकरण और दृष्टिकोण उपलब्ध हो सकते हैं।
PathChat: मल्टीमॉडल पैथोलॉजी डिटेक्शन AI असिस्टेंट
कई वर्षों से, कम्प्यूटेशनल पैथोलॉजी ने पैथोलॉजिकल मॉर्फोलॉजी डेटा और आणविक पहचान डेटा के विश्लेषण में महत्वपूर्ण प्रगति की है। एआई और कंप्यूटर विज़न तकनीकों के साथ पैथोलॉजी के प्रतिच्छेदन द्वारा गठित यह आला अनुसंधान क्षेत्र धीरे-धीरे चिकित्सा छवि विश्लेषण में एक शोध हॉटस्पॉट बन रहा है।
कम्प्यूटेशनल पैथोलॉजी में एआई कम्प्यूटेशनल पैथोलॉजी मॉडल बनाने के लिए इमेज प्रोसेसिंग और एआई तकनीक का उपयोग करना शामिल है। ये मॉडल हिस्टोपैथोलॉजिकल इमेज प्राप्त करते हैं और स्वचालित इमेज विश्लेषण तकनीकों के माध्यम से निदान, मात्रात्मक मूल्यांकन और निर्णय लेने में सहायता के लिए इन छवियों की रूपात्मक उपस्थिति का प्रारंभिक मूल्यांकन करते हैं।
वर्तमान में, ChatGPT द्वारा प्रस्तुत जनरेटिव AI तकनीकों की विस्फोटक वृद्धि के साथ, मल्टीमॉडल लार्ज लैंग्वेज मॉडल (MLLM) का उपयोग पैथोलॉजी में कम्प्यूटेशनल पैथोलॉजी अनुसंधान और नैदानिक अभ्यास में तेजी से किया जा रहा है। हालाँकि, एनाटॉमिकल पैथोलॉजी के अत्यधिक विशिष्ट उपक्षेत्र में, पैथोलॉजी के लिए सामान्य, मल्टीमॉडल AI सहायकों के निर्माण पर शोध अभी भी अपने शुरुआती चरण में है।
इस कार्य में, शोध दल ने विशेष रूप से मानव पैथोलॉजी अनुसंधान के लिए एक मल्टीमॉडल जनरेटिव एआई सहायक-पथचैट डिज़ाइन किया। उन्होंने 1 मिलियन से अधिक स्लाइडों से 100 मिलियन से अधिक सेल ऊतक छवि अंशों पर स्व-पर्यवेक्षित शिक्षण के माध्यम से सिस्टम को पूर्व-प्रशिक्षित किया। इसे अत्याधुनिक शुद्ध दृश्य एनकोडर, UNI के साथ जोड़कर, उन्होंने एक MLLM तैयार किया जो दृश्य और प्राकृतिक भाषा इनपुट दोनों के बारे में तर्क करने में सक्षम है। 450,000 से अधिक निर्देश डेटा बिंदुओं के डेटासेट पर फ़ाइन-ट्यूनिंग के बाद, पथचैट का निर्माण किया गया।
शोध में पाया गया कि पैथचैट न केवल मल्टीमॉडल इनपुट को संभाल सकता है, बल्कि जटिल पैथोलॉजी-संबंधी पूछताछ का भी सटीक जवाब दे सकता है, तथा लगभग 90% मामलों में बायोप्सी स्लाइड से रोगों की सही पहचान कर सकता है।
पथकैथ
लगभग 90% सटीकता के साथ GPT-4V को पार करना
पैथचैट के पहचान प्रदर्शन का परीक्षण करने के लिए, अनुसंधान दल ने पैथचैट की तुलना ओपन-सोर्स मॉडल LLaVA, बायोमेडिकल-विशिष्ट LLaVA-Med और GPT-4V के साथ की।
उन्होंने PathQABench तुलनात्मक प्रयोग तैयार किया, जिसमें विभिन्न अंगों और पद्धतियों से रोग संबंधी मामलों का विश्लेषण किया गया, ताकि PathChat के पहचान प्रदर्शन की तुलना LLaVA, LLaVA-Med और GPT-4V से की जा सके।
परिणामों से पता चला कि नैदानिक संदर्भ प्रदान किए बिना, PathChat की नैदानिक सटीकता LLaVA 1.5 और LLaVA-Med की तुलना में काफी अधिक थी। अकेले छवियों का मूल्यांकन करते समय, PathChat ने सभी संयुक्त बेंचमार्क में 78.1% की सटीकता हासिल की, जो LLaVA 1.5 से 52.4% अधिक और LLaVA-Med से 63.8% अधिक है।
नैदानिक संदर्भ को शामिल करने के साथ, पैथचैट की सटीकता बढ़कर 89.5% हो गई, जो LLaVA 1.5 से 39.0% अधिक है और LLaVA-Med से 60.9% अधिक है।
तुलनात्मक प्रयोग से पता चला कि PathChat केवल नैदानिक संदर्भ पर निर्भर रहने के बजाय, केवल छवियों की दृश्य विशेषताओं से पर्याप्त पूर्वानुमान क्षमता प्राप्त कर सकता है। यह सामान्य प्राकृतिक भाषा के माध्यम से प्रदान की गई गैर-दृश्य जानकारी को शामिल करके हिस्टोलॉजिकल छवियों का सटीक निदान करने के लिए प्रभावी ढंग से और लचीले ढंग से मल्टीमॉडल जानकारी का उपयोग कर सकता है।
ओपन-एंडेड प्रश्नों के लिए प्रत्येक मॉडल की प्रतिक्रियाओं की सटीकता का निष्पक्ष मूल्यांकन करने के लिए, शोध दल ने एक मूल्यांकन पैनल बनाने के लिए सात पैथोलॉजिस्ट की भर्ती की। 260 ओपन-एंडेड प्रश्नों के लिए चार मॉडलों की प्रतिक्रियाओं की तुलना करके, मॉडल की पहचान की सटीकता का विश्लेषण किया गया।
अंत में, ओपन-एंडेड प्रश्नों पर जहां सात विशेषज्ञ आम सहमति पर पहुंच सकते थे, PathChat की समग्र सटीकता 78.7% थी, जो क्रमशः GPT-4V, LLaVA 1.5 और LLaVA-Med की तुलना में 26.4%, 48.9% और 48.1% अधिक थी। कुल मिलाकर, PathChat ने अन्य तीन मॉडलों की तुलना में बेहतर प्रदर्शन किया।
शोधकर्ताओं ने संकेत दिया कि पैथचैट रोग संबंधी ऊतक छवियों में सूक्ष्म रूपात्मक विवरणों का विश्लेषण और वर्णन कर सकता है। छवि इनपुट के अलावा, यह पैथोलॉजी और सामान्य बायोमेडिकल पृष्ठभूमि ज्ञान की आवश्यकता वाले प्रश्नों का उत्तर भी दे सकता है, जिससे यह पैथोलॉजिस्ट और शोधकर्ताओं की सहायता करने के लिए एक आशाजनक उपकरण बन जाता है।
प्रयोगों में PathChat के बेहतरीन प्रदर्शन के बावजूद, व्यावहारिक अनुप्रयोगों में इसे अभी भी कुछ चुनौतियों का सामना करना पड़ रहा है। इनमें यह सुनिश्चित करना शामिल है कि मॉडल अमान्य क्वेरीज़ की पहचान कर सके और गलत आउटपुट से बच सके, नवीनतम चिकित्सा ज्ञान के साथ समन्वय बनाए रख सके और इस तथ्य को संबोधित कर सके कि PathChat का प्रशिक्षण डेटा मुख्य रूप से ऐतिहासिक डेटा से आता है, जो नवीनतम जानकारी के बजाय "पिछली वैज्ञानिक सहमति" को दर्शा सकता है।
शोधकर्ताओं ने कहा कि भविष्य के अध्ययनों से PathChat की क्षमताओं में और वृद्धि हो सकती है, जिसमें संपूर्ण गीगापिक्सल WSI या कई WSI इनपुट का समर्थन करना और अधिक कार्य-विशिष्ट समर्थन को एकीकृत करना शामिल है, जैसे कि सटीक गिनती या ऑब्जेक्ट स्थानीयकरण। इसके अतिरिक्त, डिजिटल स्लाइड व्यूअर या इलेक्ट्रॉनिक मेडिकल रिकॉर्ड के साथ PathChat को एकीकृत करने से नैदानिक अभ्यास में इसकी व्यावहारिकता में और सुधार हो सकता है।
हाल ही में, मल्टीमॉडल जनरेटिव AI मॉडल PathChat 2 जारी किया गया। यह पैथोलॉजी छवियों और पाठ पर तर्क कर सकता है, एक इंटरैक्टिव स्लाइड व्यूअर में कई उच्च-रिज़ॉल्यूशन छवियों और पाठ के वैकल्पिक इनपुट को स्वीकार करता है, इस प्रकार प्रत्येक परामर्श मामले के लिए अधिक व्यापक मूल्यांकन प्रदान करता है।
PathChat 1 की तुलना में, इसने विभेदक निदान और रूपात्मक विवरण में प्रदर्शन में उल्लेखनीय सुधार किया है। इसने निर्देश का पालन करने, खुले-आम सवाल का जवाब देने और रिपोर्ट सारांश बनाने जैसे कार्यों में भी क्षमताओं को बढ़ाया है।