हार्वर्ड के AI चैटबॉट ने 90% ट्यूमर डिटेक्शन के साथ GPT-4V को पीछे छोड़ दिया

श्रेणियाँ: AI Newsटैग: , , प्रकाशित तिथि: जुलाई 12, 20245.1 मिनट पढ़े
पथचैट

GPT-4V को पीछे छोड़ते हुए! हार्वर्ड मेडिकल स्कूल के AI चैटबॉट को नेचर में लगभग 90% ट्यूमर डिटेक्शन सटीकता के साथ दिखाया गया

वर्तमान में, कैंसर दुनिया भर में मौत के प्रमुख कारणों में से एक बन गया है, हर साल लाखों लोग इससे मरते हैं। विश्व स्वास्थ्य संगठन ने कहा है कि एक तिहाई कैंसर का इलाज समय रहते पता लगाने और समय पर उपचार से किया जा सकता है।

हालांकि, चिकित्सा क्षेत्र में कैंसर की जांच हमेशा से एक बड़ी चुनौती रही है। खास तौर पर, पैथोलॉजिकल विश्लेषण में रोगी के उपचार के लिए ट्यूमर की सटीक पहचान और निदान महत्वपूर्ण है। पारंपरिक पैथोलॉजिकल जांच काफी हद तक विशेषज्ञों की विशेषज्ञता और पेशेवर ज्ञान पर निर्भर करती है।

जीपीटी-4 जैसे बड़े मॉडलों के विकास के साथ, इसके उपयोग पर अनुसंधान भी शुरू हो गया है। कृत्रिम बुद्धिमत्ता (एआई) रोग निदान में सहायता करने के लिए धीरे-धीरे एक नई तकनीक उभर कर सामने आई है। हालाँकि, कई AI सिस्टम अभी भी व्यावहारिक अनुप्रयोगों में प्रदर्शन संबंधी कमियों और खराब अन्तरक्रियाशीलता का सामना कर रहे हैं।

हाल ही में, हार्वर्ड मेडिकल स्कूल की एक शोध टीम और उनके सहयोगियों ने मानव पैथोलॉजी के लिए एक दृश्य भाषा सामान्य एआई सहायक विकसित किया है जिसे पाथचैट कहा जाता है। यह प्रणाली लगभग 90% मामलों में बायोप्सी स्लाइड से रोगों की सही पहचान कर सकती है, जो GPT-4V जैसे सामान्य एआई मॉडल और वर्तमान में बाजार में उपलब्ध पेशेवर चिकित्सा मॉडल से बेहतर प्रदर्शन करती है।

संबंधित शोध पत्र, जिसका शीर्षक है “मानव पैथोलॉजी के लिए एक मल्टीमॉडल जेनरेटिव एआई कोपायलट,” वैज्ञानिक पत्रिका नेचर में प्रकाशित किया गया है।

मानव पैथोलॉजी के लिए एक मल्टीमॉडल जनरेटिव एआई कोपायलट

मानव पैथोलॉजी के लिए एक मल्टीमॉडल जनरेटिव एआई कोपायलट

यह ध्यान देने योग्य है कि यह अग्रणी प्रौद्योगिकी न केवल ट्यूमर की पहचान कर सकती है, बल्कि उपयोगकर्ताओं के साथ बातचीत भी कर सकती है, जिससे पैथोलॉजी में निदान और अनुसंधान के लिए नए उपकरण और दृष्टिकोण उपलब्ध हो सकते हैं।

PathChat: मल्टीमॉडल पैथोलॉजी डिटेक्शन AI असिस्टेंट

कई वर्षों से, कम्प्यूटेशनल पैथोलॉजी ने पैथोलॉजिकल मॉर्फोलॉजी डेटा और आणविक पहचान डेटा के विश्लेषण में महत्वपूर्ण प्रगति की है। एआई और कंप्यूटर विज़न तकनीकों के साथ पैथोलॉजी के प्रतिच्छेदन द्वारा गठित यह आला अनुसंधान क्षेत्र धीरे-धीरे चिकित्सा छवि विश्लेषण में एक शोध हॉटस्पॉट बन रहा है।

कम्प्यूटेशनल पैथोलॉजी में एआई कम्प्यूटेशनल पैथोलॉजी मॉडल बनाने के लिए इमेज प्रोसेसिंग और एआई तकनीक का उपयोग करना शामिल है। ये मॉडल हिस्टोपैथोलॉजिकल इमेज प्राप्त करते हैं और स्वचालित इमेज विश्लेषण तकनीकों के माध्यम से निदान, मात्रात्मक मूल्यांकन और निर्णय लेने में सहायता के लिए इन छवियों की रूपात्मक उपस्थिति का प्रारंभिक मूल्यांकन करते हैं।

वर्तमान में, ChatGPT द्वारा प्रस्तुत जनरेटिव AI तकनीकों की विस्फोटक वृद्धि के साथ, मल्टीमॉडल लार्ज लैंग्वेज मॉडल (MLLM) का उपयोग पैथोलॉजी में कम्प्यूटेशनल पैथोलॉजी अनुसंधान और नैदानिक अभ्यास में तेजी से किया जा रहा है। हालाँकि, एनाटॉमिकल पैथोलॉजी के अत्यधिक विशिष्ट उपक्षेत्र में, पैथोलॉजी के लिए सामान्य, मल्टीमॉडल AI सहायकों के निर्माण पर शोध अभी भी अपने शुरुआती चरण में है।

इस कार्य में, शोध दल ने विशेष रूप से मानव पैथोलॉजी अनुसंधान के लिए एक मल्टीमॉडल जनरेटिव एआई सहायक-पथचैट डिज़ाइन किया। उन्होंने 1 मिलियन से अधिक स्लाइडों से 100 मिलियन से अधिक सेल ऊतक छवि अंशों पर स्व-पर्यवेक्षित शिक्षण के माध्यम से सिस्टम को पूर्व-प्रशिक्षित किया। इसे अत्याधुनिक शुद्ध दृश्य एनकोडर, UNI के साथ जोड़कर, उन्होंने एक MLLM तैयार किया जो दृश्य और प्राकृतिक भाषा इनपुट दोनों के बारे में तर्क करने में सक्षम है। 450,000 से अधिक निर्देश डेटा बिंदुओं के डेटासेट पर फ़ाइन-ट्यूनिंग के बाद, पथचैट का निर्माण किया गया।

शोध में पाया गया कि पैथचैट न केवल मल्टीमॉडल इनपुट को संभाल सकता है, बल्कि जटिल पैथोलॉजी-संबंधी पूछताछ का भी सटीक जवाब दे सकता है, तथा लगभग 90% मामलों में बायोप्सी स्लाइड से रोगों की सही पहचान कर सकता है।

पथकैथ

पथकैथ

लगभग 90% सटीकता के साथ GPT-4V को पार करना

पैथचैट के पहचान प्रदर्शन का परीक्षण करने के लिए, अनुसंधान दल ने पैथचैट की तुलना ओपन-सोर्स मॉडल LLaVA, बायोमेडिकल-विशिष्ट LLaVA-Med और GPT-4V के साथ की।

उन्होंने PathQABench तुलनात्मक प्रयोग तैयार किया, जिसमें विभिन्न अंगों और पद्धतियों से रोग संबंधी मामलों का विश्लेषण किया गया, ताकि PathChat के पहचान प्रदर्शन की तुलना LLaVA, LLaVA-Med और GPT-4V से की जा सके।

परिणामों से पता चला कि नैदानिक संदर्भ प्रदान किए बिना, PathChat की नैदानिक सटीकता LLaVA 1.5 और LLaVA-Med की तुलना में काफी अधिक थी। अकेले छवियों का मूल्यांकन करते समय, PathChat ने सभी संयुक्त बेंचमार्क में 78.1% की सटीकता हासिल की, जो LLaVA 1.5 से 52.4% अधिक और LLaVA-Med से 63.8% अधिक है।

नैदानिक संदर्भ को शामिल करने के साथ, पैथचैट की सटीकता बढ़कर 89.5% हो गई, जो LLaVA 1.5 से 39.0% अधिक है और LLaVA-Med से 60.9% अधिक है।

तुलनात्मक प्रयोग से पता चला कि PathChat केवल नैदानिक संदर्भ पर निर्भर रहने के बजाय, केवल छवियों की दृश्य विशेषताओं से पर्याप्त पूर्वानुमान क्षमता प्राप्त कर सकता है। यह सामान्य प्राकृतिक भाषा के माध्यम से प्रदान की गई गैर-दृश्य जानकारी को शामिल करके हिस्टोलॉजिकल छवियों का सटीक निदान करने के लिए प्रभावी ढंग से और लचीले ढंग से मल्टीमॉडल जानकारी का उपयोग कर सकता है।

ओपन-एंडेड प्रश्नों के लिए प्रत्येक मॉडल की प्रतिक्रियाओं की सटीकता का निष्पक्ष मूल्यांकन करने के लिए, शोध दल ने एक मूल्यांकन पैनल बनाने के लिए सात पैथोलॉजिस्ट की भर्ती की। 260 ओपन-एंडेड प्रश्नों के लिए चार मॉडलों की प्रतिक्रियाओं की तुलना करके, मॉडल की पहचान की सटीकता का विश्लेषण किया गया।

अंत में, ओपन-एंडेड प्रश्नों पर जहां सात विशेषज्ञ आम सहमति पर पहुंच सकते थे, PathChat की समग्र सटीकता 78.7% थी, जो क्रमशः GPT-4V, LLaVA 1.5 और LLaVA-Med की तुलना में 26.4%, 48.9% और 48.1% अधिक थी। कुल मिलाकर, PathChat ने अन्य तीन मॉडलों की तुलना में बेहतर प्रदर्शन किया।

शोधकर्ताओं ने संकेत दिया कि पैथचैट रोग संबंधी ऊतक छवियों में सूक्ष्म रूपात्मक विवरणों का विश्लेषण और वर्णन कर सकता है। छवि इनपुट के अलावा, यह पैथोलॉजी और सामान्य बायोमेडिकल पृष्ठभूमि ज्ञान की आवश्यकता वाले प्रश्नों का उत्तर भी दे सकता है, जिससे यह पैथोलॉजिस्ट और शोधकर्ताओं की सहायता करने के लिए एक आशाजनक उपकरण बन जाता है।

प्रयोगों में PathChat के बेहतरीन प्रदर्शन के बावजूद, व्यावहारिक अनुप्रयोगों में इसे अभी भी कुछ चुनौतियों का सामना करना पड़ रहा है। इनमें यह सुनिश्चित करना शामिल है कि मॉडल अमान्य क्वेरीज़ की पहचान कर सके और गलत आउटपुट से बच सके, नवीनतम चिकित्सा ज्ञान के साथ समन्वय बनाए रख सके और इस तथ्य को संबोधित कर सके कि PathChat का प्रशिक्षण डेटा मुख्य रूप से ऐतिहासिक डेटा से आता है, जो नवीनतम जानकारी के बजाय "पिछली वैज्ञानिक सहमति" को दर्शा सकता है।

शोधकर्ताओं ने कहा कि भविष्य के अध्ययनों से PathChat की क्षमताओं में और वृद्धि हो सकती है, जिसमें संपूर्ण गीगापिक्सल WSI या कई WSI इनपुट का समर्थन करना और अधिक कार्य-विशिष्ट समर्थन को एकीकृत करना शामिल है, जैसे कि सटीक गिनती या ऑब्जेक्ट स्थानीयकरण। इसके अतिरिक्त, डिजिटल स्लाइड व्यूअर या इलेक्ट्रॉनिक मेडिकल रिकॉर्ड के साथ PathChat को एकीकृत करने से नैदानिक अभ्यास में इसकी व्यावहारिकता में और सुधार हो सकता है।

हाल ही में, मल्टीमॉडल जनरेटिव AI मॉडल PathChat 2 जारी किया गया। यह पैथोलॉजी छवियों और पाठ पर तर्क कर सकता है, एक इंटरैक्टिव स्लाइड व्यूअर में कई उच्च-रिज़ॉल्यूशन छवियों और पाठ के वैकल्पिक इनपुट को स्वीकार करता है, इस प्रकार प्रत्येक परामर्श मामले के लिए अधिक व्यापक मूल्यांकन प्रदान करता है।

PathChat 1 की तुलना में, इसने विभेदक निदान और रूपात्मक विवरण में प्रदर्शन में उल्लेखनीय सुधार किया है। इसने निर्देश का पालन करने, खुले-आम सवाल का जवाब देने और रिपोर्ट सारांश बनाने जैसे कार्यों में भी क्षमताओं को बढ़ाया है।

अन्य AI समाचार और प्रौद्योगिकी कार्यक्रम देखें यहाँ AIfuturize में!

एक टिप्पणी छोड़ें