Harvard의 AI Chatbot은 90% 종양 탐지 기능으로 GPT-4V보다 성능이 뛰어납니다.

카테고리: AI News태그: , , 게시일: 7월 12, 20245.1 최소 읽기
패스챗

GPT-4V를 능가하다! 거의 90%에 가까운 종양 탐지 정확도로 자연에 등장한 하버드 의과대학의 AI 챗봇

현재 암은 전 세계적으로 사망 원인 1위가 되었으며, 매년 수백만 명이 암으로 사망하고 있습니다. 세계보건기구(WHO)는 암의 3분의 1이 조기 발견과 조기 치료를 통해 완치될 수 있다고 밝혔습니다.

그러나 암 검진은 의료계에서 늘 큰 난제였습니다. 특히, 병리학적 분석에서 환자 치료를 위해서는 종양의 정확한 식별과 진단이 매우 중요합니다. 전통적인 병리검사는 전문의의 전문지식과 전문지식에 크게 좌우된다.

GPT-4 등 대형 모델의 개발과 함께 이를 활용한 연구 인공지능(AI) 병리학적 진단을 돕는 것이 점차 등장했습니다. 그러나 많은 AI 시스템은 실제 응용 프로그램에서 여전히 성능 부족과 낮은 상호 작용에 직면해 있습니다.

최근 하버드 의과대학 연구팀과 협력자들은 PathChat이라는 인간 병리학을 위한 시각 언어 일반 AI 보조 장치를 개발했습니다. 이 시스템은 거의 90% 사례의 생검 슬라이드에서 질병을 정확하게 식별할 수 있으며, 이는 현재 시중에 나와 있는 GPT-4V와 같은 일반 AI 모델 및 전문 의료 모델보다 성능이 뛰어납니다.

'라는 제목의 관련 연구 논문이 있다. "인간 병리학을 위한 다중 모드 생성 AI 부조종사" 과학저널 네이처(Nature)에 게재됐다.

인간 병리학을 위한 다중 모드 생성 AI 부조종사

인간 병리학을 위한 다중 모드 생성 AI 부조종사

이 획기적인 기술은 종양을 식별할 수 있을 뿐만 아니라 사용자와 상호 작용하여 병리학 진단 및 연구를 위한 새로운 도구와 관점을 제공한다는 점은 주목할 가치가 있습니다.

PathChat: 다중 모드 병리학 탐지 AI 도우미

수년 동안 전산병리학은 병리학적 형태 데이터와 분자 검출 데이터를 분석하는 데 있어 상당한 진전을 이루었습니다. 병리학과 AI 및 컴퓨터 비전 기술의 교차로 형성된 이 틈새 연구 분야는 점차 의료 영상 분석 분야의 연구 핫스팟이 되고 있습니다.

전산병리학에는 이미지 처리와 AI 기술을 사용하여 AI 전산병리학 모델을 구축하는 작업이 포함됩니다. 이러한 모델은 조직병리학적 이미지를 획득하고 이러한 이미지의 형태학적 외관에 대한 예비 평가를 수행하여 자동화된 이미지 분석 기술을 통해 진단, 정량적 평가 및 의사 결정을 지원합니다.

현재 ChatGPT로 대표되는 생성 AI 기술의 폭발적인 성장으로 인해 다중 모드 대형 언어 모델(MLLM)이 전산 병리학 연구 및 병리학 임상 실습에 점점 더 많이 적용되고 있습니다. 그러나 고도로 전문화된 해부학적 병리학 하위 분야에서 병리학을 위한 일반 다중 모드 AI 보조 장치 구축에 대한 연구는 아직 초기 단계에 있습니다.

이 작업에서 연구팀은 특히 인간 병리학 연구를 위한 다중 모드 생성 AI 도우미인 PathChat을 설계했습니다. 그들은 100만 개 이상의 슬라이드에서 1억 개가 넘는 세포 조직 이미지 조각에 대한 자기 지도 학습을 통해 시스템을 사전 훈련했습니다. 이를 최첨단 순수 시각적 인코더인 UNI와 결합하여 시각적 및 자연어 입력을 모두 추론할 수 있는 MLLM을 생성했습니다. 450,000개 이상의 명령 데이터 포인트로 구성된 데이터 세트를 미세 조정한 후 PathChat이 구축되었습니다.

연구에 따르면 PathChat은 다중 모드 입력을 처리할 수 있을 뿐만 아니라 복잡한 병리 관련 문의에 정확하게 응답하여 거의 90% 사례의 생검 슬라이드에서 질병을 정확하게 식별할 수 있는 것으로 나타났습니다.

패스캐트

패스캐트

거의 90% 정확도로 GPT-4V를 능가

연구팀은 PathChat의 탐지 성능을 테스트하기 위해 PathChat을 오픈 소스 모델인 LLaVA, 생체의학 특화 LLaVA-Med, GPT-4V와 비교했습니다.

그들은 PathChat의 탐지 성능을 LLaVA, LLaVA-Med 및 GPT-4V와 비교하기 위해 다양한 기관 및 관행의 병리학적 사례를 분석하는 PathQABench 비교 실험을 설계했습니다.

결과는 임상적 맥락을 제공하지 않으면 PathChat의 진단 정확도가 LLaVA 1.5 및 LLaVA-Med보다 훨씬 더 높은 것으로 나타났습니다. 이미지만 평가할 때 PathChat은 모든 결합 벤치마크에서 78.1%의 정확도를 달성했습니다. 이는 LLaVA 1.5보다 52.4% 더 높고 LLaVA-Med보다 63.8% 더 높습니다.

임상적 맥락을 포함시키면 PathChat의 정확도는 89.5%로 더욱 높아졌습니다. 이는 LLaVA 1.5보다 39.0%, LLaVA-Med보다 60.9% 더 높습니다.

비교 실험을 통해 PathChat은 임상적 맥락에만 의존하기보다는 이미지의 시각적 특징만으로 상당한 예측 능력을 도출할 수 있음이 밝혀졌습니다. 일반적인 자연어를 통해 제공되는 비시각적 정보를 통합하여 조직학적 영상을 정확하게 진단하기 위한 다중 모드 정보를 효과적이고 유연하게 활용할 수 있습니다.

개방형 질문에 대한 각 모델의 응답 정확도를 객관적으로 평가하기 위해 연구팀은 7명의 병리학자를 모집하여 평가 패널을 구성했습니다. 260개의 개방형 질문에 대한 4가지 모델의 응답을 비교하여 모델 탐지의 정확성을 분석했습니다.

마지막으로, 7명의 전문가가 합의에 도달할 수 있는 개방형 질문에서 PathChat의 전체 정확도는 78.7%로 GPT-4V, LLaVA 1.5 및 LLaVA-Med보다 각각 26.4%, 48.9%, 48.1% 더 높았습니다. 전반적으로 PathChat은 다른 세 가지 모델에 비해 우수한 성능을 보여주었습니다.

연구원들은 PathChat이 병리학적 조직 이미지의 미묘한 형태학적 세부 사항을 분석하고 설명할 수 있다고 밝혔습니다. 이미지 입력 외에도 병리학 및 일반적인 생의학적 배경 지식이 필요한 질문에 답할 수 있으므로 병리학자와 연구자를 지원하는 유망한 도구입니다.

실험에서 PathChat의 탁월한 성능에도 불구하고 실제 적용에서는 여전히 몇 가지 문제에 직면해 있습니다. 여기에는 모델이 유효하지 않은 쿼리를 식별하고 잘못된 출력을 방지할 수 있는지 확인하고, 최신 의학 지식과의 동기화를 유지하고, PathChat의 훈련 데이터가 주로 최신 정보가 아닌 "과거의 과학적 합의"를 반영할 수 있는 과거 데이터에서 나온다는 사실을 다루는 것이 포함됩니다.

연구원들은 향후 연구를 통해 전체 기가픽셀 WSI 또는 여러 WSI 입력을 지원하고 정확한 계산 또는 개체 위치 파악과 같은 보다 많은 작업별 지원을 통합하는 등 PathChat의 기능을 더욱 향상시킬 수 있다고 밝혔습니다. 또한 PathChat을 디지털 슬라이드 뷰어 또는 전자 의료 기록과 통합하면 임상 실습에서의 실용성이 더욱 향상될 수 있습니다.

최근에는 다중 모드 생성 AI 모델인 PathChat 2가 출시되었습니다. 병리학 이미지와 텍스트를 추론하고 대화형 슬라이드 뷰어에서 여러 고해상도 이미지와 텍스트를 교대로 입력하여 각 상담 사례에 대해 보다 포괄적인 평가를 제공할 수 있습니다.

PathChat 1에 비해 감별진단 및 형태학적 설명 성능이 크게 향상되었습니다. 또한 지침 따르기, 개방형 질문 응답, 보고서 요약 등의 작업 기능도 향상되었습니다.

다른 AI 뉴스와 기술 이벤트도 바로 확인해보세요 여기 AIfuturize에서!

코멘트를 남겨주세요