Điều đáng chú ý là công nghệ đột phá này không chỉ có thể xác định khối u mà còn tương tác với người dùng, cung cấp các công cụ và quan điểm mới cho chẩn đoán và nghiên cứu bệnh lý.
PathChat: Trợ lý AI phát hiện bệnh lý đa phương thức
Trong nhiều năm, bệnh lý tính toán đã đạt được tiến bộ đáng kể trong việc phân tích dữ liệu hình thái bệnh lý và dữ liệu phát hiện phân tử. Lĩnh vực nghiên cứu thích hợp này, được hình thành nhờ sự giao thoa giữa bệnh lý với công nghệ AI và thị giác máy tính, đang dần trở thành điểm nóng nghiên cứu trong phân tích hình ảnh y tế.
Bệnh lý tính toán liên quan đến việc sử dụng xử lý hình ảnh và công nghệ AI để xây dựng các mô hình bệnh lý tính toán AI. Những mô hình này thu được hình ảnh mô bệnh học và tiến hành đánh giá sơ bộ về hình thái của những hình ảnh này để hỗ trợ chẩn đoán, đánh giá định lượng và ra quyết định thông qua các kỹ thuật phân tích hình ảnh tự động.
Hiện nay, với sự phát triển bùng nổ của các công nghệ AI tổng quát được đại diện bởi ChatGPT, các mô hình ngôn ngữ lớn đa phương thức (MLLM) đang ngày càng được áp dụng trong nghiên cứu bệnh lý tính toán và thực hành lâm sàng trong bệnh lý. Tuy nhiên, trong lĩnh vực chuyên môn cao về bệnh lý giải phẫu, nghiên cứu xây dựng các trợ lý AI đa phương thức, tổng quát cho bệnh lý vẫn đang ở giai đoạn đầu.
Trong công việc này, nhóm nghiên cứu đã thiết kế một trợ lý AI có khả năng tạo ra đa phương thức dành riêng cho nghiên cứu bệnh lý ở người—PathChat. Họ đã đào tạo trước hệ thống thông qua quá trình học tự giám sát trên hơn 100 triệu mảnh hình ảnh mô tế bào từ hơn 1 triệu slide. Bằng cách kết hợp điều này với bộ mã hóa hình ảnh thuần túy tiên tiến nhất, UNI, họ đã tạo ra một MLLM có khả năng suy luận về cả đầu vào ngôn ngữ hình ảnh và ngôn ngữ tự nhiên. Sau khi tinh chỉnh tập dữ liệu gồm hơn 450.000 điểm dữ liệu hướng dẫn, PathChat đã được xây dựng.
Nghiên cứu cho thấy PathChat không chỉ có thể xử lý dữ liệu đầu vào đa phương thức mà còn phản hồi chính xác các câu hỏi liên quan đến bệnh lý phức tạp, xác định chính xác bệnh từ các slide sinh thiết trong gần 90% trường hợp.
Đường dẫn
Vượt qua GPT-4V với độ chính xác gần 90%
Để kiểm tra hiệu suất phát hiện của PathChat, nhóm nghiên cứu đã so sánh PathChat với mô hình nguồn mở LLaVA, LLaVA-Med dành riêng cho y sinh và GPT-4V.
Họ đã thiết kế thí nghiệm so sánh PathQABench, phân tích các trường hợp bệnh lý từ các cơ quan và phương pháp thực hành khác nhau để so sánh hiệu suất phát hiện của PathChat với LLaVA, LLaVA-Med và GPT-4V.
Kết quả cho thấy rằng dù không cung cấp bối cảnh lâm sàng, độ chính xác chẩn đoán của PathChat cao hơn đáng kể so với LLaVA 1.5 và LLaVA-Med. Khi chỉ đánh giá hình ảnh, PathChat đã đạt được độ chính xác 78,1% trên tất cả các điểm chuẩn tổng hợp, cao hơn 52,4% so với LLaVA 1.5 và cao hơn 63,8% so với LLaVA-Med.
Với việc đưa vào bối cảnh lâm sàng, độ chính xác của PathChat tăng thêm lên 89,5%, cao hơn 39,0% so với LLaVA 1.5 và cao hơn 60,9% so với LLaVA-Med.
Thử nghiệm so sánh cho thấy PathChat có thể thu được khả năng dự đoán đáng kể chỉ từ các đặc điểm hình ảnh của hình ảnh, thay vì chỉ dựa vào bối cảnh lâm sàng. Nó có thể sử dụng hiệu quả và linh hoạt thông tin đa phương thức để chẩn đoán chính xác hình ảnh mô học bằng cách kết hợp thông tin phi hình ảnh được cung cấp thông qua ngôn ngữ tự nhiên thông thường.
Để đánh giá khách quan tính chính xác của từng câu trả lời của mô hình đối với các câu hỏi mở, nhóm nghiên cứu đã tuyển dụng bảy nhà nghiên cứu bệnh học để thành lập một hội đồng đánh giá. Bằng cách so sánh câu trả lời của bốn mô hình với 260 câu hỏi mở, độ chính xác của các phát hiện của mô hình đã được phân tích.
Cuối cùng, đối với các câu hỏi mở mà bảy chuyên gia có thể đạt được sự đồng thuận, độ chính xác tổng thể của PathChat là 78,7%, cao hơn lần lượt là 26,4%, 48,9% và 48,1% so với GPT-4V, LLaVA 1,5 và LLaVA-Med. Nhìn chung, PathChat thể hiện hiệu suất vượt trội so với ba mô hình còn lại.
Các nhà nghiên cứu chỉ ra rằng PathChat có thể phân tích và mô tả các chi tiết hình thái tinh vi trong hình ảnh mô bệnh lý. Bên cạnh đầu vào hình ảnh, nó còn có thể trả lời các câu hỏi yêu cầu về bệnh lý và kiến thức nền tảng y sinh nói chung, khiến nó trở thành một công cụ đầy hứa hẹn để hỗ trợ các nhà nghiên cứu và bệnh lý học.
Mặc dù PathChat có hiệu suất tuyệt vời trong các thử nghiệm nhưng nó vẫn phải đối mặt với một số thách thức trong ứng dụng thực tế. Chúng bao gồm việc đảm bảo mô hình có thể xác định các truy vấn không hợp lệ và tránh kết quả đầu ra sai sót, duy trì đồng bộ hóa với kiến thức y tế mới nhất và giải quyết thực tế là dữ liệu đào tạo của PathChat chủ yếu đến từ dữ liệu lịch sử, có thể phản ánh “sự đồng thuận khoa học trong quá khứ” thay vì thông tin mới nhất.
Các nhà nghiên cứu tuyên bố rằng các nghiên cứu trong tương lai có thể nâng cao hơn nữa khả năng của PathChat, bao gồm hỗ trợ toàn bộ WSI gigapixel hoặc nhiều đầu vào WSI và tích hợp nhiều hỗ trợ dành riêng cho nhiệm vụ hơn, chẳng hạn như đếm chính xác hoặc bản địa hóa đối tượng. Ngoài ra, việc tích hợp PathChat với trình xem slide kỹ thuật số hoặc hồ sơ y tế điện tử có thể cải thiện hơn nữa tính thực tế của nó trong thực hành lâm sàng.
Gần đây, mô hình AI tạo đa phương thức PathChat 2 đã được phát hành. Nó có thể suy luận về hình ảnh và văn bản bệnh lý, chấp nhận đầu vào xen kẽ của nhiều hình ảnh và văn bản có độ phân giải cao trong trình xem slide tương tác, do đó cung cấp các đánh giá toàn diện hơn cho từng trường hợp tư vấn.
So với PathChat 1, nó đã cải thiện đáng kể hiệu suất trong chẩn đoán phân biệt và mô tả hình thái. Nó cũng có các khả năng nâng cao trong các nhiệm vụ như làm theo hướng dẫn, trả lời câu hỏi mở và tóm tắt báo cáo.