LLM 和傳統的臨床決策支持系統(CDSS)有什麼不同? 傳統的臨床決策支持系統(Clinical Decision Support System,CDSS)是基於明確規則或結構化知識庫運作,輸出可預期且可溯源。LLM 則是基於統計語言模型,可以處理非結構化文字,但輸出的準確性無法保證,且推理過程難以解釋。兩者的適用場景不同,不能互相取代。理想的設計是分工:LLM 處理語言任務,CDSS 處理規則型判斷。 醫院導入 LLM 需要取得哪些監管許可? 在台灣,若 LLM 的功能涉及醫療診斷、治療建議或風險評估,可能需要申請醫療器材許可(依 TFDA 軟體即醫療器材 SaMD 規範認定)。若只用於行政輔助、衛教資訊提供或文書整理,監管要求較低。建議在導入前先進行合規評估,確認功能定義是否觸發 SaMD 認定標準。 LLM 的幻覺問題可以透過微調(Fine-tuning)解決嗎? 微調可以降低某些類型的幻覺頻率,但無法從根本上消除幻覺。幻覺是語言模型的結構性問題,並非訓練資料不足的問題。目前較有效的緩解方式是 RAG(Retrieval-Augmented Generation,檢索增強生成)架構,讓模型在生成回答時同時參照可信的外部資料庫。但 RAG 也只是緩解,不是根治,最終仍需搭配驗證機制。

LLM(Large Language Model,大型語言模型)的出現,讓很多人第一次感覺到:「這件事或許真的有可能了。」

那個感覺不是沒有根據的。一個可以流暢閱讀病歷、整理摘要、回答複雜醫療問題的系統,在直覺上非常吸引人。尤其當醫師每天花大量時間在文書紀錄上,LLM 看起來像是一個真正有機會解決問題的工具。

但這裡要先踩一個剎車。

這種吸引力本身,就是需要先問清楚的部分。很多對 LLM 的期待,混合了三件不同層次的事:它能做什麼、它被期待做什麼、以及它能不能在現實流程中被正確使用。這三件事如果沒有分開來談,很容易把問題定義錯方向。

要回答「LLM 適不適合」這個問題,必須先回到更前面一層:你打算用它解決什麼問題?那個問題,有沒有被正確定義?

先找問題,再找原因,然後才談方法。


一、問題先定義清楚:LLM 在醫療場景裡要解決的是什麼?

兩名醫療人員坐在工作站前,共同指向顯示醫療影像與AI分析介面的多螢幕顯示器

LLM 在醫療場景中被期待解決的問題可以分成三類:資訊處理負擔、知識可及性,以及跨系統資料整合。但這三類問題各有不同的根因,不能用同一套解法處理,混用會造成解錯題。

很多導入 LLM 的醫療機構,第一個想到的是「讓醫師少打字」。這個出發點沒有問題,但需要往下追一層:打字負擔是問題本身,還是問題的症狀?

如果文書負擔的根源是工作流程設計不良、資料輸入點設在錯誤的環節、或是電子病歷系統架構本身沒有對準臨床工作流,那麼引入 LLM 來幫醫師整理口述筆記,是在處理症狀,不是在解決根本問題。症狀可能暫時緩解,但根因還在,可能在新系統引入之後以不同形式再次出現。

第二類問題是知識可及性——病患或醫護人員在需要資訊的當下,無法快速取得正確、可信的知識。LLM 能力確實對應到這個需求,但隨即出現一個子問題:提供一般衛教資訊,和回答「這個病患現在的用藥劑量應該怎麼調整」,這兩件事對準確性的要求是完全不同的量級。問題沒有分層定義清楚,解法就無法對準。

第三類問題是跨系統資料整合。FHIR(Fast Healthcare Interoperability Resources,醫療資訊交換標準,由 HL7 International 制定)等標準的目的是解決這個問題,但標準的存在,不等於落地完成。即使都宣稱支援 FHIR,不同機構的 Profile 設定和欄位填寫品質仍然參差不齊。LLM 在這裡的角色,頂多是輔助資料轉換和摘要,不是跨系統互通問題的根本解方。

所以在談 LLM 是救贖還是沉淪之前,要先回答:你打算用 LLM 解決的,是哪一類問題?那個問題,是被正確定義過的嗎?

重點摘要

  • LLM 在醫療場景的應用問題可分三類:資訊處理負擔、知識可及性、跨系統資料整合
  • 三類問題根因不同,解法也不同,不能混用
  • 問題沒定義清楚,後面的方法選擇就會出錯
  • FHIR 等標準是資料互通的方向,但標準存在不等於落地完成

二、為什麼 LLM 讓醫療場景如此著迷——根因分析

LLM 的吸引力有兩個根源:一是能跨越不同格式的資料邊界,二是輸出形式符合人類的閱讀和對話習慣。但這兩個優勢,也各自帶來對應的風險。

醫療資料是世界上格式最混亂的資料之一——病歷有半結構化欄位、自由文字主觀描述、圖像報告摘要、用藥代碼。LLM 可以處理非結構化文字,在不同格式的資料之間建立語意橋接:閱讀自由文字主訴整理成結構化摘要,把不同來源的用藥紀錄翻譯成統一可讀的語言。

但這裡要往下追原因:LLM 的語意橋接能力,是基於統計模式,而不是醫療知識的推理。「病患血壓偏高」和「病患有高血壓病史」這兩句話在語意上相近,但在臨床意義上完全不同。在低風險的資訊彙整任務中可能無關緊要,但在需要高精確度的臨床決策場景中,就是無法忽視的漏洞。

第二個根源是輸出形式。LLM 產出的是自然語言,醫師可以直接閱讀而不需理解背後的資料格式。但這也帶來認知風險:流暢自然的語言輸出,很容易被使用者當成「正確」的同義詞。人類對文字的信任往往受語言流暢性影響——表達越確定、語氣越自信的內容,讀者傾向給予更高的信任,即使內容本身存在錯誤。

「語言模型生成的醫療建議具有表面說服力,但可能包含事實錯誤且不帶任何警示。研究觀察到使用者傾向信任語言流暢的輸出,而非準確的輸出,這在高風險醫療場景中是不可忽視的認知偏誤。」——《NEJM AI》期刊研究(2023)對 LLM 在臨床場景的系統性風險分析

穿白色醫師袍的女醫師站在紅色背景前,表情困惑,一手叉腰一手向外攤開


三、三個真正的風險:幻覺、責任歸屬、系統信任

兩名醫師站在窗前,共同舉起並審視腦部MRI斷層掃描影像

LLM 在醫療場景的三個核心風險是:幻覺(Hallucination)問題無法從設計上根除、責任歸屬框架在大多數場景尚未建立清楚、以及使用者對系統的信任可能在不知不覺中被過度延伸。這三個風險不是獨立的,而是相互強化的。

第一個風險:幻覺(Hallucination)

LLM 的幻覺問題指的是,模型可能生成語言流暢但事實上不正確的內容,且不會主動標示出錯。在一般對話場景,幻覺的代價是使用者意識到錯誤後不再信任。在醫療場景,幻覺的代價可能是病患接受了錯誤的用藥建議、或醫師看了一份含有不實摘要的文件後做出了不正確的臨床判斷。

問題的核心不在於幻覺存在(所有語言模型都有幻覺),而在於:現有的臨床流程有沒有對應的驗證機制,能夠在 LLM 輸出被採用之前識別並攔截幻覺內容?這個驗證機制的設計,是落地計畫中最常被忽略的部分。

第二個風險:責任歸屬不明確

當 LLM 的輸出被醫師採納,最終影響了診療決策,出了問題的責任由誰承擔?目前大多數 LLM 產品的服務條款明確聲明不對醫療決策的結果負責,責任實際上落在醫師身上。但如果醫師每次使用 LLM 都需要獨立驗證輸出的正確性,LLM 帶來的效率提升可能在驗證成本中被全部抵銷。

世界衛生組織(WHO)在《人工智慧用於健康的道德規範》 中指出,AI 在醫療場景的監管必須解決「問責制缺口」問題,明確界定各角色的責任邊界——這不只是法律問題,也是系統設計問題。

「AI 工具應具有明確的問責機制,確保當結果出錯時,可以追溯原因並識別應負責任的角色。問責制不應因為 AI 介入而變得更模糊,而應在設計階段被明確建立。」——世界衛生組織(WHO)《人工智慧用於健康的道德規範》(2021)

第三個風險:系統信任的過度延伸

當使用者在某類任務中反覆體驗到 LLM 輸出的可靠性,會逐漸建立對系統的信任感,有時候這種信任會跨越邊界,延伸到 LLM 並不適合的任務類型上。一個在行政文書整理方面表現良好的 LLM,使用者可能在需要做臨床決策時,也下意識地倚賴它的輸出。邊界的模糊,是系統設計沒有清楚標示適用範圍的結果。

三個風險相互強化:幻覺問題讓輸出不可完全信任,責任歸屬不清讓錯誤難以被追究,系統信任的過度延伸讓這兩個問題在現實中更難被察覺。


四、LLM 在醫療場景的真實應用版圖

穿白袍的女醫師手持平板電腦,用手指點選平板螢幕上顯示的腦部MRI斷層掃描影像

LLM 在醫療場景的適用範圍,需要根據任務對準確性的要求、錯誤的代價,以及責任承擔機制來劃分。低決策風險、高重複性的語言任務,是 LLM 目前最具實用價值的區域。高風險決策場景則需要強驗證機制搭配,或暫緩導入。

應用場景 風險等級 LLM 適用性 核心限制
病歷摘要整理 有條件適用 需人工審核,防範幻覺混入摘要
一般衛教資訊提供 低-中 較適合 需明確標示「非醫療建議」
用藥交互作用查詢 不建議獨立使用 幻覺風險不可接受,需對照藥典驗證
臨床決策輔助(診斷/治療建議) 不建議獨立使用 責任歸屬未解決,幻覺代價過高
ICD 編碼建議 有條件適用 需對照官方代碼庫進行雙重驗證
行政文書起草 適合 最終需人工確認,語言錯誤可接受
症狀初篩引導(病患端) 中-高 有條件適用 必須有清楚的轉介機制和免責標示
研究文獻摘要 低-中 適合 需確認文獻未被撤回,摘要準確性可接受
跨系統資料格式轉換輔助 有條件適用 轉換結果需人工或程式校驗,不可直接入庫

這張表要傳達的核心概念是:LLM 沒有一個統一的「適用」或「不適用」。同樣是「醫療場景」,每個任務對準確性的要求、錯誤的代價、責任的承擔方式都不相同。評估是否導入 LLM,不是問「這個 LLM 在醫療上能不能用」,而是逐任務問「這個任務的特性,是否符合 LLM 的適用條件」。


五、落地設計比模型選擇更重要——五個評估維度

多名人員圍著白色長桌俯身協作,背景有白板和投影螢幕,桌上放有文件和筆記本

LLM 能不能在醫療場景落地,決定性因素不是模型本身有多強,而是落地設計做得多完整。評估一個導入計畫是否有機會成功,需要檢視五個維度:問題定義、資料供給、角色設計、驗證機制,以及責任歸屬。五個維度缺一不可。

可執行步驟

評估維度一:問題定義是否清楚

在決定使用 LLM 之前,先回答:「我們想解決的問題,如果沒有 LLM,最接近的做法是什麼?LLM 和那個做法相比,有什麼具體可量化的優勢?」答不清楚,就需要先退一步重新定義問題。

評估維度二:資料供給是否穩定

LLM 的輸出品質,強烈受輸入資料品質影響。需要確認:LLM 需要存取的資料現在在哪裡?格式是什麼?缺漏率和填寫品質是否在可接受範圍?FHIR 宣稱支援和實際欄位完整性之間常常存在落差,設計階段沒有盤清楚,通常會在測試階段付出高代價。

評估維度三:角色設計是否清楚

導入 LLM 後,誰看 LLM 的輸出?看到輸出後要做什麼?如果輸出有問題,誰負責識別並處理?LLM 輸出在什麼時間點進入流程、以什麼形式呈現給哪個角色,決定了它是輔助工具還是流程負擔。角色設計不清楚的 LLM 導入,最常見的結果是:系統啟用了,但沒有人真的把它整合進工作流。

評估維度四:驗證機制是否存在

對需要較高準確性的任務,需要設計 LLM 輸出進入最終流程之前的驗證步驟——人工審核、對照資料庫交叉比對、或系統自動的一致性檢查。一個本來屬於「中風險」的任務,若搭配嚴謹的驗證機制,可以在實際操作中達到可接受的水準;反之,若完全沒有驗證機制,會因為使用者信任累積而逐漸滑入更高的風險區間。

評估維度五:責任歸屬是否明確

在部署之前,需要確認:如果 LLM 的輸出影響了一個不良結果,誰承擔責任?相關的法律意見和合規審查是否已完成?責任歸屬不清楚,不只有法律風險,也會導致使用者在面對 LLM 錯誤時缺乏正確的處理程序。

這五個維度是一個評估框架——每個維度上的答案,揭示了導入計畫的可行性,以及需要在哪些地方加強設計才能推進。


重點摘要

文章重點整理

  • LLM 在醫療場景被期待解決的問題可分三類:資訊處理負擔、知識可及性、跨系統資料整合——三類問題根因不同,解法不能混用
  • LLM 最核心的三個風險:幻覺(Hallucination)無法根除、責任歸屬框架尚未完善、系統信任容易被過度延伸
  • 醫療場景中不同任務的 LLM 適用性差距很大,必須逐任務評估,不能以「醫療 AI」一概而論
  • 落地設計的五個維度:問題定義、資料供給、角色設計、驗證機制、責任歸屬——缺一不可
  • LLM 不是救贖,也不是必然的沉淪——它是一個工具,能不能發揮作用,取決於有沒有解對題

LLM 和傳統的臨床決策支持系統(CDSS)有什麼不同?

傳統的臨床決策支持系統(Clinical Decision Support System,CDSS)是基於明確規則或結構化知識庫運作,輸出可預期且可溯源。LLM 則是基於統計語言模型,可以處理非結構化文字,但輸出的準確性無法保證,且推理過程難以解釋。兩者的適用場景不同,不能互相取代。理想的設計是分工:LLM 處理語言任務,CDSS 處理規則型判斷。

醫院導入 LLM 需要取得哪些監管許可?

在台灣,若 LLM 的功能涉及醫療診斷、治療建議或風險評估,可能需要申請醫療器材許可(依 TFDA 軟體即醫療器材 SaMD 規範認定)。若只用於行政輔助、衛教資訊提供或文書整理,監管要求較低。建議在導入前先進行合規評估,確認功能定義是否觸發 SaMD 認定標準。

LLM 的幻覺問題可以透過微調(Fine-tuning)解決嗎?

微調可以降低某些類型的幻覺頻率,但無法從根本上消除幻覺。幻覺是語言模型的結構性問題,並非訓練資料不足的問題。目前較有效的緩解方式是 RAG(Retrieval-Augmented Generation,檢索增強生成)架構,讓模型在生成回答時同時參照可信的外部資料庫。但 RAG 也只是緩解,不是根治,最終仍需搭配驗證機制。

在隱私法規下,醫療資料可以用來提示 LLM 嗎?

使用病患個人資料作為 LLM 提示詞,需要確認資料是否會被服務提供商儲存或用於模型訓練,以及是否符合《個人資料保護法》和《醫療法》的相關規定。選擇有明確資料隔離承諾的企業級 LLM 服務或部署本地模型,是目前降低隱私風險的常見做法。