我愛上一個不可能的可能，LLM是救贖？還是另一種沉淪？

LLM 和傳統的臨床決策支持系統（CDSS）有什麼不同？傳統的臨床決策支持系統（Clinical Decision Support System，CDSS）是基於明確規則或結構化知識庫運作，輸出可預期且可溯源。LLM 則是基於統計語言模型，可以處理非結構化文字，但輸出的準確性無法保證，且推理過程難以解釋。兩者的適用場景不同，不能互相取代。理想的設計是分工：LLM 處理語言任務，CDSS 處理規則型判斷。醫院導入 LLM 需要取得哪些監管許可？在台灣，若 LLM 的功能涉及醫療診斷、治療建議或風險評估，可能需要申請醫療器材許可（依 TFDA 軟體即醫療器材 SaMD 規範認定）。若只用於行政輔助、衛教資訊提供或文書整理，監管要求較低。建議在導入前先進行合規評估，確認功能定義是否觸發 SaMD 認定標準。 LLM 的幻覺問題可以透過微調（Fine-tuning）解決嗎？微調可以降低某些類型的幻覺頻率，但無法從根本上消除幻覺。幻覺是語言模型的結構性問題，並非訓練資料不足的問題。目前較有效的緩解方式是 RAG（Retrieval-Augmented Generation，檢索增強生成）架構，讓模型在生成回答時同時參照可信的外部資料庫。但 RAG 也只是緩解，不是根治，最終仍需搭配驗證機制。

LLM（Large Language Model，大型語言模型）的出現，讓很多人第一次感覺到：「這件事或許真的有可能了。」

那個感覺不是沒有根據的。一個可以流暢閱讀病歷、整理摘要、回答複雜醫療問題的系統，在直覺上非常吸引人。尤其當醫師每天花大量時間在文書紀錄上，LLM 看起來像是一個真正有機會解決問題的工具。

但這裡要先踩一個剎車。

這種吸引力本身，就是需要先問清楚的部分。很多對 LLM 的期待，混合了三件不同層次的事：它能做什麼、它被期待做什麼、以及它能不能在現實流程中被正確使用。這三件事如果沒有分開來談，很容易把問題定義錯方向。

要回答「LLM 適不適合」這個問題，必須先回到更前面一層：你打算用它解決什麼問題？那個問題，有沒有被正確定義？

先找問題，再找原因，然後才談方法。

一、問題先定義清楚：LLM 在醫療場景裡要解決的是什麼？

LLM 在醫療場景中被期待解決的問題可以分成三類：資訊處理負擔、知識可及性，以及跨系統資料整合。但這三類問題各有不同的根因，不能用同一套解法處理，混用會造成解錯題。

很多導入 LLM 的醫療機構，第一個想到的是「讓醫師少打字」。這個出發點沒有問題，但需要往下追一層：打字負擔是問題本身，還是問題的症狀？

如果文書負擔的根源是工作流程設計不良、資料輸入點設在錯誤的環節、或是電子病歷系統架構本身沒有對準臨床工作流，那麼引入 LLM 來幫醫師整理口述筆記，是在處理症狀，不是在解決根本問題。症狀可能暫時緩解，但根因還在，可能在新系統引入之後以不同形式再次出現。

第二類問題是知識可及性——病患或醫護人員在需要資訊的當下，無法快速取得正確、可信的知識。LLM 能力確實對應到這個需求，但隨即出現一個子問題：提供一般衛教資訊，和回答「這個病患現在的用藥劑量應該怎麼調整」，這兩件事對準確性的要求是完全不同的量級。問題沒有分層定義清楚，解法就無法對準。

第三類問題是跨系統資料整合。FHIR（Fast Healthcare Interoperability Resources，醫療資訊交換標準，由 HL7 International 制定）等標準的目的是解決這個問題，但標準的存在，不等於落地完成。即使都宣稱支援 FHIR，不同機構的 Profile 設定和欄位填寫品質仍然參差不齊。LLM 在這裡的角色，頂多是輔助資料轉換和摘要，不是跨系統互通問題的根本解方。

所以在談 LLM 是救贖還是沉淪之前，要先回答：你打算用 LLM 解決的，是哪一類問題？那個問題，是被正確定義過的嗎？

重點摘要

LLM 在醫療場景的應用問題可分三類：資訊處理負擔、知識可及性、跨系統資料整合
三類問題根因不同，解法也不同，不能混用
問題沒定義清楚，後面的方法選擇就會出錯
FHIR 等標準是資料互通的方向，但標準存在不等於落地完成

二、為什麼 LLM 讓醫療場景如此著迷——根因分析

LLM 的吸引力有兩個根源：一是能跨越不同格式的資料邊界，二是輸出形式符合人類的閱讀和對話習慣。但這兩個優勢，也各自帶來對應的風險。

醫療資料是世界上格式最混亂的資料之一——病歷有半結構化欄位、自由文字主觀描述、圖像報告摘要、用藥代碼。LLM 可以處理非結構化文字，在不同格式的資料之間建立語意橋接：閱讀自由文字主訴整理成結構化摘要，把不同來源的用藥紀錄翻譯成統一可讀的語言。

但這裡要往下追原因：LLM 的語意橋接能力，是基於統計模式，而不是醫療知識的推理。「病患血壓偏高」和「病患有高血壓病史」這兩句話在語意上相近，但在臨床意義上完全不同。在低風險的資訊彙整任務中可能無關緊要，但在需要高精確度的臨床決策場景中，就是無法忽視的漏洞。

第二個根源是輸出形式。LLM 產出的是自然語言，醫師可以直接閱讀而不需理解背後的資料格式。但這也帶來認知風險：流暢自然的語言輸出，很容易被使用者當成「正確」的同義詞。人類對文字的信任往往受語言流暢性影響——表達越確定、語氣越自信的內容，讀者傾向給予更高的信任，即使內容本身存在錯誤。

「語言模型生成的醫療建議具有表面說服力，但可能包含事實錯誤且不帶任何警示。研究觀察到使用者傾向信任語言流暢的輸出，而非準確的輸出，這在高風險醫療場景中是不可忽視的認知偏誤。」——《NEJM AI》期刊研究（2023）對 LLM 在臨床場景的系統性風險分析

三、三個真正的風險：幻覺、責任歸屬、系統信任

LLM 在醫療場景的三個核心風險是：幻覺（Hallucination）問題無法從設計上根除、責任歸屬框架在大多數場景尚未建立清楚、以及使用者對系統的信任可能在不知不覺中被過度延伸。這三個風險不是獨立的，而是相互強化的。

第一個風險：幻覺（Hallucination）

LLM 的幻覺問題指的是，模型可能生成語言流暢但事實上不正確的內容，且不會主動標示出錯。在一般對話場景，幻覺的代價是使用者意識到錯誤後不再信任。在醫療場景，幻覺的代價可能是病患接受了錯誤的用藥建議、或醫師看了一份含有不實摘要的文件後做出了不正確的臨床判斷。

問題的核心不在於幻覺存在（所有語言模型都有幻覺），而在於：現有的臨床流程有沒有對應的驗證機制，能夠在 LLM 輸出被採用之前識別並攔截幻覺內容？這個驗證機制的設計，是落地計畫中最常被忽略的部分。

第二個風險：責任歸屬不明確

當 LLM 的輸出被醫師採納，最終影響了診療決策，出了問題的責任由誰承擔？目前大多數 LLM 產品的服務條款明確聲明不對醫療決策的結果負責，責任實際上落在醫師身上。但如果醫師每次使用 LLM 都需要獨立驗證輸出的正確性，LLM 帶來的效率提升可能在驗證成本中被全部抵銷。

世界衛生組織（WHO）在《人工智慧用於健康的道德規範》中指出，AI 在醫療場景的監管必須解決「問責制缺口」問題，明確界定各角色的責任邊界——這不只是法律問題，也是系統設計問題。

「AI 工具應具有明確的問責機制，確保當結果出錯時，可以追溯原因並識別應負責任的角色。問責制不應因為 AI 介入而變得更模糊，而應在設計階段被明確建立。」——世界衛生組織（WHO）《人工智慧用於健康的道德規範》（2021）

第三個風險：系統信任的過度延伸

當使用者在某類任務中反覆體驗到 LLM 輸出的可靠性，會逐漸建立對系統的信任感，有時候這種信任會跨越邊界，延伸到 LLM 並不適合的任務類型上。一個在行政文書整理方面表現良好的 LLM，使用者可能在需要做臨床決策時，也下意識地倚賴它的輸出。邊界的模糊，是系統設計沒有清楚標示適用範圍的結果。

三個風險相互強化：幻覺問題讓輸出不可完全信任，責任歸屬不清讓錯誤難以被追究，系統信任的過度延伸讓這兩個問題在現實中更難被察覺。

四、LLM 在醫療場景的真實應用版圖

LLM 在醫療場景的適用範圍，需要根據任務對準確性的要求、錯誤的代價，以及責任承擔機制來劃分。低決策風險、高重複性的語言任務，是 LLM 目前最具實用價值的區域。高風險決策場景則需要強驗證機制搭配，或暫緩導入。

應用場景	風險等級	LLM 適用性	核心限制
病歷摘要整理	中	有條件適用	需人工審核，防範幻覺混入摘要
一般衛教資訊提供	低-中	較適合	需明確標示「非醫療建議」
用藥交互作用查詢	高	不建議獨立使用	幻覺風險不可接受，需對照藥典驗證
臨床決策輔助（診斷/治療建議）	高	不建議獨立使用	責任歸屬未解決，幻覺代價過高
ICD 編碼建議	中	有條件適用	需對照官方代碼庫進行雙重驗證
行政文書起草	低	適合	最終需人工確認，語言錯誤可接受
症狀初篩引導（病患端）	中-高	有條件適用	必須有清楚的轉介機制和免責標示
研究文獻摘要	低-中	適合	需確認文獻未被撤回，摘要準確性可接受
跨系統資料格式轉換輔助	中	有條件適用	轉換結果需人工或程式校驗，不可直接入庫

這張表要傳達的核心概念是：LLM 沒有一個統一的「適用」或「不適用」。同樣是「醫療場景」，每個任務對準確性的要求、錯誤的代價、責任的承擔方式都不相同。評估是否導入 LLM，不是問「這個 LLM 在醫療上能不能用」，而是逐任務問「這個任務的特性，是否符合 LLM 的適用條件」。

五、落地設計比模型選擇更重要——五個評估維度

LLM 能不能在醫療場景落地，決定性因素不是模型本身有多強，而是落地設計做得多完整。評估一個導入計畫是否有機會成功，需要檢視五個維度：問題定義、資料供給、角色設計、驗證機制，以及責任歸屬。五個維度缺一不可。

可執行步驟

評估維度一：問題定義是否清楚

在決定使用 LLM 之前，先回答：「我們想解決的問題，如果沒有 LLM，最接近的做法是什麼？LLM 和那個做法相比，有什麼具體可量化的優勢？」答不清楚，就需要先退一步重新定義問題。

評估維度二：資料供給是否穩定

LLM 的輸出品質，強烈受輸入資料品質影響。需要確認：LLM 需要存取的資料現在在哪裡？格式是什麼？缺漏率和填寫品質是否在可接受範圍？FHIR 宣稱支援和實際欄位完整性之間常常存在落差，設計階段沒有盤清楚，通常會在測試階段付出高代價。

評估維度三：角色設計是否清楚

導入 LLM 後，誰看 LLM 的輸出？看到輸出後要做什麼？如果輸出有問題，誰負責識別並處理？LLM 輸出在什麼時間點進入流程、以什麼形式呈現給哪個角色，決定了它是輔助工具還是流程負擔。角色設計不清楚的 LLM 導入，最常見的結果是：系統啟用了，但沒有人真的把它整合進工作流。

評估維度四：驗證機制是否存在

對需要較高準確性的任務，需要設計 LLM 輸出進入最終流程之前的驗證步驟——人工審核、對照資料庫交叉比對、或系統自動的一致性檢查。一個本來屬於「中風險」的任務，若搭配嚴謹的驗證機制，可以在實際操作中達到可接受的水準；反之，若完全沒有驗證機制，會因為使用者信任累積而逐漸滑入更高的風險區間。

評估維度五：責任歸屬是否明確

在部署之前，需要確認：如果 LLM 的輸出影響了一個不良結果，誰承擔責任？相關的法律意見和合規審查是否已完成？責任歸屬不清楚，不只有法律風險，也會導致使用者在面對 LLM 錯誤時缺乏正確的處理程序。

這五個維度是一個評估框架——每個維度上的答案，揭示了導入計畫的可行性，以及需要在哪些地方加強設計才能推進。

重點摘要

文章重點整理

LLM 在醫療場景被期待解決的問題可分三類：資訊處理負擔、知識可及性、跨系統資料整合——三類問題根因不同，解法不能混用
LLM 最核心的三個風險：幻覺（Hallucination）無法根除、責任歸屬框架尚未完善、系統信任容易被過度延伸
醫療場景中不同任務的 LLM 適用性差距很大，必須逐任務評估，不能以「醫療 AI」一概而論
落地設計的五個維度：問題定義、資料供給、角色設計、驗證機制、責任歸屬——缺一不可
LLM 不是救贖，也不是必然的沉淪——它是一個工具，能不能發揮作用，取決於有沒有解對題

LLM 和傳統的臨床決策支持系統（CDSS）有什麼不同？

傳統的臨床決策支持系統（Clinical Decision Support System，CDSS）是基於明確規則或結構化知識庫運作，輸出可預期且可溯源。LLM 則是基於統計語言模型，可以處理非結構化文字，但輸出的準確性無法保證，且推理過程難以解釋。兩者的適用場景不同，不能互相取代。理想的設計是分工：LLM 處理語言任務，CDSS 處理規則型判斷。

醫院導入 LLM 需要取得哪些監管許可？

在台灣，若 LLM 的功能涉及醫療診斷、治療建議或風險評估，可能需要申請醫療器材許可（依 TFDA 軟體即醫療器材 SaMD 規範認定）。若只用於行政輔助、衛教資訊提供或文書整理，監管要求較低。建議在導入前先進行合規評估，確認功能定義是否觸發 SaMD 認定標準。

LLM 的幻覺問題可以透過微調（Fine-tuning）解決嗎？

微調可以降低某些類型的幻覺頻率，但無法從根本上消除幻覺。幻覺是語言模型的結構性問題，並非訓練資料不足的問題。目前較有效的緩解方式是 RAG（Retrieval-Augmented Generation，檢索增強生成）架構，讓模型在生成回答時同時參照可信的外部資料庫。但 RAG 也只是緩解，不是根治，最終仍需搭配驗證機制。

在隱私法規下，醫療資料可以用來提示 LLM 嗎？

使用病患個人資料作為 LLM 提示詞，需要確認資料是否會被服務提供商儲存或用於模型訓練，以及是否符合《個人資料保護法》和《醫療法》的相關規定。選擇有明確資料隔離承諾的企業級 LLM 服務或部署本地模型，是目前降低隱私風險的常見做法。

我愛上一個不可能的可能，LLM是救贖？還是另一種沉淪？

一、問題先定義清楚：LLM 在醫療場景裡要解決的是什麼？

重點摘要

二、為什麼 LLM 讓醫療場景如此著迷——根因分析

三、三個真正的風險：幻覺、責任歸屬、系統信任

四、LLM 在醫療場景的真實應用版圖

五、落地設計比模型選擇更重要——五個評估維度

可執行步驟

重點摘要

延伸閱讀

當老藥新用走進 EHR：AI 預測什麼時候才算真正進入工作流

我與急診室醫生的一次閒談 - 他告訴我平常要注意什麼

什麼是 AI 對齊？企業用 AI 節省成本前必須先搞清楚的核心問題