AI 醫療的「準確率高」不代表對患者更好嗎? 準確率通常衡量「偵測出正確結果的比例」,但沒有衡量「這個偵測結果是否讓患者得到更好的醫療」。一套對肺結節偵測準確率極高的 AI,如果它找到的大多數結節最終是良性且不需要治療,高準確率反而可能帶來更多不必要的侵入性確認程序。評估 AI 對患者的實際價值,需要追蹤到最終的臨床決策品質,而非停在診斷準確率。 台灣健保制度下,醫療 AI 能產生什麼實際改變? 台灣健保以按項目計費為主體,AI 目前最大的應用場景在行政效率(如 ICD 碼建議、申報輔助)以及部分影像輅助診斷。要讓 AI 真正幫助減少過度醫療,需要在健保給付機制中加入「結果品質」的衡量維度,例如「適切性指標」「不必要程序追蹤」等配套設計。衛生福利部推動的「價值醫療試辦計畫」是目前最接近這個方向的政策嘗試,但規模與範疇仍在擴展中。 醫師擔心 AI 減少了他們的臨床判斷空間,這個顧慮合理嗎? 這個問題要先區分:AI 是設計來「輔助判斷」還是「取代判斷」?若 AI 輸出被設計為「必須遵從的指令」或「拒絕採納需要額外解釋」,確實會壓縮臨床判斷空間。但若 AI 被設計為「提供額外的資訊層」,協助醫師在更完整的資訊下做決策,它反而可能強化而非削弱臨床判斷的品質。問題不在 AI 本身,而在部署設計的假設。

很多人在談醫療 AI 的時候,第一個問的是「模型準確率多高」、「哪個部位的影像辨識最強」。

但這裡要先問一個更前面的問題:AI 準確,是為了讓醫療體系「做更多」,還是為了讓體系「做對的事」?這兩件事看起來方向一致,實際上常常相互矛盾。

對單一患者而言,「最好的醫療」很多時候不是接受最多的檢查、最積極的治療,而是恰好做到需要做的事、不做沒有必要的事、在對的時間點做出正確判斷。但問題在於,現有醫療支付制度的設計邏輯,並不支付這種「精準判斷的價值」。

這不只是技術問題,也不只是醫師個人選擇的問題。這是一個制度結構的問題。AI 如果只是強化了現有流程,它可能放大既有偏誤;如果 AI 被放進對的設計框架,它才有機會幫助體系重新看見那些長期以來無法被計價的判斷品質。

要先把問題定義清楚,才能判斷 AI 真正能做什麼、不能做什麼。

穿著白袍手持聽診器的男性醫師,神情專注,背景為紅色


一、「對單一患者最好」是什麼意思?

對個別患者而言,最好的醫療往往不是做最多,而是做對的事——在正確時間點做必要的檢查、避免不會帶來益處的治療、減少等待正確診斷所浪費的時間。

「精準」不只是診斷準確度的問題,更是一個流程設計與判斷品質的問題。

臨床上常見的三種「冤枉路」形態如下:

第一種:不必要的確認性檢查 當臨床資訊已足夠支持診斷,但因防禦性醫療或流程設計,仍追加影像、血液或切片檢查。這些額外程序對病人沒有診斷意義,卻帶來等待時間、費用、焦慮與侵入性風險。

第二種:不適合特定患者的治療 同一個診斷,在不同年齡、共病狀況、偏好與生活情境下,最合適的處置可能截然不同。把標準流程套用在所有人,是醫療資源錯置的常見來源。

第三種:延遲正確診斷 因初期的誤診或遺漏,導致患者在不適合的治療軌道上花費時間,才又被轉到正確方向。延遲本身不只造成傷害,也累積了額外的醫療費用。

重點摘要

  • 精準醫療的核心不是「做更多」,而是「做對的事、在對的時間」
  • 不必要的檢查、不適合個人的治療、延誤正確診斷,都是「冤枉路」的具體形態
  • 對個別患者的最大價值,往往體現在系統「選擇不做」的判斷品質

這三種形態有一個共同特徵:它們的改善,往往對應到「少做了某件事」——而少做某件事,在現有支付制度下,通常不會帶來任何收入回饋。


二、過度醫療的成因:支付制度如何形塑了診斷行為

過度醫療的根源不在醫師個人意願,而在支付制度的設計邏輯。按項目計費(Fee-for-Service)的體制,讓每一項可計價的程序都成為收入來源,而精準判斷帶來的「不做」卻無從計價。

要先找原因,再談方法。

按項目計費的結構性問題

在按項目計費的支付模型下,醫療服務的報酬直接連結到「執行了哪些程序」:

  • 影像檢查(X 光、超音波、MRI、CT)帶來獨立的計費機會
  • 血液檢驗項目可以個別申報
  • 門診、住院、手術各有獨立的計費碼
  • 回診本身就創造了另一次收費機會

相對地,以下這些「判斷行為」往往是無形的,在現行制度中難以被單獨計價:

  • 評估一項檢查「不必要」而選擇不開立
  • 判斷一個患者的症狀「可以觀察,不需立即介入」
  • 識別出一個患者「不適合」標準治療路徑,改採保守策略

「世界衛生組織的報告指出,估計全球醫療資源中有 20-40% 屬於無效使用(ineffective or unnecessary care),過度醫療是系統性資源浪費的主要來源之一,且往往與支付制度的激勵結構直接相關。」— 世界衛生組織(WHO),《Primary Health Care》報告

防禦性醫療的強化作用

支付結構的問題,在防禦性醫療文化下會進一步放大。

當醫師面對「不確定性」時,「多做一項檢查」的決策:

  • 在支付面:帶來額外收入或至少不造成損失
  • 在法律面:降低「未盡注意義務」的風險
  • 在時間面:比花時間深度評估更有效率

「少做一項檢查」的決策:

  • 在支付面:沒有額外收入
  • 在法律面:若後續有問題,可能被質疑
  • 在時間面:需要更深入的臨床推理

這個不對稱的激勵結構,讓「多做」成為理性選擇,即使在臨床上「少做」才是對患者更好的決定。

醫院病房內景,白色病床、醫療設備與靠牆電視清晰可見

台灣全民健保的現況

台灣健保在制度設計上試圖透過總額預算、同儕審查與核刪機制來抑制過度醫療,但核心計費邏輯仍以按項目申報為主。衛生福利部中央健康保險署近年積極推動「價值醫療」試辦計畫,嘗試引入結果導向的支付機制,但目前覆蓋範圍仍相對有限。詳情可參考健保署官方網站

重點摘要

  • 按項目計費創造了「多做」的結構性激勵
  • 精準判斷的「不做」沒有對應的計價機制
  • 防禦性醫療強化了這個不對稱結構
  • 制度設計是過度醫療的根因,不只是個別醫師的選擇問題

三、AI 目前的使用方向,以及它的設計問題

AI 可以幫助發現更多,也可以幫助少做更多;兩者的差別,取決於設計目標和所嵌入的支付機制。目前大多數醫療 AI 被設計和部署在現有的「多做」體系中,因此更多是放大了現有的邏輯,而非改變它。

目前醫療 AI 的主要應用方向

目前規模最大、投入最多的醫療 AI 應用集中在以下幾個領域:

應用類型 代表案例 對「精準判斷」的影響
影像輔助診斷 肺結節偵測、眼底篩查、皮膚病變辨識 提高偵測敏感度,可能增加「發現更多」的後續追蹤程序
風險分層預測 再住院風險、敗血症早期預警 有機會在早期介入,減少後期高費用住院
臨床路徑優化 用藥建議、手術排程 標準化流程,但對個別差異的支持有限
行政效率 診斷碼自動填寫、文件處理 降低行政負擔,不直接影響臨床決策品質
基因組分析 癌症精準治療選擇 直接支持個人化治療決策,最接近「精準」概念

AI 設計目標對比:「找到更多」vs.「做對的事」

面向 以偵測為核心的 AI 以判斷為核心的 AI
設計目標 提高召回率(不漏掉任何異常) 提高決策精準度(減少不必要的後續)
對支付制度的影響 傾向增加後續確認性檢查 有機會支持「不追蹤」的臨床決策
訓練資料偏誤風險 以過去「被執行的程序」為標準 需要以「最終結果」為學習目標
目前部署規模 較大(影像 AI 市場成熟) 較小(需要更複雜的結果數據)
在現有支付制度下的收益 可對應每次影像申報 難以直接創造收費機會

訓練資料的結構性偏誤

這裡要追問一個更根本的問題:醫療 AI 的訓練資料從哪裡來?

大多數醫療 AI 是用過去系統「做了什麼」的歷史資料來訓練:

  • 病歷記錄了開立了哪些檢查、哪些用藥、哪些處置
  • 影像資料反映了哪些影像被拍攝、被標註
  • 結果資料通常是「30 天再住院率」「死亡率」等住院相關指標

這意味著,如果原有系統本身有過度醫療偏誤,訓練出來的 AI 模型,就很可能繼承並放大這個偏誤。

「《新英格蘭醫學雜誌》(NEJM)刊載的相關研究指出,醫療 AI 在真實世界部署後,往往面臨訓練數據與實際應用場景的分布偏移(distribution shift)問題,使得模型效能與預期有顯著落差。開發流程中若缺乏對訓練數據代表性的嚴格審查,可能導致系統性偏誤被放大而非修正。」— 《New England Journal of Medicine》,AI in Clinical Medicine 系列評論

真正問題在於:現有 AI 大多被設計來「複製過去的做法」,而非回答「什麼做法對患者真的更好」。


四、在什麼條件下,AI 才有機會支持精準判斷?

兩位穿著白袍戴藍色手套的女性研究員在現代實驗室中操作科學設備

在價值基礎支付模型(Value-Based Payment)下,AI 才有機會讓「少做正確判斷」成為可以計價的行為。不是因為 AI 技術在那個環境下更準,而是因為激勵結構不同,AI 的設計目標才會對準「減少不必要的程序」。

價值基礎支付模型的設計邏輯

價值基礎醫療(Value-Based Healthcare)是一個涵蓋多種支付機制的概念,核心是:支付報酬應與醫療結果掛鉤,而非僅與執行程序數量掛鉤。

常見的模型類型包括:

按人頭支付(Capitation): 醫療機構針對特定人群收取固定費用,負責管理其整體健康。在這個模型下,不必要的檢查和程序是成本,而非收入。「幫患者少做不必要的事」直接轉化為機構的財務利益。

綑綁支付(Bundled Payment): 針對特定治療過程(如膝關節置換、糖尿病管理)支付固定總額。在管理好品質的前提下,省下的費用可以留存,超出部分由機構承擔。

共享節省計畫(Shared Savings Program): 如美國 CMS(醫療保險與補助服務中心)的 ACO 模型,當醫療機構的整體費用低於預期且品質達標,可分享節省金額。相關制度設計可參考 CMS 官方說明

AI 在這個框架下的不同角色

在按項目計費的體系中,AI 提高了「做更多」的效率。

在價值基礎支付的框架下,AI 有機會支持以下方向:

高風險患者早期識別: 預測誰在接下來 30 天內有較高再住院或急診風險,讓機構主動介入,避免後期高費用事件。這是讓「預防」真正有財務意義的場景。

低風險患者的「安心不追蹤」: 某些患者的影像或血液結果出現邊緣異常,在按項目計費下,慣例是追加確認性檢查。在價值基礎框架下,若 AI 能提供「這類異常在此患者背景下惡化機率低於 X%」的風險分層,機構才有可能將「不追蹤」轉化為有臨床依據的決策,而非讓醫師承擔個人風險。

個人化治療路徑推薦: 從整體人群標準流程,走向「這個特定患者背景下,哪條路徑的結果期望值更高」。這是 AI 在基因組分析、多模態資料整合上的潛力區域。

重點摘要

  • 按人頭支付、綑綁支付等模型,改變了「少做」的財務意義
  • 在價值基礎框架下,AI 的設計目標才有機會對準減少不必要程序
  • 高風險早期識別、低風險安心不追蹤、個人化路徑,是 AI 與價值醫療的三個交集點
  • 支付制度不改變,AI 只是提高了現有邏輯的執行效率

五、評估一套 AI 工具是否真正支持精準判斷

評估重點不在功能清單有多長,而在設計目標是否對準了減少不必要的程序——以及它被放在哪個支付框架下使用。

可執行步驟

評估醫療 AI 工具的七項檢核要點

1. 訓練目標是什麼? 確認模型的訓練目標:是「最大化偵測率」(讓 AI 找出更多異常)還是「最小化不必要後續程序」(讓 AI 幫助過濾出不需要追蹤的案例)?這兩個目標會導致截然不同的模型行為。

2. 訓練數據是否包含「不追蹤後的結果」? 若訓練資料只有追蹤病例的結果,AI 永遠無法學習「哪些不追蹤的決策是正確的」。確認訓練集是否有足夠的自然病史數據(natural history data)。

3. 它輸出的是什麼?輸出格式適合什麼決策? 「有異常 / 無異常」的二元輸出,適合觸發後續流程,但不適合支持「是否需要追蹤」的判斷。確認 AI 輸出是否包含:機率值、信心區間、建議適用情境。

4. 在現有支付制度下,使用這套工具的財務激勵是什麼? 若每次 AI 偵測到的「疑似異常」都自動觸發一項可申報的確認性程序,這套工具實際上是提高了過度醫療的效率,而非減少它。

5. 它被放在哪個臨床流程節點? AI 放在「初步篩查」(提高召回率)與放在「確認前決策支持」(協助醫師評估是否追蹤)之間,對臨床結果有本質差異。

6. 誰為這套工具負責?誰的工作流程受影響? 確認 AI 輸出的責任歸屬:醫師是否被期望「解釋為什麼不採納 AI 建議」?若是,則 AI 實際上創造了額外的跟單壓力,而非提升判斷品質。

7. 有沒有持續的效能監控與偏誤審查機制? 確認是否有定期評估 AI 在實際部署環境中的表現,包括「假陽性率」「觸發了多少後續程序但最終沒有發現問題」。


六、目前的限制與需要注意的方向

AI 的訓練資料來自舊系統的行為記錄;如果舊系統本身有過度醫療偏誤,AI 可能放大這個偏誤而非修正它。改善這個問題,需要的不只是更好的模型,而是不同的訓練目標、不同的數據採集策略,以及支付制度的配合。

假陽性問題與追蹤壓力

大規模 AI 篩查工具面臨一個結構性挑戰:提高敏感度(不漏掉病症)通常以犧牲特異度(減少誤報)為代價。當 AI 部署在大量人口的篩查場景時,即使假陽性率很低,絕對數量也可能造成大量不必要的確認性程序。

若每一個 AI 標記的「疑似」都在現有制度下引發一項計費程序,篩查 AI 有可能成為過度醫療的規模化放大器。

「標準化」與個人差異的張力

AI 系統通常以人群資料訓練,輸出的是「統計上可能」的建議,而非「對這個特定個體最好」的判斷。

對個別患者而言,年齡、共病、偏好、生活情境可能讓「人群標準」完全不適用。AI 如果強化了標準化路徑,有可能反而加深「把不同的人用同一套方法處理」的問題。

缺乏長期結果數據

醫療 AI 的效能評估,大多集中在短期指標(診斷準確率、敏感度、特異度)。對於「長期患者結果是否改善」「是否減少了無效治療」的追蹤數據,目前仍相對匱乏。

這不是技術問題,而是數據收集和評估設計的問題。現有的臨床試驗架構,並不擅長捕捉「因 AI 而少做了某件事」這種負向結果的長期價值。

重點摘要

  • AI 訓練數據的偏誤,是目前最被低估的風險
  • 假陽性問題在大規模篩查場景下,可能系統性放大過度醫療
  • 標準化 AI 建議與個別患者差異之間,存在結構性張力
  • 缺乏長期結果數據,使得「AI 是否真的減少了不必要醫療」難以驗證
  • 改善路徑不只是技術升級,而是訓練目標設計、數據策略和支付制度的整體配合

AI 醫療的「準確率高」不代表對患者更好嗎?

準確率通常衡量「偵測出正確結果的比例」,但沒有衡量「這個偵測結果是否讓患者得到更好的醫療」。一套對肺結節偵測準確率極高的 AI,如果它找到的大多數結節最終是良性且不需要治療,高準確率反而可能帶來更多不必要的侵入性確認程序。評估 AI 對患者的實際價值,需要追蹤到最終的臨床決策品質,而非停在診斷準確率。

台灣健保制度下,醫療 AI 能產生什麼實際改變?

台灣健保以按項目計費為主體,AI 目前最大的應用場景在行政效率(如 ICD 碼建議、申報輔助)以及部分影像輅助診斷。要讓 AI 真正幫助減少過度醫療,需要在健保給付機制中加入「結果品質」的衡量維度,例如「適切性指標」「不必要程序追蹤」等配套設計。衛生福利部推動的「價值醫療試辦計畫」是目前最接近這個方向的政策嘗試,但規模與範疇仍在擴展中。

醫師擔心 AI 減少了他們的臨床判斷空間,這個顧慮合理嗎?

這個問題要先區分:AI 是設計來「輔助判斷」還是「取代判斷」?若 AI 輸出被設計為「必須遵從的指令」或「拒絕採納需要額外解釋」,確實會壓縮臨床判斷空間。但若 AI 被設計為「提供額外的資訊層」,協助醫師在更完整的資訊下做決策,它反而可能強化而非削弱臨床判斷的品質。問題不在 AI 本身,而在部署設計的假設。

精準醫療(Precision Medicine)和這裡談的「精準判斷」是同一件事嗎?

兩個概念有交集但不完全相同。精準醫療(Precision Medicine)通常指透過基因組學、生物標記等方式,將治療對準特定分子特徵的患者群體——這是更窄義的技術定義。這裡談的「精準判斷」是更廣義的概念:在個別患者的具體情境下,做出最恰當的診斷與治療決策,減少不必要的程序。兩者都重視「個別化」,但切入角度和所需的系統設計不同。

如果支付制度不改變,AI 是否完全無法幫助減少過度醫療?

不是完全無法,但難度和可能性有本質差異。在現有按項目計費體系下,AI 可以透過提升「臨床決策品質的透明度」創造間接效果——例如讓同儕審查更有效率、讓不適切申報更容易被發現。但這是被動的抑制機制,而非主動的激勵設計。若支付制度不提供「精準判斷」的正向回報,依賴 AI 單獨改變行為模式的期待,是把技術問題當成制度問題的解方,本質上是把問題定義錯了方向。