本文重點
- 精準醫療的核心不是「做更多」,而是「做對的事、在對的時間」
- 不必要的檢查、不適合個人的治療、延誤正確診斷,都是「冤枉路」的具體形態
- 對個別患者的最大價值,往往體現在系統「選擇不做」的判斷品質
- AI 醫療的「準確率高」不代表對患者更好嗎?
- 準確率通常衡量「偵測出正確結果的比例」,但沒有衡量「這個偵測結果是否讓患者得到更好的醫療」。一套對肺結節偵測準確率極高的 AI,如果它找到的大多數結節最終是良性且不需要治療,高準確率反而可能帶來更多不必要的侵入性確認程序。評估 AI 對患者的實際價值,需要追蹤到最終的臨床決策品質,而非停在診斷準確率。
- 台灣健保制度下,醫療 AI 能產生什麼實際改變?
- 台灣健保以按項目計費為主體,AI 目前最大的應用場景在行政效率(如 ICD 碼建議、申報輔助)以及部分影像輅助診斷。要讓 AI 真正幫助減少過度醫療,需要在健保給付機制中加入「結果品質」的衡量維度,例如「適切性指標」「不必要程序追蹤」等配套設計。衛生福利部推動的「價值醫療試辦計畫」是目前最接近這個方向的政策嘗試,但規模與範疇仍在擴展中。
- 醫師擔心 AI 減少了他們的臨床判斷空間,這個顧慮合理嗎?
- 這個問題要先區分:AI 是設計來「輔助判斷」還是「取代判斷」?若 AI 輸出被設計為「必須遵從的指令」或「拒絕採納需要額外解釋」,確實會壓縮臨床判斷空間。但若 AI 被設計為「提供額外的資訊層」,協助醫師在更完整的資訊下做決策,它反而可能強化而非削弱臨床判斷的品質。問題不在 AI 本身,而在部署設計的假設。
很多人在談醫療 AI 的時候,第一個問的是「模型準確率多高」、「哪個部位的影像辨識最強」。
但這裡要先問一個更前面的問題:AI 準確,是為了讓醫療體系「做更多」,還是為了讓體系「做對的事」?這兩件事看起來方向一致,實際上常常相互矛盾。
對單一患者而言,「最好的醫療」很多時候不是接受最多的檢查、最積極的治療,而是恰好做到需要做的事、不做沒有必要的事、在對的時間點做出正確判斷。但問題在於,現有醫療支付制度的設計邏輯,並不支付這種「精準判斷的價值」。
這不只是技術問題,也不只是醫師個人選擇的問題。這是一個制度結構的問題。AI 如果只是強化了現有流程,它可能放大既有偏誤;如果 AI 被放進對的設計框架,它才有機會幫助體系重新看見那些長期以來無法被計價的判斷品質。
要先把問題定義清楚,才能判斷 AI 真正能做什麼、不能做什麼。
一、「對單一患者最好」是什麼意思?
對個別患者而言,最好的醫療往往不是做最多,而是做對的事——在正確時間點做必要的檢查、避免不會帶來益處的治療、減少等待正確診斷所浪費的時間。
「精準」不只是診斷準確度的問題,更是一個流程設計與判斷品質的問題。
臨床上常見的三種「冤枉路」形態如下:
第一種:不必要的確認性檢查
當臨床資訊已足夠支持診斷,但因防禦性醫療或流程設計,仍追加影像、血液或切片檢查。這些額外程序對病人沒有診斷意義,卻帶來等待時間、費用、焦慮與侵入性風險。
第二種:不適合特定患者的治療
同一個診斷,在不同年齡、共病狀況、偏好與生活情境下,最合適的處置可能截然不同。把標準流程套用在所有人,是醫療資源錯置的常見來源。
第三種:延遲正確診斷
因初期的誤診或遺漏,導致患者在不適合的治療軌道上花費時間,才又被轉到正確方向。延遲本身不只造成傷害,也累積了額外的醫療費用。
重點摘要
- 精準醫療的核心不是「做更多」,而是「做對的事、在對的時間」
- 不必要的檢查、不適合個人的治療、延誤正確診斷,都是「冤枉路」的具體形態
- 對個別患者的最大價值,往往體現在系統「選擇不做」的判斷品質
這三種形態有一個共同特徵:它們的改善,往往對應到「少做了某件事」——而少做某件事,在現有支付制度下,通常不會帶來任何收入回饋。
二、過度醫療的成因:支付制度如何形塑了診斷行為
過度醫療的根源不在醫師個人意願,而在支付制度的設計邏輯。按項目計費(Fee-for-Service)的體制,讓每一項可計價的程序都成為收入來源,而精準判斷帶來的「不做」卻無從計價。
要先找原因,再談方法。
按項目計費的結構性問題
在按項目計費的支付模型下,醫療服務的報酬直接連結到「執行了哪些程序」:
- 影像檢查(X 光、超音波、MRI、CT)帶來獨立的計費機會
- 血液檢驗項目可以個別申報
- 門診、住院、手術各有獨立的計費碼
- 回診本身就創造了另一次收費機會
相對地,以下這些「判斷行為」往往是無形的,在現行制度中難以被單獨計價:
- 評估一項檢查「不必要」而選擇不開立
- 判斷一個患者的症狀「可以觀察,不需立即介入」
- 識別出一個患者「不適合」標準治療路徑,改採保守策略
「世界衛生組織的報告指出,估計全球醫療資源中有 20-40% 屬於無效使用(ineffective or unnecessary care),過度醫療是系統性資源浪費的主要來源之一,且往往與支付制度的激勵結構直接相關。」— 世界衛生組織(WHO),《Primary Health Care》報告
防禦性醫療的強化作用
支付結構的問題,在防禦性醫療文化下會進一步放大。
當醫師面對「不確定性」時,「多做一項檢查」的決策:
- 在支付面:帶來額外收入或至少不造成損失
- 在法律面:降低「未盡注意義務」的風險
- 在時間面:比花時間深度評估更有效率
「少做一項檢查」的決策:
- 在支付面:沒有額外收入
- 在法律面:若後續有問題,可能被質疑
- 在時間面:需要更深入的臨床推理
這個不對稱的激勵結構,讓「多做」成為理性選擇,即使在臨床上「少做」才是對患者更好的決定。
台灣全民健保的現況
台灣健保在制度設計上試圖透過總額預算、同儕審查與核刪機制來抑制過度醫療,但核心計費邏輯仍以按項目申報為主。衛生福利部中央健康保險署近年積極推動「價值醫療」試辦計畫,嘗試引入結果導向的支付機制,但目前覆蓋範圍仍相對有限。詳情可參考健保署官方網站。
重點摘要
- 按項目計費創造了「多做」的結構性激勵
- 精準判斷的「不做」沒有對應的計價機制
- 防禦性醫療強化了這個不對稱結構
- 制度設計是過度醫療的根因,不只是個別醫師的選擇問題
三、AI 目前的使用方向,以及它的設計問題
AI 可以幫助發現更多,也可以幫助少做更多;兩者的差別,取決於設計目標和所嵌入的支付機制。目前大多數醫療 AI 被設計和部署在現有的「多做」體系中,因此更多是放大了現有的邏輯,而非改變它。
目前醫療 AI 的主要應用方向
目前規模最大、投入最多的醫療 AI 應用集中在以下幾個領域:
| 應用類型 | 代表案例 | 對「精準判斷」的影響 |
|---|---|---|
| 影像輔助診斷 | 肺結節偵測、眼底篩查、皮膚病變辨識 | 提高偵測敏感度,可能增加「發現更多」的後續追蹤程序 |
| 風險分層預測 | 再住院風險、敗血症早期預警 | 有機會在早期介入,減少後期高費用住院 |
| 臨床路徑優化 | 用藥建議、手術排程 | 標準化流程,但對個別差異的支持有限 |
| 行政效率 | 診斷碼自動填寫、文件處理 | 降低行政負擔,不直接影響臨床決策品質 |
| 基因組分析 | 癌症精準治療選擇 | 直接支持個人化治療決策,最接近「精準」概念 |
| 面向 | 以偵測為核心的 AI | 以判斷為核心的 AI |
|---|---|---|
| 設計目標 | 提高召回率(不漏掉任何異常) | 提高決策精準度(減少不必要的後續) |
| 對支付制度的影響 | 傾向增加後續確認性檢查 | 有機會支持「不追蹤」的臨床決策 |
| 訓練資料偏誤風險 | 以過去「被執行的程序」為標準 | 需要以「最終結果」為學習目標 |
| 目前部署規模 | 較大(影像 AI 市場成熟) | 較小(需要更複雜的結果數據) |
| 在現有支付制度下的收益 | 可對應每次影像申報 | 難以直接創造收費機會 |
訓練資料的結構性偏誤
這裡要追問一個更根本的問題:醫療 AI 的訓練資料從哪裡來?
大多數醫療 AI 是用過去系統「做了什麼」的歷史資料來訓練:
- 病歷記錄了開立了哪些檢查、哪些用藥、哪些處置
- 影像資料反映了哪些影像被拍攝、被標註
- 結果資料通常是「30 天再住院率」「死亡率」等住院相關指標
這意味著,如果原有系統本身有過度醫療偏誤,訓練出來的 AI 模型,就很可能繼承並放大這個偏誤。
「《新英格蘭醫學雜誌》(NEJM)刊載的相關研究指出,醫療 AI 在真實世界部署後,往往面臨訓練數據與實際應用場景的分布偏移(distribution shift)問題,使得模型效能與預期有顯著落差。開發流程中若缺乏對訓練數據代表性的嚴格審查,可能導致系統性偏誤被放大而非修正。」— 《New England Journal of Medicine》,AI in Clinical Medicine 系列評論
真正問題在於:現有 AI 大多被設計來「複製過去的做法」,而非回答「什麼做法對患者真的更好」。
四、在什麼條件下,AI 才有機會支持精準判斷?
在價值基礎支付模型(Value-Based Payment)下,AI 才有機會讓「少做正確判斷」成為可以計價的行為。不是因為 AI 技術在那個環境下更準,而是因為激勵結構不同,AI 的設計目標才會對準「減少不必要的程序」。
價值基礎支付模型的設計邏輯
價值基礎醫療(Value-Based Healthcare)是一個涵蓋多種支付機制的概念,核心是:支付報酬應與醫療結果掛鉤,而非僅與執行程序數量掛鉤。
常見的模型類型包括:
按人頭支付(Capitation):
醫療機構針對特定人群收取固定費用,負責管理其整體健康。在這個模型下,不必要的檢查和程序是成本,而非收入。「幫患者少做不必要的事」直接轉化為機構的財務利益。
綑綁支付(Bundled Payment):
針對特定治療過程(如膝關節置換、糖尿病管理)支付固定總額。在管理好品質的前提下,省下的費用可以留存,超出部分由機構承擔。
共享節省計畫(Shared Savings Program):
如美國 CMS(醫療保險與補助服務中心)的 ACO 模型,當醫療機構的整體費用低於預期且品質達標,可分享節省金額。相關制度設計可參考 CMS 官方說明。
AI 在這個框架下的不同角色
在按項目計費的體系中,AI 提高了「做更多」的效率。
在價值基礎支付的框架下,AI 有機會支持以下方向:
高風險患者早期識別:
預測誰在接下來 30 天內有較高再住院或急診風險,讓機構主動介入,避免後期高費用事件。這是讓「預防」真正有財務意義的場景。
低風險患者的「安心不追蹤」:
某些患者的影像或血液結果出現邊緣異常,在按項目計費下,慣例是追加確認性檢查。在價值基礎框架下,若 AI 能提供「這類異常在此患者背景下惡化機率低於 X%」的風險分層,機構才有可能將「不追蹤」轉化為有臨床依據的決策,而非讓醫師承擔個人風險。
個人化治療路徑推薦:
從整體人群標準流程,走向「這個特定患者背景下,哪條路徑的結果期望值更高」。這是 AI 在基因組分析、多模態資料整合上的潛力區域。
重點摘要
- 按人頭支付、綑綁支付等模型,改變了「少做」的財務意義
- 在價值基礎框架下,AI 的設計目標才有機會對準減少不必要程序
- 高風險早期識別、低風險安心不追蹤、個人化路徑,是 AI 與價值醫療的三個交集點
- 支付制度不改變,AI 只是提高了現有邏輯的執行效率
五、評估一套 AI 工具是否真正支持精準判斷
評估重點不在功能清單有多長,而在設計目標是否對準了減少不必要的程序——以及它被放在哪個支付框架下使用。
可執行步驟
評估醫療 AI 工具的七項檢核要點
1. 訓練目標是什麼?
確認模型的訓練目標:是「最大化偵測率」(讓 AI 找出更多異常)還是「最小化不必要後續程序」(讓 AI 幫助過濾出不需要追蹤的案例)?這兩個目標會導致截然不同的模型行為。
2. 訓練數據是否包含「不追蹤後的結果」?
若訓練資料只有追蹤病例的結果,AI 永遠無法學習「哪些不追蹤的決策是正確的」。確認訓練集是否有足夠的自然病史數據(natural history data)。
3. 它輸出的是什麼?輸出格式適合什麼決策?
「有異常 / 無異常」的二元輸出,適合觸發後續流程,但不適合支持「是否需要追蹤」的判斷。確認 AI 輸出是否包含:機率值、信心區間、建議適用情境。
4. 在現有支付制度下,使用這套工具的財務激勵是什麼?
若每次 AI 偵測到的「疑似異常」都自動觸發一項可申報的確認性程序,這套工具實際上是提高了過度醫療的效率,而非減少它。
5. 它被放在哪個臨床流程節點?
AI 放在「初步篩查」(提高召回率)與放在「確認前決策支持」(協助醫師評估是否追蹤)之間,對臨床結果有本質差異。
6. 誰為這套工具負責?誰的工作流程受影響?
確認 AI 輸出的責任歸屬:醫師是否被期望「解釋為什麼不採納 AI 建議」?若是,則 AI 實際上創造了額外的跟單壓力,而非提升判斷品質。
7. 有沒有持續的效能監控與偏誤審查機制?
確認是否有定期評估 AI 在實際部署環境中的表現,包括「假陽性率」「觸發了多少後續程序但最終沒有發現問題」。
六、目前的限制與需要注意的方向
AI 的訓練資料來自舊系統的行為記錄;如果舊系統本身有過度醫療偏誤,AI 可能放大這個偏誤而非修正它。改善這個問題,需要的不只是更好的模型,而是不同的訓練目標、不同的數據採集策略,以及支付制度的配合。
假陽性問題與追蹤壓力
大規模 AI 篩查工具面臨一個結構性挑戰:提高敏感度(不漏掉病症)通常以犧牲特異度(減少誤報)為代價。當 AI 部署在大量人口的篩查場景時,即使假陽性率很低,絕對數量也可能造成大量不必要的確認性程序。
若每一個 AI 標記的「疑似」都在現有制度下引發一項計費程序,篩查 AI 有可能成為過度醫療的規模化放大器。
「標準化」與個人差異的張力
AI 系統通常以人群資料訓練,輸出的是「統計上可能」的建議,而非「對這個特定個體最好」的判斷。
對個別患者而言,年齡、共病、偏好、生活情境可能讓「人群標準」完全不適用。AI 如果強化了標準化路徑,有可能反而加深「把不同的人用同一套方法處理」的問題。
缺乏長期結果數據
醫療 AI 的效能評估,大多集中在短期指標(診斷準確率、敏感度、特異度)。對於「長期患者結果是否改善」「是否減少了無效治療」的追蹤數據,目前仍相對匱乏。
這不是技術問題,而是數據收集和評估設計的問題。現有的臨床試驗架構,並不擅長捕捉「因 AI 而少做了某件事」這種負向結果的長期價值。
重點摘要
- AI 訓練數據的偏誤,是目前最被低估的風險
- 假陽性問題在大規模篩查場景下,可能系統性放大過度醫療
- 標準化 AI 建議與個別患者差異之間,存在結構性張力
- 缺乏長期結果數據,使得「AI 是否真的減少了不必要醫療」難以驗證
- 改善路徑不只是技術升級,而是訓練目標設計、數據策略和支付制度的整體配合
AI 醫療的「準確率高」不代表對患者更好嗎?
準確率通常衡量「偵測出正確結果的比例」,但沒有衡量「這個偵測結果是否讓患者得到更好的醫療」。一套對肺結節偵測準確率極高的 AI,如果它找到的大多數結節最終是良性且不需要治療,高準確率反而可能帶來更多不必要的侵入性確認程序。評估 AI 對患者的實際價值,需要追蹤到最終的臨床決策品質,而非停在診斷準確率。
台灣健保制度下,醫療 AI 能產生什麼實際改變?
台灣健保以按項目計費為主體,AI 目前最大的應用場景在行政效率(如 ICD 碼建議、申報輔助)以及部分影像輅助診斷。要讓 AI 真正幫助減少過度醫療,需要在健保給付機制中加入「結果品質」的衡量維度,例如「適切性指標」「不必要程序追蹤」等配套設計。衛生福利部推動的「價值醫療試辦計畫」是目前最接近這個方向的政策嘗試,但規模與範疇仍在擴展中。
醫師擔心 AI 減少了他們的臨床判斷空間,這個顧慮合理嗎?
這個問題要先區分:AI 是設計來「輔助判斷」還是「取代判斷」?若 AI 輸出被設計為「必須遵從的指令」或「拒絕採納需要額外解釋」,確實會壓縮臨床判斷空間。但若 AI 被設計為「提供額外的資訊層」,協助醫師在更完整的資訊下做決策,它反而可能強化而非削弱臨床判斷的品質。問題不在 AI 本身,而在部署設計的假設。
精準醫療(Precision Medicine)和這裡談的「精準判斷」是同一件事嗎?
兩個概念有交集但不完全相同。精準醫療(Precision Medicine)通常指透過基因組學、生物標記等方式,將治療對準特定分子特徵的患者群體——這是更窄義的技術定義。這裡談的「精準判斷」是更廣義的概念:在個別患者的具體情境下,做出最恰當的診斷與治療決策,減少不必要的程序。兩者都重視「個別化」,但切入角度和所需的系統設計不同。
如果支付制度不改變,AI 是否完全無法幫助減少過度醫療?
不是完全無法,但難度和可能性有本質差異。在現有按項目計費體系下,AI 可以透過提升「臨床決策品質的透明度」創造間接效果——例如讓同儕審查更有效率、讓不適切申報更容易被發現。但這是被動的抑制機制,而非主動的激勵設計。若支付制度不提供「精準判斷」的正向回報,依賴 AI 單獨改變行為模式的期待,是把技術問題當成制度問題的解方,本質上是把問題定義錯了方向。