衛福部的 GenAI 指引,對醫療機構的實際約束力有多大? 指引要求醫療機構建立院內 AI 系統清冊、進行供應商盡職調查、依臨床影響程度分級管理 AI 系統。這些屬於機構治理責任的制度框架,是醫療機構在評估和導入 AI 系統時應遵循的標準。廠商資訊揭露的要求,也為醫療機構向供應商索取必要資訊提供了正式依據。 AI 幻覺在醫療場景中,風險真的比其他行業嚴重嗎? 在醫療場景中,AI 幻覺的風險確實需要更高的管控標準。一個錯誤的藥物劑量建議、不存在的藥物交互作用說明、被引用但實際上無此結論的醫學文獻,這些錯誤在非醫療場景可能只是誤導性資訊,在臨床決策環境中可能直接影響病患安全。醫療機構應建立 AI 輸出的人為確認機制,避免直接採用未經臨床判斷的 AI 建議。 Physical AI 和一般醫療 AI 的本質差異是什麼? 一般醫療 AI(尤其是 GenAI 應用)的輸出是語言建議,使用者(醫師、護理師)自行判斷是否採納,有一層人為判斷作為緩衝。Physical AI 的輸出是物理世界的動作或直接介入,包括機器人協助移位、感測器觸發警報、自動給藥裝置,會直接影響照護過程,責任框架要求更嚴格,驗證方法也根本不同。

近期,台灣醫療 AI 領域同時出現三個值得關注的訊號:衛福部正式發布醫療機構生成式 AI(GenAI)使用指引,聚焦 6 大風險類型與供應鏈透明度要求;醫知彼科技完成 5,000 萬元 A 輪融資,在 InnoVEX 2026 展上宣布推出執業醫師免費 AI 服務;科大訊飛的「智醫助理」在中國國家執業醫師資格考試中取得 456 分,超越 96.3% 的醫療專業人員。

三個訊號,三個不同的來源,三個不同的切入點。它們同時出現,容易讓人產生一個直覺反應:AI 已準備好了,醫療體系趕快跟上。

這個解讀只說對了一半。這三件事指向的,是台灣醫療 AI 走向系統化治理的一個關鍵轉折點,同時也點出了一個更根本的問題:技術能力的到位,不等於落地問題的解決。台灣的醫療體系,是否有足夠的治理框架、在地資料基礎建設、流程整合能力,讓這些工具在高齡照護的實際場景中穩定發揮作用?

要釐清這個問題,需要把這三件事拆開來看,再放回台灣高齡照護的整體脈絡中理解。以下五件事,是這個過程中不能跳過的思考框架。


一、AI 考過執照,但落地問題從來不在這裡

AI智醫助理考試成績(456分)與及格線(360分)及人類考生分布比較圖

通過執照考試確認了知識能力已達門檻,但落地失敗的根本原因在流程整合、資料對齊、責任歸屬,三者缺一都會導致系統在臨床環境中無法穩定運作。

科大訊飛的智醫助理以 456 分通過國家執業醫師資格考試(滿分 600 分,360 分及格),成績超越 96.3% 的醫療專業人員。這是一個可量化的能力里程碑,確認了 AI 在標準化測驗情境下的醫學知識儲備已達到一定水準。

然而,執照考試量測的是知識的廣度與記憶的精確度,測驗環境有完整的題目語境、明確的選項範圍,與真實臨床場景存在本質差距。在臨床現場,AI 面對的是資訊不完整的病患紀錄、需要即時回應的工作流程,以及出錯後責任歸屬仍不明朗的制度環境。落地需要回答的,是另一組完全不同的問題。

觸發時機與呈現形式,決定實際使用率

AI 的診斷建議要在哪個環節出現?是術前評估時、問診過程中,還是住院後的追蹤紀錄裡?出現的形式是彈跳式提示、整合在 EMR(電子病歷系統,Electronic Medical Record)側欄的輔助資訊,還是獨立的臨床決策介面?

不同的觸發時機和呈現方式,直接影響醫師的使用行為與接受程度。一個在準確率測試上表現優異的 AI,如果設計在醫師最忙碌、最難停下來閱讀建議的環節出現,實際使用率可能接近於零。這不是功能問題,而是工作流嵌入的設計問題。

在地資料對齊,才是效能穩定的前提

訓練模型時所用的資料,跟臨床現場系統能穩定提供的資料,往往存在落差。台灣健保體系的用藥邏輯、ICD 編碼習慣(國際疾病分類碼,International Classification of Diseases)、病歷書寫慣例,跟以英語為主、以歐美醫療體系為背景的訓練資料集之間,存在系統性差距。

模型在測試集表現好,不等於在台灣醫院的現場條件下表現同樣穩定。這種現象有個技術名稱叫「資料分布偏移」(Data Distribution Shift):訓練階段的資料分布,跟推論階段的資料分布不一致,導致效能系統性下滑。這個問題在模型上線後往往難以即時察覺,卻是導致落地失敗最常見的根本原因之一。

責任歸屬,是法規層面尚未釐清的問題

當 AI 的建議出錯,誰負責?這個問題在台灣目前沒有清楚的法規答案。衛福部本次指引明確說明,具備自主決策與執行能力的 AI Agent,因涉及病患安全、醫療責任與法規適用等議題,暫未納入本次指引適用範圍。

這個邊界設定有其務實邏輯:在責任框架完整建立之前,先把輔助型 AI 的治理問題處理清楚,是比較可行的推進順序。但對於有意導入 AI 的醫療機構來說,這也意味著責任歸屬的空白地帶仍然存在,需要在制度框架補齊之前,靠院內規章和使用協議自行填補。

能力已到位,是落地的必要條件之一,但絕不是充分條件。通過執照考試的 AI,跟能在台灣醫院日常環境中穩定運作、並在出問題時有明確責任歸屬的 AI,中間還有一段需要系統性建置的距離。理解這個距離,才是接下來思考衛福部政策意義的前提。


二、衛福部指引的核心:把「AI 從哪裡來」列入評估範圍

最核心的轉變,是把模型來源、資料流向、更新機制正式列入醫療機構的治理責任範圍,讓醫療 AI 的評估從「功能審查」延伸到「供應鏈透明」。

從「AI 到底能不能落地」的問題,往上追一層,就碰到政策層面需要解決的結構性問題:醫療機構應該用什麼標準評估和管理 AI 系統?衛福部的 GenAI 指引,就是這一層問題的第一個系統性回應。

過去,醫療機構評估 AI 產品,關注的主要是功能是否符合需求、準確率是否達到門檻。衛福部這次指引做了一個結構性的擴展:評估範圍從「AI 能做什麼」延伸到「AI 從哪裡來、怎麼維護、出錯時如何通報」。

6 大風險的診斷意義

指引聚焦的 6 大風險類型(模型偏差、資料品質、AI 幻覺、資安攻擊、使用者過度依賴、服務中斷),本質上是使用任何資訊系統都可能面臨的基礎風險,在醫療場景中,後果直接關係病患安全,容錯空間更小。

其中,「AI 幻覺」(AI Hallucination)最常被低估。AI 幻覺是指語言模型生成聽起來合理、但實際上不正確或無根據的內容。在醫療情境下,一個錯誤的藥物交互作用說明、一個張冠李戴的診斷依據,可能直接影響臨床決策結果,而使用者有時難以在第一時間辨識錯誤。這類風險的根源,往往不在於模型技術層面的失誤,而在於使用者對 AI 輸出的盲目信任。正因如此,「使用者過度依賴」被單獨列為一類風險,而非附屬在其他類別之下。

供應鏈透明化:要求廠商說清楚

指引要求醫療機構評估 AI 產品時,可向廠商索取以下資訊:

  • 模型版本與更新通知機制
  • 資料流向與保存政策
  • 效能指標與已知風險清單
  • 資安防護措施與事件通報機制
  • 變更管理與技術支援承諾

若產品使用大型語言模型服務(LLM-as-a-Service),還需揭露模型服務商、版本、部署型態。

這一要求的意義在於把責任鏈往上延伸:醫療機構不能只說「我用的是某廠牌的 AI」,而必須能說明「這個 AI 用的是哪個模型基礎、資料存在哪裡、誰負責維護、模型更新時是否會主動告知」。這個資訊要求,同時也是對廠商的正式壓力,促使廠商不能只提供測試集準確率,而必須有能力回答治理層面的完整問題。

AI 系統清冊:治理從可見性開始

指引要求醫療機構建立院內 AI 產品與系統清冊,掌握所有生成式 AI 系統的用途、應用場景、風險等級與管理措施,並依臨床影響程度分級管理。

有效的治理,前提是知道自己有什麼。很多醫療機構對院內正在運行的 AI 工具,尤其是科室或個別醫師自行引入的工具,不一定有完整的掌握。AI 清冊要求的本質,是讓治理從系統可見性建立起來。這一步看似基礎,卻是後續所有風險管理、效能監測、事件通報機制得以運作的前提條件。

研究指出,醫療機構必須獨立以自己的在地資料驗證廠商 AI 系統的效能,而非只依賴廠商提供的自評報告,才能確認 AI 在特定臨床情境下的實際表現是否符合聲稱的標準。來源:Bodnari A, Travis J (2025), Scaling enterprise AI in healthcare: the role of governance in risk mitigation frameworks, NPJ Digital Medicine。


三、醫療 AI 評估框架的轉型:一組核心問題的改變

評估重心從「這個 AI 能做什麼、準確率多少」轉向「這個 AI 的治理鏈是否完整」,代表採購邏輯、驗收標準、供應商關係管理都需要同步升級。

把衛福部指引的要求往下落實,就會碰到一個比「規定要遵守」更深層的問題:醫療機構過去用來評估 AI 系統的框架,從根本上就不是為了回答治理層面的問題而設計的。指引提供了方向,但重建評估框架所需的能力,需要靠機構自己逐步建立。

這個轉變的規模,超過一般對「更嚴格的採購規範」的想像。過去,醫療機構決定是否導入某個 AI 系統,主要問的是:準確率數字、功能清單、操作介面、導入費用。這些問題都在問「AI 現在怎麼樣」,沒有問「AI 在真實臨床環境中、在模型更新之後、在資料品質波動時,還能怎麼樣」。

醫療AI評估框架轉型:從功能導向到治理導向的七個面向比較圖
評估面向 功能導向框架(舊) 治理導向框架(新)
核心問題 這個 AI 能做什麼?準確率是多少? 這個 AI 從哪裡來?資料怎麼走?更新機制是什麼?
效能驗證 廠商提供測試集結果,機構接受採用 機構以在地資料獨立驗證,確認現場效能
供應商管理 簽約、交付、上線即結束 持續監測、定期稽核、要求更新通知
責任歸屬 AI 廠商負責功能交付 機構負責治理,廠商負責透明揭露
資料問題 訓練資料量夠多即可 檢查訓練資料來源、分布偏移、是否含台灣在地資料
風險管理 出錯後才啟動處理 事前進行風險分級、預先設計事件通報流程
導入終點 上線即視為完成 上線後持續監測效能,管理模型漂移問題

這張表的每一列,都意味著醫療機構需要建立新的能力:以在地資料自行驗證 AI 效能的技術能力、持續監測系統表現的資訊管理能力、管理複雜廠商關係的治理能力。這跨越了 IT 採購的傳統邊界,需要臨床、資訊、法務、管理多個部門的協作機制同步到位。對許多醫療機構來說,這代表的不只是評估工具的升級,而是組織能力的整體重組。

從國際脈絡來看,這個方向並非台灣獨有。歐盟在 2024 年通過的 AI 法案(EU AI Act)對高風險 AI 系統設立了強制性透明度與人為監督要求;美國食品藥品監督管理局(FDA)對 AI 醫療器材的監管框架也持續強化事後監控與效能持續驗證的要求。衛福部此次指引的方向,與這一國際趨勢一致,也意味著台灣的醫療 AI 產業,遲早需要在治理能力上與國際市場接軌。


四、醫知彼的策略:資料基礎建設先行的邏輯

建立在地醫療語料庫,是解決語言模型在台灣臨床場景「資料分布偏移」問題的根本途徑;免費服務的設計,換取的不只是使用量,而是帶有真實臨床情境脈絡的互動資料。

從政策層面往下看,治理框架能夠有效運作,有一個更基礎的前提:AI 系統的效能,必須能夠在台灣的在地資料條件下被獨立驗證。這代表在地語料庫的建置,不只是新創的商業決策,也是整個台灣醫療 AI 生態能夠正常運作的基礎建設。醫知彼目前的策略布局,恰好切中了這個缺口。

醫知彼(Penpeer)在 InnoVEX 2026 展上宣布的「醫用 AI 免費方案」,讓執業醫師完成醫事執業證照驗證後,即可不限次數使用旗下 A-Pen AI 系統,Token 無上限。表面上,這是一個降低導入門檻的市場策略;往技術層面看,背後有更清楚的資料基礎建設邏輯。

「資料分布偏移」是醫療 AI 本地化最容易被跳過的問題

大多數語言模型的訓練資料,以英語為主、以歐美醫療體系為背景。這些模型對「台灣的醫療情境」來說,天然存在一層落差:台灣健保的用藥給付邏輯、本地藥品品項的命名與劑型、中文病歷的書寫習慣、ICD 碼與本地診斷分類的對應關係,這些都需要用台灣在地資料進行對齊和校正。

這個問題無法靠「微調」(Fine-tuning)單獨解決。微調可以改善模型在特定任務上的表現,但如果底層語料的分布本就與本地情境不符,微調只能修正表面,無法補足深層的語義理解落差。這也是為什麼語料庫建置必須從源頭著手:光是讓模型「看更多台灣資料」,仍然不夠;這些資料必須帶有真實的臨床脈絡,才有足夠的訊息密度讓模型學到有用的東西。

8.8 萬名醫事人員的語料庫,不只是數量問題

醫知彼目前整合了旗下約 8.8 萬名醫事人員長期累積的專業討論內容,同時整合《NEJM》、《The Lancet》、《Nature》等國際醫學期刊,並結合台灣健保制度資料與在地藥品資訊。這個語料庫的核心價值,不只在量,而在它包含了台灣臨床醫師在面對台灣病患時的實際思考脈絡,包括提問方式、判斷順序、本地藥品習慣用語、臨床考量次序。

這種「帶脈絡的在地資料」,比靜態的標準化病歷資料更難取得,也更能反映真實的臨床推理邏輯。語料庫的品質,決定了在其上建置的 AI 系統是否真的能在台灣的臨床環境中穩定表現。

免費服務換取的是行為資料

當更多醫師實際使用 A-Pen AI 系統,他們在真實臨床情境中的互動模式本身就是資料的一部分:哪些問題被問、哪些回答被採納、哪些遭到忽略或後續追問、哪些引發了錯誤的臨床決策路徑。這種帶有「採納或拒絕的脈絡」的使用行為資料,是訓練有效臨床 AI 最稀缺的素材之一。

換句話說,免費方案並非單純的市場推廣手段,而是一套有明確目的的資料蒐集機制:透過降低使用門檻來加速在地行為資料的累積,再以這些資料持續優化系統的本地化表現。這個邏輯的前提是醫師願意使用、系統確實有用,兩者缺一都會讓策略失效。

A 輪日資的參考意義

日商 DCI 合夥(日本大和證券集團旗下生技基金)的投資參與,帶有一個值得關注的背景:日本自 1994 年起進入超高齡社會,已有三十年高齡照護體系轉型的實際經驗與教訓。這個視角,對台灣目前正在進入超高齡社會、同樣面臨照護人力短缺的處境,具有直接的參考價值。日資選擇投入台灣在地醫療 AI 新創,也反映了對台灣高齡照護 AI 市場長期發展潛力的判斷。這筆投資本身,就是一個關於台灣醫療 AI 市場規模預期的訊號。


五、從 GenAI 到 Physical AI:台灣高齡照護的下一個課題

Physical AI 代表 AI 從語言輔助進入實體照護環境,需要感知可靠性與更嚴格的實體安全責任框架,這兩個維度都是現有 GenAI 治理指引尚未覆蓋的範疇。

把前四件事放在一起看:能力問題、政策框架、評估邏輯、在地資料基礎建設,這幾個課題的解法,都還在語言 AI 的範疇之內。但台灣高齡照護的需求,指向一個更廣的問題空間,一個目前的政策討論和產業投資都還沒有正面回應的方向。

2025 年,台灣 65 歲以上人口正式突破 20.06%,達 467 萬人,跨越了 WHO 定義的超高齡社會門檻。這個數字背後是快速擴大的長照需求、持續短缺的照護人力,以及醫療資源在城鄉之間不斷拉大的落差。

目前台灣的醫療 AI 討論,大部分仍集中在語言模型的應用層:AI 輔助診斷、AI 摘要病歷、AI 回答臨床問題。這些是 GenAI 的核心應用場景,也是衛福部指引目前主要覆蓋的範疇。然而,在照護人力嚴重不足的長照機構場景中,光靠語言模型是不夠的。真正能夠緩解照護人力缺口的,是能夠直接介入照護流程的實體 AI 系統,也就是 Physical AI。

Physical AI 是什麼?

Physical AI(實體 AI)是指具備感知、移動與實體互動能力的 AI 系統,不只處理語言和影像,而是能夠直接與物理環境互動的 AI。在高齡照護場景中,Physical AI 的具體形式包括:

  • 協助行動不便長者移位、如廁、洗浴的輔助機器人
  • 24 小時偵測跌倒風險、異常行為、生命徵象的感測系統
  • 透過互動介面提供認知訓練與情感陪伴的社交機器人
  • 整合多裝置資料的照護作業平台

這些系統的共同特徵:AI 的決策輸出不只是文字建議,而是直接影響照護流程的物理動作或實體介入。這個本質差異,讓 Physical AI 面臨的落地問題,在現有 GenAI 挑戰的基礎上,還多出兩個關鍵維度。

整合邏輯的兩個額外維度

GenAI 的落地挑戰,主要在資料品質、流程整合、責任歸屬三個層面。Physical AI 的落地挑戰,在這三層之上,還多了兩個重要維度。

第一是感知可靠性。Physical AI 的判斷依賴感測器資料,感測器的訊號品質、資料遺失率、在不同環境條件下的穩定性,都直接影響系統是否能正常運作。一個在實驗室環境表現良好的跌倒偵測系統,可能在採光不佳、地面有反光的長照機構中頻繁誤報,或在非典型的跌倒姿勢中漏判。感測器環境差異帶來的效能不穩定,是現有 GenAI 測試框架完全沒有設計來應對的問題類型。

第二是實體安全責任。語言模型給出錯誤建議,臨床醫師有機會判斷是否採用;照護機器人操作失誤,可能直接造成長者身體傷害。這個責任框架的要求,遠比輔助決策類 AI 更嚴格,也更複雜。衛福部目前暫不將具備自主決策與執行能力的 AI Agent 納入指引,正是因為這個責任框架尚未完整建立。從 GenAI 到 Physical AI,不只是技術複雜度的升級,更是治理框架必須從頭設計的一次轉型。

全球發展脈絡

高齡化程度較深的亞太地區國家,已陸續把照護科技定位為產業策略布局,而不只是社會政策問題。老齡照護機器人與感測系統的應用場景,近年在日本、韓國等市場都有明顯加速的跡象,這也是為什麼醫知彼獲得日本大和證券集團旗下生技基金投資,在策略上有其背景邏輯。根據多份老齡照護機器人市場研究報告的共同分析,亞太地區是全球成長最快的市場之一,高齡化速度與照護人力短缺的雙重壓力,使得技術導入的需求遠高於其他區域。

這些,都是現有 GenAI 指引框架尚未覆蓋的範疇。台灣目前在治理政策層面的方向是正確的,但適用範疇仍限於語言模型。Physical AI 照護系統的監管框架、責任歸屬標準、臨床驗證方法,是下一個需要提前思考的議題。如果 GenAI 治理的建置是現在,那 Physical AI 的治理框架準備,最遲應該在現在就開始規劃。

研究指出,AI 與機器人技術在高齡照護的落地,面臨的核心挑戰之一是如何在提升獨立生活能力的同時,避免讓長者在照護過程中失去自主性,以及如何處理隱私保護、資安風險與倫理邊界等問題。這些問題在技術成熟之前,就需要有完整的制度框架先行界定。來源:Padhan S, et al. (2023), Artificial Intelligence (AI) and Robotics in Elderly Healthcare: Enabling Independence and Quality of Life, Cureus。

台灣醫療AI發展三層架構:從資料基礎建設到GenAI治理到Physical AI照護系統


可執行步驟

醫療機構評估 AI 整備程度的 5 個核心問題

在決定導入任何醫療 AI 系統前,建議依序回答以下問題:

  1. 問題定義是否清楚? 要解決的是哪個具體的臨床問題?輔助診斷、病歷摘要、照護排程,還是其他?問題定義模糊,選什麼工具都容易偏離目標。

  2. 資料對齊狀況如何? 現有的在地資料,和 AI 模型的訓練背景,是否存在系統性落差?尤其是語言、編碼規則、病患族群組成。

  3. 流程整合設計是否完整? AI 輸出在哪個環節進入工作流?由誰使用、以什麼形式呈現、看到輸出後的後續行動是什麼?

  4. 廠商盡職調查是否到位? 模型版本、資料流向、更新機制、效能驗證方法,這些資訊廠商是否主動提供,還是需要主動索取?

  5. 責任框架是否預先建立? AI 建議出錯時,院內的責任歸屬、事件通報流程是否已有定義?現有的治理架構是否涵蓋 AI 系統的監管責任?


重點摘要

5 件關鍵事:台灣醫療 AI 走向落地的現況總結

  • AI 通過醫師執照考試,確認了知識能力已達門檻;但落地挑戰的核心在流程整合、在地資料對齊、責任歸屬框架,三者缺一
  • 衛福部指引最重要的政策轉變:把「AI 從哪裡來」正式列入醫療機構的治理責任,供應鏈透明度和 AI 系統清冊成為制度要求
  • 醫療 AI 評估框架從功能準確率轉向治理可追溯性,採購邏輯、驗收標準、供應商關係管理都需同步調整
  • 在地醫療語料庫的建置,是解決語言模型台灣化偏移問題的根本途徑,不是模型微調可以替代的
  • Physical AI 照護系統(機器人、感測裝置、照護作業平台)的監管框架與責任歸屬,是現有 GenAI 指引尚未覆蓋、台灣需要提前思考的下一個課題

衛福部的 GenAI 指引,對醫療機構的實際約束力有多大?

指引要求醫療機構建立院內 AI 系統清冊、進行供應商盡職調查、依臨床影響程度分級管理 AI 系統。這些屬於機構治理責任的制度框架,是醫療機構在評估和導入 AI 系統時應遵循的標準。廠商資訊揭露的要求,也為醫療機構向供應商索取必要資訊提供了正式依據。

AI 幻覺在醫療場景中,風險真的比其他行業嚴重嗎?

在醫療場景中,AI 幻覺的風險確實需要更高的管控標準。一個錯誤的藥物劑量建議、不存在的藥物交互作用說明、被引用但實際上無此結論的醫學文獻,這些錯誤在非醫療場景可能只是誤導性資訊,在臨床決策環境中可能直接影響病患安全。醫療機構應建立 AI 輸出的人為確認機制,避免直接採用未經臨床判斷的 AI 建議。

Physical AI 和一般醫療 AI 的本質差異是什麼?

一般醫療 AI(尤其是 GenAI 應用)的輸出是語言建議,使用者(醫師、護理師)自行判斷是否採納,有一層人為判斷作為緩衝。Physical AI 的輸出是物理世界的動作或直接介入,包括機器人協助移位、感測器觸發警報、自動給藥裝置,會直接影響照護過程,責任框架要求更嚴格,驗證方法也根本不同。

台灣的醫療 AI 目前走到哪個發展階段?

台灣目前正處於從「功能試驗」走向「制度化治理」的轉折:衛福部指引標誌著政策層面開始建立系統性框架,新創的在地語料庫投資代表產業層面正在補足資料基礎。但 Physical AI 照護系統的監管架構尚未建立,廠商盡職調查的實際執行能力在多數醫療機構也仍屬起步,是下一階段的主要建置任務。

為什麼醫療 AI 的效能不能直接信任廠商的測試報告?

廠商的測試通常在最有利的條件下設計,測試集的病患族群組成、資料品質、語言背景,可能與特定醫院的實際情況有顯著差異。本地資料獨立驗證的目的,是確認「廠商聲稱的效能,在我們醫院的資料條件和臨床工作流下是否同樣成立」。根據 Bodnari A, Travis J (2025) 的研究,這一獨立驗證機制,是整個 AI 治理框架中最容易被跳過、也最容易導致落地失敗的環節。