本文重點
- AI 被「看起來像權威」的錯誤資訊誤導,根本原因是模型用語言特徵作為可信度代理信號,而不是驗證資料內容本身
- 檢索增強生成(RAG)解決的是資料覆蓋問題,不能自動解決資料可信度問題;文件庫本身的品質管控才是關鍵
- 可信度驗證需要在資料進入前、模型推論時、輸出之後三個環節分別設計,不是靠單一機制就能完整覆蓋
- 醫療 AI 的部署,需要明確定義誰負責資料品質、誰審核高風險回答、誰處理錯誤回報,責任鏈不清楚的系統風險不可預估
- 評估醫療 AI 系統時,準確率數字不是唯一指標,「系統在哪些情況下不知道自己不知道」才是更關鍵的問題
- AI 聊天機器人給的醫療資訊,可以直接相信嗎?
- 不建議直接相信,尤其是涉及具體用藥建議、劑量、禁忌症或症狀診斷的情境。目前主流的 AI 聊天機器人沒有辦法即時驗證它所引用的資料是否來自通過審查的可信來源,也無法判斷資料的更新時效性。最穩妥的做法是把 AI 提供的資訊當作「需要進一步確認的線索」,而不是「可以直接採用的醫療建議」。涉及健康決策的問題,仍應諮詢有執照的醫療人員。
- 為什麼 AI 有時候會「捏造」不存在的論文引用?
- 這個現象叫做「幻覺引用」(hallucination in citations)。大型語言模型在生成文字時,是根據訓練資料中的統計模式預測下一個字詞,而不是真的在查詢一個論文資料庫。當模型被要求附上引用來源,它有時候會生成一個「格式上看起來正確的引用」,但這個引用實際上可能是不存在的——標題是捏造的、DOI 是無效的、或者作者與期刊的組合是假的。這個問題在醫療場景下特別危險,因為格式完整的假引用比沒有引用更難被識別。
- 使用 RAG 技術的醫療 AI 是不是更可信?
- RAG(Retrieval-Augmented Generation,檢索增強生成)確實能改善部分問題:它讓模型從指定文件庫中找資料,減少了純粹依賴訓練資料的問題。但 RAG 不能保證可信度,因為關鍵在於文件庫裡放了什麼。如果文件庫包含未經審查的醫療內容,RAG 的引用機制反而可能讓錯誤資訊看起來更有依據。評估 RAG 系統時,最重要的問題是「文件庫是怎麼建立的、怎麼維護的、誰負責品質管控」。
很多人在討論醫療 AI 的時候,關注的是它能不能找到答案。能不能查到藥物交互作用、能不能提供用藥建議、能不能解讀檢驗數值。這些問題都是真實的,但它們全部都指向一個更前面的問題:AI 找到的這些資料,到底可不可以信任?
2025 年 2 月,Reuters 報導了一項針對 AI 醫療資訊可靠性的研究,研究結果讓這個問題從「理論層面的擔憂」變成「有實驗證據的設計風險」:當錯誤的醫療資訊,來自看起來具有權威性的來源時,AI 被誤導的機率明顯更高。
這裡要先把問題定義清楚。AI 被「權威外表的錯誤資訊」誤導,不只是一個準確率的問題,而是一個系統性的判斷機制問題。如果問題定義錯了,後面的討論方向就會跑偏。
一、研究發現了什麼問題?
研究的核心發現是:當錯誤的醫療資訊被包裝成看起來像學術論文、醫療機構聲明或官方指引的格式時,AI 生成的回答更容易將這些錯誤資訊當作可信依據。 這代表 AI 在判斷「這份資料有沒有根據」時,所參考的訊號,有很大一部分是資料的外觀格式,而不是資料內容本身的邏輯完整性或事實準確性。
這個問題的嚴重性在於它的不對稱性。一般的錯誤資訊,格式通常較粗糙,用詞也不那麼精確,AI 系統相對容易識別出這類內容的可信度較低。但當錯誤資訊刻意模仿學術文體——有摘要、有引用格式、有統計數字、有機構名稱——AI 的誤判率就會顯著上升。
這不是 AI 「能力不足」的問題。換一個角度來說,AI 在判斷來源可信度時,做了一件相當符合人類認知捷徑的事:用格式特徵作為可信度代理指標(proxy signal)。這個機制在一般情況下並非全然錯誤,因為可信來源確實更可能具備完整的格式結構。問題在於,一旦有人刻意仿造這些外觀特徵,這個機制就會失效。
醫療資訊的錯誤代價,與一般領域不同。一個用藥建議的錯誤、一個症狀解讀的偏差、一個禁忌事項的遺漏,都可能對使用者造成實際的健康損害。這正是為什麼這個問題需要從設計層面認真對待。
二、為什麼「看起來像權威」會影響 AI 的判斷?
根本原因是大型語言模型(LLM)的訓練機制:模型是從大量文本中學習「什麼樣的表達方式與可信資訊高度相關」,而不是從第一原理出發驗證每一份資料的事實真偽。
要先把這個問題拆成三層來看:
第一層是訓練資料的關聯性問題。 大型語言模型(Large Language Model,簡稱 LLM,是目前 ChatGPT、Gemini 等 AI 聊天機器人的核心技術)的訓練資料中,可信的醫學資訊確實和特定的語言特徵高度重疊:引用格式、統計數字、機構名稱、學術用語。模型學到的,是「這些特徵通常出現在可信內容裡」,而不是「這些特徵是可信度的充分條件」。
第二層是推論時的驗證缺口。 當模型在生成回答時,它所做的是根據訓練知識和輸入內容進行推論,而不是即時查核輸入資料是否與外部可驗證的真實世界一致。換句話說,模型看到的是「這份資料長什麼樣子」,而不是「這份資料說的對不對」。
第三層是對抗性資訊的設計空間。 如果一份錯誤資訊刻意模仿可信來源的外觀,它就在第一層的關聯性判斷上欺騙了模型,而第二層的驗證機制又沒有能力識別這種欺騙。這兩個缺口疊加,就形成了研究所觀察到的現象。
「語言模型對來源可信度的判斷,依賴的是文本表面特徵的模式識別,而非對命題內容的邏輯驗證。這使得格式完善的錯誤資訊,在模型眼中可能比格式粗糙的正確資訊更具說服力。」——《自然·醫學》(Nature Medicine)2024 年關於 LLM 醫療資訊可靠性的評估研究摘要
這裡不能只看表面。這個問題的根源,不是某一個模型設計得不好,而是整類模型在訓練典範上共享的一個結構性限制:模型學習的是語言的統計規律,而不是世界的因果規律。
三、AI 目前怎麼評估資料可信度?
目前主流的 AI 醫療應用,在可信度評估上採用了幾種不同的機制,但每一種都有各自的限制條件。
要分清楚這裡有幾種不同的系統設計,因為它們的可信度判斷邏輯並不相同:
| 系統類型 | 可信度判斷機制 | 主要限制 |
|---|---|---|
| 純 LLM(無外部資料庫) | 依賴訓練資料的統計關聯性,用語言特徵推測可信度 | 訓練知識有截止日期;格式仿造會誤導判斷 |
| 檢索增強生成(RAG) | 從指定文件庫檢索相關段落,再由 LLM 生成回答 | 文件庫本身的品質決定系統上限;仍依賴 LLM 判斷段落「最相關性」 |
| 結構化知識庫整合 | 連結 SNOMED、ICD 等醫療術語標準,強制對齊術語定義 | 術語標準化能提高一致性,但不保證背後醫學建議準確 |
| 人工審核閉環系統 | 生成內容由臨床醫師或藥師審查後才對外提供 | 成本高、無法即時回覆;審核人員負擔隨使用量增加 |
| 引用來源標注系統 | 要求模型在回答中標注具體來源,讓使用者可以驗證 | 模型有時會生成格式正確但實際不存在的引用(幻覺引用問題) |
檢索增強生成(Retrieval-Augmented Generation,簡稱 RAG,是一種讓模型在回答前先從外部文件庫搜尋相關資料的技術架構)在醫療應用中被視為改善可信度的重要方向,但它解決的是「知識截止日期」和「訓練資料缺漏」的問題,而不是「如何判斷輸入資料本身是否可信」的問題。
如果 RAG 系統的文件庫包含了格式完善但內容錯誤的醫療資訊,那麼 RAG 的加入不會降低被誤導的風險,反而可能增加可信度的假象——因為系統現在會在回答中附上「根據以下資料」的引用格式。
真正要問的問題是:文件庫的資料是怎麼篩選進來的?誰負責確保文件庫的內容品質?這個品質管控機制有沒有定期審查?
四、這個問題真正的根因在哪裡?
根本原因不是模型還不夠強,而是整個 AI 醫療應用的設計流程,普遍缺少「可信度驗證」這個環節,把資料蒐集和可信度判斷這兩件事混為一談。
要先把問題和原因分清楚。表面上的問題是「AI 被錯誤資訊誤導」,但這個表面問題背後,有幾個層次的原因需要分別處理:
原因一:把「能找到資料」等同於「資料值得信任」。
在很多醫療 AI 的產品設計中,開發者花了大量精力在提升「召回率」——讓系統能找到更多相關資料。但相關不等於可信。一個系統找到了大量「看起來有根據的」資料,不代表這些資料通過了任何實質性的可信度驗證。這是問題定義層面的偏差,不是技術實作層面的問題。
原因二:可信度判斷的信號設計,沒有和實際的醫療品質標準對齊。
「看起來像學術論文」和「通過同儕審查的學術論文」是兩件不同的事。前者是一個語言特徵,後者是一個流程保證。目前大多數 LLM 系統使用的是前者——語言特徵——作為可信度的代理信號,因為後者需要連結到外部的審查記錄或認證資料庫,在技術實作上更複雜。
原因三:醫療資訊的可信度驗證,需要領域知識,不是通用模型能自動完成的事。
醫學是一個知識高度動態、且高度細分的領域。某一種藥物的建議劑量,可能在最新的臨床指引中已經更新;某一種治療方案,可能在不同的共病症組合下有不同的適用性。這些細節,需要有醫學領域知識的人或系統來判斷,不能依賴通用語言模型的統計直覺。
「醫療資訊的可信度不能只靠格式或來源外觀來判斷,必須連結到具有臨床依據的知識體系,包括系統性回顧、隨機對照試驗,以及持續更新的臨床指引。」——世界衛生組織(WHO)《數位健康實施指引》(Digital Health Implementation Guide)關於 AI 醫療資訊品質的說明
追根究柢,這個問題的形成有一個更深層的原因:在醫療 AI 的產品開發中,「可信度驗證」這個功能沒有被設計成系統的必要組件,而是被預設為「模型自己會處理好」。 這個預設,在低風險應用場景下可能暫時行得通,但在醫療這個高風險場景下,它是一個應該被正視的設計缺口。
五、目前有哪些改善方向?
改善方向不是單一技術解法,而是一組設計選擇的組合,每一種選擇都有其適用條件和成本結構。
反過來從流程來看,可信度判斷的問題可以在三個不同的環節介入:資料進入前(篩選)、模型推論時(驗證)、輸出之後(審核)。不同的介入點,對應不同的設計選擇。
| 介入點 | 做法 | 適用條件 | 限制 |
|---|---|---|---|
| 資料進入前 | 建立白名單文件庫(僅收入通過審查的醫學期刊、官方指引) | 資料量有限、更新頻率可控的場景 | 白名單維護成本高;可能排除新興但有效的研究 |
| 資料進入前 | 自動化文獻品質評分(依 Impact Factor、DOI 驗證等) | 大量文件需要初篩 | 高影響力期刊不等於內容一定正確;DOI 可被仿造 |
| 模型推論時 | 強制引用來源並附上可驗證連結 | 需要使用者有能力自行查核 | 模型幻覺引用問題;使用者不一定會點閱驗證 |
| 模型推論時 | 對高風險答案增加不確定性標注(「這個建議需要經醫師確認」) | 任何醫療 AI 應用 | 過多警示語會被使用者習慣性忽略 |
| 輸出之後 | 臨床醫師審查後才對外提供 | 非即時回覆的應用場景 | 無法支援即時查詢;審核人力無法線性擴展 |
| 輸出之後 | 使用者回報機制 + 錯誤資訊快速下架流程 | 已上線系統的品質監控 | 錯誤被發現前可能已有大量使用;回報機制需設計誘因 |
這裡有一個常被簡化的地方:這幾種方向不是「選一個最好的」,而是需要根據應用場景的風險等級、使用者類型和技術限制,組合設計。
例如,一個提供給一般民眾查詢藥物副作用的系統,和一個提供給臨床醫師輔助診斷的系統,雖然都叫「醫療 AI」,但它們的可信度需求、錯誤成本和使用者自主判斷能力完全不同,不能套用同一套設計邏輯。
值得注意的是,國際醫療資訊標準化組織 HL7 International 目前正在推動將可溯源性(provenance)納入 FHIR(Fast Healthcare Interoperability Resources,醫療互操作資源標準)的資料交換標準,讓每一筆醫療資訊都能追溯到它的原始來源和產生時間。這個方向在技術上有助於建立更可查核的資訊鏈,但距離在 AI 應用中實際落地,還需要配合資料治理和系統整合的共同設計。(相關標準可參考:HL7 FHIR Provenance Resource)
六、醫療機構與開發者的實務評估步驟
評估的重點不是模型的準確率數字,而是系統在可信度判斷機制上有沒有設計出清楚的邊界和問責機制。
最後還是要回到實際使用情境。最好的做法,不一定是最複雜的做法,但一定是能從設計階段就把可信度判斷納入的做法。
可執行步驟
以下是一組針對醫療 AI 系統的可信度設計評估步驟,適用於採購、建置或審核階段:
步驟一:釐清資料來源的品質管控流程
- 這個系統的知識來源是什麼?是哪些資料庫、哪些期刊、哪些官方指引?
- 這些資料有沒有通過人工或自動化的篩選機制,還是直接從網路抓取?
- 資料的更新頻率是多久?誰負責決定哪些新資料可以進入系統?
- 有沒有機制能夠把已被撤稿或已被更新的資料標記為過期?
步驟二:確認可信度信號的設計邏輯
- 系統在判斷某份資料「比較可信」時,依據的是哪些特徵?
- 這些特徵是否可被刻意仿造?系統有沒有對抗性測試(adversarial testing)的機制?
- 如果輸入一份格式完善但內容錯誤的資料,系統的行為是什麼?
步驟三:評估高風險情境的處理設計
- 系統如何定義「高風險回答」(如劑量建議、禁忌症、急救處置)?
- 高風險回答有沒有不同的處理流程,例如必須附來源、必須附警示語,或必須轉介給人工確認?
- 這些高風險情境的邊界定義是誰決定的?有沒有臨床醫師的輸入?
步驟四:建立上線後的監控與問責機制
- 系統上線後,有沒有使用者回報錯誤資訊的管道?
- 錯誤回報後,從發現到修正的流程是什麼?誰負責決定是否修正,以及如何修正?
- 當 AI 系統提供了錯誤的醫療資訊並對使用者造成實際影響,責任在誰?這個責任歸屬有沒有在服務條款和使用者告知文件中清楚說明?
(關於醫療 AI 責任歸屬與監管框架,可參考:WHO Guidance on Ethics and Governance of AI for Health)
重點摘要
- AI 被「看起來像權威」的錯誤資訊誤導,根本原因是模型用語言特徵作為可信度代理信號,而不是驗證資料內容本身
- 檢索增強生成(RAG)解決的是資料覆蓋問題,不能自動解決資料可信度問題;文件庫本身的品質管控才是關鍵
- 可信度驗證需要在資料進入前、模型推論時、輸出之後三個環節分別設計,不是靠單一機制就能完整覆蓋
- 醫療 AI 的部署,需要明確定義誰負責資料品質、誰審核高風險回答、誰處理錯誤回報,責任鏈不清楚的系統風險不可預估
- 評估醫療 AI 系統時,準確率數字不是唯一指標,「系統在哪些情況下不知道自己不知道」才是更關鍵的問題
AI 聊天機器人給的醫療資訊,可以直接相信嗎?
不建議直接相信,尤其是涉及具體用藥建議、劑量、禁忌症或症狀診斷的情境。目前主流的 AI 聊天機器人沒有辦法即時驗證它所引用的資料是否來自通過審查的可信來源,也無法判斷資料的更新時效性。最穩妥的做法是把 AI 提供的資訊當作「需要進一步確認的線索」,而不是「可以直接採用的醫療建議」。涉及健康決策的問題,仍應諮詢有執照的醫療人員。
為什麼 AI 有時候會「捏造」不存在的論文引用?
這個現象叫做「幻覺引用」(hallucination in citations)。大型語言模型在生成文字時,是根據訓練資料中的統計模式預測下一個字詞,而不是真的在查詢一個論文資料庫。當模型被要求附上引用來源,它有時候會生成一個「格式上看起來正確的引用」,但這個引用實際上可能是不存在的——標題是捏造的、DOI 是無效的、或者作者與期刊的組合是假的。這個問題在醫療場景下特別危險,因為格式完整的假引用比沒有引用更難被識別。
使用 RAG 技術的醫療 AI 是不是更可信?
RAG(Retrieval-Augmented Generation,檢索增強生成)確實能改善部分問題:它讓模型從指定文件庫中找資料,減少了純粹依賴訓練資料的問題。但 RAG 不能保證可信度,因為關鍵在於文件庫裡放了什麼。如果文件庫包含未經審查的醫療內容,RAG 的引用機制反而可能讓錯誤資訊看起來更有依據。評估 RAG 系統時,最重要的問題是「文件庫是怎麼建立的、怎麼維護的、誰負責品質管控」。
醫療機構在選擇 AI 工具時,應該要求什麼文件或保證?
至少應要求以下幾類資訊:一、訓練資料的來源說明與篩選標準;二、系統在醫療準確性方面的驗證報告(理想上由獨立第三方機構進行);三、高風險回答的處理流程說明;四、錯誤發生時的問責機制與合約責任範圍;五、系統的更新與維護計畫,包括知識庫的定期審查頻率。這些不是選購任何軟體都需要的條件,但在醫療場景下,它們是評估供應商誠信與系統成熟度的基本依據。