為什麼 AI 在醫藥領域最先落地的，常常不是最前端的科學發現，而是中後段流程？

提到 AI 在製藥領域的應用，很多人第一個想到的是藥物發現，也就是找到新靶點、設計新分子、預測蛋白質結構。但如果從實際落地的角度來看，2024 至 2025 年之間，大藥廠真正完成規模化部署的 AI 應用，集中在一個完全不同的位置：臨床試驗管理、受試者篩選、法規送件（regulatory submissions，向 FDA 或 EMA 提交上市申請文件）。

Reuters 2025 年 1 月的報導指出，Novartis、GSK 等公司正在實際節省試驗管理的時間與成本。同一時期，Variant Bio 與 Boehringer Ingelheim 合作、Nvidia × Eli Lilly、AstraZeneca × Modella AI 都指向前端研發的基礎設施建設。但這些前端案例的定位，清楚地是「研發基礎設施的一部分」，而非能獨立運作的決策系統。這裡說的「落地」，不是概念驗證（POC）或實驗室展示，而是 AI 工具實際嵌入工作流程、產生可量化效率改變、並能在多個場景重複執行的狀態。背後的原因，在於中後段流程的問題結構比前端更清楚。

一、問題要先定義清楚：AI 落地需要哪些條件？

兩位穿白袍的醫師面對窗戶，共同檢視一張腦部 MRI 影像，其中一人用手指指向影像中的特定位置

AI 要真正落地，需要同時滿足四個條件：有品質一致的輸入資料、有明確定義的任務邊界、有可驗證的輸出標準，以及有願意依照輸出行動的明確角色。缺少任何一項，AI 都只能停在試驗或展示階段。

中後段流程比前端更容易同時滿足這四個條件，原因如下：

資料結構化程度：前端科學發現的資料多是非結構化的，包括文獻、假說、跨機構異質資料集。中後段的臨床試驗和法規文件則不同：試驗協定有格式標準、受試者資料有欄位定義、法規送件有固定的文件結構（如 ICH 的 CTD 格式，通用技術文件，Common Technical Document）。這些格式讓 AI 有明確的參照架構。

任務邊界清晰度：「找到新的有效分子」這個任務邊界模糊，搜尋空間幾乎無限。「從資料庫中比對受試者入排標準，找出符合資格的候選人」這個任務，邊界清楚，成功標準可以在執行前定義完整。

輸出驗證時程：AI 在臨床試驗管理中找到的受試者，可以人工交叉比對；法規文件的摘要，可以和原始文件核對。但「這個分子有潛力」要等到臨床試驗結束才能驗證，反饋迴路太長，AI 的貢獻就很難和其他因素分離。

行動角色明確性：試驗管理系統的使用者是明確的（研究協調員、臨床研究助理 CRA、法規專員），工作流程有明確的決策點，AI 的輸出可以嵌入進去。前端科學發現的決策牽涉角色更分散、判斷更主觀。

這四個條件加在一起，解釋了為什麼中後段流程是 AI 最先完成規模化落地的地方：不是因為它更重要，而是因為它的問題結構更清楚。

二、藥物研發流程是怎麼分段的？

藥物研發通常分為三大段：前端的「發現研究」（靶點識別、先導化合物篩選、結構優化）、中段的「臨床試驗」（Phase I-III）、以及後段的「法規申請與上市」（送件、審查應對、上市後監測）。每個階段的問題結構和資料特性都不同，AI 的可介入程度也因此有很大差距。

前段發現研究高度依賴假說和跨機構知識整合，AI 的主要角色是「輔助搜尋」，核心科學判斷仍然需要人。中段臨床試驗要管理大量結構化資料，試驗協定定義了入排標準，受試者資料有固定欄位，AE（不良事件，Adverse Event）的報告也有格式要求。後段法規申請的文件架構非常固定，ICH 的 CTD 格式定義了每個章節的內容要求，是目前 AI 工具最能穩定交付成果的領域。

流程階段	資料特性	任務邊界	AI 可介入程度	輸出驗證週期
前端發現研究	非結構化為主、跨機構異質	模糊、開放式	輔助搜尋、假說生成	5-10 年
臨床試驗管理	半結構化、欄位固定	較清楚、可量化	受試者篩選、監測、AE 管理	1-3 年
受試者招募	電子健康紀錄、問卷資料	明確（入排標準）	高，可自動化比對	數週至數月
法規送件準備	高度結構化（CTD 格式）	非常清楚	高，可輔助生成初稿	數週
法規審查應對	問答式、文件交叉引用	清楚	摘要生成、引用定位	數天至數週

三、中後段流程為何更適合 AI 落地：根因剖析

中後段流程的落地優勢，根本原因不在於任務比較簡單，而在於問題的結構性更高。這個差異，是由三個因素共同造成的：監管壓力、失敗成本結構，以及既有系統基礎。

根因一：監管壓力創造了資料標準化的誘因。FDA、EMA 等機關對資料格式、文件結構、審計軌跡都有明確要求。當 FDA 要求受試者資料符合 CDISC 標準（臨床資料交換聯盟標準，Clinical Data Interchange Standards Consortium），當 ICH 規定法規文件要用 CTD 格式，這些標準讓 AI 有了明確的參照架構。前端的藥物發現沒有這種強制標準化的外部壓力，資料的異質性就成了 AI 介入的主要障礙。

根因二：反饋迴路的長短決定了 AI 系統能否有效優化。在前端藥物發現，AI 的錯誤判斷要等到幾年後的臨床試驗結果才能發現。在中後段流程，錯誤的代價更直接：受試者招募錯誤，很快顯現在進度報告中；法規文件有誤，審查機關會給具體的回饋意見。較短的反饋迴路，讓 AI 系統更容易進行有效的迭代優化。

根因三：既有系統已數位化，整合成本較低。試驗管理系統（CTMS，Clinical Trial Management System）、電子資料擷取系統（EDC，Electronic Data Capture）、監管資訊管理系統（RIM）在大藥廠已有多年部署歷史。AI 要介入這些環節時，有現成的系統可以對接，有固定的角色可以接受輸出，整合成本大幅低於前端科學發現環境。

「AI 在我們試驗管理的改善，不是來自一個單一的工具，而是來自把 AI 嵌入到已經存在的工作流程中。重點不是技術本身，而是它在什麼環節被使用、被誰使用、用來做什麼決定。」這段話出自 Reuters 2025 年 1 月報導，是 GSK 數位健康業務負責人談及該公司 AI 部署策略時的說明。

四、大藥廠的實際部署模式

根據 2024 至 2025 年間的公開案例，大藥廠的 AI 落地主要集中在三類任務：受試者篩選與招募、試驗資料監測與異常偵測，以及法規文件生成與審查應對。這三類任務的共同特徵是任務邊界清楚、資料來源明確、輸出可由人工驗證。

受試者篩選：多家藥廠已導入 NLP（自然語言處理，Natural Language Processing）工具，自動解析電子健康紀錄（EHR，Electronic Health Record）中的非結構化資料，與試驗入排標準比對後生成候選名單。Novartis 提到，這類工具讓特定試驗的招募時間縮短了數週。這個效益高度依賴各場地的 EHR 品質。格式不一致的場地，實際效益會大幅縮減。

試驗監測：AI 設定規則自動偵測異常數據點，比如某場地的失訪率突然上升、某欄位的填報規律性異常高（可能是資料捏造的訊號）。這讓有限的監測資源能集中到真正需要介入的場地。

法規文件：GSK 等公司已公開表示，正在使用 AI 工具輔助生成臨床摘要的初稿，再由法規專員審閱修改。目標不是讓 AI 替代法規專員，而是讓他們的時間從「整理格式」轉移到「內容審核」。

前端合作的定位很清楚：這些案例都是讓科學家搜尋更快、假說生成範圍更廣的工具，而非能直接輸出「應該開發哪個分子」的決策系統。中後段 AI 的輸出是「這 20 個受試者符合資格，請確認」，是可立即行動的指令。前端 AI 的輸出是「這個分子在預測模型中有較高的結合親和力」，是需要進一步科學判斷才能轉化為行動的資訊。

重點摘要

大藥廠 AI 落地的三個主要任務：受試者篩選、試驗監測、法規文件生成
受試者招募的時間改善，高度依賴各場地 EHR 的資料品質一致性
前端藥物發現 AI 的定位是「研發基礎設施」，而非能直接替代科學判斷的決策系統
中後段輸出可立即行動；前端輸出仍需科學解讀才能轉化為行動，這是兩者的根本差距

五、前端科學發現的挑戰：不是不能做，而是落地條件還不夠

AI 在藥物發現前端並非沒有進展，AlphaFold 對蛋白質結構預測的突破是真實的科學成就。但從「能預測結構」到「能支撐完整的藥物研發決策」之間，還有四個尚未解決的整合問題，讓前端 AI 的落地速度仍然慢於中後段流程。

訓練資料的品質與覆蓋率：藥物發現模型需要大量高品質的分子-活性資料（SAR data，Structure-Activity Relationship）。這些資料有很大一部分是各藥廠私有的，不公開也不共享。公開資料庫（如 ChEMBL、PubChem）覆蓋的疾病範圍有明顯偏斜，模型在公開資料集上表現良好，不代表在特定疾病領域同樣有效。

從預測到驗證的成本沒有顯著縮減：AI 可以預測一個分子的結合親和力，但這個預測需要實驗室驗證，驗證的成本和時間與傳統方式差異不大。AI 縮短的是「篩選候選分子」的時間，縮短幅度有時不足以顯著改變整個研發週期的效率。

可解釋性不足，影響信任基礎：「這個分子有潛力，因為模型說它有潛力」，這個理由在研發決策會議上很難通過。科學家需要了解模型預測的邏輯，才能判斷是否和現有科學認知吻合。可解釋性不足，是前端 AI 面臨的核心信任問題。

跨機構資料共享的結構性障礙：前端藥物發現通常需要跨機構合作，每個機構有自己的資料格式、安全要求和智慧財產權限制，讓資料整合成本遠高於中後段流程中已標準化的資料介面。根據 FDA 對 AI 和機器學習在醫療設備的監管框架，前端 AI 輸出目前尚未有「AI 決策可直接用於法規送件」的明確路徑。

「蛋白質結構預測的突破是真實的進步，但從結構到安全有效的藥物，中間還有非常多的步驟，每一步都有自己的挑戰。AI 加快了某些步驟，但沒有讓整個藥物研發成為一個可以全面自動化的流程。」這段話出自《Nature》2024 年 AI in drug discovery 綜述，反映多位藥物發現研究者的共同觀察。

六、如何評估一個 AI 應用是否真正在醫藥流程中落地？

判斷 AI 是否在醫藥流程中真正落地，需要從五個維度評估：嵌入程度（是否已進入工作流程）、使用規模（是否跨越試驗場地推廣）、量化效益（是否有可追蹤的改善數字）、治理機制（是否有人負責監控 AI 輸出品質），以及可持續性（是否有人員培訓和維護計畫）。只看功能展示或公告措辭，是最容易被誤導的地方。

評估醫藥 AI 落地程度的五步驟檢查清單

第一步：釐清嵌入程度

這個 AI 工具是否已整合進現有系統（CTMS、EDC、RIM）？
它的輸出是否會影響實際決策（受試者招募、文件版本提交）？

第二步：確認使用規模

只在單一試驗或場地使用，還是已跨多個場地推廣？
是否有明確的推廣計畫和時間表？

第三步：查看量化效益的追蹤機制

是否有基線（baseline）數據比對導入前後的差異？
具體量化指標是什麼？（招募時間、文件準備工時、AE 處理週期）

第四步：確認 AI 輸出的治理機制

誰負責審核 AI 的輸出？審核的頻率和標準是什麼？
是否有定期的效能審查安排？

第五步：評估可持續性

是否有內部人員受過訓練，能維護和監控這個系統？
資料存取權和模型所有權，是否有清楚的合約約定？

CDISC 的臨床試驗資料標準和 ICH 的 CTD 格式（詳見 ICH 官方文件）是評估中後段 AI 應用的重要參照框架。符合這些標準的資料，是 AI 工具能有效介入的前提，也是判斷一個藥廠資料基礎是否就緒的指標。

重點摘要

AI 落地的四個條件缺一不可：資料結構化、任務邊界清楚、輸出可驗證、角色責任明確
中後段流程因監管壓力，天然具備這四個條件；前端科學發現要同時滿足則困難得多
前端 AI 落地速度仍受限於資料品質、驗證成本和可解釋性問題
評估 AI 是否落地，看嵌入程度、使用規模、量化效益、治理機制和可持續性，不只看公告數量

AI 在受試者篩選上能節省多少時間？

各藥廠和試驗的情況差異很大，沒有統一的數字。根據公開報導（包含 Novartis 的案例），AI 輔助篩選在某些試驗中可將候選人識別時間縮短 30-50%，但這個數字高度依賴電子健康紀錄的品質和入排標準的複雜程度。沒有充分資料標準化的場地，AI 的實際效益可能非常有限。

法規單位（FDA、EMA）接受 AI 生成的送件文件嗎？

目前的監管立場是：AI 可以輔助文件草擬，但人工審閱和簽署責任不能省略。FDA 的指引明確指出，送件方對文件的準確性和完整性負完全責任，不論文件是否使用 AI 協助生成。AI 目前是「提高效率的工具」，不是「替代責任的機制」。

前端的藥物發現 AI 是否已有上市藥物的成功案例？

截至 2025 年初，尚未有藥物因「由 AI 完整主導發現」而獲准上市。Insilico Medicine 的 ISM001-055（針對特發性肺纖維化）已進入 Phase II，是目前最接近臨床驗證的案例，但距離上市仍有多個階段。目前 AI 在藥物發現的角色，仍然是輔助科學家縮短篩選時間、提高假說品質，而非替代整個研發流程。

為什麼大藥廠選擇與 AI 公司合作，而不是自行建立 AI 系統？

大藥廠的核心競爭力在於化學、生物和臨床研究的知識積累，而不是 AI 工程能力。自建系統需要大量 AI 人才和算力基礎設施的持續投入。透過合作，藥廠可以更快使用已有的模型，但也帶來資料共享的安全問題和模型所有權的合約複雜性，需要在合作協議中明確約定。

AI 在醫藥流程的整合，最常失敗的原因是什麼？

根據業界觀察，最常見的失敗原因不是模型準確率不夠，而是整合問題：AI 輸出的時間點和工作流程不吻合、沒有明確的角色負責跟進建議、資料供給不穩定導致效能下降、以及缺乏定期效能審查機制。這些問題不是換一個更好的模型就能解決的，而是流程設計和組織治理的問題，需要在技術導入之前就先處理清楚。

參考來源

美國 FDA AI 與機器學習醫療器材監管框架（美國食品藥物管理局（FDA））
CDISC 臨床試驗資料標準（CDISC 臨床資料交換聯盟）
ICH CTD 通用技術文件規範（ICH 國際醫藥法規協和會）

相關專題

醫療 AI 的信任與落地 →

為什麼 AI 在醫藥領域最先落地的，常常不是最前端的科學發現，而是中後段流程？

一、問題要先定義清楚：AI 落地需要哪些條件？

二、藥物研發流程是怎麼分段的？

三、中後段流程為何更適合 AI 落地：根因剖析

四、大藥廠的實際部署模式

重點摘要

五、前端科學發現的挑戰：不是不能做，而是落地條件還不夠

六、如何評估一個 AI 應用是否真正在醫藥流程中落地？

評估醫藥 AI 落地程度的五步驟檢查清單

重點摘要

參考來源

延伸閱讀

GPT-5 Pro 解開卡三年的 T 細胞之謎，還預測了一場沒看過的實驗：該讀懂的不是 AI 會做科學了

AI 從『答題』走進實驗室：GPT-5.4 跑一萬筆反應改良了卡多年的偶聯反應，但它解的是哪一類問題？

AI 能讓精準判斷真正被支付嗎？解析醫療支付制度的核心矛盾