26
2025.07
突破 AI 黑盒子:BioReason 如何整合 DNA 與 LLM 模型,實現生物學推理的可解釋性
在浩瀚的生命科學世界裡,科學家就像偵探,總想解開生命運作的謎團。而生物資訊領域的基因分析一直是解開生命謎團的關鍵。近年來,人工智慧(AI)成為處理海量基因體資料的神隊友。不過,過往的 DNA 分析 AI (如Evo2 或 Nucleotide Transformer) 常常像個神祕的「黑盒子」,存在嚴重的AI 模型黑盒子問題:它們能給出結果,卻無法解釋推論過程,這在需要嚴謹科學驗證的應用中是一大阻礙。為了解決這個挑戰,一種名為BioReason 的新型可解釋人工智慧 (Explainable AI) 架構應運而生。
舉例來說,當我們詢問 PFN1 基因上的一個變異是否與肌萎縮性側索硬化症(ALS,俗稱「漸凍人症」)有關,BioReason 的回答可能像這樣:
< think>首先,我看到 PFN1 基因的某個位置有 C→G 的變異。
< think>這可能會影響 PFN1 蛋白的功能。
< think>PFN1 功能異常,會干擾肌動蛋白的穩定性與細胞骨架結構。
< think>這進一步會影響運動神經元的物質運輸。
< think>長期下來可能導致運動神經元死亡,這是 ALS 的典型特徵。
這不僅清楚說明「變異與疾病」之間的邏輯連結,研究人員還能檢視每個推論步驟,進一步開展新研究方向。
詳細指標整理如下:
KEGG 疾病途徑預測:
變異效應預測:
儘管 BioReason 已展現驚人潛力,但它仍有進一步精進的空間,例如處理更多樣的基因資料類型、提升罕見變異的預測能力,或是進一步整合臨床資訊。不過BioReason的出現,不僅是生物資訊領域的一大步,也為解決 AI 模型黑盒子問題提供了具體方案。這個創新的多模態 AI 模型應用,透過 DNA解碼模型與大型語言模型的結合,顯著提升 AI 模型的可解釋性。它讓我們對未來AI 能更精準、更透明地應用於基因分析與個人化醫療,有了更多、更實際的想像 。
參考文獻
Fallahpour, A., Magnuson, A., Gupta, P., Ma, S., Naimer, J., Shah, A., Duan, H., Ibrahim, O., Goodarzi, H., Maddison, C. J., & Wang, B. (2025). BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model. arXiv. https://doi.org/10.48550/arXiv.2505.23579
圖爾思生物科技 / 研發中心
張勝瑜 文案
回上一頁
當 DNA 解碼高手遇上大型語言模型:BioReason 登場!
想像一下,如果 AI 不只會做事,還能清楚說明「為什麼這樣做」,這將如何加速生醫研究?近期出現的新型 AI模型架構 BioReason,正是朝這個方向做了有趣的嘗試。它的核心構想很巧妙:結合兩種專長各異的 AI模型- 一位是理解基因體資料的「DNA 解碼高手 Evo2」。
- 一位是擅長語言理解與邏輯表達的「語言專家」,即大型語言模型 (LLM),例如 Qwen3。
AI 如何解釋基因變異?一探 BioReason 的運作流程
簡單來說,BioReason 的運作可以分為幾個步驟:- DNA 解碼高手先上場:由 Evo2分析輸入的基因序列(記為 SDNA),並轉換成一組數值向量特徵(DNA embeddings),你可以把它想成是一張寫有關鍵生物特徵的「DNA 名片」。
- 資訊整合,多方會談:接著,這些「DNA 名片」會與你用文字提出的問題(如「這段基因變異可能與哪些疾病相關?」)整合在一起(問題記為 QTEXT)。為了讓模型知道哪些是 DNA、哪些是文字,資料中還會加入像 < dna_start> 與 < dna_end> 這類標記。這些資訊被整合成統一格式的輸入(XLLM),並標註順序與上下文。
- 語言專家 Qwen3 來推理:最後,大型語言模型Qwen3 模型接收這組整合後的資料,開始推理生物學邏輯,並產生包含詳細思考過程與最終結論的輸出(YOUT),用以預測潛在疾病或判斷基因變異的影響等。
揭露推理過程:用 SyncThink 機制提升 AI 模型可解釋性
BioReason 最特別的設計之一,是它的 「SyncThink 標籤機制」,有效提升 AI 模型的可解釋性。當 Qwen3 執行推理時,會像一位嚴謹的研究員,用 < think> 標籤記錄下每一步邏輯思考,讓 AI 的「思考過程」不是黑盒子,而是一條清晰可讀的思路軌跡,這對於驗證基因變異與疾病關聯的推論至關重要,提升可解釋性與科學可信度。舉例來說,當我們詢問 PFN1 基因上的一個變異是否與肌萎縮性側索硬化症(ALS,俗稱「漸凍人症」)有關,BioReason 的回答可能像這樣:
< think>首先,我看到 PFN1 基因的某個位置有 C→G 的變異。
< think>這可能會影響 PFN1 蛋白的功能。
< think>PFN1 功能異常,會干擾肌動蛋白的穩定性與細胞骨架結構。
< think>這進一步會影響運動神經元的物質運輸。
< think>長期下來可能導致運動神經元死亡,這是 ALS 的典型特徵。
這不僅清楚說明「變異與疾病」之間的邏輯連結,研究人員還能檢視每個推論步驟,進一步開展新研究方向。
BioReason 模型針對 PFN1 基因變異與漸凍人症 (ALS) 的推理輸出範例
專業訓練資料集:變異影響結果預測的基礎
為了訓練 BioReason,科學家們設計了兩套專業資料集:- KEGG 推理資料集(KEGG-Derived Biological Reasoning Dataset ):
共 1449 筆資料,結合 KEGG 、ClinVar、dbSNP、COSMIC 與 OMIM 臨床資料,專門訓練 BioReason 理解基因變異與疾病關聯。 - 變異效應預測(Variant Effect Prediction)資料集:
包含約 5 萬多筆蛋白質編碼區之變異與3.6 萬多筆編碼區非 SNV 變異(InDels, 插入或缺失等)資料,訓練模型辨識序列變異的致病性與疾病表型的關聯。
實測表現亮眼:在基因變異與疾病關聯預測中脫穎而出
在各種評估中,BioReason的成績驚人,KEGG 疾病途徑預測任務中,Evo2 + Qwen3-4B 的組合準確率高達 97.24% 。而在變異效應預測方面,對於蛋白質變異,其準確率達到 80.21%;對於更複雜的非 SNV 變異,準確率更高達 88.20% 。整體表現平均比單一模型提升超過 15%,證明了這種多模態 AI 模型應用 的卓越成效 。詳細指標整理如下:
KEGG 疾病途徑預測:
- Evo2 + Qwen3-4B 組合: 準確率高達 97.24%,F1-score 86.30%
相較之下:- 單用 Qwen3-4B:93.48% / 85.44%
- 單用 Evo2:88.28% / 72.43%
- 小型 Qwen3-1.7B 經過強化訓練後也有亮眼提升:從 88.42% 提升至 89.66%
變異效應預測:
- 對蛋白質變異:
- Evo2 + Qwen3-4B:準確率 80.21%,F1-score 80.00%
- 單用 DNA 模型:70.07% / 49.19%
- 單用 LLM 模型:48.99% / 39.58%
- 對非 SNV 複雜變異:
- Evo2 + Qwen3-1B:準確率高達 88.20%,F1 分數 89.91%
BioReason 為可解釋性 AI 在生物資訊的未來開啟新篇章
儘管 BioReason 已展現驚人潛力,但它仍有進一步精進的空間,例如處理更多樣的基因資料類型、提升罕見變異的預測能力,或是進一步整合臨床資訊。不過BioReason的出現,不僅是生物資訊領域的一大步,也為解決 AI 模型黑盒子問題提供了具體方案。這個創新的多模態 AI 模型應用,透過 DNA解碼模型與大型語言模型的結合,顯著提升 AI 模型的可解釋性。它讓我們對未來AI 能更精準、更透明地應用於基因分析與個人化醫療,有了更多、更實際的想像 。參考文獻
Fallahpour, A., Magnuson, A., Gupta, P., Ma, S., Naimer, J., Shah, A., Duan, H., Ibrahim, O., Goodarzi, H., Maddison, C. J., & Wang, B. (2025). BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model. arXiv. https://doi.org/10.48550/arXiv.2505.23579
圖爾思生物科技 / 研發中心
張勝瑜 文案