© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

26 2025.07

突破 AI 黑盒子:BioReason 如何整合 DNA 與 LLM 模型,實現生物學推理的可解釋性

在浩瀚的生命科學世界裡,科學家就像偵探,總想解開生命運作的謎團。而生物資訊領域的基因分析一直是解開生命謎團的關鍵。近年來,人工智慧(AI)成為處理海量基因體資料的神隊友。不過,過往的 DNA 分析 AI (如Evo2 或 Nucleotide Transformer) 常常像個神祕的「黑盒子」,存在嚴重的AI 模型黑盒子問題:它們能給出結果,卻無法解釋推論過程,這在需要嚴謹科學驗證的應用中是一大阻礙。為了解決這個挑戰,一種名為BioReason 的新型可解釋人工智慧 (Explainable AI) 架構應運而生。
 

當 DNA 解碼高手遇上大型語言模型:BioReason 登場!

想像一下,如果 AI 不只會做事,還能清楚說明「為什麼這樣做」,這將如何加速生醫研究?近期出現的新型 AI模型架構 BioReason,正是朝這個方向做了有趣的嘗試。它的核心構想很巧妙:結合兩種專長各異的 AI模型
  • 一位是理解基因體資料的「DNA 解碼高手 Evo2」。
  • 一位是擅長語言理解與邏輯表達的「語言專家」,即大型語言模型 (LLM),例如 Qwen3。
透過這樣不同任務模型間的整合,BioReason 就像一位既懂生物又能清楚溝通的生物資訊研究顧問。
 

AI 如何解釋基因變異?一探 BioReason 的運作流程

簡單來說,BioReason 的運作可以分為幾個步驟:
  1. DNA 解碼高手先上場:由 Evo2分析輸入的基因序列(記為 SDNA),並轉換成一組數值向量特徵(DNA embeddings),你可以把它想成是一張寫有關鍵生物特徵的「DNA 名片」。
  2. 資訊整合,多方會談:接著,這些「DNA 名片」會與你用文字提出的問題(如「這段基因變異可能與哪些疾病相關?」)整合在一起(問題記為 QTEXT)。為了讓模型知道哪些是 DNA、哪些是文字,資料中還會加入像 < dna_start> 與 < dna_end> 這類標記。這些資訊被整合成統一格式的輸入(XLLM),並標註順序與上下文。
  3. 語言專家 Qwen3 來推理:最後,大型語言模型Qwen3 模型接收這組整合後的資料,開始推理生物學邏輯,並產生包含詳細思考過程與最終結論的輸出(YOUT),用以預測潛在疾病或判斷基因變異的影響等。
 

揭露推理過程:用 SyncThink 機制提升 AI 模型可解釋性

BioReason 最特別的設計之一,是它的 「SyncThink 標籤機制」,有效提升 AI 模型的可解釋性。當 Qwen3 執行推理時,會像一位嚴謹的研究員,用 < think> 標籤記錄下每一步邏輯思考,讓 AI 的「思考過程」不是黑盒子,而是一條清晰可讀的思路軌跡,這對於驗證基因變異與疾病關聯的推論至關重要,提升可解釋性與科學可信度。
舉例來說,當我們詢問 PFN1 基因上的一個變異是否與肌萎縮性側索硬化症(ALS,俗稱「漸凍人症」)有關,BioReason 的回答可能像這樣:

< think>首先,我看到 PFN1 基因的某個位置有 C→G 的變異。
< think>這可能會影響 PFN1 蛋白的功能。
< think>PFN1 功能異常,會干擾肌動蛋白的穩定性與細胞骨架結構。
< think>這進一步會影響運動神經元的物質運輸。
< think>長期下來可能導致運動神經元死亡,這是 ALS 的典型特徵。

這不僅清楚說明「變異與疾病」之間的邏輯連結,研究人員還能檢視每個推論步驟,進一步開展新研究方向。
 
BioReason 模型針對 PFN1 基因變異與漸凍人症 (ALS) 的推理輸出範例
 

專業訓練資料集:變異影響結果預測的基礎

為了訓練 BioReason,科學家們設計了兩套專業資料集:
  • KEGG 推理資料集(KEGG-Derived Biological Reasoning Dataset ):
    共 1449 筆資料,結合 KEGG 、ClinVar、dbSNP、COSMIC 與 OMIM 臨床資料,專門訓練 BioReason 理解基因變異與疾病關聯。
  • 變異效應預測(Variant Effect Prediction)資料集:
    包含約 5 萬多筆蛋白質編碼區之變異與3.6 萬多筆編碼區非 SNV 變異(InDels, 插入或缺失等)資料,訓練模型辨識序列變異的致病性與疾病表型的關聯。
 

實測表現亮眼:在基因變異與疾病關聯預測中脫穎而出

在各種評估中,BioReason的成績驚人,KEGG 疾病途徑預測任務中,Evo2 + Qwen3-4B 的組合準確率高達 97.24% 。而在變異效應預測方面,對於蛋白質變異,其準確率達到 80.21%;對於更複雜的非 SNV 變異,準確率更高達 88.20% 。整體表現平均比單一模型提升超過 15%,證明了這種多模態 AI 模型應用 的卓越成效 。

詳細指標整理如下:
KEGG 疾病途徑預測:
  • Evo2 + Qwen3-4B 組合: 準確率高達 97.24%,F1-score 86.30%
    相較之下:
    • 單用 Qwen3-4B:93.48% / 85.44%
    • 單用 Evo2:88.28% / 72.43%
    • 小型 Qwen3-1.7B 經過強化訓練後也有亮眼提升:從 88.42% 提升至 89.66%

變異效應預測:
  • 對蛋白質變異:
    • Evo2 + Qwen3-4B:準確率 80.21%,F1-score 80.00%
    • 單用 DNA 模型:70.07% / 49.19%
    • 單用 LLM 模型:48.99% / 39.58%
  • 對非 SNV 複雜變異:
    • Evo2 + Qwen3-1B:準確率高達 88.20%,F1 分數 89.91%



BioReason 為可解釋性 AI 在生物資訊的未來開啟新篇章

儘管 BioReason 已展現驚人潛力,但它仍有進一步精進的空間,例如處理更多樣的基因資料類型、提升罕見變異的預測能力,或是進一步整合臨床資訊。不過BioReason的出現,不僅是生物資訊領域的一大步,也為解決 AI 模型黑盒子問題提供了具體方案。這個創新的多模態 AI 模型應用,透過 DNA解碼模型與大型語言模型的結合,顯著提升 AI 模型的可解釋性。它讓我們對未來AI 能更精準、更透明地應用於基因分析與個人化醫療,有了更多、更實際的想像 。
 
 
參考文獻
Fallahpour, A., Magnuson, A., Gupta, P., Ma, S., Naimer, J., Shah, A., Duan, H., Ibrahim, O., Goodarzi, H., Maddison, C. J., & Wang, B. (2025). BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model. arXiv. https://doi.org/10.48550/arXiv.2505.23579
 
圖爾思生物科技 / 研發中心
張勝瑜 文案
回上一頁
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。