掃碼關注北京大學深圳研究生院官方微信

首頁 > 教學科研 > 正文
新材料學院在《自然.通訊》發表運用代數圖論與機器學習實現定量預測分子特性
日期:2021-06-18 10:34:46 新材料學院 點擊:

大數據和人工智能與化學基因和材料基因的融合正推動生物醫學和新材料的前沿科學發展。近年來,機器學習,尤其是深度學習,已經成為基於數據驅動的分子尺度發現化學基因和材料基因強大方法。2019年冠狀病毒病(COVID-19)爆發一年後還沒有特異性的有效藥物,這提醒我們生物醫藥是複雜的前沿科學領域,有效的藥物發現涉及一系列相關的分子特性,包括結合親和力、毒性、分配係數、溶解度、藥代動力學、藥效學等等。對生物醫藥分子特性的實驗測定是非常耗時和昂貴的。此外,涉及到動物或人類的實驗測試會有道德問題的禁區。因此,大數據和人工智能的方法在許多情況下可以產生快速的結果而不嚴重犧牲準確性,其中最受歡迎的方法之一是定量結構活性關係(QSAR)分析,它假定類似的分子具有類似的生物活性和理化性質。儘管科研人員在預測分子性質的方向已經做了大量的工作,但各種分子性質的定量預測仍然是一個挑戰。

近日,北京大學深圳研究生院新材料學院的潘鋒團隊與密歇根州立大學數學系的魏國衞教授合作,通過融合代數圖論方法和Google開發的深度自注意力變換(Transformer)的機器學習方法提出和發展了一種新型的代數圖輔助的雙向轉化器(AGBT)框架,實現基於小樣本數據有效的定量預測分子特性。這一成果近期發表在《自然.通訊》(Algebraic graph-assisted bidirectional transformers for molecular property prediction. Nature Communications, 2021,12(1), 1-9.)。

圖1 代數圖論方法輔助的雙向轉化器(AGBT)框架

通常深度學習方法需要大量的數據集來進行訓練,在小型數據集上利用深度學習模型一般很難取得有效準確的預測。在化學中,通過實驗或者第一性原理確定有標籤性能的數據只佔少數。團隊發現化學中的分子性能預測極大依賴於分子描述符或分子表示法,拓展深度學習方法來產生高質量的分子描述符可以提升預測的準確性,包括運用自然語言處理(NLP)中自監督學習方法,大量無標籤的語言數據可被用於“預學習”和用於模型的訓練和預測,在生物醫學方面運用分子的SMILES表示的化學語言,利用自然語言處理中的相關模型實現了基於自監督學習方法的預訓練。團隊在研究中發現基於SMILES數據的訓練模型會丟失一些分子結構的三維信息,從而影響相應的分子描述符的質量,從而自主原創設計出一種基於代數圖論輔助的深度學習框架(AGBT),這種方法既利用了Transformer這種深度學習方法將大量無標籤的分子數據利用起來,又藉助了代數圖論的方法彌補了深度學習框架(Transformers)所遺失的一些三維信息,可以實現高質量的分子描述符的產生。這種分子描述符,對小數據樣本的分子特徵預測的能力有較高的提升,實現快速有效的定量的分子特性預測。

圖2 一種元素特異性的多尺度加權彩色代數圖論方法

此外,本工作利用代數圖圖論的方法,特別是特定元素的多尺度加權彩色代數圖論方法,將三維分子信息嵌入圖的不變量中,發展了代數圖輔助的雙向轉化器(AGBT)框架,通過融合代數圖論方法產生的分子描述符和Transformers產生的分子描述符表,實現與兩種分子信息的互補。此外,藉助各種機器學習算法,包括決策樹、多任務學習和深度神經網絡,實現下游任務中對分子特性的預測。本工作在八個分子數據集上驗證了所提出的AGBT框架,涉及定量毒性、物理化學和生理學數據集。大量的數值實驗表明,所發展的AGBT是一個高效的分子特性預測模型。

文章的第一作者是北京大學深圳研究生院新材料學院的博士研究生陳冬,通信作者是潘鋒和魏國衞教授。感謝國家材料基因工程重點專項和廣東與深圳科技項目的支持。

文章鏈接://doi.org/10.1038/s41467-021-23720-w

專題報道
2021
05月
18
2021-05-18
在北京大學深圳研究生院的“科研動態”專欄裏,幾乎每個月都能夠看見類似的報道——新...
查看更多
近期熱點