掃碼關注北京大學深圳研究生院官方微信

首頁 > 教學科研 > 正文
新材料學院在基於拓撲數學與機器學習研究材料結構規律取得進展
日期:2021-04-27 14:10:12 新材料學院 點擊:


機器學習在各領域的廣泛應用促生其在材料領域的應用,它提供了一種新型的工具,即能從高維數據中發現數據間的規律,有助於減少計算量從而加速對新材料的探索。特徵提取(特徵工程)是機器學習的關鍵組成部分,選擇合適的形式來表達將直接影響最終模型的效果。在材料科學領域必須要捕獲所有的相關信息,從而達到區分不同原子和不同晶體環境的作用。因此在材料領域中,特徵可以是簡單的確定原子序數,可能涉及複雜的轉換,比如徑向分佈函數(RDFs)的擴展,也可能是聚合統計數據(例如求平均值、求最大值等)。

在數學中,拓撲可以用來處理空間中不同組件的連通性,並表徵空間中獨立的實體,環和高維拓撲面。拓撲提供了最高級別的抽象因此可以作為一種處理高維結構數據的有效工具。其中,拓撲數學的持續同調(persistent homology)通過將多尺度幾何信息嵌入拓撲不變量從而將幾何分析和拓撲分析連接起來,它是一種在變化的尺度中分析拓撲結構的一種重要的方法。基本思想是隨着原子尺度的變化記錄結構的拓撲不變量(例如β0,β1和 β2),從而得到拓撲指紋(如圖1所示)。

圖1 類苯環結構的拓撲指紋示意圖及碳硼烷結構的預測

在此過程中,利用持續時間較長的拓撲特徵來表徵系統的內在特性,通過預先設定的閾值進行過濾。在三維空間中,獨立組成、環和腔是非常重要的拓撲特徵。具有一定連接關係的結構會產生在內在不變的拓撲特徵。持續同調可以記錄原子尺寸變化過程中,系統拓撲不變量的開始和結束,通過條形碼(barcode)可以進一步將其可視化,也稱為拓撲指紋。

北京大學深圳研究生院新材料學院潘鋒課題組與美國密歇根州立大學數學系魏國衞教授課題組合作首次將以持續同調為基礎的數學方法引入材料科學中,利用持久同源將高維空間中的材料結構映射到低維拓撲空間,從而更方便地研究結構與性能之間的關係。團隊將持續同調方法引入碳硼烷體系的分析,通過對這些結構的拓撲指紋的分析,建立起基於拓撲不變量及其持久長度的模型。利用拓撲不變量(β01和β2)定量分析和預測了碳硼烷結構以及其對應BnHn2-的相對能量。通過利用拓撲不變量(β01和β2)的平局長度特徵,可以將該拓撲信息與BnHn2- (n = 5~20)的相對能量進行精確擬合,Pearson相關係數為0.977,而相應的碳硼烷結構C2Bn - 2Hn (n = 5~20)的Pearson相關係數為0.937,如圖1。該工作以令人滿意的精度證明了持續同調方法應用於多原子體系的的可行性,提供了一種新型的團簇結構描述符(Chinese J. Struct. Chem. 2020, 39(6), 999-1008)。在未來的工作中,我們可以利用更有效的機器學習方法,根據持續同源得到的拓撲信息,建立結構與性質之間的關係,實現更大原子數量的碳硼烷結構的預測。

同時,團隊在鋰團簇能量預測方面,除了使用拓撲不變量來提取團簇結構的拓撲幾何信息,對於原子間的短程作用和長程作用等數據信息,還進一步提出了持續獨立原子對(PPI)來計算“生長”過程中每對原子(或點)的獨立性。最初,所有的原子都是不相連的,PPI條的數目等於獨立原子對的數目。隨着生長ϵ參數的變大,一些原子對連接起來,它們的PPI合併。我們提出的PPI條碼比β0更具信息量。如圖2所示,它可以與拓撲不變量一起用於描述材料結構。隨後基於提取的拓撲特徵,構建團簇能量預測機器學習模型。最終,僅僅利用小型團簇結構構成的數據集來訓練所得的模型即可對中型和大型團簇形成非常高的預測精度。該模型可用於團簇結構的快速篩選,加快最穩定團簇結構搜索的速度。相關成果發表在隸屬Nature Index的知名雜誌The journal of physical chemistry letters(2020, 11, 4392)上。

圖2基於持續同調與持續獨立原子對的鋰團簇能量預測

在無機材料的能量預測方面,由於持續同調僅提供全局的拓撲結構信息,對於無機化合物包含大量不同元素和不同結構的體系沒法直接使用。因此,團隊提出了原子特殊的持續同調(ASPH),它考慮的是晶胞中每個原子周圍不同環境構成的持續同調,在拓撲不變量中嵌入原子信息。基於ASPH方法表達的結晶化合物拓撲特徵可以構建晶體能量預測模型,使用拓撲表達的結構特徵配合元素特徵可以實現MAE僅為61meV/atom的結果(圖3)。此外基於預測結果,團隊還對預測偏差較大的結構進行了詳細的討論與分析,發現了異常通常存在於特殊的氧化態與畸變的結構之中,增加了此類異常的認識與理解。相關成果最近發表在Nature 集團旗下的知名雜誌npj Computational Materials(2021,7, 1-8)上。

圖3結晶化合物拓撲特徵可以構建晶體能量預測模型

拓撲數學是一個強大的工具,可以通過變化的尺度定性分析數據結構,藉助機器學習方法,便可以構造有高精度的材料預測機器學習模型用於團簇結構分析、團簇結構搜索以及晶體結構能量預測等諸多材料結構規律的科學研究中,有助於加速材料的發現與應用。

該些工作是在潘鋒教授和魏國衞教授的共同指導下,第一作者分別是北京大學深圳研究生院新材料學院研究生陳冬、陳鑫和江毅,他們與團隊成員協作共同完成研究,該工作得到了國家材料基因組重點研發計劃和深圳市科技計劃項目的大力支持。

專題報道
2021
05月
18
2021-05-18
在北京大學深圳研究生院的“科研動態”專欄裏,幾乎每個月都能夠看見類似的報道——新...
查看更多
近期熱點