近年来,受益于非富勒烯受体材料分子的设计与应用,有机太阳能电池的能量转换效率已经超过了17%。从发表论文数据来看,超过百分之六十的研究论文主要致力于建立新的分子结构与其光伏特性之间的关系。然而,这种传统研究方法包括对化学合成、供体/受体材料匹配和器件制备进行精细控制及优化,需要大量的资源投入和较长的研究周期。因此有机光伏材料的开发速度一直较慢,限制了有机光伏产业的实际商业应用。
近日,武汉大学闵杰研究员课题组在开发高性能有机太阳能电池光伏体系的研究过程中,利用机器学习在合成新材料之前建立化学结构、供体/受体匹配体系和光伏特性之间的关系,并对新材料结构以及供体/受体材料配对进行效率预测,建立了分子结构、供体/受体对与性能之间关系的多种可预测模型,可对供体、受体材料以及活性层供体/受体对进行快速的评估和筛选,并据此评估并确定了最优算法模型来指导设计高性能的有机光伏材料体系。他们的研究首先建立了一个包括已被文献报道过的565组基于非富勒烯小分子受体材料和聚合物供体材料的供体/受体对数据库,采用ASCII码字符串的表达方式将供体/受体材料的化学结构进行转化成二进制机器语言,并与其相关光伏参数一起作为训练集和验证集,分别采用线性回归(LR)、多类逻辑回归(MLR)、提升回归树(BRT)、人工神经网络(ANN)和随机森林(RF)算法构建机器学习模型,进一步建立“结构-供体/受体对-性能”关系,从而实现活性层供体/受体光伏材料的快速筛选,并预测基于机器学习开发的新供体/受体对的光伏性能。
研究人员对五种典型的算法模型进行评估,对其预测结果进一步进行实验验证,从中评选出了适用于光伏材料供体/受体对的性能预测最优算法模型。他们发现,基于RF和BRT模型的预测结果与测试集中真实值的皮尔森相关系数(r)均超过了0.7,说明这两种模型是进行这类机器学习的最佳表达方式。进一步,他们通过原有数据集并结合RF和BRT模型,分别筛选和计算出了3200万个供体/受体对。为了验证上述模型是否能够准备地指导设计新的有机光伏体系,研究人员从该数据库中选出六组易于合成且具有高效率的供体/受体对,并进行了材料合成、制备与表征。研究结果表明,相较于BRT,RF机器学习模型预测的结果和实验结果之间具有良好的一致性,从而验证了RF模型的高通量虚拟筛选与预测能力,体现了机器学习方法的可靠性。
总而言之,相较于传统上通过大量实验来研发新材料以及试错的办法来筛选供体/受体对,通过机器学习模型,尤其是RF模型,可以快速、高通量地筛选有机光伏体系,将大大加快高性能有机光伏材料及其供体/受体对的探索过程,同时该工作也证明了机器学习方法在解决有机光伏材料问题方面强大的能力。
该文近期发表于npj Computational Materials 6: 120 (2020),英文标题与摘要如下,点击https://www.nature.com/articles/s41524-020-00388-2以自由获取论文PDF。
Machine learning for accelerating the discovery of high-performance donor/acceptor pairs in non-fullerene organic solar cells
Yao Wu, Jie Guo, Rui Sun & Jie Min
Integrating artificial intelligence (AI) and computer science together with current approaches in material synthesis and optimization will act as an effective approach for speeding up the discovery of high-performance photoactive materials in organic solar cells (OSCs). Yet, like model selection in statistics, the choice of appropriate machine learning (ML) algorithms plays a vital role in the process of new material discovery in databases. In this study, we constructed five common algorithms, and introduced 565 donor/acceptor (D/A) combinations as training data sets to evaluate the practicalities of these ML algorithms and their application potential when guiding material design and D/A pairs screening. Thus, the best predictive capabilities are provided by using the random forest (RF) and boosted regression trees (BRT) approaches beyond other ML algorithms in the data set. Furthermore, >32 million D/A pairs were screened and calculated by RF and BRT models, respectively. Among them, six photovoltaic D/A pairs are selected and synthesized to compare their predicted and experimental power conversion efficiencies. The outcome of ML and experiment verification demonstrates that the RF approach can be effectively applied to high-throughput virtual screening for opening new perspectives to design of materials and D/A pairs, thereby accelerating the development of OSCs.
,