将理论核算中的知识提炼到规划资料中,以最大极限地削减艰苦的试验数量。

使用深图卷积网络和贝叶斯优化削减试验次数-机器学习

相片:Louis-Etienne FoyonUnsplash

你想要更好的资料吗?是的,神经网络原理咱们想。咱们期望有更好的电池,容量更大,寿数更长。或许,咱们想要更好的太阳能电池板,有更高的python下载安装教程能量生成率。或许,咱们想要变量更好的半导体,削减焦耳热丢掉。产品领域的偏好悉数这些功用约束都来自于组成它们的变量之间的关系资料。因而,是的,咱们的确产品司理想为任何产品提供更好的资料。

动机

但是,咱们怎样才能从几乎无限的现有资料中找到它们呢?一种办法是运用仿照数python123平台登录据库,如资料项目。这种类型的数据库一直在运用DFT核算汇编资料特性,这有利于缩小根究的规划产品。但是,一些特性的可猜测性差是众所周知的,如带隙,所以咱们不python下载安装教程能承受它们的表面值。虽然,根据晶体学产品质量法敞开数据库,到目前为止,累积的晶体数量现已抵达476,995个,因而,以试验的办法查看神经网络计算机其功用是不可能的。啊,我期望有一个好的试验数据库和一个资料发现的查找引擎!惋惜的是,并不存在变量min表明什么类型的变量。(至少在这个阶段。产品)是的,咱们应该发明一种办法来运用从理论数据库到试验晶体结构数据库的知识。那么接下来,在机器学习的辅佐下,让咱们考虑一下有用根究所需资料的办法。

问题设置

让咱们考虑根究具有志趣带隙的资料。当咱们想要一个更好的半导体时,这个特python培训班膏火一般多少征值是最基本的辅导。根据产品的规划,带隙的志趣值是不同的。因产品设计此,咱们能够将半导体资料的发现问题简化为以下几点。

当咱们设定E为带隙的志趣值时,怎样从晶体数据神经网络算法原理库中尽可能以最小神经网络算法三大类的根究试验找到具有最接近带隙的晶体?

让咱们把这个问题变得愈加具体。咱们弄清的作业有以下几点。

1.咱们需求多精确地接近方针值?
2.哪个方针最合适?
3.咱们怎样构建数据集?
4.咱们需求根究到什么程度?

首要,咱们应该在0.01eV的过失内估计方针值。eV,电子伏特,是带隙的单位。带隙能够根据其制作办法或条件在这个规划内改动。因而,进一步寻求可能是徒劳的。第二,当咱们侧重绝对值而不是python能够自学吗比率时产品艺术设计,咱们变量的定义能够选用MAE(均python能够做什么工作匀绝对值)方针。望文生义,这能够经过方针值和估计值之差的绝对值的变量之间的关系均匀值来取得。接变量名下来,咱们能够运用CIF(水晶信息文件)数据集。CIF是描述晶体结构的世界格局,它包括基本信息,但不是定量的。第三,咱们变量泵能够运用资料项目数据库作为一个假的试验数据集。假定咱们能够从假定的试验数据会集根究出带隙变量英文为E的资料。在这种情况下,咱们能够运用相同的战略来有用地进行实践的试验。考虑到实践情况,咱们能够调查科学论文来搜集方针值的开端信息。比方说,这个数字大约是100。此外,咱们能够经过考虑其他不志产品运营向的方面,如组成本钱或反应性,来打扫许多提名人。这样,咱们就能够取得100个开端信息,并将根究方针缩小到6000个左右
。然后,咱们能够将试验资料根究问题概念化如下。

当咱们设定E为带隙的产品司理志趣值时神经网络是线性还是非线性,怎样运用这100条先变量名验信息,以最小变量min表明什么类型的变量的根究试验从大约6000个候选者中尽可能地找到MAE小于变量与函数0.01eV的晶体?

机器学习战变量与函数

贝叶斯优化

正如咱们在谷歌查找中很简Python略发现的,贝叶斯优化好像是一个很好python基础教程的有变量泵用根究。贝叶斯优化是一种算法,旨在以最小的试验根究更好的数据点。例如,谷歌大脑团队运用这种算法来智能地优化巧克力饼干的配方。总归,这好像很有用,是的,咱们应该把它运用于资料发现。但等等,咱们需求描述符。换句话说,便是识别共同变量晶体的一组变量。谷歌团队运用了每个饼干烹饪程序的量产品批号是生产日期吗化值,例如木神经网络引擎薯淀粉的重量比。咱们怎样对晶体进行量化?

晶体图卷积神经网络

一个简略的办法是运用 预先练习好的水晶的深度学习模型CGCNN,即水晶图谱卷积神经网络,是资料科学领域的一个开创性的深产品批号是生产日期吗度学习架构。在作者的GitHub资源库中,他们敞开了预练习的模型,每个人都能够运用它们。当咱们检产品设计就业方向查预备好的模型文件夹时,咱们能够找到带隙模型python下载安装教程(b神经网络是线性还是非线性and-gap.pth.tar)。经过运用这个模型作为特征提取器,咱们能够在自动驾驶中把CIF文件转换成128个定量描述符。

主成分分析

不幸的是,1产品艺术设计28个描述符关于贝叶斯优化来说太多。虽然有许多前沿的算法用于高维优化,但基本上,低维度的算法作用更好,不需求额定的努力。此外,这128个描述符仅神经网络pid控制器设计仅为了定量地识别晶体,所以高维度基本上没有必要。因而,咱们能够运用PCpython123A,即主成分分析神经网络原理来下降维度。经过将128个维度削减到3个,咱们能够设置更有用的根究空间。

代码

Python库要求。

  • pymatgen
  • pytorch
  • sc神经网络算法实例说明ikit-learn
  • GPyOpt
  • 采集器

数据集构建

咱们将运用资料项目的API来构建数据集。首要,你需求在Materials Project上创立一个账户,然后取产品批号是生产日期吗得API密钥。神经网络计算机python123能够依照官方的指示来完毕。然后,咱们将编译两个数据集,用于事前的信息和根究。你应该把MY_API_KEY改为你的密钥。

在这段代码中,咱们查找带隙在2.3和2.8之间的晶体,效神经网络引擎果有6,749种资料。然后,它们被分为Python两个文件夹产品设计专业:”cif_prior “和 “cif_experiment”,别离包括产品艺术设计100和神经网络引擎6649个CIF文件。此外,带隙的值以 “id_prop.csv “的方式存储在每个文件夹中。

medium.com/media/3d05f…

运用预先练习的CGCNN模型将CIF转换成128个描述符

你能够依python怎样读照这儿的官方阐明git克隆CGCNN仓库。你需求复制 **atom_init.json**到 “cif_pri变量与函数or “和 “cif_experiment “两个文件夹中。然后,你能够经过修改以下代码来创立特征提取代码 predict.py.我创立了 extract_feature.py根据predict.py中的validate函数。这段代码太长了,无法在这儿写下来,所以我只展示修改正的部分。

首要,主函数的修改部分是像这样的毕竟一部分。

me变量是什么意思dium.com/media/5ac1a…

然后,修改验证函数的中心部分,像这样。

medium.com/media/ed6b1…

然后,你能够神经网络猜测模型实行这个 extract_feature.python基础教程py 并加上以下参数。

pyth产品生命周期on3 extract_feature.py ./pre-trained/band-gap.pth.tar ./cif_experiment变量

因而,你能够得到128个描述符,如 cgcnn_features.csv.咱们应该为 “cif_prior “和 “cif_experpython基础教程iment “都创立特征。偏重命名为 cgcnn_features.csvcgcnn_features_prior.csvcgcnn_features_e变量类型有哪些xperi变量英文ment.cs变量与函数v.

经过PCA将维度从128削减到3

咱们将把128个特征转换为3维数据。相同地,对两个数变量据集实行两次代码,并将输出重命名为 **cgcnn_pca.c神经网络引擎sv**为 **cgcnn_pca_prior.csv**和 cgcnn_pca_ex神经网络计算机periment.csv.神经网络算法三大类

medium.com/media/94c04…

贝叶斯优化

毕竟,咱们将运用贝叶斯优化法根究更好的资料。试验设置将机器学习经过定义以下类实例来完毕。

medium.com/神经网络算法原理media/eb394神经网络计算机

悉数的预备作业都现已完毕。接下来的代码将自动根究更好的资料。在这个设变量泵置中神经网络是线性还是非线性,方针带隙被设定为E=2.534[eV]。咱们期望的资料应该在MAE过失0.01python培训班膏火一般多少 eV以内,因而,方针规划将在2.524和2.544 eV之间。贝叶斯优化循环将依照_n_experiment_重复根究30次。所python123平台登录发现的资料和相应的值被存储在以下的自我实例中。

  • 根究的带隙值;exp.expred_bandgaps
  • 晶体名称;exp.crystals
  • 累积丢掉曲线;作用

你能够经过增加根据这些实例和变量的代python基础教程码自由地可视化或导出这些效神经网络果。

medium.com/media/40a19…

在我的设定中,在5次之内,贝叶斯优化法能够找到所需产品生命周期的资料。也便是说,这种办法在实践的资料根究方案中好像很有用。享用资料根究的趣味吧!

使用深图卷积网络和贝叶斯优化削减试验次数-机器学习


运用深图卷积网络和贝叶斯优化根究更好的资料》开端宣布在《走向数据科学》神经网络算法三大类杂志python能够做什么工作上,人们经过侧重和回应这个故事继续对话。