贝叶斯分类算法
CBA(classification based on association)是基于关联规则发现方法的分类算法。该算法分两个步骤构造分类器。第一步:发现所有形如xi1∧x => Ci 的关联规则,即右部为类别属性值的类别关联规则(classification association rules,CAR)。第二步:从已发现的CAR中选择高优先度的规则来覆盖训练集,也就是说,如果有多条关联规则的左部相同,而右部为不同的类,则选择具有最高置信度的规则作为可能规则。文献[4]对该过程进行了较深入的研究,使得算法在此步骤不需要对训练数据集进行过多的扫描。
贝叶斯分类算法 CBA
CBA(Classification Based 指数平滑法 (ETS) 算法 on Association)是关联分类。此算法把分类规则挖掘和关联规则挖掘整合到一起。与CART和C4.5只产生部分规则不同的是,CBA产生所有的类关联规则CARs(指数平滑法 (ETS) 算法 Class Association Rules),然后选择最好的规则去覆盖训练集。另外,在此算法的框架中,数据库可以驻留在磁盘中
CAEP使用项集支持度挖掘HV露模式(Emerging Pattern), 而EP用于构造分类。CAEP找出满足给定支持度和增长率阈值的EP。已经发现,在许多数据集上,CAEP比C4.5和基于关联的分类更精确。一种替代的、基于跳跃的HV露模式JEP(Jnmping Emerging Pattern)是一种特殊类型的EP,项集的支持度由在一个数据集中的0陡峭地增长到另一个数据集中的非0。在一此大的多维数据库中,JEP性能优于CAEP, 但在一些小型数据库中,CAEP比JEP优,这二种分类法被认为是互补的。
贝叶斯分类算法 ADT
ADT(Association Decision Trec)分二步实现以精确度驱动为基础的过度适合规则的剪枝。第一步,运用置信度规则建立分类器。主要是采用某种置信度的单调性建立基于置信度的剪枝策略。第二步,为实现精确性,用关联规则建立一种平衡于DT(Dccision Tree)归纳的精确度驱动剪枝。这样的结果就是ADT(Association Based Decision Trec)。它联合了大量的关联规则和DT归纳精确性驱动剪枝技术。
贝叶斯分类算法 指数平滑法 (ETS) 算法 CMAR
基于多维 [3] 关联规则的分类算法CMAR(Classification Based on Multiple Class-Association Rules)是利用FP-Growth算法挖掘关联规则,建立类关联分布树FP-树。采用CR-树(Classification Rulc Trcc)指数平滑法 (ETS) 算法 结构有效地存储关联规则。基于置信度、相关性和数据库覆盖来剪枝。分类的具体执行采用加权厂来分析。与CBA和C 4.5相比,CMAR性能优异且伸缩性较好。但CMAR优先生成的是长规则,对数据库的覆盖效果较差;利用加权x统计量进行分类,会造成x统计量的失真,致使分类值的准确程度降低。
贝叶斯分类算法 CPAR
CPAR(Classification Based on Predictive Association Rules)整合了关联规则分类和传统的基于规则分类的优点。为避免过度适合,在规则生成时采用贪心算法,这比产生所有候选项集的效率高;采用一种动态方法避免在规则生成时的重复计算;采用顶期精确性评价规则,并在预测时应用最优的规则,避免产生冗余的规则。另外,MSR(Minimnm Set Rule)针对基于关联规则分类算法中产生的关联规则集可能太大的问题,在分类中运用最小关联规则集。在此算法中,CARS并不是通过置信度首先排序,因为高置信度规则对噪声是很敏感的。采用早期剪枝力方法可减少关联规则的数量,并保证在最小集中没有不相关的规则。实验证实,MSR比C45和CBA的错误率要低得多。
GRE分数怎么计算?
主要来说说第二个,Section的难度系数。GRE考试是一个自适应考试,其自适应的方式为基于section的自适应考试(section-level adaptation test)。所谓基于section的自适应考试是说,考生第二个section的题目难度会由第一个section的答题情况决定。而1个Section有20个题目,每个题目的难度系数为1-5,所以每个Section难度系数为20-100。一般而言,easy模式的整体难度系数在40左右,medium模式整体难度系数在65左右,而hard模式的难度系数在80左右。
主流能量分解分析(EDA)指数平滑法 (ETS) 算法 方法之间有什么区别和联系?
SAPT属于基于微扰的能量分解方法(perturbative EDA)。它将每个noninteracting fragment的Hamiltonian作为整个体系的零级Hamiltonian, 而将描述两者之间相互作用的部分作为微扰。在一阶微扰下可以得到electrostatics和exchange-repulsion [后者可以理解为Pauli斥力(repulsive)和交换相互作用(指数平滑法 (ETS) 算法 attractive)] 的结合,而在二阶微扰下可得到induction和dispersion。如果不考虑每个fragment的electron correlation而对其只做HF平均场描述,该方法被称为SAPT0,应该是最简单的一种SAPT方法,其能量分解可表示为
式中方括号外的label表示最终的能量分解中的一项,其中exchange和induction与dispersion的耦合项 (exch-ind和exch-disp) 的出现是因为SAPT中的零级波函数是fragment wavefunction的Hartree product,因此需要对得到的induction和dispersion作反对称修正;而 \delta E_> 这一项则是对于perturbation theory难以描述的"strong induction effect"的修正,定义为
SAPT理论最大的特点是总相互作用能直接由能量分解的每一项加和得到(an additive 指数平滑法 (ETS) 算法 approach),因此对相互作用描述的精确程度跟所用的SAPT level of 指数平滑法 (ETS) 算法 theory密切相关。上面讲的SAPT0由于忽略了每个 fragment的electron correlation,所以误差较大。要解决这一问题有两种途径,一是对fragment用更高阶的波函数,由此引出了SAPT2,SAPT2+,SAPT2+3等等理论 (J. Chem. Phys. 2014, 140, 094106);二是可以用DFT来描述intrafragment correlation,由此引出了DFT-SAPT或者SAPT(DFT)等理论。其中DFT-SAPT/SAPT(DFT)对应的能量分解和上面的SAPT0具有相同的形式,而前者则要复杂一些。据我所知,目前能算DFT-SAPT的软件有Molpro,而高阶波函数SAPT方法应该Psi4能算;此外还有一些小众软件比如Stone和Misquitta开发的CamCASP。
与SAPT不同,ALMO-EDA和ETS-NOCV都属于variational EDA方法。它们所分解的对象都是由所谓的"supermolecular approach” 计算出的相互作用能,即整个复合物体系的能量,减去所有fragment能量的加和:
这些EDA方法通常需要通过人为定义一些在始态(noninteracting fragments)和终态(full complex)之间的中间态来实现。每一个相互作用能量项,都由对相邻的态的能量求差得到。在初代ALMO-EDA方法(J. Phys. Chem. A 2007, 111, 8753) 中定义了两个中间态:(i) frozen state,为各fragment波函数的反对称积,对应的MO coefficient矩阵由各个无相互作用fragment的MO coefficient直接拼接得到;(ii) polarized state,通过在保持MO coefficient矩阵分块结构不变的前提下,对能量做变分优化得到(with respect to 每个fragment上占据轨道和空轨道之间的rotation)。这一方法可由下图所示:
这里“绝对定域分子轨道” (Absolutely Localized Molecular Orbital, ALMO)的使用保证了每个分子仍然保持自己原有的电荷布居(在Mulliken定义下),即:分子之间没有发生电荷迁移。相应的,最后一项描述的是分子之间电荷转移(charge transfer)导致的能量下降,由fully relaxed state和ALMO polarized 指数平滑法 (ETS) 算法 state之间的能量差得到:
由于近年来色散校正泛函的发展,DFT对弱相互作用的描述的精度大大提高,因此Head-Gordon等人发展了第二代ALMO-EDA (Phys. Chem. Chem. Phys. 2016, 18, 23067),主要有两点改进:
(1) 解决了在用较大basis set时,polarization和charge transfer之间的划分失去意义的问题 (J. Chem. Phys. 2015, 143, 114111)
(2) 进一步实现了对frozen interaction这一项的分解,将其分为静电相互作用(permanent electrostatics), 泡利斥力(Pauli repulsion) 以及色散相互作用(dispersion) (J. Chem. Phys. 2016, 144, 114107)
在基于DFT的ALMO-EDA框架下,我们还发展了一套类似的方法来分析分子间相互作用对复合物molecular property (几何结构,振动频率等等)的影响 (Phys. Chem. Chem. Phys. 2017, 19, 5944; J. Chem. Theory Comput. 2020, 16, 1073)。这一方法利用variational EDA的特性,允许分子在始态,终态,以及每一个中间态优化几何结构,因此被称之为"adiabatic“ ALMO-EDA,与前文所述在单一几何结构下进行计算的"vertical" ALMO-EDA相对应。能算ALMO-EDA的软件目前应该只有Q-Chem一家(补充:CP2K以及linear-scaling DFT软件ONETEP中似乎也有初代ALMO-EDA的implementation),更多细节可以参考我最近的一个webinar(需要上youtube):
第二代ALMO-EDA由于实现了 \Delta E_> 这一项的进一步分解,其结果和DFT-SAPT(或其它SAPT方法)具有较好的可比性: \Delta E_> \leftrightarrow Electrostatics, \Delta E_> \leftrightarrow Exchange, \Delta E_> \leftrightarrow Dispersion, \Delta E_> + \Delta E_> \leftrightarrow Induction。需要指出的是,SAPT由于是基于微扰,对induction effect很强的体系(比如ionic liquid, strong Lewis acid-base pairs) 其精确度可能会下降,而基于变分的EDA应该没有这个问题。
再来说说ETS-NOCV (也被称为EDA-NOCV)。这个方法的源头其实是Ziegler和Rauk提出的Extended Transition State (ETS) method, 后来由Bickelhaupt和Frenking等人进一步简化和改进,再结合Mitoraj的Natural Orbitals for Chemical Valence (NOCV) analysis,得到了当前的ETS-NOCV方法 (J. Chem. Theory 指数平滑法 (ETS) 算法 Comput. 2009, 5, 962; WIREs: Comput. Mol. Sci. 2018, 8, e1345)。这一方法和ALMO-EDA一样,也是通过定义中间态来实现的。其中第一个中间态被称为"指数平滑法 (ETS) 算法 promolecule state",定义为两个fragment波函数的Hartree product,其与初始态 (noninteracting fragments) 的能量之差定义为静电相互作用( \Delta E_> ) ; 而第二个中间态则与ALMO-EDA中的frozen state相同,为各fragment波函数的反对称积,其与"promolecule state"的能量差定义为泡利相互作用( \Delta E_> );最后,final state (指数平滑法 (ETS) 算法 full SCF)与frozen state的能量差定义为轨道相互作用( \Delta E_> ) 。综上所述,该方法给出的能量分解为:
不难看出,这一方法和上面的ALMO-EDA有着很多相似之处。需要指出的是,该方法的Pauli这一项里不仅包含了因波函数反对称化产生的斥力,还包括了exchange-correlation(XC)对相互作用的贡献(后者通常为吸引作用)。另外,很明显EDA-NOCV中的轨道相互作用这一项同时包含了分子内和分子间的orbital relaxation,即相当于ALMO-EDA中polarization和charge transfer两项之和。
NOCV在这一方法中是用来分析轨道相互作用的,由对角化orbital interaction引起的复合物体系密度矩阵的变化( \Delta \mathbf_> = \mathbf_> - \mathbf_> ) 得到:
一个有趣的现象是NOCV作为 \Delta \mathbf 的本征矢会成对出现,其本征值互为相反数。这一分解的好处是将轨道相互作用这一项分成了许多对轨道的贡献,每一对的能量贡献能够通过ETS方法算出,同时也方便了对轨道的可视化分析:
目前ADF应该是支持EDA-NOCV最好的软件。由于该方法与ALMO-EDA的紧密联系,我们在Q-Chem中ALMO-EDA的框架下也implement了NOCV analysis,可以用来分析orbital interaction(包括极化和电荷转移两步)对电子结构的影响。
汉斯•彼得•卢恩与哈希算法的诞生
更重要的是,卢恩设备的这些原理和部件成为数字时代最重要的算法之一——哈希算法的基础。这种被广泛使用的算法,为我们提供了一种组织信息的强大手段,很容易被计算机找到。就像烹饪切碎的牛肉和土豆一样,哈希算法用各种方法切割和混合数据,这种数据混合如果能够巧妙部署,将可以加速多种类型的计算机操作。 1953年初,卢恩曾撰写一份IBM的内部备忘录,在文中他建议把信息放入“桶”内以加快搜索速度。假设你想要在一个数据库中查找一个电话号码,并找出这个电话号码的归属者,例如给定一个10位的数字号码314-159-2652,计算机可以简单地在列表中一次搜索一个数字,直到找到相关条目。然而,如果在一个有数百万条数据的数据库中进行搜索,可能就需要好一阵子了。 卢恩的想法是将每个条目分配给一个有编号的数据桶,如下所示:将这串电话号码的数字成对地进行分组(此例则为:31,41,59,26,52)。然后将每对数字相加(得到4,5,14,8,7),再由每个个位数结果生成一个新的数字;在这个例子里,有双位数的情况下,仅取双位数的个位数字(即得到45487)。然后原始电话号码和与其对应的名称或地址就会被放入标记为45487的数据桶里。 由电话号码查找条目,需要先使用卢恩的方法来快速计算数据桶编号,然后从该数据桶中检索出信息。即使每个桶包含多个条目,依次搜索单个桶也仍比搜索整个列表快得多。 几十年来,计算机科学家和程序员们对卢恩的方法进行了改进,并推出了新的用法。但基本的思想仍然是一致的:使用数学方法将数据组织成易于搜索的桶。由于组织和搜索数据是计算中普遍存在的问题,因此哈希算法对密码学、图形学、电信和生物学都是至关重要的。每当你通过网络发送一个信用卡号码或使用文字处理器里的字典功能时,哈希函数都在发挥作用。 ━━━ ━━━ 卢恩的计算思想远远超出了简单的查找。 他认为计算机可以是一种复杂的文本操纵器,能够用于阅读和理解书面语言,然后建立索引并组织信息,以解决科学和商业中的实际问题。到1958年,他的化学卡片分类器已经演变成了通用卡片扫描仪和9900专业索引分析仪,他曾在华盛顿特区的会议上对它们进行展示。这些电子机械设备可以根据用户的搜索条件,对打孔卡片进行搜索和分类。 然而,卢恩真正引起轰动的发明是用于构建用词索引的计算方法KWIC。词语索引是按字母顺序排列的书或文稿中用到的关键词列表,它就像是一个索引,但只列出文本中出现的实词,而不是概念(并且排除了诸如a和the这样无关紧要的词汇)。长期以来,词语索引一直被应用于神学和语言学领域。举例来说,《圣经》的词语索引就会显示使用了“love”(爱)这个词的所有实例,包括各种引用、章节和诗句等。在全文自动检索出现之前,构建词语索引是一项艰巨的工作,而且通常只会对《圣经》或莎士比亚文集这样的重要作品进行。 卢恩的数据桶方案是针对数字进行的,而他的KWIC词语索引系统的目标则是文本。两者都使大量的信息能够被容易地搜索到。举一个非常简单的例子,假设你想为以下4本书的英文名称创建一个词语索引:《飘》(Gone with the Wind),《战争与和平》(War and Peace),《风之影》(The Shadow of the Wind),《战争之影》(Shadows of War)。
这些书名的KWIC一致性列表会生成为:
Gone With the Wind
War and Peace
The Shadow of the Wind
Shadows of War
War and Peace
Shadows of War
Gone With the Wind
The Shadow of the 指数平滑法 (ETS) 算法 Wind
科学界迅速采用了卢恩的KWIC系统。卢恩知道这一系统对商业用户也非常有用。1958年,他为《IBM研究与发展杂志》撰写了一篇题为《一种商业智能系统》的文章,其中他提出了一种可以自动生成文章摘要并从摘要中提取“行动要点”,然后将结果分发给组织内相应人员的系统。卢恩认为解决信息超载问题意味着要设计一种快速进行信息分类的方法,让人们免受无关材料的负担。 《纽约时报》在卢恩1964年的讣告中这样描述了他的自动摘要系统: “卢恩先生在一次演示中,将《科学美国人》杂志中一篇有2326个单词的关于神经系统荷尔蒙的文章,以磁带的形式插入到一台IBM计算机中,并按下一个按钮。3分钟后,计算机的自动打字机打出了4个句子,这4个句子给出了文章的要点,也就是说,机器已经自动生成了摘要。” 卢恩的自动摘要程序首先会计算一篇文章中所有单词出现的频率,在舍去非常常见的单词之后,系统会自动锁定高频词汇集中出现的一些句子。这样的句子会被系统认定为文章整体内容的代表,因此会被放入摘要中。这是一种纯粹的统计方法,而非试图去理解文章中的词汇或它们之间的关系。但是,就像KWIC系统展示的这样,计算机能够富有成效地将文本组织成人们更易理解的形式。 ━━━ ━━━ 卢恩1961年从IBM退休, 3年后因白血病离开人世,未能目睹互联网和网页带来的深刻变革。除了在一些信息专家、纺织品制造商和历史学家的有限圈子外,他的名字早已被人遗忘。但是,卢恩的思想是永恒的。今天,哈希算法在管理和保护我们的数字生活方面扮演着重要的角色。当你在网站上输入密码时,服务器可能会存储密码的哈希版本。当你使用安全连接访问网络(网址以“https”开头)或使比特币买东西时,哈希算法也发挥着作用。对于Dropbox和谷歌Drive等云服务来说,哈希算法使得存储和共享文件的效率更高。在遗传学和其他数据密集型研究中,哈希算法则大大减少了筛选大量数据所需的计算时间。 哈希算法已经将计算机变成可以用字母和单词进行推理的文本工具。谷歌翻译、谷歌N-gram、谷歌关键字广告和谷歌搜索都致力于以某种方式确定文本的含义。网络上的信息爆炸已经使自动阅读和理解对商业、科学、和每个人来说都至关重要。哈希算法的发展与文本相联系,体现了卢恩对文字、句子、关键词、摘要、索引和文摘的思考。 这是卢恩留给我们的遗产:他向我们展示了电脑和计算不仅仅是数学、统计和逻辑的天下,而且也是语言、语言学和文学的疆土。在他那个时代,这是一种关于机器的革命性的想法。 技术史学家迈克尔·马奥尼(MichaelMahoney)称计算机是 “一台千变万化的机器”:它们一机千面,静待打造,用途多样。即便是现在,我们也往往把计算机狭义地看作是一个每秒能够执行多项计算和操作的大型数字计算器。汉斯·彼得·卢恩对计算机的看法则更有远见。在展望计算机的多样性时,他帮助我们开拓了诸多前景光明的全新探索领域。 作者:Hallam Stevens
免责声明: 本公众号目前所载内容为本公众号原创、网络转载或根据非密公开性信息资料编辑整理,相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请跟我们联系。我们致力于保护作者知识产权或作品版权,本公众号所载内容的知识产权或作品版权归原作者所有。本公众号拥有对此声明的最终解释权。
↓ ↓ ↓ 戳 # 阅读原文 # ,精彩继续,你若喜欢,# 分享 / 点 赞 / 在看 # !
免责声明: 该内容由专栏作者授权发布或转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点,本站亦不保证或承诺内容真实性等。如若文章内容侵犯您的权益,请及时联系本站删除。侵权投诉联系: [email protected] !