SMILES
SMILES是简化分子线性输入的方法(Simplified molecular input line entry specification), 用字符串来描述分子结构, 由Arthur Weininger和David Weininger于20世纪80年代晚期开发[1],并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.)修改和扩展。2007年Blue Obelisk提出了开放标准的OpenSMILES项目, 提出了一些新的SMILES功能和规范.
SMILES被广泛应用于分子结构的输入, 在多款分子模拟软件中均支持, 扩展名一般为.smi
.
最著名的是由Daylight公司开发定义的SMILES, 其说明参考Daylight-SMILES-theory, 例子和教程参看Daylight-SMILES Tutorial.
典范SMILES
典范SMILES(Canonical SMILES)保证每个化学分子只有一个SMILES表达式。一般一个分子结构可以有多个SMILES表达方法, 如CCO
,OCC
,C(O)C
均代表乙醇. 典范SMILES通过算法, 算出唯一一种SMILES来代表结构, 从而保证结构在数据库中被正确检索. 典范SMILES常用于分子数据库的索引。
关于唯一SMILES式,一般使用深度优先遍历树来生成编码. 例如CANGEN方法.[2]
典范SMILES由5条主规则构成:
原子
原子用在方括号内的化学元素符号表示。
例如[Au]
表示“金”。满足以下条件时可以忽略[]
: