需要对多个化合物批量进行特定片段或基团的拼接或替换时,可以参考以下代码。 一、片段的拼接 虽然rdkit中有一个Chem.CombineMols(mol_1,mol_2)的函...
需要对多个化合物批量进行特定片段或基团的拼接或替换时,可以参考以下代码。 一、片段的拼接 虽然rdkit中有一个Chem.CombineMols(mol_1,mol_2)的函...
AIDD流程中常常遇到的数据集格式为csv为主,CADD流程中遇到的则以sdf文件为主,本文分享常用的格式转换代码。 一、SDF文件转CSV文件 然后遍历整个SDF文件,转为...
rdkit中对于单个原子的操作,常常是通过GetAtomWithIdx这个函数来实现的,然后可以对该原子做各种下游操作,但对于本身没有明确序号的原子,人难以确认该输入哪个序号...
在AI应用的数据准备阶段,或者化合物数据库归类合并时,会有将同个化合物的不同形式标准化的需求。这样在比对时,就可以通过标准化后的SMILES的字符串比对,方便地处理化合物数据...
rdkit的操作中,对大批量化合物的处理,人们倾向于采用并行化的方式加速处理,例如在Pandas的表格中,采用apply的方式实现化合物属性计算等等。关于apply函数的并行...
对于分子聚类后的结果,或者是某个化合物数据集,有时希望可视化后有个直观的对比来确认不同来源的分子集合所占据的化学空间。 但对于化合物这种高维度数据,直接可视化是不行的,需要先...
基于RO5,即Lipinski规则过滤化合物库在早期药物研发项目中已经很常用,但其适用范围往往是限制口服相关的利用度与PK性质。本文介绍基于PAINS与警示结构的过滤方式并简...
药物早期设计中,常常需要根据类药五原则(rule of five,RO5, 亦称Lipinski规则)进行初步判断筛选,RO5是辉瑞公司资深药物化学家Christopher ...
新药早期研发的应用场景中, 常常需要对虚拟化合物库进行聚类,从不同类别中挑选出多样性好的代表化合物,但视聚类规模对使用的算法与硬件有不同的要求,这里列出两种实测后,对内存与聚...
化学信息学家在某些药物研发应用场景里,不仅仅关注整体药物分子,有时也需要将所谓的类药性好的片段单独提取出来,提取出类药性质分子片段的共性,用于数据库的建设或者AI训练。例如阿...