引言

对于有意义的文本挖掘,开源的科学文献包含着非常丰富有价值的信息。然而,这些信息并未总是非常容易被检索到。这项技术提供了一个柔性的方法,通过整合到一个工作流中来进行文献的检索,文本挖掘和大规模预测物理化学和生物学参数。这些结果可以可视化为质谱图谱,色谱图或者其他文本挖掘中的新图像(但在分析化学领域为熟悉的图像)。该方法可用于分析化学技术的比较和蛋白质及其活性的语义富集搜索,也可用于实验设计、药物发现、化学合成、人工智能和历史研究。 该方法仅使用免费提供的数据,服务和软件在可共享的科学工作流程中实现,其可以扩充到百万计的出版物或者化学文献中。

对于文本挖掘与机器学习科学文献提供了非常丰富的信息,例如PubMed包含2900多万的文献标题与摘要,Europe PMC包含225多万文献全文。SciLite平台提供了数以百万的疾病,基因,蛋白和代谢物的注释。这些注释可以通过Europe PMC最近提供的注释API进入,使用Taverna或KNIME等科学流程软件能够进行公开文献的分析。

成果简介

莱顿大学Magnus Palmblad 博士近期在analytical chemistry上发表题为Visual and Semantic Enrichment of Analytical Chemistry Literature Searches by Combining Text Mining and Computational Chemistry的文章,使用近期Europe PMC发布的getAnnotations服务, 描述了化学实体的文本挖掘如何与其物理化学性质的预测相结合,从而指导分析方法的选择,提取蛋白质及其配体的信息,或者在语义丰富的文献检索中研究特定化学领域的历史。

图文解析

1.jpeg

图1:分析流程,所有的分析均通过网页服务或应用。使用Europe PMC的searchPublications和getAnnotations和OCHEM 的ALogPS预测模型。流程可以通过KNIM(作者使用的)或Taverna完成。

2.jpeg

图2:利用文献方法章节的液质联用色谱(liquid chromatography–mass spectrometry)对ChEBI化合物库中的色谱数据进行整体分析。这些简单的数据并未区分溶剂,试剂,分析物,蛋白结合物。然而分析物普遍分布在更大质量区域。同时可以发现抗癌药物具有七个明显的峰:紫杉醇和多西紫杉醇的峰值分别为853和861,抗生素西罗莫司、粘菌素、环孢素A和万古霉素的峰值分别为913、1150、1201和1448。

3.jpeg

图3:90056个ChEBI分子的log P预测值与masses分布。一些ChEBI在空间分布中具有聚集,例如粉色区域为三糖类,亮蓝色区域为烷烃类。

4.jpeg

图4:标准的RGB绘图用于常压化学,其中红色表示ionization–ionization ,绿色表示 electrospray ionization–ionization,蓝色表示electron impact。

展望:

本文描述了一种集成现有资源用于文献搜索、文本挖掘和计算化学的新方法。该方法在实验设计、药物开发、数据整合和科学领域的历史研究中具有潜在的应用。

作者简介:
tou.jpg

Magnus Palmblad 现就职于莱顿大学医疗中心。

博士期间主要的研究方向为使用傅里叶变换离子回旋共振(FTICR)质谱鉴别描述肽和蛋白质,2015年至今主要领导生物信息学研究小组。

文献链接:

https://pubs.acs.org.ccindex.cn/doi/10.1021/acs.analchem.8b05818

封面图:

标签: none