人工智能时代的科学研究

最近几年，以深度学习为代表的人工智能技术迎来了一次革命。目前，人工智能最为热门的方向在图像识别、自动驾驶、语音识别等领域。和这些领域层出不穷的明星初创公司相比，人工智能技术在科研领域的应用则相对少有人关注。然而，在这一领域，其实是有不少非常有趣的研究成果，本文将尝试进行一些总结。

科研领域人工智能技术的应用前景

科研可以说是人类探索未知的最前沿战场，然而，和很多人所想象的不同的是，科研领域的生产力发展水平其实是相当低的。这一方面是由于科研领域众多，研究方向分散，没法规模化；另一方面是作为科研主体的研究生们价格十分低廉，采用手工作坊模式比较具有性价比。

但是科研发展到今天，寻找更有效率的工具既是美好的期望也是刻不容缓的现实需求。这是因为在大家的不懈灌水之下，现在科研论文的产出速度已经非常快了。即使是一个非常小众的领域，一个人阅读文献的速度也很难跟上新文献的产出速度。当然，我们可以通过个人经验筛选出其中有价值的那些，但是这就像手工作坊依赖老师傅一样，这样抽象的经验是否合理，能否传承是一个大问题。

那么，科学研究的哪些流程可以做的更好一点呢？这里我们可以列举一些：

检索。我们通常的搜索方式是在各个搜索引擎的搜索框里输出文字，获得返回的网页、图片等信息。但是对于科研来说，除了文字之外，我们还希望能够检索公式、专有名词、图片等等。这些检索内容在通常的搜索引擎中很难获得有效的结果。
引文网络。对于一篇文献来说，它引用的文献和引用它的文献都是很重要的参考信息。虽然很多出版商的网站提供了获取文献引文的选项，但是文献通常是以PDF的形式传播，我们希望能直接从离线存储的PDF文件中还原出它的引文信息。此外，如果能够从一片文献出发，描绘出相关的引文网络，我们就能够找到该领域的重要文献，非常有利于我们快速的掌握一个领域的核心信息。
知识记录。一篇文献的细节往往是非常之多的，一般情况下，我们只能通过在PDF文件或者引文管理软件中标注来记录重要的信息，可是，这样的记录方式显然是不够有效的，不仅很难讲零散记录的信息集中整理，时间一长也很容易遗忘当初标记的初衷。

问题的根源

为什们会有这些问题呢？究其根本，这是因为现在的科研出版体系还停留在纸质时代，然而我们的工作方式早已迈入了互联网时代。令人悲观的是，这些问题虽然引起了一些人的关注，但是可能很难在短期内解决。因为工作效率的低下耗费的只是研究生们的青春，而这个行业并不缺源源不断涌入的勤劳的学生。而且，科研是一个垄断行业，几大国际出版商把持了绝对的话语权，如果他们没有变革的动力，行业本身并不会发生根本的变化。

但是对于学生们来说，时间是宝贵的财富。工作效率是赢得时间的根本手段，因此我们非常有必要关注一些能提高效率的工具。这里，我将列举一些最新的工具，他们也许能在你的日常工作中派上用场。需要注意的是，这里的很多工具具有实验性质，他们的功能可能还相当不完善，因此需要你自己使用之后来判断它的价值。

科研工具的搜索引擎——LabWorm

LabWorm是一个用来搜索科研工具的搜索引擎，这里有着各种五花八门的科研相关工具。

检索工具

更具深度的文献搜索引擎

AMiner是由清华大学的团队开发的文献检索引擎，相比传统的文献检索引擎，它提供了更多更具深度的内容，比如，按照h-index排序检索结果，给出作者的常见合作者，文章或者领域的历年引用趋势等等，同时它还提供一定的社交功能，可以对作者投票或者评论。可以说AMiner代表了文献搜索引擎的未来。但是它主要侧重计算机领域的文献，其它领域的文献信息不是非常完善。

用公式来搜索维基百科

Koala能够让你通过输入Latex表达式形式的公式来检索维基百科，它会自动分析相近形式的公式，给出相关维基百科条目的链接。

用公式来搜索网页

uniquation，如果你希望用公式来搜索所有网页结果，可以试试这个，同样需要以Latex形式输入公式，也会给出相近形式的公式。如果你对Latex表达式的写法不熟悉，可以搜索一些在线的Latex公式转换器。

用图片来搜索论文

Viziometrics是一个完全基于图片的搜索引擎。其实论实用性，它估计比不上谷歌图片搜索。它是直接提取论文中的图片和图片标题来生成相关搜索项，是一个非常有意思的工具，虽然打开速度很慢。

引文相关工具

自动提取PDF中的文献信息

cermine是一个开源项目，它提供一个在线工具，能够将你上传的PDF格式的文献中的关键信息提取出来，这些信息包括作者、单位、摘要、参考文献等等。

引用文献的逆向格式化

CitationFinder是一个相当神奇的实用工具。我们知道，文献管理软件可以将数据库导出成各种专有格式，这些格式可以转换成txt。可是，反过来把TXT还原成文献管理软件能够识别的格式却是一个难题。这个网站可以将大段TXT格式的参考文献列表转换成常用的文献管理软件能够识别的格式，正确率相当高。

公式自动识别

InftyReader是一个OCR软件，它的强大之处在于它能够将pdf文件中的公式转换成Word或者Latex格式，准确率是目前最高的。

引文网络分析

理论上来说，引文网络分析是科学研究中的重要内容，但是实际上却很少有人去做这样的事情。原因是多方面的，一是：引文网络本身涉及的方面非常多，比如作者之间的引用关系，期刊权重的排序等等；二是，一旦涉及到较深的层次，引文的数量将会非常庞大，导致获取、分析和展示文献信息都将变得非常缓慢；三是，如何将复杂的网络清晰的展现出来，并从中发掘有用的信息也是一个难题。所以，虽然现在已经有一些工具能够实现引文网络的分析，但是学习成本相当高，普及率很低。目前，常用的引文分析软件包括：CiteSpace、SCI2和HistCite，有兴趣的人自行尝试。需要注意的是，官方的HistCite版本有一些Bug，如果需要可以用这里的版本。

科研知识管理

用思维导图管理文献

如果将数量繁多的文献中有用的信息组织起来是一个难题，将文献以思维导图的形式组织起来是一个可供尝试的方向。Docear就是为这一目的而生的软件。它的功能比较完善，但是使用起来有些复杂。

与PDF阅读器集成的文献管理软件

与思维导图这一本身并不太普及的形式相比，直接在PDF文件上标注信息则实用的多，然而，如何将标注的信息组织起来呢？Mac和iOS上有一款国人开发的软件MarginNote就是为这一目的量身打造，它不仅可以将PDF文件中的信息用思维导图组织起来，还可以生成记忆卡片，用作背诵之用，因而广受医学、法律专业的学生欢迎。遗憾的是，这一软件并没有Windows版本。

Windows用户可以使用文献管理软件Citavi，在提供常用的文献管理，Word引文插入功能之外，它还提供了一个Adobe PDF 阅读器的插件，可以直接在PDF文件上标注，这些标注的信息可以单独组织管理，也可以导出到思维导图软件。这个软件的另外一个亮点是，在Word中不仅可以插入文献库中的文献，也可以检索插入标注的文献中的信息。

除了文献管理软件之外，还有一类更专业的文件标注工具，学名叫质性分析软件，在心理学、社会学等学科比较常用。这类软件能够标注的文件类型更为广泛，以常用的atlas.ti软件为类，它除了可以标记PDF、Word之外，还可以标记音频、视频，标注的信息以节点方式组织，可以注释、组合、链接。这类软件适合分析含有大量文本、音视频数据，需要提取抽象信息的项目。

幻想未来

科学研究有着理论上的巨大价值，但是对于身在其中的从业者，个中甘苦，唯有己知。本文介绍了很多具有实验性质的工具，它们中到底哪些能够真的普及，尚未可知。趁着人工智能的东风，不妨让我们畅想一下科学研究的未来，想象一下，人工智能在科学研究中有哪些应用前景。

自动提取PDF格式文献的核心信息，识别其中的各个区域，生成结构化文件。这涉及到版面识别，文本OCR等方面。现在已经有一些相对成熟的工作。
内容感知检索。将PDF文件中的公式、专有名字、图片加入针对性的检索选项，可以一键搜索相关内容。
学术专用的网络爬虫。针对作者、单位，通过网络爬虫搜索到课题组主页、作者职称、单位排名等信息。
试剂、仪器识别。针对文献中提到的试剂、仪器信息，自动给出相应的购买链接和参考价格。
合作式的标注和社交化评论。不同地点的作者可以共同标记同一篇文献，并且可以相互查阅。同时可以建立一个问答平台，作者和读者可以直接交流。读者可以点赞，也可以质疑。
引文网络生成和文献推荐。自动生成文献的引用和被引网络，同时根据文献的关键词和相关文献，自动推荐相关论文。
知识链接。对于文献中提到的知识，可以自动链接教科书中对应的内容。
语义分析。自动分析文献中语句含义，归纳提取关键信息，生成逻辑关系图。
语言翻译。将英文自动翻译成其他语言。
链接企业。根据文献信息，链接到关注或者从事相关技术的公司。
团队管理和流程控制。引入企业中的团队管理体系和流程化工作方式，便于课题组绩效考核和效率控制。
。。。。
可以想象的地方还有很多，但是要想完全实现上面的设想，恐怕需要一个堪比BAT规模的企业。
但是再完善的工具也只是工具，最核心的仍然是人类自身的创造力。

最后编辑于：2017.11.23 21:51:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342