原文发表时间:2018/09/05
Google Dataset Search 帮助科学家找到所需的数据集,它可能成为科学家最好的朋友!
原文作者:
Google的目标一直是整理世界各地的信息,而其第一个目标是商业网络。 现在,它希望通过新的数据集搜索引擎为科学界做同样的事情。
这项名为Dataset Search的服务将于今天启动,并将与Google学术搜索(该公司流行的学术研究和报告搜索引擎)配合使用。 像大学和政府这样的在线发布数据的机构,需要在其网页中包含描述数据的元数据标签,包括数据的创建者,发布时间,收集方式等等。 然后,该信息将通过数据集搜索建立索引,并与Google知识图的输入结合起来。(这是为常见搜索而弹出的框的名称。因此,如果数据集X由CERN发布,则有关研究所的一些信息也将包含在结果中。)
帮助创建数据集搜索的Google AI研究科学家Natasha Noy在被The Verge采访时说,其目标是统一在线存储数据集的数以万计的不同存储库。 Noy说:“我们希望使这些数据可被发现,但将其保留在原处。”
目前,数据集发布极为分散。 不同的科学领域以及不同的政府和地方政府都有自己的首选存储库。 “科学家说,“我知道我需要去哪里寻找数据集,但这不是我一直想要的,”Noy说。 “一旦他们脱离了自己独特的社区,那就很难了。”
Noy举了一个她最近与之交谈的气候科学家的例子,她告诉她一直在为即将进行的研究寻找海洋温度的特定数据集,但任何地方都找不到。 直到在一次会议上遇到一位同事,她才找到了数据集,并告诉她数据集的托管位置。 只有这样她才能继续她的工作。 “而且,这甚至不是一个特别的精品店,”Noy说。 “该数据集在相当突出的地方写得很好,但是仍然很难找到。”
Dataset Search的初始版本将涵盖环境和社会科学,政府数据以及来自ProPublica等新闻机构的数据集。但是,如果这项服务流行起来,那么随着机构和科学家争相访问其信息,它所索引的数据量应该会迅速增加。
最近全球范围内开放数据计划的兴起应对此有所帮助。 “我确实认为在过去几年中,存储库的数量激增了,” Noy说。她认为这是因为数据在科学文献中的重要性日益提高,这意味着期刊要求作者发表数据集,以及“美国和欧洲的政府法规以及开放数据运动的普遍兴起”。
开放数据研究所(ODI)首席执行官Jeni Tennison说,让Google参与应该有助于使该项目成功。她说:“数据集搜索一直以来都是很难支持的,我希望Google介入将使它变得更容易。”
Tennison说,要创建一个像样的搜索引擎,您需要知道如何构建用户友好的系统,并理解人们输入某些短语时的含义。 Google知道这两个部门的工作情况。实际上,理想情况下,Google会发布有关如何使用Dataset Search 的自己的数据集。尽管该公司用于使搜索爬虫可见的数据集的元数据标签是一个开放标准(这意味着任何竞争者(如Bing或Yandex)都可以使用它们来构建自己的竞争服务),但是当搜索引擎处于关键状态时,搜索引擎的改进最快大量的用户可以提供他们所做的数据。
Tennison说:“仅了解人们的搜索方式很重要……他们使用什么样的术语,如何表达它们。” “如果我们想掌握人们如何搜索数据并使之更易于访问,那么如果Google在此基础上开放自己的数据,那就太好了。”
换句话说:Google应该发布有关Dataset Search 的数据集,该数据集将由Dataset Search 建立索引。哪个更合适?