Google启动新搜索引擎帮助科学家找到需要的数据集

数据集搜索将会成为科学家最好的朋友

谷歌的目标一直是组织世界信息,它的第一个目标是商业网站。现在,它想通过一个新的数据集搜索引擎为科学界做同样的事情。

这项名为 Dataset Search 的服务在今天发布,它将在谷歌学术搜索中得到应用。谷歌学术搜索是该公司广受欢迎的学术研究和报告搜索引擎。在线发布数据的机构,如大学和政府,将需要在他们的网页中加入元数据标签来描述他们的数据,包括数据是谁创建的、何时发布的、如何收集的等等。这些信息将被谷歌的搜索引擎索引,并与知识图表中的信息相结合。(如果数据集 X 是由 CERN 发布的,搜索中也会包括一些关于该研究所的信息。)

02

一个搜索引擎,整合支离破碎的在线数据集

Google AI 的研究科学家 Natasha Noy 曾帮助创建了数据集搜索,她说,我们的目标是统一成千上万个不同的在线数据集。Noy 说:“我们想让这些数据被发现,但是仍然保存在它原来存储的地方。”

目前,数据集的发布非常零散。不同的科学领域有自己喜欢的储存库,不同的政府和地方当局也是如此。“科学家们说,‘我知道我需要去哪里寻找我的数据集,但这不是我一直想要的,’”Noy说。“一旦他们走出他们独有的社区,那就很难了。”

Noy举了一个她最近采访的气候科学家的例子,他告诉她,她一直在为即将到来的研究寻找一个关于海洋温度的特定数据集,但是在任何地方都找不到。直到她在一次会议上遇到一位同事,他认出了数据集,并告诉她数据集的主办地点,她才找到它。只有到那时,她才能继续她的工作。Noy说:“这甚至不是一个特别的数据仓库。”。“数据集在一个相当显眼的地方写得很好,但是仍然很难找到。”

在 Google 数据集搜索引擎中的搜索天气记录示例

数据集搜索的初始版本将涵盖来自 ProPublica 等新闻机构的环境和社会科学,政府数据和数据集。 但是,如果该服务变得流行,那么随着机构和科学家争相使其信息可访问,它所索引的数据量应当会迅速滚雪球般扩大。

最近世界各地开放数据倡议的蓬勃发展将有助于实现这一目标。 “我确实认为在过去的几年里,存储库的数量已经爆炸,”诺伊说。 她认为数据在科学文献中的重要性日益增加,这意味着期刊要求作者发布数据集,以及“美国和欧洲的政府法规以及开放数据运动的普遍兴起”。

03

我希望谷歌的加入会让事情变得更容易。”

开放数据研究所( ODI )首席执行官杰尼·坦尼森说,让谷歌参与进来应该有助于这个项目取得成功。“数据集搜索一直是一件难以支持的事情,我希望谷歌的介入会让它变得更容易,”她说。

Tennison说,要创建一个像样的搜索引擎,你需要知道如何构建用户友好的系统,并理解人们输入某些短语时的意思。谷歌显然知道他们都在做什么。

事实上,Tennison说,理想的情况下,谷歌会公布自己的数据集搜索方式。尽管该公司用来让搜索爬虫看到数据集的元数据标签是一个开放的标准(这意味着任何竞争对手,比如Bing或Yandex,也可以使用它们来构建竞争服务),但是当有足够数量的用户来提供他们正在做的事情的数据时,搜索引擎的改进速度最快。

“简单地理解人们如何搜索是很重要的…他们使用什么样的术语,他们如何表达这些术语,”Tennison说。“如果我们想了解人们如何搜索数据并使其更容易获取,如果谷歌在这方面开放自己的数据将会很棒。”

换句话说: Google应该发布一个关于数据集搜索的数据集,该数据集将被数据集搜索索引。还有什么更合适呢?