一网打尽——学术知识图谱


    科学计量学是一门以科学自身为研究对象进行定量研究的学科。这门学科借助科学科学计量学指标,运用数学方法计量科学研究的成果、描述科学体系的结构、分析科学系统的内在运行机制,及时科学发展的时空特征,也探讨在整个社会大背景之下科学活动的定量规律性。自60年代初创立至今,科学计量学已被广泛应用于科研主体实力考察、学术期刊质量评估、科技发展规划制定以及科学基金项目管理等许多方面。

    在科学计量学的研究过程中,创建了大量的实用工具,例如,Scopus、Semantic Scholars、AMiner等等,而支撑这些工具的后台数据往往以知识图谱(本体)形式表示。因此,随着科学计量学的发展,产生了大量的学术知识图谱,极大地推动了该领域的发展。下面,将对学术领域的知识图谱进行汇总,以便新进研究者进行快速理解。


学术图谱目录

1. Aminer,包含作者、文献、机构等

2. MAG,包含作者、文献、机构等

3. OAG,包含作者、文献、机构、领域、学术活动等

4. AceKG,包含作者、文献、机构、领域、学术活动等

5. TechKG,包含标题、作者、机构、关键词、摘要等

6. S2ORC,包含作者、文献、标题、摘要、图片标题、表格标题、公式、表格内容、引用描述等

7. SWRC,包含作者、机构、领域、项目、文献等

8. SPAR,包含FaBio、CTO、BiRO、C4O、DoCO、PSO、PRO、PWO、DEO、SCoRO、FRAPO、BiDO、Five*等多个子本体结构

9. Scopus,包含作者、文献、摘要、关键词等

10. OpenCitation,内容为SPAR的子集

11. Semantic Scholar,包含作者、文献、学术活动等

12. Dimensions,包含作者、机构、出版社、资助机构等等

13. SKGO,包含SemSur、PhySci、PharmSci、ModSci四个较为详细的子本体

14. ORKG

15. RASH,撰写科技论文的标记语言,直接把论文内容结构化

16. CS-KG,包含任务、方法、指标等内容数据

17. AIDA,用于学术界-工业界对接,包含作者、机构、文献、专利等信息


Aminer


Aminer 本体结构

    AMiner是由清华大学计算机科学与技术系教授唐杰率领团队建立的,具有完全自主知识产权的新一代科技情报分析与挖掘平台。AMiner平台以科研人员、科技文献、学术活动三大类数据为基础,构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索以及面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。后台数据包含1.55亿篇学术论文

网址:https://www.aminer.cn/

论文:Huaiyu Wan, Yutao Zhang, Jing Zhang, Jie Tang; AMiner: Search and Mining of Academic Social Networks. Data Intelligence 2019; 1 (1): 58–76.


MAG-Microsoft Academic Graph

MAG 本体结构

    MAG是一个异构图,包含科学出版记录,这些出版物之间的引用关系,以及作者,机构,期刊,会议和研究领域等,总共包含1.66亿学术论文

网址:https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/

论文:Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, Kuansan Wang;An Overview of Microsoft Academic Service (MAS) and Applications. Proceedings of the 24th International Conference on World Wide Web, May 2015, Pages 243–246


OAG-Open Academic Graph

    它是将Microsoft Academic Graph 和 Aminer进行对齐之后得到的并集合。完成了64,639,608次对齐。

网址:https://www.aminer.cn/open-academic-graph

论文:Zhang, Fanjin Li, Rui Wang, Kuansan Liu, Xiao Tang, Jie Yuxiao, Dong Yao, Peiran Zhang, Jie Gu, Xiaotao Wang, Yan Shao, Bin. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs.  Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, July 2019, Pages 2585–2595


AceKG

AceKG 本体结构

    上海交通大学王新兵教授和张伟楠教授指导的 Acemap团队知识图谱小组发布了学术知识图谱AceKG。在图谱数据基础上,构建了链接预测等任务,方便研究者开展相关研究工作。AceKG描述了超过1亿个学术实体、22亿条三元组信息,涵盖了全面的学术信息。具体而言,AceKG包含了61,704,089篇paper、52,498,428位学者、50,233个研究领域、19,843个学术研究机构、22,744个学术期刊、1,278个学术会议以及3个学术联盟(如C9联盟)

网址:http://acemap.sjtu.edu.cn/app/AceKG/

论文:Wang, Ruijie Yan, Yuchen Wang, Jialu Jia, Yuting Zhang, Ye Zhang, Weinan Wang, Xinbing. AceKG: A Large-scale Knowledge Graph for Academic Data Mining. Proceedings of the 27th ACM International Conference on Information and Knowledge Management, October 2018, Pages 1487–1490


TechKG

    TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由“东北大学-知识图谱研究组”开发完成。TechKG 共包含大约 5 千万个实体(包含标题、作者、作者单位、关键词、摘要)、以及 2.6 亿个三元组。TechKG 的数据共分为 38 个研究领域,每个研究领域对应一个学科。

网址:http://www.techkg.cn/

论文:Ren, Feiliang, Yining Hou, Yan Li, Lingfeng Pan, Yi Zhang, Xiaobo Liang, Yongkang Liu, Yu Guo, Rongsheng Zhao, Ruicheng Ming and Huiming Wu. “TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph.” ArXiv abs/1812.06722 (2018): 


S2ORC

S2ORC 本体结构

    S2ORC由8110万篇论文和3.805亿个引用关系组成。其中810万篇PDF格式论文和150万篇LATEX格式论文包含全文信息,帮助我们增加了章节信息、引用提及以及图表信息。S2ORC具体包括,论文题目、作者、摘要、章节正文(包含章节标题)、图片标题、表格标题、公式、表格内容、页眉、页脚、引用描述(包含在摘要和正文中)、解析后的参考文献、引用描述与参考文献之间的对应关系。

论文:Lo, Kyle, Lucy Lu Wang, Mark Neumann, Rodney Michael Kinney and Daniel S. Weld. “S2ORC: The Semantic Scholar Open Research Corpus.” ACL (2020).


SWRC

SWRC 本体结构

网址:http://ontoware.org/projects/swrc/

论文:Sure-Vetter, York, Stephan Bloehdorn, Peter Haase, Jens Hartmann and Daniel Oberle. “The SWRC Ontology - Semantic Web for Research Communities.” EPIA (2005).


SPAR

SPAR 总体结构

    SPAR本体是用干描述出版领域的本体,它为语义出版和引文提供了一套可以机读的RDF元数据集,包括文档的描述,文献目录识别,引文的类型和相关内容,书目引文,文档的部分及状态,个体的角色及责献,文献计量学数据及工作流程。SPAR本体包括下述子本体FaBiO是用干描述出版或者潜在出版实体的本体;CTO是一种引文本体,用来描述引文的特性及类型,并允许标注者标记引文链接和引用意多;BiRO是用干描述书目记录及参考文献的本体;C4O是用干描述参考文献引文的本体,如文本内部参考文南指针,文本被引用文献引用的次数等;DoCO提供了文档结构元素的词表,如段落,节或列表等;PSO是用干描述文件出版状态或者出版过程中不同阶段的出版实体的本体,如提交、审稿中,拒稿,接收等;PRO是用于描述个体出版过程中(如作者、编辑、评审等)的角色的本体;PWO是用于描述出版实体在出版过程中的步骤的本体,如文章在审稿中、印刷、发表等;DEO为文件中的修饰元素提供了一个结构化的词表,如引言、讨论、致谢、参考文献列表、附录等;SCoRO是用于描述学术贡献及角色的本体FRAPO是用干描述研究项目信息的本体,如拨款申请,资助机构,项目合作者等;BiDO是用干描述文献数据中数字和分类的模块本体,如期刊影响因子,作者H-指数,研究类型分类等:Five*是描述网络期刊文章中五种属性的本体。对干描述学术资源的数据的规范,学术文献语义标注本体可在继承现有元数据和标注本体的基础上加以扩展。

网址:http://www.sparontologies.net/ontologies

论文:Peroni, S., Shotton, D. (2018). The SPAR Ontologies. In Proceedings of the 17th International Semantic Web Conference (ISWC 2018): 119-136. 


Scopus

Scopus 内容结构

    Scopus数据库是目前全球规模最大的摘要和引文(A&I)数据库,涵盖了四大门类27个学科领域,15000余种科学、技术及医学方面的期刊,如Elsevier、Springer、Nature等等。还收录了不少重要的中文期刊,如:《计算机学报》、《力学学报》、《中国物理快报》、《中华医学杂志》。数据库的 10% 以上由会议论文(超过 950 万篇)组成,其中 250 万篇发表在期刊、丛书和其他来源中。 其余 700万篇发表在会议论文集中。具体包含:Document types, Abstracts, Keywords and index terms, cited references, affiliation data, Author profiles, ORCID integration, 等等

网址:https://www.scopus.com/

论文:??


OpenCitation

Open Citation Data Model (OCDM)

    OpenCitation类似于Web of Science 和Elsevier's Scopus,以文献之间的引用关系数据为支撑,提供引文查询等相关服务。其后台数据结构——Open Citation Data Model (OCDM)用于对所有文献资源以及它们之间的引用关系。其中黄色矩形定义数据模型允许描述的对象类,它们的属性用绿色箭头定义,对象类与其他实体的关系则用蓝色箭头建模。OCDM主要参照SPAR本体结构,主要包含的信息如下:fabio:Expression:已发表的文献资源,这些资源引用或被其他已发表的文献资源引用,或者包含引用/引用实体(例如,包含文章的期刊或包含章节的书籍);fabio:Manifestation:文献资源的收录,定义了提供文献资源的出处;biro:BibliographicReference:通常出现在引用文献资源实体的参考文献列表中,指向另一个文献资源。通常在引用文献资源实体的正文中,一次或多次引用;foaf:Agent:相关代理,指与文献资源具有特定关联的个人或组织。例如,论文或书籍的作者,或期刊的出版商;pro:RoleInTime:角色,指代理对于特定文献资源中扮演的角色。例如,一篇文献的作者或一本书的编辑等等;cito:Citation:引用,两篇文献资源之间的引用关系;datacite:Identifier:与文献资源实体关联的外部标识符。例如,DOI、ORCID、PubMedID、OCI等等。

网址:http://opencitations.net

论文:Marilena Daquino, Silvio Peroni, David Shotton, Giovanni Colavizza, Benham Ghavimi, Anne Lauscher, Philipp Mayr, Matteo Romanello, Philipp Zumstein. The OpenCitations Data Model. In Proceedings of the 20th International Semantic Web Conference (ISWC 2020)


Semantic Scholar

    Semantic Scholar是一款免费学术搜索引擎,由微软联合创始人Paul Allen旗下的艾伦人工智能研究所在2015年11月2日发布,目标是「cut through the clutter」,帮助科研用户从浩如烟海的文献中快速筛选有用信息,减少检索时间,提升工作效率。后台数据包含authors、papers、citations、venues等等数据的支持。Semantic Scholar可以从文献文本中挑选出最重要的关键词或短语,确定文献的研究主题,也可以从文献中提取图表,呈现在文献检索页面,能够帮助使用者快速理解文献的主要内容。对于科学研究人员来说,Semantic Scholar 的较大用处是可以帮助他们快速获得重要文献,因为该引擎可以辨别一篇文章引用的参考文献是否具有重要的参考价值。

网址:https://www.semanticscholar.org

论文:??


Dimensions

Deminsions 后台数据结构

    Dimensions为研究人员、科研机构、政府资助部门、出版社、药物学、化学工业、企业研发等不同机构和领域产品和工具被公共、非营利和私营部门的研究人员和组织用于发现、访问和分析从想法到影响的研究数据。后台数据包括出版物、资助、临床试验、专利、数据集或政策文件等信息,以及它们与机构、研究员以及它们之间的关联关系。

网址:https://www.dimensions.ai/

论文:Herzog, Christian, Daniel Hook and Stacy Konkiel. “Dimensions: Bringing down barriers between scientometricians and data.” Quantitative Science Studies 1 (2020): 387-395.


SKGO-Science Knowledge Graph Ontologies

    SKGO,是一套OWL本体模型,通过分析出版物获取科学研究数据的知识。SKGO包含四个本体模型,分别是SemSur for Computer Science, PhySci for Physics, PharmSci for Pharmaceutical science以及ModSci for Moden Science Ontology。

    其中ModSci是其它三个本体的上层概念,包含如下顶层概念:Moden Science,是对于构建和组织对宇宙可验证、可解释和可预测的知识体系的一种系统性的努力;Scientific Discovery,是一次成功的科学探究的过程或产物,可以是一个事物、或一次事件,也可以是某些性质、理论或一个假设;Phenomenon,被观测到的、发生的或存在的事务;Applications of Science,指将科学知识应用于特定目标的过程,例如,用于设计产品、工艺或医疗,开发新技术或预测人类行为的影响等等;Scientific Organization,指通过科学研究促进特定领域发展的组织机构;Scientist,指进行科学研究以推进感兴趣领域的知识的人;Scientific Instrument,是用于特定目的的科学实验中的设备或工具,例如用于测量电路中电流的电流表。

    以ModSci为基础,扩展的三个本体的概念类型更加丰富。以计算机领域的SemSur为例,包含如下概念:出版物 , 项目 , 方法 , 算法, 附录, 框架,  文档, 评估方法, 评估, 组织, 人, 摘要, 研究主题, 研究项目, 员工, 开发项目, 复杂性, 工具箱, 实验分类, 科学实验, 实验结果,  实验设计, 实验要求, 实验目标, 实验性抑制, 实验模型, 模型, 领域模型, 问卷, 模拟软件, 挑战, 极限,正面观点。

网址:https://github.com/saidfathalla/Science-knowledge-graph-ontologies

论文:Said Fathalla, Sören Auer, and Christoph Lange. Towards the semantic formalization of science. In Proceedings of the 35th Annual ACM Symposium on Applied Computing (SAC '20). Association for Computing Machinery, New York, NY, USA, 2057–2059.


ORKG-Open Research Knowledge Graph 

    ORKG旨在以结构化的方式描述研究论文,使科学知识成为人类和机器可操作信息,从而以全新的方式辅助研究人员找到其关心的研究领域的相关现状,形成最新的对比和结论。通过ORKG,科学家可以以全新的方式探索知识,并跨不同学科分享结果。

网址:http://orkg.org

论文:Jaradeh, Mohamad Yaser, Allard Oelen, Kheir Eddine Farfar, Manuel Prinz, Jennifer D'Souza, Gábor Kismihók, Markus Stocker and S. Auer. “Open Research Knowledge Graph: Next Generation Infrastructure for Semantic Scholarly Knowledge.” Proceedings of the 10th International Conference on Knowledge Capture (2019)


RASH-Research Articles in Simplified HTML

    RASH是用于撰写科技论文的标记语言(HTML子集)。RASH标记语言基础上,还提供一套规范化、撰写、转换和提取工具。因此,使用RASH撰写的论文就无须额外的分析过程,就能够生成对应的科学图谱了。

网址:https://github.com/essepuntato/rash

论文:Peroni, S., Osborne, F., Di Iorio, A., Nuzzolese, A. G., Poggi, F., Vitali, F., Motta, E. (2017). Research Articles in Simplified HTML: a Web-first format for HTML-based scholarly articles. PeerJ Computer Science 3: e132. e2513.


CS-KG-Computer Science Knowledge Graph


    CS-KG(包含AI-KG)是自动生成的大规模知识图,通过分析670万篇文章,生成了4100万个事实描述和3.5亿个RDF三元组。3.5亿三元组由1000万个实体(任务、方法、指标等)之间的179种语义关系构成。CS-KG提供各种智能服务,用于分析和理解研究动态,支持研究人员的日常工作,并辅助资助机构和研究政策制定者的完成合理决策。

链接:http://w3id.org/cskg

论文:

Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta. (2021) Generating Knowledge Graphs by Employing Natural Language Processing and Machine Learning Techniques within the Scholarly Domain. Future Generation Computer Systems 2021.

Danilo Dessì, Francesco Osborne, Diego Reforgiato Recupero, Davide Buscaldi, Enrico Motta, Harald Sack. (2020)AI-KG: an Automatically Generated Knowledge Graph of Artificial Intelligence . International Semantic Web Conference 2020.


AIDA KG-Academia Idustry DynAmics Knowledge Graph

AIDA KG 本体结构

    学术界和工业界有着复杂的、多方面的和共生的关系。分析他们之间的知识流动,发现具有潜力的转化方向,并进行双方的准确对接是各方努力的方向。学术界的论文和产业界的专利是解决产学研融合的重要媒介。对此,构建了AIDA-KG,它根据Computer Science Ontology(CSO)中给出的研究主题,分析了2100万篇论文和800万项专利。对其中的510万篇论文和560万项专利进行进一步分析,给出了作者的隶属关系(author's affiliations)和对应工业部门(Industrial Sectors)信息。工业部门信息参考的Industrial Sectors Ontology (INDUSO)。    AIDA-KG集成了来自微软MAG、Demensions、English DBpedia、CSO和Global Research Identifier Database (GRID)的数据,生成了包含2.42亿篇论文、3800万项专利、458万个实体、1.4万个研究主题和9.7万个机构的知识图谱。

网址:https://w3id.org/aida

论文:Simone Angioni, Angelo Salatino, Francesco Osborne, Diego Reforgiato Recupero, and Enrico Motta. AIDA: a Knowledge Graph about Research Dynamics in Academia and Industry. Quantitative Science Studies 2022; 2 (4): 1356–1398.


初来乍到,希望得到各位同仁的批评与指正。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,612评论 5 471
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,345评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,625评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,022评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,974评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,227评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,688评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,358评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,490评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,402评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,446评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,126评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,721评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,802评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,013评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,504评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,080评论 2 341

推荐阅读更多精彩内容