R的介绍 R是用于统计分析、绘图的语言和操作环境,是一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的优秀工具。 其功能包括:数据...
OpenRefine是一个桌面应用程序,原名叫Googlerefine,现在已经由网络社区接管并完全开源,任何人都可以免费下载使用。openre...
我们在之前的教程里讲到了如何在openrefine中整理美国大选总统辩论文本,经过整理后的文本就可以在R中使用,用来进行文本分析,这个教程跟大家...
昨天的教程里面我们学习了如何提取双语翻译文本[https://www.jianshu.com/p/d6c58b41ab8c],那么如果我有两篇文...
今天在朋友圈中看到友人转发的中英文双语演讲文本,如下图。突发奇想,如果有小伙伴只需要英文或中文的文本怎么办呢?难道要一行一行的复制粘贴吗?答案是...
我们在工作中经常能碰到表格存储在pdf文档里的情况,要编辑文档就需要将表格提取出来,通过tabula软件提取表格然后使用openrefine来将...
我们在处理Excel文件中经常能见到下面的文档结构,通常在前面部分包括一些信息,下面是表格的形式 当有很多这样的表格,在数据分析中需要用到表格上...
一、openrefine数据整理 一、数据整理(openrefine) 我们选取的素材是从网站上存储的辩论转录素材,文本格式如下图,标注了发言人...
Openrefine正则表达式基础 正则表达式在涉及到文本数据的整理方面极其重要,它实际上就是一种字符串的模式,运用正则可以在文本中匹配出符合模...