[原]基于RStudio Webinars的统计报告Web化与工程化实践总结

概述

本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!

谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态

在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。

快速标准的论文书写

# $something$ 或者 $$something$$ 可以解决数学公式的问题
# 利用 bib 文件和[@something] 可以解决引用的问题
# 同样的,你也可以根据一些机构要求引入标准的模板。

参考谢溢辉的Rmarkdown论文
参考谢溢辉的bib文件

屏蔽源码

# ```{r echo=F}屏蔽源代码
# ```{r, fig.width=5, fig.height=4} 设置配图大小
# 脚注

代码段内存共享

  • 利用cache选项复用代码和数据
Sys.sleep(5)
rnorm(1)
```{

### 输出其他语言代码
* 利用```engine```选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等
```{r engine='python'}
x = 'hello, python
world!'
print(x)
print(x.split(' '))

交互式文档

  • 利用yaml配置中的runtime选项
---
author: Harry Zhu
output: html_document
runtime: shiny
---

同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。

在我看来,rmarkdown是一款超越Zeppelin和iPython notebook的产品。
最总要的意义在于,学术工作者和工程师们不仅仅可以摆脱格式对创作的束缚专注于代码和文档,更是随意输出pdf、slide、html、word、latex等多种格式,形成强有力的跨界冲击。

谢溢辉本人有超过10年以上的LaTex使用经验,他的rmarkdown和knitr造福了一代学术工作者,显然LaTex和Word的体系在这种降维攻击下已经摇摇欲坠。

Hadley Wickham:R与大数据共舞

R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。

一个小数据分析项目的生命周期:

  • 阐明:熟悉数据、模板解决方案
  • 开发:创建有效模型
  • 产品化:自动化与集成
  • 发布:社会化

一个大数据分析项目的生命周期:

  • 切片:抽取部分数据
  • 阐明:熟悉数据、模板解决方案
  • 开发:创建有效模型
  • 扩展:使用到整个数据集
  • 产品化:自动化与集成
  • 发布:社会化

dplyr与数据读取

Package DBMS
src_sqlite() SQLite
src_mysql MySQL
src_postgres PostgreSQL
library(bigquery) src_bigquery() Google BigQuery

显示SQL

show_query(clean)

中间缓存

collapse()返回正在处理的结果

# 抽取 1% 的训练数据
random <- clean %>%
 mutate(x = random()) %>%
 collapse() %>%
 filter(x <= 0.01) %>%
 select(-x) %>%
 collect()

数据存储

copy_to() 根据本地的data frame 在数据库创建一个表

# air为connection名称,query5为data frame,"gains"为表名
copy_to(air, query5, name = "gains")
# 关闭连接
rm(air)
# 垃圾收集器
gc()

Hadley Wickham:ETL

本节将讨论一个有效的数据分析/数据科学问题框架,包括:

  • 数据读取 readr/httr/DBI
  • 数据清洗 tidyr/jsonlite
  • 数据处理 dplyr/rlist
  • 数据可视化 ggplot2/ggvis
  • 数据建模 broom

broom:快速分析

install.packages("broom")
# 查看相关例子
browseVignettes(package="broom")

Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。

garrettgman:packrat与虚拟化技术

你是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,一次运行,到处运行。

if(!require(packrat)){install.packages("packrat")}
getOption("repos") # 显示代码镜像源
packrat:: bundle() # 打包当前环境并虚拟化
packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境
packrat::opts$local.repos("~/R") # 设置本地repos为路径
packrat::install_local("pryr") # 从本地安装

Hadley Wickham:Git与团队协作

团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。

版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容

  • 在学习R的时候,R的包众多,很多时候对于初学者会造成很大的困扰就是不知道用什么样的包比较合适。我会在不断使用...
    果果哥哥BBQ阅读 15,945评论 0 62
  • 一、怎样创建一个数组? 如果括号里的参数只有一个,代表的意义就不同了例如: 二、数组的方法 添加 删除 *记忆方法...
    尤樊容阅读 353评论 0 1
  • [TOC] #openstack kolla 入门 ##kolla 使命 To provide productio...
    tor2阅读 1,910评论 0 3
  • 今天我开始新的生活这一页已过去,从今天开始,我要用全身心的爱迎接今天。在阅读一个多月我开始新的生活后,我觉得自己还...
    fed40c731379阅读 170评论 0 0
  • 圣诞恰逢周末,昨天已经去商场感受完节日气氛,今天去做什么呢?豆瓣浏览,一场317国道风景的分享会活动在一堆圣诞大趴...
    张永胜_永往直前阅读 239评论 0 0