R - 生成数据

正态分布函数dnorm()、pnorm()、qnorm()和rnorm()的使用方法:
密度函数: dnorm(x, mean=0, sd=l, log=FALSE)
分布函数: pnorm(q, mean=0, sd=l, lower.tail=TRUE, log.p=FALSE)
计算下分位点: qnorm(p, mean=0, sd=l, lower.tail=TRUE, log.p=FALSE)
产生随机数: rnorm(n,mean=0,sd=l)

说明:

  • log.p是逻辑变量,当它为真(TRUE)时,函数的返回值是对数正态分布.
  • lower.tail是逻辑变量,当它为真(TRUE,缺省值)时,分布函数的计算公式为F(z)=P{X≤z},FALSE时,分布函数的计算公式为F(z)=P{X>z}.

例如:
> dnorm(2,0,1)
[1] 0.05399097
> pnorm(0,0,1)
[1] 0.5

其他的分布函数也有类似的用法:

分布函数或分布律 R中的名称 附加参数
beta beta shapel, shape2, ncp
binomial binom size, prob
Cauchy cauchy location, scale
chi-squared chisq df, ncp
exponential exp rate
F f dfl, df2, ncp
gamma gamma shape, scale
geometric geom prob
hypergeometric hyper m, n, k
log-normal lnorm meanlog, sdlog
logistic logis location, scale
negative binomial nbinom size, prob
normal norm mean, sd
Poisson pois lambda
Student's t t df, ncp
uniform unif min, max
Weibull weibull shape, scale
Wilcoxon wilcox m, n

不同的前缀表示不同的意义:

    d-概率密度函数或分布律;
    p-分布函数F(x);
    q-分布函数的反函数,即给定概率p后,求其下分位点;
    r-仿真(产生相同分布的随机数)

图像

直方图hist(x)

完整的格式是:

    hist(x, breaks = "Sturges", freq = NULL, probability = !freq,include.lowest = TRUE, right = TRUE,density = NULL, angle = 45, col = NULL, border = NULL,main = paste("Histogram of" , xname),xlim = range(breaks), ylim = NULL,xlab = xname, ylab,axes = TRUE, plot = TRUE,labels = FALSE,nclass = NULL, ...)

经验分布

    ecdf(x)
    plot(y, ..., ylab="Fn(x)", verticals = FALSE,col.01line = "gray70")

说明:

  • 其中,在函数ecdf()中的x是由观察值得到的数值型向量,而在函数plot()中的x是由函数ecdf()生成的向量.verticals是逻辑变量,当verticals=TRUE表示画竖线;否则(FALSE,缺省值)不画坚线.

例题:15位学生的体重数据w,建立一个脚本

    w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    plot(ecdf(w),verticals=TRUE,do.p=FALSE) #do.p是逻辑变量=FALSE表示不画点处的记号x=44:78
    lines(x,pnorm(x,mean(w),sd(w)))

QQ图

在R软件中,函数qqnorm()和qqline()提供了画正态QQ图和相应直线的方法。例如:绘制学生体重数据的qq图:

    w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    qqnorm(w);qqline(w)

茎叶图、箱线图及五数总括

茎叶图

与直方图比较,茎叶图更能细致地看出数据分布的结构,下面用具体的例子来说明茎叶图的意义.
例:对某班学生的体重做出其茎叶图,
在R软件中,用stem()函数作茎叶图

    > w =c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    > stem(w)

stem()函数的使用方法是:

    stem(x, scale=1,width=80, atom=le-08)

其中x是数据向量. scale控制绘出茎叶图的长度. width绘图的宽度.atom是容差,如果选择scale=2,即将10个个位数俞成两段,0~4为一段,5~9为另一段。

箱线图boxplot(x)

如仍对上述体重数据w作图。
此外boxplot还有以下两种用法:

    boxplot(formula, data = NULL, ..., subset, na.action = NULL)
    boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE,notch = FALSE, outline = TRUE, names, plot = TRUE,border = par("fg"), col = NULL, log = "",pars = list(boxwex = 0.8, staplewex = 0.5,outwex = 0.5),horizontal = FALSE, add = FALSE, at = NULL)

五数总括

在探索性数据分析中,能反映数据重要特征的五个数:中位数,下四分位数,上四分位数,最小值mim和最大值max.在R软件中,函数fivenum()计算样本的五数总括,使用格式为

    fivenum(x, na.rm=TRUE)

其中x是样本数据,na. rm是逻辑变量,当na.rm=TRUE(缺省值)时,在计算五数总括之前,所有的NA和NAN数据将被去掉。

例:学生考试成绩的五数总括

    > x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86,87, 89, 89, 89, 90, 91, 91, 92, 100)
    > fivenum(x)
    [1] 25 70 84 88 100

正态性检验与分布拟合检验

正态性W检验方法

利用Shapiro-Wilk(夏皮罗一威尔克)W统计量作正态性检验,因此称这种检验方法为正态W检验方法,函数shapiro .test()提供W统计量和相应的p值,当p值小于某个显著性水平Q(比如0.05),则认为样本为不是来自正态分布的总体;否则承认样本来自正态分布的总体。

    shapiro.test (x)
    >w=c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
    >shapiro.test(w)
    Shapiro-Wilk normality test
    data: w
    W = 0.9686, p-value = 0.8371

p值为0.8371>0.05,因此,认为来自正态分布的总体.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,602评论 1 12
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,579评论 18 139
  • 请问你们想看喻文州×王杰希,还是喻文州×黄少天
    soleilgusx2阅读 295评论 6 0
  • 1. 巴黎市区内公立和私立的图书馆共有108家。 2. 一个人,他看不懂任何更深入的学术著作,他只看于丹的书,只看...
    兔de阅读日记阅读 503评论 0 0
  • [寫完回看,自己感覺略爲官方 …… 但不失為真实之感 ~] 我關注奧運。 喜歡的是小時候陪爸爸媽媽在電視機前或為運...
    路航唐LhT阅读 130评论 0 1