博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据之魅(1)单一变量:形状和分布
阅读量:6035 次
发布时间:2019-06-20

本文共 824 字,大约阅读时间需要 2 分钟。

一、分布

关注分布的总体形状,关注要点:

数据分布

最值

数据集是大是小

是否有聚类

极异常数据

不寻常或显著的特征:空白段、锐减、异常值等

二、数据点和抖动图jitter plot

抖动jittering

用透明的开环作为数据点的符号

三、直方图histogram和核密度估计KDE

直方图不能很优雅地处理一些异常点

形成一个KDE就相当于对数据集的核函数做一次卷积

四、累计分布函数CDF cumulative distribution function

能对数据做出定量的描述

五、秩序图和上升图

如果自变量没有固定顺序,或没有有意义的顺序关系时,最好能按因变量进行排序

累计分布曲线有时候也称为升力曲线lift curve。

六、汇总统计量和箱型图

在假设绝对正确的情况下,汇总统计量是有意义的,否则可能会误导

平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布

m:平均数

s:标准差

实际情况的很多数据集,可以预计大约有2/3的数据点落在[m-s, m+s]区段中,

99%的数据点落在[m-3s, m+3s]区段中。

中位数:数据集中有一半比它大,有一半比它小。衡量分布的位置。一旦分布变得扭曲,基于均值测量分布的位置的基本假设就不再成立,此时用中位数更好。

百分位数是将这个概念推广到其他比例。第10百分位数是,数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距,是第75百分位数和第25百分位数之间的距离。

Box-and-Whisker箱型图

包含以下要素:

1、中位数标记

2、一个盒子,跨越四分位数间距,用于测量分布的宽度

3、一些线条whisker,从中间的盒子延伸到上下临界值

4、临界值以外的所有值的单个符号,代表异常值

 

转载于:https://www.cnblogs.com/549294286/p/3183596.html

你可能感兴趣的文章
Kafka High Level Consumer 会丢失消息
查看>>
时间轴
查看>>
java 获取系统当前时间的方法
查看>>
Ubuntu 10.04升级git 到1.7.2或更高的可行方法
查看>>
Spring Security4实战与原理分析视频课程( 扩展+自定义)
查看>>
第一周博客作业
查看>>
thinkpython2
查看>>
String、StringBuffer和StringBuilder的区别
查看>>
oracle recyclebin与flashback drop
查看>>
svmlight使用说明
查看>>
Swing 和AWT之间的关系
查看>>
Mysql设置自增长主键的初始值
查看>>
Android计时器正确应用方式解析
查看>>
获取post传输参数
查看>>
ASP生成静态页面的方法
查看>>
HDU 1325 Is It A Tree? 判断是否为一棵树
查看>>
Shell命令-文件压缩解压缩之gzip、zip
查看>>
个人总结
查看>>
uva 673 Parentheses Balance
查看>>
Bzoj 2252: [2010Beijing wc]矩阵距离 广搜
查看>>