一、分布
关注分布的总体形状,关注要点:
数据分布
最值
数据集是大是小
是否有聚类
极异常数据
不寻常或显著的特征:空白段、锐减、异常值等
二、数据点和抖动图jitter plot
抖动jittering
用透明的开环作为数据点的符号
三、直方图histogram和核密度估计KDE
直方图不能很优雅地处理一些异常点
形成一个KDE就相当于对数据集的核函数做一次卷积
四、累计分布函数CDF cumulative distribution function
能对数据做出定量的描述
五、秩序图和上升图
如果自变量没有固定顺序,或没有有意义的顺序关系时,最好能按因变量进行排序。
累计分布曲线有时候也称为升力曲线lift curve。
六、汇总统计量和箱型图
在假设绝对正确的情况下,汇总统计量是有意义的,否则可能会误导。
平均数、分位数和相关的摘要统计只适用于单一中心峰的分布---即单峰unimodal分布。
m:平均数
s:标准差
实际情况的很多数据集,可以预计大约有2/3的数据点落在[m-s, m+s]区段中,
99%的数据点落在[m-3s, m+3s]区段中。
中位数:数据集中有一半比它大,有一半比它小。衡量分布的位置。一旦分布变得扭曲,基于均值测量分布的位置的基本假设就不再成立,此时用中位数更好。
百分位数是将这个概念推广到其他比例。第10百分位数是,数据集中有10%的点的值比它小。可以使用百分位数来构建一个测量分布宽度的量。最常用的量是四分位数间距,是第75百分位数和第25百分位数之间的距离。
Box-and-Whisker箱型图
包含以下要素:
1、中位数标记
2、一个盒子,跨越四分位数间距,用于测量分布的宽度
3、一些线条whisker,从中间的盒子延伸到上下临界值
4、临界值以外的所有值的单个符号,代表异常值