探索性数据分析
数据组成
结构化
- 数值型数据
- 连续型
- 离散型
- 分类型数据
- 分类型
- 二元型
- 有序型
非结构化
- 时序数据:对同一变量连续的采集,多用在IOT领域
- 空间数据:关注对象与空间座标
- 图形数据:物理、社交网络上的关系,多用在网络优化和推荐系统
单变量分析-位置估计
均值
- 一般均值
- 切尾均值
- 加权均值
- 例如对不敏感或低信任的数据源降权
稳健估计量
稳健指的是对极值不敏感,同义词为耐抗性
- 一般中位数
- 加权中位数
单变量分析-变异性估计
变异性是统计学的一个核心概念,统计学关注如何测量变异性、如何降低变异性、如何识别真实变异性的各种来源、如何在存在变异性的情况下做出决策
标准偏差
- 标准偏差
- 负的会抵销正的
- 平均绝对偏差
- 方差
- 如果在方差公式使用了直观的除数n,就会低估方差的真实质和总体的标准偏差,这被称为有偏估计。但如果除以n-1则为无偏估计。在这种情况下自由度是n-1,因为其中有一个限制:标准偏差依赖于计算样本的均值。大多数情况下样本数够大,不用担心这问题
- 标准偏差
- 中位数绝对偏差(MAD)
- 方差、偏差对于极值会很敏感,因为平方。相对来说MAD就是一个稳健的估计量
基于百分位数的估计量
- 四分位距
- 全距
单变量分析-探索数据分布
数值型数据
- 箱型图
- 频数图/直方图
- 核密度图
分类型数据
- 条型图
- 饼图
- 期望值
- 众数
双变量分析-相关性
- 相关矩阵
- 散点图
多变量分析
- 六边形图
- 等势线图
- 列联表
- 两个特征交叉后计数
- 小提琴图
参考: