探索性数据分析
丹丹

数据组成

结构化

  • 数值型数据
    • 连续型
    • 离散型
  • 分类型数据
    • 分类型
    • 二元型
    • 有序型

非结构化

  • 时序数据:对同一变量连续的采集,多用在IOT领域
  • 空间数据:关注对象与空间座标
  • 图形数据:物理、社交网络上的关系,多用在网络优化和推荐系统

单变量分析-位置估计

均值

  • 一般均值
  • 切尾均值
  • 加权均值
    • 例如对不敏感或低信任的数据源降权

稳健估计量

稳健指的是对极值不敏感,同义词为耐抗性

  • 一般中位数
  • 加权中位数

单变量分析-变异性估计

变异性是统计学的一个核心概念,统计学关注如何测量变异性、如何降低变异性、如何识别真实变异性的各种来源、如何在存在变异性的情况下做出决策

标准偏差

  • 标准偏差
    • 负的会抵销正的
  • 平均绝对偏差
  • 方差
    • 如果在方差公式使用了直观的除数n,就会低估方差的真实质和总体的标准偏差,这被称为有偏估计。但如果除以n-1则为无偏估计。在这种情况下自由度是n-1,因为其中有一个限制:标准偏差依赖于计算样本的均值。大多数情况下样本数够大,不用担心这问题
  • 标准偏差
  • 中位数绝对偏差(MAD)
    • 方差、偏差对于极值会很敏感,因为平方。相对来说MAD就是一个稳健的估计量

基于百分位数的估计量

  • 四分位距
  • 全距

单变量分析-探索数据分布

数值型数据

  • 箱型图
  • 频数图/直方图
  • 核密度图

分类型数据

  • 条型图
  • 饼图
  • 期望值
  • 众数

双变量分析-相关性

  • 相关矩阵
  • 散点图

多变量分析

  • 六边形图
  • 等势线图
  • 列联表
    • 两个特征交叉后计数
  • 小提琴图

参考:

  1. 从机器学习到深度学习:基于Scikit-learn与TensorFlow的高效开发实战