-
基本介绍数据仓库是一个面向主题的、集成的、相对稳定的且反映历史变化的数据集合,用于支持管理人员的决策
面向主题的:为特定的数据分析领域与目标提供数据支持,比如交易库、用户库等
集成的:面向分析的数据仓库需要集成多种不同数据源以及文件以进行比较鉴别
...
-
集成学习著重于在训练集上做文章,将训练集划分为各种子集或权重变换后用较弱的基函數擬合,然後綜合若干個基模型的預測作為最終整體效果
集成学习分類
Booststrap:有放回的抽样方法,是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。...
-
数据集载入12345678910import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt%matplotlib inlineimport seaborn as ...
-
数据集载入1234567891011121314151617181920212223242526272829303132333435# -*- coding: utf-8 -*-import pandas as pdimport numpy as n...
-
数据集载入123456789# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltimport seaborn ...
-
数据集载入123456789# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltimport seaborn ...
-
数据集载入123456789# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltimport seaborn ...
-
基本介绍
分而治之(divide-andconquer):
自根至叶的递归过程
在每个中间结点寻找一个”划分”属性
过程:
把数据集分成两组
不同数据点被完美区分(Pure)开了么?
不是:重复楼上两步
是的:打完收⼯
建树逻辑所有子树...
-
特性
基于概率,优点是可以对预测标签给出理论上完美的可能性估计
要求数据多维特征之间相互独立,因此在计算n维特征的联合分布时,才能简化成各自先验机率相乘
原理朴素贝叶斯是应用贝叶斯定理进行有监督学习的一种分类模型。在模型中,将贝叶斯定理公式 P(A...
-
特性
能适应”样本数少,特征维度高”的数据集
步骤基本原则
学习数据空间中的一个超平面达到二值分类目的,在普通线性可分问题中,符合分类要求的超平面会有无穷多个
尽可能找到最能平均分配两类数据中空白区域的超平面,亦即使得”与超平面距离最小的数据点的距...