BIRCH

机器学习主要有三种方式：监督学习，无监督学习与半监督学习。

（1）监督学习：从给定的训练数据集中学习出一个函数，当新的数据输入时，可以根据函数预测相应的结果。监督学习的训练集要求是包括输入和输出，也就是特征和目标。训练集中的目标是有标注的。如今机器学习已固有的监督学习算法有可以进行分类的，例如贝叶斯分类，SVM，ID3，C4.5以及分类决策树，以及现在最火热的人工神经网络，例如BP神经网络，RBF神经网络，Hopfield神经网络、深度信念网络和卷积神经网络等。人工神经网络是模拟人大脑的思考方式来进行分析，在人工神经网络中有显层，隐层以及输出层，而每一层都会有神经元，神经元的状态或开启或关闭，这取决于大数据。同样监督机器学习算法也可以作回归，最常用便是逻辑回归。

（2）无监督学习：与有监督学习相比，无监督学习的训练集的类标号是未知的，并且要学习的类的个数或集合可能事先不知道。常见的无监督学习算法包括聚类和关联，例如K均值法、Apriori算法。

（3）半监督学习：介于监督学习和无监督学习之间,例如EM算法。

1 算法摘要

利用层次方法的平衡迭代规约和聚类（Balanced Iterative Reducing and Clustering Using Hierarchies，BIRCH）算法是一种层次聚类算法，主要应用于对样本数据进行聚类。由于引入簇结构，能够客服一般聚类的不可伸缩性和扩展性，使得该聚类方法在大型数据库中取得良好的速度和伸缩性。

Birch算法既能对大规模数值数据进行聚类，又能够有效地处理离群点。Birch算法只需扫描一遍数据库就可以得到一个好的聚类效果，而且不需事先设定聚类个数，克服了K-Means算法需要预先设定聚类中心点个数的缺点。

BIRCH算法的特点： (1)试图用可用的资源生成最好的聚类结果；(2)采用多阶段聚类技术；(3)是一种增量的聚类方法，因为对每个数据点的聚类的决策是基于当前已经处理过的数据点，而不是基于全局的数据点；(4)只对球形的簇状结构能起到很好的作用。

该算法在进行聚类时，一般包含两个步骤：(1)单遍扫描数据，建立一颗存放于内存的初始CF树；(2)采用某个选定的聚类算法对CF树的叶节点进行聚类，把稀疏的簇作为异常点删除而把稠密的簇合并为更大的簇。

优缺点

优点：节省内存空间，计算速度加快；可识别噪声点

缺点：结果依赖于数据点的插入顺序；对非球状的簇聚类效果不好；算法在计算过程中一旦中断，一切必须从头再来；算法的局部性导致有可能出现聚类效果欠佳。

BIRCH

BIRCH

相关应用

优缺点