聚类算法有哪几种

本文由用户“夏天多雨a”分享发布 更新时间:2021-08-23 16:04:28 举报文档

以下为《聚类算法有哪几种》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

聚类

定义:按某个标准把一个数据集分割成不同的类或簇,同类数据相似性尽可能大,异类数据差异性尽可能大。

聚类和分类的区别

聚类:是一种无监督学习方法,目标为聚合相似数据,并不预测。

分类:是一种监督学习方法,目标为分类,并预测未知数据。

聚类的一般过程

1.数据准备:特征标准化,降维。

2.特征选择:从最初特征选择最有效的特征,并将其存储在向量中。

3.特征提取:由选择的特征转换成新的突出特征。

4.聚类:基于某种距离函数度量相似度,获取簇。

5.聚类结果评估:分析聚类结果,如距离误差和(SSE)。

数据对象间的相似度度量

注:适用于数值型数据

/

Euclidean为2-范某某,Manhattan为1-范某某,Chebyshev为∞-范某某,Minkowski为p-范某某。

cluster(簇)之间的相似度度量

有些聚类算法(如层次聚类)需要额外衡量cluster之间的距离,假设Ci和Cj之间的距离为两个cluster,则前四种方法定义的Ci和Cj之间的距离如下表所示。

/

Single-link定义的距离为两个cluster之间距离最近的两点间的距离,聚类时会产生链式效应,即可能会出现非常大的cluster。

Complete-link定义的距离为两个cluster之间距离最远的两点间距离,可以避免链式效应,但对异常样本点(不符合数据集的整体分布的噪声点)却非常敏感,容易产生不合理的聚类。

UPGMA是上述两种方法的折中,cluster之间距离为所有点距离的平均值。

WPGMA是两个cluster之间的距离的加权平均值。

数据聚类方法

/

划分式聚类方法

需要事先指定簇类的数目或者聚类中心,通过反复迭代,直至最后达到“簇内的点足够近,簇间的点足够远”的目标。

经典的划分式聚类方法由k-means及其变体k-means++、bi-kmeans、kernel k-means等。

k-means算法

流程如下。

/

经典k-means算法由以下几个特点:

1.需要提前确定k值。

2.对初始质心点敏感。

3.对异常数据敏感。

k-means源代码

主程序

%% input the data

A = load('testSet.txt');

%% 计算质心

centroids = kMeans(A, 4);

随机选取质心

%% 取得随机中心

function [ centroids ] = randCent( dataSet, k )

[m,n] = size(dataSet);%取得列数

centroids = zeros(k, n);

for j = 1:n

minJ = min(dataSet(:,j));

rangeJ = max(dataSet(:,j))-min(dataSet(:,j));

centroids(:,j) = minJ+rand(k,1)*rangeJ;%产生区间上的随机数

end

end

计算相似性

function [ dist ] = distence( vecA, vecB )

dist = (vecA-vecB)*(vecA-vecB)';%这里取欧式距离的平方

end

k-means主程序

%% kMeans的核心程序,不断迭代求解聚类中心

function [ centroids ] = kMeans( dataSet, k )

[m,n] = s 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 )=0;

else

step1_data(j,k)=(pre_data(j,k)-(xm-2*xs))/(4*xs);

end

end

end

xlswrite('norm_data.xlsx',step1_data);

%% 层次聚类

numClust=3;

dist_h='spearman';

link='weighted';

hidx=clusterdata(step1_data,'maxclust',numClust,'distance',dist_h,'linkage',link);

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

  1. 数据科学与大数据技术培养方案
  2. 关于卡佐设备掉线原因分析
  3. 大数据可视化分析 实训报告
  4. 3.2中位众数练习题
  5. 大数据对传统小数据的拓展及其区别与联系
  6. 交往中的距离
  7. 20-21-1《数据库原理》实验报告及要求()
  8. 汉语短语结构类型
  9. 火车采集器说明文档
  10. java学习
  11. 后疫情时代的经济学分析 ——中文
  12. 数据库复习知识点(1)
  13. 3.1数据编码第2课时-【新教材】教科版()高中信息技术必修一教案
  14. 裴庄产线自动化数据断网应急处置办法
  15. python笔记
  16. 大数据立法建议
  17. 条形统计图教学设计
  18. 数据分析实战EXCEL实现复购率计算

以上为《聚类算法有哪几种》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览