当前位置：首页 > news >正文

广州企业网站建设电话产品推广软文500字

news 2026/4/8 5:07:47

广州企业网站建设电话,产品推广软文500字,Net网站开发多少钱,西安知名网站制作公司基本概念 K-Means 聚类算法的目标是将数据集分成 ( K ) 个簇，使得每个簇内的数据点尽可能相似，而簇与簇之间尽可能不同。这种相似度是通过计算数据点与簇中心的距离来衡量的。算法步骤选择簇的数量 ( K )：随机选择 ( K ) 个数据点作为初…

基本概念

K-Means 聚类算法的目标是将数据集分成 ( K ) 个簇，使得每个簇内的数据点尽可能相似，而簇与簇之间尽可能不同。这种相似度是通过计算数据点与簇中心的距离来衡量的。

算法步骤

选择簇的数量 ( K )：随机选择 ( K ) 个数据点作为初始簇中心（质心）。
分配数据点：将每个数据点分配到距离最近的簇中心，形成 ( K ) 个簇。
更新簇中心：重新计算每个簇的质心，即该簇所有数据点的均值。
重复步骤 2 和 3：直到簇中心的位置不再发生显著变化或达到预设的最大迭代次数。

距离度量

K-Means 算法中通常使用欧氏距离来度量数据点 ( x ) 和簇中心 ( y ) 之间的距离，

实现代码

以下是使用 Python 和 NumPy 实现 K-Means 聚类算法的示例代码：

import numpy as npclass KMeans:def __init__(self, k=3, max_iters=100):self.k = kself.max_iters = max_itersself.centroids = Nonedef fit(self, X):# 随机初始化簇中心self.centroids = X[np.random.choice(X.shape[0], self.k, replace=False)]for _ in range(self.max_iters):# 分配每个样本到最近的簇中心labels = self._assign_clusters(X)# 计算新的簇中心new_centroids = self._calculate_centroids(X, labels)# 检查簇中心是否发生变化if np.all(new_centroids == self.centroids):breakself.centroids = new_centroidsreturn labelsdef _assign_clusters(self, X):# 计算每个数据点到簇中心的距离，并分配到最近的簇中心distances = np.sqrt(((self.centroids[:, np.newaxis, :] - X[np.newaxis, :, :]) ** 2).sum(axis=2))return np.argmin(distances, axis=0)def _calculate_centroids(self, X, labels):# 计算每个簇的新簇中心new_centroids = np.array([X[labels == i].mean(axis=0) for i in range(self.k)])return new_centroidsdef predict(self, X):# 预测数据点的簇标签return self._assign_clusters(X)# 示例用法
if __name__ == "__main__":# 创建示例数据X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])# 创建KMeans实例kmeans = KMeans(k=2, max_iters=100)# 训练模型kmeans.fit(X)# 预测簇标签predictions = kmeans.predict(X)print("簇中心:\n", kmeans.centroids)print("预测簇标签:", predictions)