当前位置：首页 > news >正文

网站建设需要什么方案上海谷歌seo公司

news 2026/4/14 21:32:21

网站建设需要什么方案,上海谷歌seo公司,郴州网站设计公司,成都网站设计师大家好#xff0c;聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术#xff0c;用于发现数据中的有趣模式#xff0c;例如基于其行为的客户群。有许多聚类算法可供选择#xff0c;对于所有情况#xff0c;没有单一的最佳聚类算法。相反#xff0c;最好探索一系…大家好聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术用于发现数据中的有趣模式例如基于其行为的客户群。有许多聚类算法可供选择对于所有情况没有单一的最佳聚类算法。相反最好探索一系列聚类算法以及每种算法的不同配置。在本教程中你将发现如何在 python 中安装和使用顶级聚类算法。看完本文后你将知道聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集有许多不同的聚类算法和单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适配和使用顶级聚类算法。一、聚类聚类分析即聚类是一项无监督的机器学习任务。它包括自动发现数据中的自然分组。与监督学习类似预测建模不同聚类算法只解释输入数据并在特征空间中找到自然组或群集。群集通常是特征空间中的密度区域其中来自域的示例观测或数据行比其他群集更接近群集。群集可以具有作为样本或点特征空间的中心(质心)并且可以具有边界或范围。聚类还可用作特征工程的类型其中现有的和新的示例可被映射并标记为属于数据中所标识的群集之一。虽然确实存在许多特定于群集的定量措施但是对所识别的群集的评估是主观的并且可能需要领域专家。通常聚类算法在人工合成数据集上与预先定义的群集进行学术比较预计算法会发现这些群集。二、聚类算法有许多类型的聚类算法。许多算法在特征空间中的示例之间使用相似度或距离度量以发现密集的观测区域。因此在使用聚类算法之前扩展数据通常是良好的实践。一些聚类算法要求您指定或猜测数据中要发现的群集的数量而另一些算法要求指定观测之间的最小距离其中示例可以被视为“关闭”或“连接”。因此聚类分析是一个迭代过程在该过程中对所识别的群集的主观评估被反馈回算法配置的改变中直到达到期望的或适当的结果。scikit-learn 库提供了一套不同的聚类算法供选择。下面列出了10种比较流行的算法亲和力传播聚合聚类BIRCHDBSCANK-均值Mini-Batch K-均值Mean ShiftOPTICS光谱聚类高斯混合每个算法都提供了一种不同的方法来应对数据中发现自然组的挑战。没有最好的聚类算法也没有简单的方法来找到最好的算法为您的数据没有使用控制实验。在本教程中我们将回顾如何使用来自 scikit-learn 库的这10个流行的聚类算法中的每一个。这些示例将为您复制粘贴示例并在自己的数据上测试方法提供基础。我们不会深入研究算法如何工作的理论也不会直接比较它们。让我们深入研究一下。三、聚类算法示例现在我们将讲一下如何在 scikit-learn 中使用10个流行的聚类算法。这包括一个拟合模型的例子和可视化结果的例子。这些示例用于将粘贴复制到您自己的项目中并将方法应用于您自己的数据。首先让我们安装库。不要跳过此步骤因为你需要确保安装了最新版本。你可以使用 pip Python 安装程序安装 scikit-learn 存储库如下所示pip install scikit-learn接下来让我们确认已经安装了库并且您正在使用一个现代版本。运行以下脚本以输出库版本号。# 检查 scikit-learn 版本 import sklearn print(sklearn.__version__)我们将使用 make _ classification ()函数创建一个测试二分类数据集。数据集将有1000个示例每个类有两个输入要素和一个群集。这些群集在两个维度上是可见的因此我们可以用散点图绘制数据并通过指定的群集对图中的点进行颜色绘制。这将有助于了解至少在测试问题上群集的识别能力如何。该测试问题中的群集基于多变量高斯并非所有聚类算法都能有效地识别这些类型的群集。因此本教程中的结果不应用作比较一般方法的基础。下面列出了创建和汇总合成聚类数据集的示例。# 综合分类数据集 from numpy import where from sklearn.datasets import make_classification from matplotlib import pyplot # 定义数据集 X, y make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 为每个类的样本创建散点图 for class_value in range(2): # 获取此类的示例的行索引 row_ix where(y class_value) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例将创建合成的聚类数据集然后创建输入数据的散点图其中点由类标签理想化的群集着色。我们可以清楚地看到两个不同的数据组在两个维度并希望一个自动的聚类算法可以检测这些分组。接下来我们可以开始查看应用于此数据集的聚类算法的示例。我已经做了一些最小的尝试来调整每个方法到数据集。1.亲和力传播亲和力传播包括找到一组最能概括数据的范例。它是通过 AffinityPropagation 类实现的要调整的主要配置是将“ 阻尼 ”设置为0.5到1甚至可能是“首选项”。下面列出了完整的示例:# 亲和力传播聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import AffinityPropagation from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model AffinityPropagation(damping0.9) # 匹配模型 model.fit(X) # 为每个示例分配一个集群 yhat model.predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下我无法取得良好的结果。2.聚合聚类聚合聚类涉及合并示例直到达到所需的群集数量为止。它是层次聚类方法的更广泛类的一部分通过 AgglomerationClustering 类实现的主要配置是“ n _ clusters ”集这是对数据中的群集数量的估计。下面列出了完整的示例:# 聚合聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import AgglomerativeClustering from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model AgglomerativeClustering(n_clusters2) # 模型拟合与聚类预测 yhat model.fit_predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下可以找到一个合理的分组。3.BIRCHBIRCH 聚类 BIRCH 是平衡迭代减少的缩写聚类使用层次结构)包括构造一个树状结构从中提取聚类质心。它是通过 Birch 类实现的主要配置是“ threshold ”和“ n _ clusters ”超参数后者提供了群集数量的估计。下面列出了完整的示例:# birch聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import Birch from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model Birch(threshold0.01, n_clusters2) # 适配模型 model.fit(X) # 为每个示例分配一个集群 yhat model.predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下可以找到一个很好的分组。4.DBSCANDBSCAN 聚类其中 DBSCAN 是基于密度的空间聚类的噪声应用程序涉及在域中寻找高密度区域并将其周围的特征空间区域扩展为群集。它是通过 DBSCAN 类实现的主要配置是“ eps ”和“ min _ samples ”超参数。下面列出了完整的示例:# dbscan 聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import DBSCAN from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model DBSCAN(eps0.30, min_samples9) # 模型拟合与聚类预测 yhat model.fit_predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下尽管需要更多的调整但是找到了合理的分组。5.K均值K-均值聚类可以是最常见的聚类算法并涉及向群集分配示例以尽量减少每个群集内的方差。它是通过 K-均值类实现的要优化的主要配置是“ n _ clusters ”超参数设置为数据中估计的群集数量。下面列出了完整的示例:# k-means 聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import KMeans from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model KMeans(n_clusters2) # 模型拟合 model.fit(X) # 为每个示例分配一个集群 yhat model.predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下可以找到一个合理的分组尽管每个维度中的不等等方差使得该方法不太适合该数据集。6.Mini-Batch K-均值Mini-Batch K-均值是 K-均值的修改版本它使用小批量的样本而不是整个数据集对群集质心进行更新这可以使大数据集的更新速度更快并且可能对统计噪声更健壮。它是通过 MiniBatchKMeans 类实现的要优化的主配置是“ n _ clusters ”超参数设置为数据中估计的群集数量。下面列出了完整的示例:# mini-batch k均值聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import MiniBatchKMeans from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model MiniBatchKMeans(n_clusters2) # 模型拟合 model.fit(X) # 为每个示例分配一个集群 yhat model.predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下会找到与标准 K-均值算法相当的结果。7.均值漂移聚类均值漂移聚类涉及到根据特征空间中的实例密度来寻找和调整质心。它是通过 MeanShift 类实现的主要配置是“带宽”超参数。下面列出了完整的示例:# 均值漂移聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import MeanShift from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model MeanShift() # 模型拟合与聚类预测 yhat model.fit_predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下可以在数据中找到一组合理的群集。8.OPTICSOPTICS 聚类 OPTICS 短于订购点数以标识聚类结构是上述 DBSCAN 的修改版本。它是通过 OPTICS 类实现的主要配置是“ eps ”和“ min _ samples ”超参数。下面列出了完整的示例:# optics聚类 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import OPTICS from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model OPTICS(eps0.8, min_samples10) # 模型拟合与聚类预测 yhat model.fit_predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下我无法在此数据集上获得合理的结果。9.光谱聚类光谱聚类是一类通用的聚类方法取自线性线性代数。它是通过 Spectral 聚类类实现的而主要的 Spectral 聚类是一个由聚类方法组成的通用类取自线性线性代数。要优化的是“ n _ clusters ”超参数用于指定数据中的估计群集数量。下面列出了完整的示例:# spectral clustering from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.cluster import SpectralClustering from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model SpectralClustering(n_clusters2) # 模型拟合与聚类预测 yhat model.fit_predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下找到了合理的集群。10.高斯混合模型高斯混合模型总结了一个多变量概率密度函数顾名思义就是混合了高斯概率分布。它是通过 Gaussian Mixture 类实现的要优化的主要配置是“ n _ clusters ”超参数用于指定数据中估计的群集数量。下面列出了完整的示例:# 高斯混合模型 from numpy import unique from numpy import where from sklearn.datasets import make_classification from sklearn.mixture import GaussianMixture from matplotlib import pyplot # 定义数据集 X, _ make_classification(n_samples1000, n_features2, n_informative2, n_redundant0, n_clusters_per_class1, random_state4) # 定义模型 model GaussianMixture(n_components2) # 模型拟合 model.fit(X) # 为每个示例分配一个集群 yhat model.predict(X) # 检索唯一群集 clusters unique(yhat) # 为每个群集的样本创建散点图 for cluster in clusters: # 获取此群集的示例的行索引 row_ix where(yhat cluster) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()运行该示例符合训练数据集上的模型并预测数据集中每个示例的群集。然后创建一个散点图并由其指定的群集着色。在这种情况下我们可以看到群集被完美地识别。这并不奇怪因为数据集是作为 Gaussian 的混合生成的。

查看全文

http://www.hkea.cn/news/14266109/