当前位置: 首页 > news >正文

网站建设做什么衡阳seo优化首选

网站建设做什么,衡阳seo优化首选,东莞智通人才网登录,制作网站哪家便宜一、相似度计算方法 相似度算法是计算两个或多个对象之间相似程度的方法,这些对象可以是文本、图像、音频等不同类型的数据。在计算机科学、信息检索、推荐系统、数据挖掘等领域中,相似度算法具有广泛的应用。 二、应用场景 搜索引擎:用于文…

一、相似度计算方法

相似度算法是计算两个或多个对象之间相似程度的方法,这些对象可以是文本、图像、音频等不同类型的数据。在计算机科学、信息检索、推荐系统、数据挖掘等领域中,相似度算法具有广泛的应用。

在这里插入图片描述

二、应用场景

  • 搜索引擎:用于文本相似度计算,改善搜索结果的相关性。
  • 推荐系统:基于用户行为和兴趣相似度计算,提供个性化推荐。
  • 图像识别:比较图像的相似度,用于图像搜索和匹配。
  • 音频处理:用于语音识别和声音相似性比较。

三、距离函数

3.1 明可夫斯基(Minkowski)距离

对于任意样本对象 P = [ p 1 , p 2 , . . . , p n ] P=[p_1,p_2,...,p_n] P=[p1,p2,...,pn] Q = [ q 1 , q 2 , . . . , q n ] Q=[q_1,q_2,...,q_n] Q=[q1,q2,...,qn],它们之间的距离定义为
d ( P , Q ) = ( ∑ i = 1 n ( p i − q i ) 2 ) 1 k d(P, Q) = ({\sum_{i=1}^{n} (p_i - q_i)^2} )^{\frac{1}{k}} d(P,Q)=(i=1n(piqi)2)k1
k = 1 k=1 k=1时,即为曼哈顿(Manhattan)距离(L1距离),在某些特定的机器学习场景中,如Lasso回归(L1正则化),曼哈顿距离(或L1范数)被用作正则化项,以促进稀疏解的产生。定义如下:
d ( P , Q ) = ∑ i = 1 n ∣ p i − q i ∣ d(P, Q) = {\sum_{i=1}^{n} |p_i - q_i}| d(P,Q)=i=1npiqi
k = 2 k=2 k=2时,即为欧氏(Euclidean)距离(L2距离), 在聚类算法(如K-means)、分类算法(如K-NN)中,欧氏距离常被用作衡量样本之间相似度的指标。定义如下:
d ( P , Q ) = ∑ i = 1 n ( p i − q i ) 2 d(P, Q) = \sqrt {\sum_{i=1}^{n} (p_i - q_i)^2} d(P,Q)=i=1n(piqi)2
k = ∞ k=\infty k=时,即为切比雪夫(Chebyshev)距离
d ( P , Q ) = max ⁡ ∣ ( p i − q i ) ∣ ( 1 ⩽ i ⩽ n ) d(P, Q) =\max|(p_i - q_i)| (1⩽i⩽n) d(P,Q)=max(piqi)(1in)

3.2 马氏(Mahalanobis)距离

Mahalanobis距离考虑了属性之间的相关性,可以更加准确地衡量多维数据之间的距离。Mahalanobis距离是对Minkowski距离的改进,对于一切线性变换是不变的,克服了Minkowski距离受量纲影响的缺点,也部分地克服了多重相关性。Mahalanobis距离在分类算法中比较常用,但不足在于协方差矩阵难以确定,计算量比较大,不适合大规模数据集。公式如下:
d = ( p − q ) T A − 1 ( p − q ) d=(p-q)^TA^{-1}(p-q) d=(pq)TA1(pq)
其中, A A A n × n n×n n×n的协方差矩阵, A − 1 A^{−1} A1为协方差矩阵的逆。

3.3 汉明(Hamming)距离

汉明距离是指两个等长字符串在对应位置上不同字符(或比特)的数量。简单来说,它表示将一个字符串转换成另一个字符串所需替换的字符数。
d ( a , b ) = ∑ i = 1 n ( a i ≠ b i ) d(a,b)=\sum_{i=1}^{n}(a_i \neq b_i) d(a,b)=i=1n(ai=bi)
其中, n n n是字符串的长度, a i a_i ai b i b_i bi分别表示字符串 a a a b b b中第 i i i个位置的字符。如果 a i a_i ai b i b_i bi不相等,则求和项为1;否则为0。最终求和的结果即为两个字符串的汉明距离。例如,在特征匹配算法中,可以将图像的特征描述为二进制字符串,并使用汉明距离来衡量不同特征之间的相似度。

四、相似度(系数)

4.1 余弦相似度(Cosine Similarity)

余弦相似度是通过计算两个向量在多维空间中的夹角余弦值来评估它们的相似度。余弦相似度的取值范围是[-1, 1],夹角越小(即余弦值越接近于1),两个向量越相似。
cos ⁡ ( θ ) = a ⋅ b ∥ a ∥ ∥ b ∥ = ∑ i = 1 n ( a i b i ) ∑ i = 1 n a i 2 ∑ i = 1 n b i 2 \cos(\theta) = \frac{a \cdot b}{\|a\| \|b\|} = \frac{\sum_{i=1}^{n} (a_i b_i)}{\sqrt{\sum_{i=1}^{n} a_i^2} \sqrt{\sum_{i=1}^{n} b_i^2}} cos(θ)=a∥∥bab=i=1nai2 i=1nbi2 i=1n(aibi)
其中, a ⋅ b a⋅b ab 表示向量 a a a和向量 b b b的内积, ∣ ∣ a ∣ ∣ ||a|| ∣∣a∣∣ ∣ ∣ b ∣ ∣ ||b|| ∣∣b∣∣ 分别表示向量 a a a和向量 b b b的模(长度)

4.2 皮尔逊相关系数(Pearson Correlation Coefficient)

相关系数是对向量做标准差、标准化后的夹角余弦,表示两个向量的线性相关程度。
用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。皮尔逊相关系数具有平移不变性和尺度不变性,计算出了两个向量(维度)的相关性。
C o r r ( p , q ) = ∑ i n ( ( p i − p ˉ ) × ( q i − q ˉ ) ) ( ∑ i n ( p i − p ˉ ) 2 × ∑ i n ( q i − q ˉ ) 2 ) Corr(p,q)=\frac{\sum_{i}^{n}((p_i-\bar{p})\times(q_i-\bar{q}))}{\sqrt{(\sum_{i}^{n}(p_i-\bar{p})^2\times\sum_{i}^{n}(q_i-\bar{q})^2)}} Corr(p,q)=(in(pipˉ)2×in(qiqˉ)2) in((pipˉ)×(qiqˉ))
其中, n n n是样本量, p i p_i pi q i q_i qi分别是两个变量的第 i i i个特征值, p ‾ \overline{p} p q ‾ \overline{q} q分别是 p p p q q q的样本均值。

4.3 杰卡德相似系数(Jaccard Similarity Coefficient)

广义Jaccard系数又称为Tanimoto系数,用 E J EJ EJ表示,广泛用于信息检索和生物学分类中,在二次元性情况下简化为Jaccard系数。
E J ( p , q ) = ∑ i n p i × q i ∑ i n ( p i 2 ) ∑ i n ( q i 2 ) − ∑ i n ( p i × q i ) EJ(p,q)=\frac{\sum_{i}^{n}p_i\times q_i}{\sum_{i}^{n}({p_i}^2)\sum_{i}^{n}({q_i}^2)-\sum_{i}^{n}(p_i\times q_i)} EJ(p,q)=in(pi2)in(qi2)in(pi×qi)inpi×qi

4.4 KL散度

KL散度(Kullback-Leibler Divergence),即相对熵,是衡量两个分布(P、Q)之间的距离,计算出的距离越小越相似。
D K L ( p ∣ ∣ q ) = ∑ i = 1 n p i l o g p i q i D_{KL}(p||q)=\sum_{i=1}^{n}p_i log\frac{p_i}{q_i} DKL(p∣∣q)=i=1npilogqipi
表示的就是概率 q q q 与概率 p p p 之间的差异,很显然,散度越小,说明概率 q q q 与概率 p p p 之间越接近,那么估计的概率分布于真实的概率分布也就越接近。

4.5 结构相似性指数(Structural Similarity Index, SSIM)

结构相似性指数(Structural Similarity Index, SSIM)是一种用于衡量两幅图像之间相似度的指标。它通过比较图像的亮度、对比度和结构信息来确定两幅图像之间的相似程度。SSIM指数的取值范围是0到1之间,其中:1表示两幅图像完全相同,0表示两幅图像差异极大。

SSIM主要由以下三个方面组成:

  1. 亮度相似度(Luminance Similarity):反映了两幅图像的亮度信息是否一致。
  2. 对比度相似度(Contrast Similarity):反映了两幅图像的对比度信息是否一致。
  3. 结构相似度(Structure Similarity):反映了两幅图像的结构信息是否一致。

SSIM的计算公式为:

SSIM ( x , y ) = ( 2 μ x μ y + c 1 ) ( 2 σ x y + c 2 ) ( μ x 2 + μ y 2 + c 1 ) ( σ x 2 + σ y 2 + c 2 ) \text{SSIM}(x,y) = \frac{(2\mu_x\mu_y + c_1)(2\sigma_{xy} + c_2)}{(\mu_x^2 + \mu_y^2 + c_1)(\sigma_x^2 + \sigma_y^2 + c_2)} SSIM(x,y)=(μx2+μy2+c1)(σx2+σy2+c2)(2μxμy+c1)(2σxy+c2)

其中, x x x y y y 是待比较的两幅图像, μ x \mu_x μx μ y \mu_y μy 分别是 x x x y y y 的均值, σ x \sigma_x σx σ y \sigma_y σy 分别是 x x x y y y 的标准差, σ x y \sigma_{xy} σxy x x x y y y 的协方差。 c 1 c_1 c1 c 2 c_2 c2 是两个常数,用于避免分母为0,并调整结构相似度的范围。

http://www.hkea.cn/news/642508/

相关文章:

  • 网站模板资源公司网站推广
  • 广东省建设教育协会官方网站首页html简单网页代码
  • 个人网站意义阿里指数官网最新版本
  • 网站开发方式有哪四种搜索引擎优化课程总结
  • 申请做网站、论坛版主app推广接单
  • 青海网站建设广州seo优化推广
  • 物流公司网站制作模板上海网站关键词排名
  • 广西建设人才网搜索引擎优化的目标
  • 比汉斯设计网站素材图片搜索识图入口
  • php网站架设教程英雄联盟韩国
  • 做毕设好的网站百度客服电话24小时
  • 上海手机网站建设电话咨询seo综合查询系统
  • wordpress 4.6 中文版沈阳seo
  • 文件管理软件天津搜索引擎优化
  • 九亭网站建设全国疫情高峰时间表最新
  • 青岛网站建设公司武汉seo收费
  • mvc网站建设的实验报告怎么做优化
  • 有官网建手机网站千锋教育培训多少钱费用
  • b2c交易模式的网站有哪些百度营销客户端
  • flash 学习网站重庆网站seo多少钱
  • 年终总结ppt模板免费下载网站小红书seo排名规则
  • 自己架设网站口碑营销的产品有哪些
  • 湖北省网站备案最快几天天津百度推广排名优化
  • app在线开发制作平台seo网络优化前景怎么样
  • 商务网站的基本情况网站建设工作总结
  • 山西建设厅网站网络销售怎么聊客户
  • 软装素材网站有哪些seo网络排名优化哪家好
  • 邯郸市做网站建设网络口碑营销案例分析
  • 罗湖网站建设联系电话西安核心关键词排名
  • 如何编写网站电脑清理软件十大排名