当前位置: 首页 > news >正文

中文域名做的网站有哪些浏览网址大全

中文域名做的网站有哪些,浏览网址大全,皮具网站建设策划书,六安市网站建设目录 齐普夫定律解释公式解释图与公式的关系代码与图的分析结论 使用对数表达方式的原因1. 线性化非线性关系2. 方便数据可视化和分析3. 降低数值范围4. 方便参数估计公式详细解释结论 来自#xff1a;https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/language-model… 目录 齐普夫定律解释公式解释图与公式的关系代码与图的分析结论 使用对数表达方式的原因1. 线性化非线性关系2. 方便数据可视化和分析3. 降低数值范围4. 方便参数估计公式详细解释结论 来自https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/language-models-and-dataset.html 齐普夫定律解释 齐普夫定律Zipf’s Law是一种描述自然语言中单词频率分布的经验法则它指出在一个文本或语料库中单词的频率与其出现的排名成反比关系。具体来说频率最高的单词出现的次数最多排名第二的单词出现的次数大约是最高频单词的一半排名第三的单词出现次数是最高频单词的三分之一依此类推。 公式解释 齐普夫定律的数学表达式可以表示为 n i ∝ 1 i α n_i \propto \frac{1}{i^\alpha} ni​∝iα1​ 其中 n i n_i ni​ 表示第 ( i ) 个单词的频率( i ) 是该单词的排名( \alpha ) 是一个常数。为了便于理解这个公式可以变形为 [ n_i \frac{C}{i^\alpha} ] 其中 ( C ) 是一个归一化常数。 在图8.3.7和8.3.8中这个公式被进一步转化为对数形式以便在对数坐标系中表现出线性关系 [ \log n_i -\alpha \log i c ] 这里( \log n_i ) 是单词频率的对数( \log i ) 是单词排名的对数( \alpha ) 是斜率( c ) 是截距。 图与公式的关系 在图中绘制了词频与排名的对数图。通过对图像进行对数变换可以观察到频率与排名之间的关系是否遵循齐普夫定律。如果单词频率与排名在对数坐标系中呈现一条直线这意味着词频与排名确实遵循齐普夫定律即 [ \log n_i -\alpha \log i c ] 从图中我们可以看到词频分布在对数坐标系中近似为一条直线这验证了齐普夫定律的正确性。 代码与图的分析 从代码和图中我们可以看到以下几个步骤 统计词频读取文本数据并进行分词统计每个单词的出现频率。排序根据单词的出现频率对单词进行排序得到每个单词的排名。绘制图形在对数坐标系中绘制单词的频率和排名的关系图。 代码示例如下 import random import torch from d2l import torch as d2ltokens d2l.tokenize(d2l.read_time_machine()) corpus [token for line in tokens for token in line] vocab d2l.Vocab(corpus) vocab.token_freqs[:10]freqs [freq for token, freq in vocab.token_freqs] d2l.plot(freqs, xlabeltoken: x, ylabelfrequency: n(x),xscalelog, yscalelog)上面的代码统计了文本数据中的词频并在对数坐标系中绘制了词频图。 结论 通过以上分析我们可以理解齐普夫定律的基本概念及其数学表示方式并通过代码和图形验证了齐普夫定律在自然语言词频分布中的应用。具体地通过观察词频和排名在对数坐标系中的线性关系我们可以确认自然语言中的单词频率确实遵循齐普夫定律。 使用对数表达方式的原因 使用对数表达方式[ \log n_i -\alpha \log i c ]的原因主要有以下几点 1. 线性化非线性关系 齐普夫定律本身是一个非线性关系 [ n_i \propto \frac{1}{i^\alpha} ] 通过取对数两边都取对数后变为线性关系 [ \log n_i -\alpha \log i c ] 这使得我们可以用直线来描述这个关系而直线在统计学和数据分析中更容易处理和理解。 2. 方便数据可视化和分析 对数坐标系能够更直观地展示数据的幂律分布特性。在对数坐标系中幂律分布的数据点会呈现为一条直线这使得我们可以更容易地识别和验证数据是否符合齐普夫定律。 在图中横轴单词排名和纵轴单词频率都取对数如果数据点近似排列成一条直线就说明词频分布符合齐普夫定律。这种图形化表示使得观察和分析数据的分布规律变得直观和简单。 3. 降低数值范围 自然语言中的单词频率差异很大频率最高的单词和频率最低的单词可能相差几个数量级。直接使用原始数据进行分析和可视化会遇到数值范围过大的问题导致图形难以阅读和解释。而通过取对数可以压缩数据的范围使得不同频率的单词在图中更紧凑地展示便于比较和分析。 4. 方便参数估计 在对数空间中线性回归可以用来估计幂律分布中的参数。通过线性回归我们可以得到斜率 ( -\alpha ) 和截距 ( c )进而估计出原始幂律分布的参数。这在统计建模和参数估计中非常实用。 公式详细解释 原始齐普夫定律公式 [ n_i \propto \frac{1}{i^\alpha} ] 取对数后变为 [ \log n_i \log \left( \frac{C}{i^\alpha} \right) ] 其中 ( C ) 是归一化常数进一步分解 [ \log n_i \log C - \alpha \log i ] 将 ( \log C ) 记作 ( c )因为 ( C ) 是常数所以 ( \log C ) 也是常数最终得到 [ \log n_i -\alpha \log i c ] 结论 通过使用对数表达方式我们将非线性的幂律关系转化为线性关系使得数据可视化、分析和参数估计变得更加直观和方便。这种方法不仅简化了分析过程也增强了结果的解释力和可视化效果。
http://www.hkea.cn/news/14556433/

相关文章:

  • 学校网站建设年度总结湖南网络工程职业学院
  • 成都市建设网站首页上海网站制作服务
  • 做网站公司需要多少钱iis做的网站如何添加播放器
  • 网站开发需要什么服务器如何做网站 知乎
  • 服务企业网站建设的ITwordpress栏目id顺序
  • 做彩票网站需要境外微信官网网页版登录入口
  • 提升网站流量网站优化分析软件
  • 个人备案域名可以做哪些网站吗网站开发可行性技术方案
  • 网站是否被k无锡平台公司
  • 江苏建设科技网站禅城网站开发
  • wordpress手机图片站公司建设网站属于什么科目
  • 石家庄栾城区建设局网站企业品牌vi设计
  • 深圳市鸿运通网站建设网站关键词的选择
  • 怎样做微课网站网站底部导航
  • 哪些网站适合用自适应建站软件免费试用
  • 专业做家居的网站企业展厅设计公司哪家好怎么样
  • 移动网站建设渠道彩票网站建设一条龙
  • 网站的icp 备案信息提供大良网站建设
  • 网站月流量如何使用阿里云建站
  • 网站怎么在工信部备案信息郑州新闻
  • 电脑培训班速成班附近纯静态网站页面优化
  • jquery+js网站模板免费下载成品短视频app源码的下载方法
  • 江苏网站关键词优化优化网站的开发方法有哪些
  • 河南省重点项目建设网站直播视频app
  • 个人网站设计公司门户网站建设企业
  • php网站代做是什么意思档案网站建设的意义
  • 重庆网站建设jwzcq包头企业网站制作
  • 网站与规划设计思路Wordpress前端用户头像
  • 合肥大型网站开发公司梅州免费建站找哪家
  • 寺庙网站建设方案兰州又要封城了