当前位置: 首页 > news >正文

免费的微网站哪个好php导航网站

免费的微网站哪个好,php导航网站,绍兴app定制,深圳互联网网站建设文章目录 2025WEB数据管理 串讲第2讲 网络爬虫技术爬虫定义爬取过程#xff08;例子不考#xff09;URL normalization#xff08;规范化#xff09;文档指纹FPURL 判重 爬虫功能 第3讲 网页分析技术正则表达式 Regular Expression定义作用特点 文档对象模型#xff08;do… 文章目录 2025WEB数据管理 串讲第2讲 网络爬虫技术爬虫定义爬取过程例子不考URL normalization规范化文档指纹FPURL 判重 爬虫功能 第3讲 网页分析技术正则表达式 Regular Expression定义作用特点 文档对象模型document object modelDOM定义 正则表达式与DOM树方法的比较HTML解析器 HTML ParserBeautiful Soup 模块RE 与 BeautifulSoup 的比较 Scrapy 介绍 第4讲 爬虫与网站的博弈Robot 协议User-agentIP屏蔽用户登陆模拟浏览器进行交互验证码 第5讲 数据抽取与包装器Web数据抽取包装器Web 数据抽取评价标准 第6讲 包装器页面抽取方法网页的分类多记录数据型页面的抽取方法单记录数据型页抽取方法单文档型页面Authority抽取方法结合视觉信息的抽取方法抽取路径学习/路径规则改进的自适应数据抽取方法 第7讲 web数据存储爬虫数据存储scrapy 支持的数据格式CSV(comma-separated values)JSON文件XML文件 存入数据库 第8讲 web数据预处理Web上爬取的数据数据无量纲化归一化和标准化的区别如何选择 归一化 or 标准化为什么要归一化 / 标准化 离散化的自动方法类别特征编码白化 Whitening 第9讲 文本预处理中文分词(Chinese Word Segmentation)定义方法1基于理解的分词方法方法2基于字符串匹配的分词方法方法3基于统计的分词方法 基于HMM的中文分词方法隐马尔科夫模型的三个基本问题HMM实现中文分词 第10讲 文本表示文本向量化主题模型 topic modelingPLSA主题模型LDA主题模型 文档哈希 第11讲 语言模型统计语言模型N-Gram语言模型 神经网络语言模型NNLM 第12讲 词嵌入和文档嵌入词向量化Word2Vec3个用处 CBOWContinuous Bag-of-Words1. 核心思想2. 模型结构3. 数学表示5. 应用 Skip-Gram1. 核心思想2. 模型结构3. 训练优化4. 特点 Doc2VecGlove损失函数公式 第13讲 文本分类FastText子词嵌入FastText 文本分类 TextCNN 第14讲 WEB图像数据颜色特征颜色直方图 ColorHistogram颜色矩 ColorMoment 纹理特征LBP特征 Local Binary Patterns 局部形状特征HOG特征SIFT特征 2025WEB数据管理 串讲 题型填空、名词解释、简答所有的内容都在ppt上不考编程 参考 https://blog.csdn.net/weixin_63184383/article/details/145727824 第2讲 网络爬虫技术 爬虫定义 爬取过程例子不考 URL normalization规范化 对URL进行标准化处理的过程将不同的URL转换为统一的、符合规范的等价URL 文档指纹FP 大批量文档快速判重 shingle算法MinHashSimhash算法KSentence算法 URL 判重 提高查找和访问效率在散列表中存放网址经过散列函数计算出的对应的固定长度的散列值这样可以在平均情况下 O ( 1 ) O(1) O(1)的时间内查找和更新占用 O ( n ) O(n) O(n)空间的网址列表 爬虫功能 礼貌性: Web服务器有显式或隐式的策略控制爬虫的访问 只爬允许爬的内容、尊重 robots.txt 鲁棒性: 能从采集器陷阱中跳出能处理Web服务器的其他恶意行为性能和效率: 充分利用不同的系统资源包括处理器、存储器和网络带宽优先抓取“有用的网页”分布式: 可以在多台机器上分布式运行 可扩展性: 添加更多机器后采集率应该提高 新鲜度: 对原来抓取的网页进行更新功能可扩展性支持多方面的功能扩展例如处理新的数据格式、新的抓取协议等 第3讲 网页分析技术 对于HTML文档有两种看待方式 一种是将文档看作字符流正则表达式一种是将文档看作树结构基于DOM 正则表达式 Regular Expression 定义 正则表达式是对字符串操作的一种逻辑公式就是用事先定义好的一些特定字符、及这些特定字符的组合组成一个“规则字符串”这个“规则字符串”用来表达对字符串的一种过滤逻辑。 作用 正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 特点 正则表达式匹配速度快 但表达能力较弱只具有正规文法的表示能力 在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序 文档对象模型document object modelDOM 定义 DOM将一个XML文档转换成一个对象集合然后可以任意处理该对象模型这一机制也称为“随机访问”协议可以在任何时间访问数据的任何一部分然后修改、删除或插入新数据DOM将HTML视为树状结构的元素所有元素以及他们的文字和属性可通过DOM树来操作与访问 正则表达式与DOM树方法的比较 正则表达式匹配 正则表达式匹配速度快但表达能力较弱只具有正规文法的表示能力在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序 HTML DOM树 HTML DOM树在解析HTML时速度较慢但其表达能力相当于上下文无关文法在网页自动分类等需要进行网页去噪处理的情况时使用基于HTML DOM树的爬取程序 HTML解析器 HTML Parser 将html标识解析为解析树jsoup 是一款Java 的HTML解析器Beautiful Soup 不是、浏览器不是 Beautiful Soup 模块 python的一个模块提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个工具箱通过解析文档为用户提供需要抓取的数据简单好上手 RE 与 BeautifulSoup 的比较 re正则表达式 匹配神器速度快效率高 BeautifulSoup 比较常用且使用简单的技术由于在操作过程中会将整个文档树进行加载然后进行查询匹配操作使用过程中消耗资源较多 Scrapy 介绍 快速、高层次的屏幕抓取和web抓取框架用于抓取web站点并从页面中提取结构化的数据Scrapy吸引人的地方在于它是一个框架 可重用设计根据需求方便修改轻松地实现爬虫项目 第4讲 爬虫与网站的博弈 网站反爬后端策略网页在后端拦截 User-Agent Referer检测账号及Cookie验证验证码IP限制频次 网站反爬前端策略网页在前端显示需要浏览器配合 FONT-FACE拼凑式 Robot 协议 网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不能抓取robots.txt文件是一个文本文件 User-agent User-Agent是Http协议中的一部分属于头域的组成部分向访问网站提供访问者信息 IP屏蔽 网站 同一 IP 访问频繁 - 封网站限制某些IP访问仅允许指定IP地址访问 爬虫 多IP并行增大爬取时间间隔连接代理服务器IP代理池 用户登陆 用户输入用户名口令通过GETPOST)请求提交参数后台PHP 程序生成的网页数据在后台数据库登陆成功带着Cookie继续访问其他网页 模拟浏览器进行交互 登录录入用户名口令键盘动作鼠标动作网站AJAX响应 验证码 交互内容不能提前预知图像识别 获取图片 分析网页下载图片屏幕截图 图片处理获取图片中文字内容 OCR 第5讲 数据抽取与包装器 Web数据抽取 Web 数据抽取是指从页面中将用户感兴趣的数据利用程序自动抽取到本地的过程为了能够保证抽取的准确性必须要能够识别页面模饭定义(页面模板) 页面模板T CLS C包含了导航、版权声明、固定页面修饰等这些不变的内容L包含了页面数据的格式规范S则是能够从页面数据中观察到的模式 包装器 包装器 针对某一类特定的网页计算机可以理解并执行的程序或抽取规则 包装器的任务 将HTML格式的数据抽取并转化为结构化的格式 包装器的核心是抽取规则 对于HTML文档有两种看待方式 字符流树结构 相应地抽取规则也可以分为 基于分界符(或界标符)的规则基于树路径的规则 包装器分类 从自动化程度来区分 人工抽取半自动抽取自动抽取 Web 数据抽取评价标准 准确程度查准率查全率抽取自动化程度衡量用户在抽取过程中的参与程度分为手工、半自动和全自动三类适应性指在页面的内容和结构发生较小变化的情况下该抽取方法或工具具有自适应能力仍然能够继续正常工作修正率需要手工调整使得准确率和召回率达到100%的Web数据库数量 查准率查全率 第6讲 包装器页面抽取方法 网页的分类 按照页面内数据组织形式的不同分为 单记录页面多记录页面 按照页面承载内容的不同分为 数据型页面文档型页面 两者组合起来共有4 种页面类型 多记录数据型页面单记录数据型页面单记录文档型页面多记录文档型页面 多记录数据型页面的抽取方法 其中多记录数据型抽取不考观察和规则掌握最后一页总结即可 单记录数据型页抽取方法 增量式抽取从多个连续页面中抽取同结构的记录以增量方式推导网页模板部分树对齐算法主要关心页面模式发生变化导致的页面模板变化时如何调整和持续抽取数据的问题 单文档型页面Authority抽取方法 结合视觉信息的抽取方法 观察1文档型页面中其正文一般占用页面中最大的文本数据块记住下面公式 视觉信息的抽取方法将无法很好地处理如下情况 短正文的抽取包含大量评论的页面 抽取路径学习/路径规则 除了使用种子点seedElement找出正文内容外在内容返回前还将正文的抽取路径保存到数据库中 改进的自适应数据抽取方法 基于视觉的方法基于规则的方法 自动选择一种基于贝叶斯最优决策的方法定义(决策结果集合DecisionSet) Vision: 表示最终将采用基于视觉的方法来抽取数据Rule: 表示最终将采用基于抽取路径的方法来抽取数据 第7讲 web数据存储 爬虫数据存储 结构化数据 结构化文件Excel、CSV文件、JSON 文件数据库 非结构化数据 raw data 储存直接存为txt文件、JPG文件 scrapy 支持的数据格式 CSV(comma-separated values) 是目前比较流行的一种文件存储格式以逗号间隔优点 被Excel和很多的应用程序支持用来做数据存储容量小很多数据集采用格式 JSON文件 JavaScript 对象表示法 / JavaScript Object Notation轻量级的文本数据交换格式有对象和数组两种结构最常用的格式是对象的键值对 XML文件 Extensible Markup Language / 可扩展标记语言数据重用存储携带交换数据不是显示数据半结构化集成数据XPath 使用路径表达式来选取 XML 文档中的节点或节点集XQuery 被设计用来查询 XML 数据 存入数据库 数据库提供了更强有力的数据存储和分析能力 关系型数据库 SQLite、Mysql 非关系型数据库 MongoDB 结构化数据存入 MySQL 非结构化数据存入 MongoDB 第8讲 web数据预处理 Web上爬取的数据 结构化数据 记录属性 存储查询合并机器学习/数据挖掘 非结构化数据 单字段大块 纯文本图片 数据无量纲化 归一化 Normalization将不同规格的数据转换为同一规格 将数据缩放到指定范围通常是[0, 1]将有量纲的表达式经过变换化为无量纲的表达式 标准化 Standardization将不同分布的数据转换为特定分布的过程 归一化和标准化的区别 归一化 将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内仅由变量的极值决定因区间放缩法是归一化的一种 标准化 依照特征矩阵的列处理数据其通过求z-score的方法转换为标准正态分布和整体样本分布相关每个样本点都能对标准化产生影响 如何选择 归一化 or 标准化 归一化 对输出结果范围有要求数据较为稳定不存在极端的最大最小值 标准化 数据存在异常值和较多噪音可以间接通过中心化避免异常值和极端值的影响 中心化平均值为0对标准差无要求一般流程为先中心化再标准化 为什么要归一化 / 标准化 无量纲化 例如房子数量和收入因为从业务层知道这两者的重要性一样所以把它们全部归一化 避免数值问题 太大的数会引发数值问题 某些模型求解需要 一些分类器需要计算样本间的距离。如果一个特征值域范围非常大那么距离计算就主要取决于这个特征从而与实际情况相悖在使用梯度下降的方法求解最优化问题时 归一化 / 标准化后可以提升模型的收敛速度 离散化的自动方法 基于决策树的离散化决策树可以使连续值离散化 使用决策树算法自动选择最优的分割点将数据离散化适用场景需要离散化数据以构建决策树模型 类别特征编码 将类别变量转化为数值型数据 标签编码Label Encoding 将每个类别映射到一个唯一的整数适用于类别之间有顺序关系的情况例如低、中、高 独热编码One-Hot Encoding 将每个类别转换为一个二进制的向量适用于类别之间没有顺序关系的情况例如颜色、国家等 白化 Whitening 定义白化是一种数据预处理技术旨在通过线性变换使数据具有以下特性 特征去相关消除特征之间的相关性方差归一化使每个特征的方差为1 经过白化处理的数据其协方差矩阵变为单位矩阵。 作用 消除不同特征之间的相关性降低输入数据特征之间的冗余性输入数据经过白化处理后特征之间相关性较低并且所有特征具有相同的方差白化的一个主要实现方式是使用PCA方法 为什么要进行白化 解决特征相关性带来的主要问题模型不稳定、过拟合、冗余信息、解释性降低、梯度消失或爆炸在深度学习中 第9讲 文本预处理 词条化将给定的字符序列拆分成一系列子序列的过程 中文分词(Chinese Word Segmentation) 定义 将一个汉字序列切分成一个一个单独的词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 方法1基于理解的分词方法 通过让计算机模拟人对句子的理解达到识别词的效果语法分析树 方法2基于字符串匹配的分词方法 基于词典(规则)的方法 “查字典” 法按照一定策略将待分析的汉字串与一个“词典”中的词条进行匹配如果匹配成功那么该汉字串就是一个词遇到不认识的字串就分割成单字词 策略 按照扫描方向正向匹配和逆向匹配按照扫描长度最大匹配和最小匹配最少切分使每一句中切出的词数最小 优点 程序简单易行开发周期短仅需很少的语言资源词表不需要任何词法、句法、语义资源可以自定义词库增加新词 缺点 Out of Vocabulary歧义消解能力差切分正确率不高一般在95%左右 方法3基于统计的分词方法 思想 用字与字相邻出现的频率来反应成词的可靠度统计语料中相邻出现的各个字的组合的频度当组合频度高于某一个临界值时我们便可认为此字组可能构成一个词语 优点 分词准确度高不需要切分词典能够平衡地看待词表词和未登录词的识别问题 缺点 会经常抽出一些共现频度高、但并不是词的常用字组对常用词的识别精度差时空开销大学习算法的复杂度往往较高计算代价较大依赖手工定义的特征工程 实际应用的统计分词系统都要使用一部基本的分词词典常用词词典进行串匹配分词同时使用统计方法识别一些新的词即将串频统计和串匹配结合起来既发挥匹配分词切分速度快、效率高的特点又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 基于HMM的中文分词方法 隐马尔可夫模型 Hidden Markov ModelHMM 隐马尔科夫模型的三个基本问题 HMM实现中文分词 Viterbi算法对应于中文分词它用来寻找最有可能产生某一句子的BEMS状态值序列 在维特比算法中我们定义了一个weight数组 w e i g h t [ i ] [ j ] weight[i][j] weight[i][j]表示到 j j j 这个字可见状态隐藏状态为 i i i 的概率 还定义了一个数组 p a t h [ i ] [ j ] path[i][j] path[i][j] 表示当第 j j j 个字的隐藏状态为 i i i 时第 j − 1 j-1 j−1 个字向前回溯的隐藏状态是 p a t h [ i ] [ j ] path[i][j] path[i][j] 的值 接下来包含4个步骤 初始化第一列 使用递推式向右下角求出每个格子内的概率值 求到最后一个字的时候终止 回溯沿着最终结果中最高的概率值依据path数组向前找回最大概率值路径 第10讲 文本表示 文本向量化 将文本信息数值化从而便于进行建模分析 文档 — 词条集合 词袋bag-of-words, BOW例如搜索引擎 文本表示分为 离散表示 词袋模型one-hot也叫独热编码、TF-IDF 分布式表示 Distributed Representation实现方式主题模型 、文档哈希、语言模型 主题模型 topic modeling 发现词之间的语义关联LDA 向量维度是主题维度超级耗时所以业界不喜欢用 PLSA主题模型 概率潜在语义分析 PLSA Probabilistic Latent Semantic Analysis 模型训练自动地发现文档集中的主题分布 根据大量已知的文档-词项信息p(w|d)训练出文档-主题p(z|d)和主题-词项p(w|z) 分布对应了两组Multinomial分布采用EM算法估计这两组分布的参数 LDA主题模型 Latent Dirichlet Allocation 隐含狄利克雷分布 LDA和PLSA思想上一致改进包括1增加了Dirichlet先验2全贝叶斯化 文档哈希 目标hash code 的相似程度要能直接反映输入内容的相似程度 局部敏感哈希 LSH —— Simhash算法 第11讲 语言模型 统计语言模型 N-Gram语言模型 通过泛化解决0概率问题*句子越长出现0概率问题的概率就越大* n 较大时 提供了更多的语境信息语境更具区别性但是参数个数多、计算代价大、训练语料需要多、参数估计不可靠 n 较小时 语境信息少不具区别性但是参数个数少、计算代价小、训练语料无需太多、参数估计可靠 理论上n越大越好经验上trigram用的最多尽管如此原则上能用bigram解决绝不使用trigram。 神经网络语言模型 NNLM 使用前 n-1 个词预测第 n 个词 解决了传统N-gram的两个缺陷 词语之间的相似性可以通过词向量来体现 在相似的上下文语境中NNLM 模型可以预测出相似的目标词而传统模型无法做到这一点 自带平滑功能 解决了词袋模型带来的数据稀疏、语义鸿沟等问题 第12讲 词嵌入和文档嵌入 词向量化 独热编码One-Hot Encoding 为每个词分配一个唯一的二进制向量其中只有一个位置是1其余位置是 0 词嵌入Word Embeddings 将每个词映射到低维连续向量空间这些向量在语义上是相关的如Word2Vec, GloVe, FastText等 Word2Vec Word2Vec 通过训练神经网络模型学习单词的分布式表示词向量主要基于以下两种模型架构 CBOWContinuous Bag-of-Words 根据上下文单词周围词预测当前词。适合小型数据集训练速度快。示例句子 “The cat sits on the mat” → 输入 [“The”, “cat”, “on”, “the”, “mat”]预测目标词 “sits”。 Skip-gram 根据当前词预测上下文单词反向CBOW。适合大型数据集对稀有词表现更好。示例输入 “sits”预测周围的 [“The”, “cat”, “on”, “the”, “mat”]。 3个用处 列出所有相似词语列表词汇的语义的类比寻找对应关系 CBOWContinuous Bag-of-Words 1. 核心思想 目标利用上下文词汇预测中心词输入周围词的one-hot向量窗口内的上下文词输出预测中心词的概率分布 2. 模型结构 输入层上下文词的one-hot向量如窗口大小为2则输入4个词投影层共享权重 将one-hot向量与嵌入矩阵 W V × N W_{V \times N} WV×N​ 相乘 V V V是词表大小 N N N是嵌入维度得到词向量对上下文词向量求平均生成聚合的上下文表示 输出层 将平均向量与输出矩阵 W N × V ′ W_{N \times V} WN×V′​ 相乘通过softmax得到中心词的概率分布 3. 数学表示 y ^ softmax ( 1 C ∑ i 1 C W ⋅ x i ⋅ W ′ ) \hat{y} \text{softmax}\left( \frac{1}{C} \sum_{i1}^C W \cdot x_i \cdot W \right) y^​softmax(C1​i1∑C​W⋅xi​⋅W′) 其中 C C C 是上下文词数量 x i x_i xi​ 是one-hot向量 损失函数交叉熵损失最小化预测中心词与真实标签的差异 5. 应用 训练结束后的W就是词向量的矩阵任何一个单词的One-Hot表示乘以这个矩阵W就可以得到其词向量的表示 Skip-Gram 1. 核心思想 目标用当前词中心词预测其周围窗口内的上下文词如前后各2个词输入中心词的one-hot向量输出上下文词的概率分布多分类问题 2. 模型结构 输入层中心词的one-hot向量维度为词表大小 V V V。投影层 输入向量与嵌入矩阵 W V × N W_{V \times N} WV×N​ 相乘得到中心词的词向量 N N N 是嵌入维度 输出层 将词向量与输出矩阵 W N × V ′ W_{N \times V} WN×V′​ 相乘通过softmax得到每个上下文词的概率 3. 训练优化 损失函数交叉熵损失最大化上下文词的对数概率。优化技巧 负采样训练时不让模型从整个词表找最可能的词而是直接给出这个词再给几个噪声词负例能找出来就成功层次Softmax训练的时候先统计词频建立霍夫曼树根据霍夫曼编码进行softmax回归更快 4. 特点 优势 对罕见词建模效果更好适合大规模数据集能捕捉更复杂的语义模式 劣势 训练速度比CBOW略慢需处理更多上下文词对 Doc2Vec Doc2Vec不仅能学习单词的向量还能学习文本的向量表示。用于聚类、分类。训练过程时同时训练词向量和段落向量。词向量随着滑动窗口的改变而改变而只要滑动窗口还在本段落段落向量不变表示段落主题只随着模型参数更新而改变。 是Word2vec的扩展不仅学习单词的向量还学习文本的向量表示能够使一个变长的句子、段落或文档表示为一个定长向量段落向量模型添加了一个段落向量 Glove 全称是global vector改进word2vector成功利用语料库的全局信息采用了局部上下文信息和全局统计特征 损失函数公式 J ∑ i , j 1 V f ( X i j ) ( w i T w j b i b ˉ j − log ⁡ ( X i j ) ) 2 J \sum_{i,j1}^{V} f(X_{ij}) \left( w_i^T w_j b_i \bar{b}_j - \log(X_{ij}) \right)^2 Ji,j1∑V​f(Xij​)(wiT​wj​bi​bˉj​−log(Xij​))2 符号说明 V V V词表大小。 X i j X_{ij} Xij​词 i i i 和词 j j j 在语料库中的共现次数即词 j j j 出现在词 i i i 上下文中的频率。 w i , w j w_i, w_j wi​,wj​词 i i i 和词 j j j 的向量表示。 b i , b ˉ j b_i, \bar{b}_j bi​,bˉj​词 i i i 和词 j j j 的偏置项标量用于捕捉词频的固有偏差。 f ( X i j ) f(X_{ij}) f(Xij​)权重函数用于平衡高频词和低频词的影响。 GloVe的优化目标是让词向量的内积 w i T w j w_i^T w_j wiT​wj​ 加上偏置项后尽可能接近共现次数的对数 w i T w j b i b ˉ j ≈ log ⁡ ( X i j ) w_i^T w_j b_i \bar{b}_j \approx \log(X_{ij}) wiT​wj​bi​bˉj​≈log(Xij​) 第13讲 文本分类 FastText FastText 在 Word2Vec 的基础上进行了改进特别适合处理形态丰富的语言如德语、土耳其语和短文本分类任务。 子词嵌入 子词模型 Sub-word它通过分解单词为更小的单元n-gram 字符组合来增强词向量的表示能力。 核心思想 传统 Word2Vec 将每个单词视为一个原子单位如 “apple” 对应一个向量但无法处理未登录词OOV, Out-of-Vocabulary。FastText 将单词拆分为 字符级 n-gram如 3-gram“apple” → ap, app, ppl, ple, le并计算这些子词的向量之和作为单词的最终表示。 数学表示 对于一个单词 w w w其向量 v w v_w vw​ 是所有子词向量 v g v_{g} vg​ 的平均或求和 v w ∑ g ∈ G w v g v_w \sum_{g \in G_w} v_g vw​g∈Gw​∑​vg​ 其中 G w G_w Gw​ 是单词 w w w 的所有 n-gram 子词集合。 优势 ✅ 解决未登录词问题即使单词未在训练集中出现仍可通过子词组合生成向量。 ✅ 更好的形态学建模适用于德语、俄语等具有复杂词形变化的语言。 ✅ 共享子词信息相似词如 “running” 和 “runner”共享部分子词语义关联更强。 FastText 文本分类 FastText 提供了一种简单高效的文本分类方法特别适合 短文本如新闻分类、情感分析。 核心思想 将整个文本表示为 所有词向量的平均或求和。使用线性分类器Softmax预测类别标签。 模型结构 输入层文本分词后每个单词转换为子词向量隐藏层对一个文档中所有单词的向量进行叠加平均输出层Softmax 分类器 TextCNN 对CNN的输入层做了一些变形。自然语言是一维数据卷积核在一个方向上移动。输入通过词向量文件及词向量矩阵将文本向量化支持后续进行卷积池化等操作。 第14讲 WEB图像数据 图像的特征主要包括 低层特征(Primitive Features) 语义特征(Semantic Features 局部特征 全局特征 低级图像特征主要有颜色、纹理和形状低级图像特征包括局部特征和全局特征 颜色特征 颜色是彩色图像最底层、最直观的物理特征通常对噪声图像质量的退化尺寸、分辨率和方向等的变化具有很强的鲁棒性全局特征 颜色直方图 ColorHistogram 最简单、最常用的颜色特征 描述的是不同色彩在整幅图像中所占的比例统计分布特性具有平移、尺度、旋转不变性特别适于描述那些难以进行自动分割的图像No space information 颜色矩 ColorMoment 基本思想 在颜色直方图的基础上计算出每个颜色的矩估计 颜色信息主要分布于低阶矩中一阶矩(均值,mean)二阶矩(方差,viarance)三阶矩(斜度,skewness) 用这些统计量替代颜色的分布来表示颜色特征它具有特征量少处理简单的特点 优点 不需要颜色空间量化特征向量维数低常和其他特征结合 纹理特征 LBP特征 Local Binary Patterns LBP局部二值模式是一种用于纹理分析的局部特征描述方法广泛应用于图像处理、人脸识别、物体检测等领域其核心思想是通过比较像素点与其邻域的灰度关系生成二进制编码来表示局部纹理特征 计算步骤 选择中心像素对图像中的每个像素点 ( x c , y c ) (x_c,y_c) (xc​,yc​) 取其邻域通常是 3×3 窗口比较邻域像素将邻域像素的灰度值与中心像素比较大于等于中心值的记为 1否则记为 0生成二进制编码按固定顺序排列这些二进制值形成一个 8 位二进制数如 11001011转换为十进制将该二进制数转为十进制作为中心像素的 LBP 值 对一幅灰度图提取其原始的LBP算子之后得到LBP图谱不过在应用中一般采用LBP特征谱的统计直方图跟位置有很大关系会因为位置没有对准而产生很大误差可以将图片划分为若干子区域然后每个子区域建立LBP的统计直方图 显著的优点 光照不变性旋转不变性灰度不变性 局部形状特征 HOG特征 方向梯度直方图Histogram of Oriented Gradient, HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征描述局部目标的表象和形状 HOG特征提取算法的实现过程 图像灰度化对图像颜色进行Gamma校正计算图像每个像素的梯度将图像划分成小cells统计每个cell的梯度直方图将每几个cell组成一个block将图像内的所有block的HOG特征descriptor串联 SIFT特征 尺度不变特征转换Scale-invariant feature transform或SIFT 算法步骤 建立尺度空间 即建立高斯差分(DoG)金字塔 在尺度空间中检测极值点并进行精确定位和筛选特征点方向赋值 完成此步骤后每个特征点有三个信息位置、尺度、方向 计算特征描述子 SIFT优点旋转、尺度、亮度不变性稳定SIFT缺点实时性不够高有时特征点较少对边缘光滑的目标无法准确提取特征点
http://www.hkea.cn/news/14579227/

相关文章:

  • 权威的网站建设公司app开发公司排行榜
  • 宁志网站两学一做如何识别网站建设
  • 门户网站怎么做seo基于wordpress的sns
  • 注册网站显示lp或设备超限怎么办wordpress主题制作 工具
  • 网站开发时最短的网站
  • 政务公开网站建设的亮点和建议产品全网营销推广
  • 山西手机版建站系统开发百度网站诚信认证
  • 深圳建设交易中心网站首页制作网站计划书
  • 网站开发与维护总结网页无法上传wordpress
  • 怎样在工商网站做遗失石家庄市里的网站公司
  • 企业网站建设全包.vip域名的网站排名
  • 有什么网站做投标设计绵阳建设股份有限公司
  • 学做衣服的网站有哪些战酷设计网站官网入口
  • 网站建设圣诞素材广州做网站哪个平台好
  • 湖北专业网站建设市面价广东平台网站建设制作
  • 软件下载网站开发 论文做网站需要什么东西
  • 晋城网站建设公司排名住房建设局子网站
  • 中国空间站成为全人类太空之家中国大型建筑公司有哪些
  • 甘肃省城市建设档案馆网站建设一个直播网站要多少钱
  • 大连哪家科技公司做网站好网站里的轮廓图 怎么做的
  • 进了网站的后台系统 怎么改公司的网站珠海招聘网最新招聘信息
  • 网站设计制作新报价图片河源网站页面优化ppt
  • 企业免费网站建设西宁摄网站制作
  • 东莞市公司网站建设怎么样网站后台地址破解
  • 网站备案的原则厦门网站建设cnmxcm
  • 常州微信网站建设服务seo网站优化培训
  • 做网站的是什么怎么找到合适的网站建设商
  • 个人网站怎样申请2021黑帽seo
  • 做兼职网站的主要参考文献桂林生活网官网二手房
  • 网站开发设计师的工作wordpress中文免费模板下载地址