当前位置：首页 > news >正文

免费的微网站哪个好php导航网站

news 2026/5/8 8:15:54

免费的微网站哪个好,php导航网站,绍兴app定制,深圳互联网网站建设文章目录 2025WEB数据管理串讲第2讲网络爬虫技术爬虫定义爬取过程#xff08;例子不考#xff09;URL normalization#xff08;规范化#xff09;文档指纹FPURL 判重爬虫功能第3讲网页分析技术正则表达式 Regular Expression定义作用特点文档对象模型#xff08;do… 文章目录 2025WEB数据管理串讲第2讲网络爬虫技术爬虫定义爬取过程例子不考URL normalization规范化文档指纹FPURL 判重爬虫功能第3讲网页分析技术正则表达式 Regular Expression定义作用特点文档对象模型document object modelDOM定义正则表达式与DOM树方法的比较HTML解析器 HTML ParserBeautiful Soup 模块RE 与 BeautifulSoup 的比较 Scrapy 介绍第4讲爬虫与网站的博弈Robot 协议User-agentIP屏蔽用户登陆模拟浏览器进行交互验证码第5讲数据抽取与包装器Web数据抽取包装器Web 数据抽取评价标准第6讲包装器页面抽取方法网页的分类多记录数据型页面的抽取方法单记录数据型页抽取方法单文档型页面Authority抽取方法结合视觉信息的抽取方法抽取路径学习/路径规则改进的自适应数据抽取方法第7讲 web数据存储爬虫数据存储scrapy 支持的数据格式CSV(comma-separated values)JSON文件XML文件存入数据库第8讲 web数据预处理Web上爬取的数据数据无量纲化归一化和标准化的区别如何选择归一化 or 标准化为什么要归一化 / 标准化离散化的自动方法类别特征编码白化 Whitening 第9讲文本预处理中文分词(Chinese Word Segmentation)定义方法1基于理解的分词方法方法2基于字符串匹配的分词方法方法3基于统计的分词方法基于HMM的中文分词方法隐马尔科夫模型的三个基本问题HMM实现中文分词第10讲文本表示文本向量化主题模型 topic modelingPLSA主题模型LDA主题模型文档哈希第11讲语言模型统计语言模型N-Gram语言模型神经网络语言模型NNLM 第12讲词嵌入和文档嵌入词向量化Word2Vec3个用处 CBOWContinuous Bag-of-Words1. 核心思想2. 模型结构3. 数学表示5. 应用 Skip-Gram1. 核心思想2. 模型结构3. 训练优化4. 特点 Doc2VecGlove损失函数公式第13讲文本分类FastText子词嵌入FastText 文本分类 TextCNN 第14讲 WEB图像数据颜色特征颜色直方图 ColorHistogram颜色矩 ColorMoment 纹理特征LBP特征 Local Binary Patterns 局部形状特征HOG特征SIFT特征 2025WEB数据管理串讲题型填空、名词解释、简答所有的内容都在ppt上不考编程参考 https://blog.csdn.net/weixin_63184383/article/details/145727824 第2讲网络爬虫技术爬虫定义爬取过程例子不考 URL normalization规范化对URL进行标准化处理的过程将不同的URL转换为统一的、符合规范的等价URL 文档指纹FP 大批量文档快速判重 shingle算法MinHashSimhash算法KSentence算法 URL 判重提高查找和访问效率在散列表中存放网址经过散列函数计算出的对应的固定长度的散列值这样可以在平均情况下 O ( 1 ) O(1) O(1)的时间内查找和更新占用 O ( n ) O(n) O(n)空间的网址列表爬虫功能礼貌性: Web服务器有显式或隐式的策略控制爬虫的访问只爬允许爬的内容、尊重 robots.txt 鲁棒性: 能从采集器陷阱中跳出能处理Web服务器的其他恶意行为性能和效率: 充分利用不同的系统资源包括处理器、存储器和网络带宽优先抓取“有用的网页”分布式: 可以在多台机器上分布式运行可扩展性: 添加更多机器后采集率应该提高新鲜度: 对原来抓取的网页进行更新功能可扩展性支持多方面的功能扩展例如处理新的数据格式、新的抓取协议等第3讲网页分析技术对于HTML文档有两种看待方式一种是将文档看作字符流正则表达式一种是将文档看作树结构基于DOM 正则表达式 Regular Expression 定义正则表达式是对字符串操作的一种逻辑公式就是用事先定义好的一些特定字符、及这些特定字符的组合组成一个“规则字符串”这个“规则字符串”用来表达对字符串的一种过滤逻辑。作用正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。特点正则表达式匹配速度快但表达能力较弱只具有正规文法的表示能力在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序文档对象模型document object modelDOM 定义 DOM将一个XML文档转换成一个对象集合然后可以任意处理该对象模型这一机制也称为“随机访问”协议可以在任何时间访问数据的任何一部分然后修改、删除或插入新数据DOM将HTML视为树状结构的元素所有元素以及他们的文字和属性可通过DOM树来操作与访问正则表达式与DOM树方法的比较正则表达式匹配正则表达式匹配速度快但表达能力较弱只具有正规文法的表示能力在对网页内容的信噪比要求不高的情况下可以使用基于正则表达式匹配的爬取程序 HTML DOM树 HTML DOM树在解析HTML时速度较慢但其表达能力相当于上下文无关文法在网页自动分类等需要进行网页去噪处理的情况时使用基于HTML DOM树的爬取程序 HTML解析器 HTML Parser 将html标识解析为解析树jsoup 是一款Java 的HTML解析器Beautiful Soup 不是、浏览器不是 Beautiful Soup 模块 python的一个模块提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个工具箱通过解析文档为用户提供需要抓取的数据简单好上手 RE 与 BeautifulSoup 的比较 re正则表达式匹配神器速度快效率高 BeautifulSoup 比较常用且使用简单的技术由于在操作过程中会将整个文档树进行加载然后进行查询匹配操作使用过程中消耗资源较多 Scrapy 介绍快速、高层次的屏幕抓取和web抓取框架用于抓取web站点并从页面中提取结构化的数据Scrapy吸引人的地方在于它是一个框架可重用设计根据需求方便修改轻松地实现爬虫项目第4讲爬虫与网站的博弈网站反爬后端策略网页在后端拦截 User-Agent Referer检测账号及Cookie验证验证码IP限制频次网站反爬前端策略网页在前端显示需要浏览器配合 FONT-FACE拼凑式 Robot 协议网站通过Robots协议告诉搜索引擎哪些页面可以抓取哪些页面不能抓取robots.txt文件是一个文本文件 User-agent User-Agent是Http协议中的一部分属于头域的组成部分向访问网站提供访问者信息 IP屏蔽网站同一 IP 访问频繁 - 封网站限制某些IP访问仅允许指定IP地址访问爬虫多IP并行增大爬取时间间隔连接代理服务器IP代理池用户登陆用户输入用户名口令通过GETPOST)请求提交参数后台PHP 程序生成的网页数据在后台数据库登陆成功带着Cookie继续访问其他网页模拟浏览器进行交互登录录入用户名口令键盘动作鼠标动作网站AJAX响应验证码交互内容不能提前预知图像识别获取图片分析网页下载图片屏幕截图图片处理获取图片中文字内容 OCR 第5讲数据抽取与包装器 Web数据抽取 Web 数据抽取是指从页面中将用户感兴趣的数据利用程序自动抽取到本地的过程为了能够保证抽取的准确性必须要能够识别页面模饭定义(页面模板) 页面模板T CLS C包含了导航、版权声明、固定页面修饰等这些不变的内容L包含了页面数据的格式规范S则是能够从页面数据中观察到的模式包装器包装器针对某一类特定的网页计算机可以理解并执行的程序或抽取规则包装器的任务将HTML格式的数据抽取并转化为结构化的格式包装器的核心是抽取规则对于HTML文档有两种看待方式字符流树结构相应地抽取规则也可以分为基于分界符(或界标符)的规则基于树路径的规则包装器分类从自动化程度来区分人工抽取半自动抽取自动抽取 Web 数据抽取评价标准准确程度查准率查全率抽取自动化程度衡量用户在抽取过程中的参与程度分为手工、半自动和全自动三类适应性指在页面的内容和结构发生较小变化的情况下该抽取方法或工具具有自适应能力仍然能够继续正常工作修正率需要手工调整使得准确率和召回率达到100%的Web数据库数量查准率查全率第6讲包装器页面抽取方法网页的分类按照页面内数据组织形式的不同分为单记录页面多记录页面按照页面承载内容的不同分为数据型页面文档型页面两者组合起来共有4 种页面类型多记录数据型页面单记录数据型页面单记录文档型页面多记录文档型页面多记录数据型页面的抽取方法其中多记录数据型抽取不考观察和规则掌握最后一页总结即可单记录数据型页抽取方法增量式抽取从多个连续页面中抽取同结构的记录以增量方式推导网页模板部分树对齐算法主要关心页面模式发生变化导致的页面模板变化时如何调整和持续抽取数据的问题单文档型页面Authority抽取方法结合视觉信息的抽取方法观察1文档型页面中其正文一般占用页面中最大的文本数据块记住下面公式视觉信息的抽取方法将无法很好地处理如下情况短正文的抽取包含大量评论的页面抽取路径学习/路径规则除了使用种子点seedElement找出正文内容外在内容返回前还将正文的抽取路径保存到数据库中改进的自适应数据抽取方法基于视觉的方法基于规则的方法自动选择一种基于贝叶斯最优决策的方法定义(决策结果集合DecisionSet) Vision: 表示最终将采用基于视觉的方法来抽取数据Rule: 表示最终将采用基于抽取路径的方法来抽取数据第7讲 web数据存储爬虫数据存储结构化数据结构化文件Excel、CSV文件、JSON 文件数据库非结构化数据 raw data 储存直接存为txt文件、JPG文件 scrapy 支持的数据格式 CSV(comma-separated values) 是目前比较流行的一种文件存储格式以逗号间隔优点被Excel和很多的应用程序支持用来做数据存储容量小很多数据集采用格式 JSON文件 JavaScript 对象表示法 / JavaScript Object Notation轻量级的文本数据交换格式有对象和数组两种结构最常用的格式是对象的键值对 XML文件 Extensible Markup Language / 可扩展标记语言数据重用存储携带交换数据不是显示数据半结构化集成数据XPath 使用路径表达式来选取 XML 文档中的节点或节点集XQuery 被设计用来查询 XML 数据存入数据库数据库提供了更强有力的数据存储和分析能力关系型数据库 SQLite、Mysql 非关系型数据库 MongoDB 结构化数据存入 MySQL 非结构化数据存入 MongoDB 第8讲 web数据预处理 Web上爬取的数据结构化数据记录属性存储查询合并机器学习/数据挖掘非结构化数据单字段大块纯文本图片数据无量纲化归一化 Normalization将不同规格的数据转换为同一规格将数据缩放到指定范围通常是[0, 1]将有量纲的表达式经过变换化为无量纲的表达式标准化 Standardization将不同分布的数据转换为特定分布的过程归一化和标准化的区别归一化将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内仅由变量的极值决定因区间放缩法是归一化的一种标准化依照特征矩阵的列处理数据其通过求z-score的方法转换为标准正态分布和整体样本分布相关每个样本点都能对标准化产生影响如何选择归一化 or 标准化归一化对输出结果范围有要求数据较为稳定不存在极端的最大最小值标准化数据存在异常值和较多噪音可以间接通过中心化避免异常值和极端值的影响中心化平均值为0对标准差无要求一般流程为先中心化再标准化为什么要归一化 / 标准化无量纲化例如房子数量和收入因为从业务层知道这两者的重要性一样所以把它们全部归一化避免数值问题太大的数会引发数值问题某些模型求解需要一些分类器需要计算样本间的距离。如果一个特征值域范围非常大那么距离计算就主要取决于这个特征从而与实际情况相悖在使用梯度下降的方法求解最优化问题时归一化 / 标准化后可以提升模型的收敛速度离散化的自动方法基于决策树的离散化决策树可以使连续值离散化使用决策树算法自动选择最优的分割点将数据离散化适用场景需要离散化数据以构建决策树模型类别特征编码将类别变量转化为数值型数据标签编码Label Encoding 将每个类别映射到一个唯一的整数适用于类别之间有顺序关系的情况例如低、中、高独热编码One-Hot Encoding 将每个类别转换为一个二进制的向量适用于类别之间没有顺序关系的情况例如颜色、国家等白化 Whitening 定义白化是一种数据预处理技术旨在通过线性变换使数据具有以下特性特征去相关消除特征之间的相关性方差归一化使每个特征的方差为1 经过白化处理的数据其协方差矩阵变为单位矩阵。作用消除不同特征之间的相关性降低输入数据特征之间的冗余性输入数据经过白化处理后特征之间相关性较低并且所有特征具有相同的方差白化的一个主要实现方式是使用PCA方法为什么要进行白化解决特征相关性带来的主要问题模型不稳定、过拟合、冗余信息、解释性降低、梯度消失或爆炸在深度学习中第9讲文本预处理词条化将给定的字符序列拆分成一系列子序列的过程中文分词(Chinese Word Segmentation) 定义将一个汉字序列切分成一个一个单独的词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程方法1基于理解的分词方法通过让计算机模拟人对句子的理解达到识别词的效果语法分析树方法2基于字符串匹配的分词方法基于词典(规则)的方法 “查字典” 法按照一定策略将待分析的汉字串与一个“词典”中的词条进行匹配如果匹配成功那么该汉字串就是一个词遇到不认识的字串就分割成单字词策略按照扫描方向正向匹配和逆向匹配按照扫描长度最大匹配和最小匹配最少切分使每一句中切出的词数最小优点程序简单易行开发周期短仅需很少的语言资源词表不需要任何词法、句法、语义资源可以自定义词库增加新词缺点 Out of Vocabulary歧义消解能力差切分正确率不高一般在95%左右方法3基于统计的分词方法思想用字与字相邻出现的频率来反应成词的可靠度统计语料中相邻出现的各个字的组合的频度当组合频度高于某一个临界值时我们便可认为此字组可能构成一个词语优点分词准确度高不需要切分词典能够平衡地看待词表词和未登录词的识别问题缺点会经常抽出一些共现频度高、但并不是词的常用字组对常用词的识别精度差时空开销大学习算法的复杂度往往较高计算代价较大依赖手工定义的特征工程实际应用的统计分词系统都要使用一部基本的分词词典常用词词典进行串匹配分词同时使用统计方法识别一些新的词即将串频统计和串匹配结合起来既发挥匹配分词切分速度快、效率高的特点又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。基于HMM的中文分词方法隐马尔可夫模型 Hidden Markov ModelHMM 隐马尔科夫模型的三个基本问题 HMM实现中文分词 Viterbi算法对应于中文分词它用来寻找最有可能产生某一句子的BEMS状态值序列在维特比算法中我们定义了一个weight数组 w e i g h t [ i ] [ j ] weight[i][j] weight[i][j]表示到 j j j 这个字可见状态隐藏状态为 i i i 的概率还定义了一个数组 p a t h [ i ] [ j ] path[i][j] path[i][j] 表示当第 j j j 个字的隐藏状态为 i i i 时第 j − 1 j-1 j−1 个字向前回溯的隐藏状态是 p a t h [ i ] [ j ] path[i][j] path[i][j] 的值接下来包含4个步骤初始化第一列使用递推式向右下角求出每个格子内的概率值求到最后一个字的时候终止回溯沿着最终结果中最高的概率值依据path数组向前找回最大概率值路径第10讲文本表示文本向量化将文本信息数值化从而便于进行建模分析文档 — 词条集合词袋bag-of-words, BOW例如搜索引擎文本表示分为离散表示词袋模型one-hot也叫独热编码、TF-IDF 分布式表示 Distributed Representation实现方式主题模型、文档哈希、语言模型主题模型 topic modeling 发现词之间的语义关联LDA 向量维度是主题维度超级耗时所以业界不喜欢用 PLSA主题模型概率潜在语义分析 PLSA Probabilistic Latent Semantic Analysis 模型训练自动地发现文档集中的主题分布根据大量已知的文档-词项信息p(w|d)训练出文档-主题p(z|d)和主题-词项p(w|z) 分布对应了两组Multinomial分布采用EM算法估计这两组分布的参数 LDA主题模型 Latent Dirichlet Allocation 隐含狄利克雷分布 LDA和PLSA思想上一致改进包括1增加了Dirichlet先验2全贝叶斯化文档哈希目标hash code 的相似程度要能直接反映输入内容的相似程度局部敏感哈希 LSH —— Simhash算法第11讲语言模型统计语言模型 N-Gram语言模型通过泛化解决0概率问题*句子越长出现0概率问题的概率就越大* n 较大时提供了更多的语境信息语境更具区别性但是参数个数多、计算代价大、训练语料需要多、参数估计不可靠 n 较小时语境信息少不具区别性但是参数个数少、计算代价小、训练语料无需太多、参数估计可靠理论上n越大越好经验上trigram用的最多尽管如此原则上能用bigram解决绝不使用trigram。神经网络语言模型 NNLM 使用前 n-1 个词预测第 n 个词解决了传统N-gram的两个缺陷词语之间的相似性可以通过词向量来体现在相似的上下文语境中NNLM 模型可以预测出相似的目标词而传统模型无法做到这一点自带平滑功能解决了词袋模型带来的数据稀疏、语义鸿沟等问题第12讲词嵌入和文档嵌入词向量化独热编码One-Hot Encoding 为每个词分配一个唯一的二进制向量其中只有一个位置是1其余位置是 0 词嵌入Word Embeddings 将每个词映射到低维连续向量空间这些向量在语义上是相关的如Word2Vec, GloVe, FastText等 Word2Vec Word2Vec 通过训练神经网络模型学习单词的分布式表示词向量主要基于以下两种模型架构 CBOWContinuous Bag-of-Words 根据上下文单词周围词预测当前词。适合小型数据集训练速度快。示例句子 “The cat sits on the mat” → 输入 [“The”, “cat”, “on”, “the”, “mat”]预测目标词 “sits”。 Skip-gram 根据当前词预测上下文单词反向CBOW。适合大型数据集对稀有词表现更好。示例输入 “sits”预测周围的 [“The”, “cat”, “on”, “the”, “mat”]。 3个用处列出所有相似词语列表词汇的语义的类比寻找对应关系 CBOWContinuous Bag-of-Words 1. 核心思想目标利用上下文词汇预测中心词输入周围词的one-hot向量窗口内的上下文词输出预测中心词的概率分布 2. 模型结构输入层上下文词的one-hot向量如窗口大小为2则输入4个词投影层共享权重将one-hot向量与嵌入矩阵 W V × N W_{V \times N} WV×N 相乘 V V V是词表大小 N N N是嵌入维度得到词向量对上下文词向量求平均生成聚合的上下文表示输出层将平均向量与输出矩阵 W N × V ′ W_{N \times V} WN×V′ 相乘通过softmax得到中心词的概率分布 3. 数学表示 y ^ softmax ( 1 C ∑ i 1 C W ⋅ x i ⋅ W ′ ) \hat{y} \text{softmax}\left( \frac{1}{C} \sum_{i1}^C W \cdot x_i \cdot W \right) y^softmax(C1i1∑CW⋅xi⋅W′) 其中 C C C 是上下文词数量 x i x_i xi 是one-hot向量损失函数交叉熵损失最小化预测中心词与真实标签的差异 5. 应用训练结束后的W就是词向量的矩阵任何一个单词的One-Hot表示乘以这个矩阵W就可以得到其词向量的表示 Skip-Gram 1. 核心思想目标用当前词中心词预测其周围窗口内的上下文词如前后各2个词输入中心词的one-hot向量输出上下文词的概率分布多分类问题 2. 模型结构输入层中心词的one-hot向量维度为词表大小 V V V。投影层输入向量与嵌入矩阵 W V × N W_{V \times N} WV×N 相乘得到中心词的词向量 N N N 是嵌入维度输出层将词向量与输出矩阵 W N × V ′ W_{N \times V} WN×V′ 相乘通过softmax得到每个上下文词的概率 3. 训练优化损失函数交叉熵损失最大化上下文词的对数概率。优化技巧负采样训练时不让模型从整个词表找最可能的词而是直接给出这个词再给几个噪声词负例能找出来就成功层次Softmax训练的时候先统计词频建立霍夫曼树根据霍夫曼编码进行softmax回归更快 4. 特点优势对罕见词建模效果更好适合大规模数据集能捕捉更复杂的语义模式劣势训练速度比CBOW略慢需处理更多上下文词对 Doc2Vec Doc2Vec不仅能学习单词的向量还能学习文本的向量表示。用于聚类、分类。训练过程时同时训练词向量和段落向量。词向量随着滑动窗口的改变而改变而只要滑动窗口还在本段落段落向量不变表示段落主题只随着模型参数更新而改变。是Word2vec的扩展不仅学习单词的向量还学习文本的向量表示能够使一个变长的句子、段落或文档表示为一个定长向量段落向量模型添加了一个段落向量 Glove 全称是global vector改进word2vector成功利用语料库的全局信息采用了局部上下文信息和全局统计特征损失函数公式 J ∑ i , j 1 V f ( X i j ) ( w i T w j b i b ˉ j − log ⁡ ( X i j ) ) 2 J \sum_{i,j1}^{V} f(X_{ij}) \left( w_i^T w_j b_i \bar{b}_j - \log(X_{ij}) \right)^2 Ji,j1∑Vf(Xij)(wiTwjbibˉj−log(Xij))2 符号说明 V V V词表大小。 X i j X_{ij} Xij词 i i i 和词 j j j 在语料库中的共现次数即词 j j j 出现在词 i i i 上下文中的频率。 w i , w j w_i, w_j wi,wj词 i i i 和词 j j j 的向量表示。 b i , b ˉ j b_i, \bar{b}_j bi,bˉj词 i i i 和词 j j j 的偏置项标量用于捕捉词频的固有偏差。 f ( X i j ) f(X_{ij}) f(Xij)权重函数用于平衡高频词和低频词的影响。 GloVe的优化目标是让词向量的内积 w i T w j w_i^T w_j wiTwj 加上偏置项后尽可能接近共现次数的对数 w i T w j b i b ˉ j ≈ log ⁡ ( X i j ) w_i^T w_j b_i \bar{b}_j \approx \log(X_{ij}) wiTwjbibˉj≈log(Xij) 第13讲文本分类 FastText FastText 在 Word2Vec 的基础上进行了改进特别适合处理形态丰富的语言如德语、土耳其语和短文本分类任务。子词嵌入子词模型 Sub-word它通过分解单词为更小的单元n-gram 字符组合来增强词向量的表示能力。核心思想传统 Word2Vec 将每个单词视为一个原子单位如 “apple” 对应一个向量但无法处理未登录词OOV, Out-of-Vocabulary。FastText 将单词拆分为字符级 n-gram如 3-gram“apple” → ap, app, ppl, ple, le并计算这些子词的向量之和作为单词的最终表示。数学表示对于一个单词 w w w其向量 v w v_w vw 是所有子词向量 v g v_{g} vg 的平均或求和 v w ∑ g ∈ G w v g v_w \sum_{g \in G_w} v_g vwg∈Gw∑vg 其中 G w G_w Gw 是单词 w w w 的所有 n-gram 子词集合。优势 ✅ 解决未登录词问题即使单词未在训练集中出现仍可通过子词组合生成向量。 ✅ 更好的形态学建模适用于德语、俄语等具有复杂词形变化的语言。 ✅ 共享子词信息相似词如 “running” 和 “runner”共享部分子词语义关联更强。 FastText 文本分类 FastText 提供了一种简单高效的文本分类方法特别适合短文本如新闻分类、情感分析。核心思想将整个文本表示为所有词向量的平均或求和。使用线性分类器Softmax预测类别标签。模型结构输入层文本分词后每个单词转换为子词向量隐藏层对一个文档中所有单词的向量进行叠加平均输出层Softmax 分类器 TextCNN 对CNN的输入层做了一些变形。自然语言是一维数据卷积核在一个方向上移动。输入通过词向量文件及词向量矩阵将文本向量化支持后续进行卷积池化等操作。第14讲 WEB图像数据图像的特征主要包括低层特征(Primitive Features) 语义特征(Semantic Features 局部特征全局特征低级图像特征主要有颜色、纹理和形状低级图像特征包括局部特征和全局特征颜色特征颜色是彩色图像最底层、最直观的物理特征通常对噪声图像质量的退化尺寸、分辨率和方向等的变化具有很强的鲁棒性全局特征颜色直方图 ColorHistogram 最简单、最常用的颜色特征描述的是不同色彩在整幅图像中所占的比例统计分布特性具有平移、尺度、旋转不变性特别适于描述那些难以进行自动分割的图像No space information 颜色矩 ColorMoment 基本思想在颜色直方图的基础上计算出每个颜色的矩估计颜色信息主要分布于低阶矩中一阶矩(均值,mean)二阶矩(方差,viarance)三阶矩(斜度,skewness) 用这些统计量替代颜色的分布来表示颜色特征它具有特征量少处理简单的特点优点不需要颜色空间量化特征向量维数低常和其他特征结合纹理特征 LBP特征 Local Binary Patterns LBP局部二值模式是一种用于纹理分析的局部特征描述方法广泛应用于图像处理、人脸识别、物体检测等领域其核心思想是通过比较像素点与其邻域的灰度关系生成二进制编码来表示局部纹理特征计算步骤选择中心像素对图像中的每个像素点 ( x c , y c ) (x_c,y_c) (xc,yc) 取其邻域通常是 3×3 窗口比较邻域像素将邻域像素的灰度值与中心像素比较大于等于中心值的记为 1否则记为 0生成二进制编码按固定顺序排列这些二进制值形成一个 8 位二进制数如 11001011转换为十进制将该二进制数转为十进制作为中心像素的 LBP 值对一幅灰度图提取其原始的LBP算子之后得到LBP图谱不过在应用中一般采用LBP特征谱的统计直方图跟位置有很大关系会因为位置没有对准而产生很大误差可以将图片划分为若干子区域然后每个子区域建立LBP的统计直方图显著的优点光照不变性旋转不变性灰度不变性局部形状特征 HOG特征方向梯度直方图Histogram of Oriented Gradient, HOG通过计算和统计图像局部区域的梯度方向直方图来构成特征描述局部目标的表象和形状 HOG特征提取算法的实现过程图像灰度化对图像颜色进行Gamma校正计算图像每个像素的梯度将图像划分成小cells统计每个cell的梯度直方图将每几个cell组成一个block将图像内的所有block的HOG特征descriptor串联 SIFT特征尺度不变特征转换Scale-invariant feature transform或SIFT 算法步骤建立尺度空间即建立高斯差分(DoG)金字塔在尺度空间中检测极值点并进行精确定位和筛选特征点方向赋值完成此步骤后每个特征点有三个信息位置、尺度、方向计算特征描述子 SIFT优点旋转、尺度、亮度不变性稳定SIFT缺点实时性不够高有时特征点较少对边缘光滑的目标无法准确提取特征点

查看全文

http://www.hkea.cn/news/14579227/