当前位置: 首页 > news >正文

建构网站厦门人才网app

建构网站,厦门人才网app,如何查看一个网站做的外链,东莞最大的网络公司原文链接: https://aclanthology.org/2022.findings-acl.124.pdf ACL 2022 介绍 问题 目前基于span的跨度量学习(metric learning)的方法存在一些问题: 1)由于是通过枚举来生成span,因此在解码的时候需要额…

原文链接:

https://aclanthology.org/2022.findings-acl.124.pdf

ACL 2022

介绍

        问题

         目前基于span的跨度量学习(metric learning)的方法存在一些问题:

        1)由于是通过枚举来生成span,因此在解码的时候需要额外处理重叠的span;

        2)non-entites类别的原型通常都是噪声;

        3)跨域时,最有用的信息就是当前领域有限的样本,之前的方法只将这些样本用于分类的相似性计算。

        IDEA 

        作者提出分解元学习(decomposed meta-learning)的方法来解决Few-shot ner任务(实体的边界检测和实体的分类)。

        将span检测作为序列标注问题,并通过引入MAML(model-agnostic metalearning 不是很懂 可以参考这篇文章Model-Agnostic Meta-Learning (MAML)模型介绍及算法详解 - 知乎)训练span detector,从而找到一个能快速适应新实体类别的模型参数进行初始化;对于实体分类,作者提出MAML-ProtoNet来找到一个合适的向量空间对不同类别的span进行分类。 

方法

        整个方法的整体结构如下所示:

 Entity span Detection

         span detection模型用于定位输入句子中的实体,该模块是类别无关的,学到的只是实体的边界信息(即领域不变的内部特征,而不是特定的领域信息),因此就能跨域进行实体定位。

Basci Detector

        作者使用BIOES标注框架,给定一个有L个token的序列,使用encoder f_{\theta }来获得所有token的上下文表征,对于每个token 使用一个线性分类层来计算其是否是实体的一部分;

        模型的损失如下所示:

        使用每个token的交叉熵损失,这里引入最大值是为了缓解损失相对较高的token导致的学习不充分问题。推理阶段,通过Viterbi算法进行解码。

Meta-Learning Procedure

         在该阶段,作者对边界检测模型进行训练。

        首先,从train数据集中进行随机采样得到,对模型执行inner-update:

        其中U^{n}表示在学习率为α时n步的梯度更新,来最小化loss(公式3)。

        然后在query set中对更新后的模型进行评估,同时通过汇总多个时间来执行meta-update:

        上式中的二阶导数,使用其一阶近似值进行估算:

        meta-test阶段,首先将在support set上训练好的span detection迁移到新领域,然后对query样本进行相应的预测。 

Entity Typing

Basic Model: ProtoNet

        给定输入序列L:,用公式1的方法计算word embedding hi,并按以下方式计算span的表征:

        对于每个类别yk,使用这个support set中属于该类别的所有span来计算原型ck:

        训练过程中,首先使用support set中的训练数据计算所有类别的原型,然后对于query set中的每个span,通过计算其表征与每个类别原型ck的距离来得到属于每个类别的分数:

        最小化分类的交叉熵损失来训练原型网络:

        推理阶段,首先利用训练好的模型计算所有训练集中所有类别的原型,然后使用边界检测模型得到span,按照公式10为每个span进行分类:

MAML Enhanced ProtoNet

         在训练集中进行随机采样,得到。对于inner-update,首先为每个类别计算原型,然后将每个span作为query对模型参数进行更新:

        在meta-update阶段,使用\gamma {}'重新计算每个类别的原型,即在query set上对r进行验证,同样的使用一阶导数近似值提高计算效率: 

         训练过程中没有见过的数据,首先利用support中的样本来对meta-learned的模型进行微调,微调好后再计算每个类别的原型,最后基于这些原型进行分类。

实验

对比实验

         在Intra和Inter这两种数据设置下进行实验,结果如下图所示:

         在Cross-Dataset数据集上进行实验,结果如下所示:

消融实验

        对主要模块进行了消融实验,结果如下所示: 

其他

        对不同类别的span表征进行了可视化:

结论

        这篇论文没有很看懂,去看了以下Meta-learning的相关内容也没有很明白,似乎就是meta-learning就是为模型训练出一个更合适的参数,使其能够更快的应用于新领域。上周看的一篇论文感觉跟这篇很像,不过不知道是不是在Few-shot ner中用原型学习的很多,感觉还挺像的。 

http://www.hkea.cn/news/817195/

相关文章:

  • 鞋子 东莞网站建设真正的免费建站在这里
  • 网站上微信的链接怎么做项目平台
  • 做网站后有人抢注关键词网络营销方案策划论文
  • 苏州网站建设网站seo优化的方法
  • 设计网装修seo顾问服
  • 网站ip拦截免费网站搭建平台
  • 深圳企业网站建设公司快速申请免费个人网站
  • 唯品会 一家专门做特卖的网站沈阳seo按天计费
  • 聊城手机网站建设郑州seo服务技术
  • 个人定做衣服店江门seo推广公司
  • 网站开发与网站建设山东济南seo整站优化费用
  • 香港疫情最新消息今天深圳seo教程
  • 维护一个网站难吗免费发布外链
  • 南安市网站建设成都今天重大新闻事件
  • 网站后台补丁如何做软文有哪几种类型
  • 网站建设的费用包括哪些内容资讯门户类网站有哪些
  • 一站式服务图片制作网页的基本步骤
  • 个人网站建设网站网络网站推广
  • asp做的药店网站模板北京百度快照推广公司
  • 网站建设泉州效率网络seo的优化策略有哪些
  • 页网站无锡网站制作推广
  • 一流的龙岗网站建设目前最靠谱的推广平台
  • 企业营销型网站费用短视频推广引流
  • 化妆品可做的团购网站有哪些seo研究中心南宁线下
  • 网站空间域名是什么做电商必备的几个软件
  • 软件公司运营是做什么的seo公司运营
  • 专业云南做网站福州短视频seo服务
  • 网站开发技术期中试题电商培训机构排名
  • 网站设计连接数据库怎么做如何进行百度推广
  • 日本网站图片做淘宝代购网络营销促销方案