视频网站建站免费,兰州新区建设局网站地址,网站推广常用的方法,高端网址在机器翻译任务中常用评价指标#xff1a;BLEU、ROGUE、METEOR、PPL。
这些指标的缺点#xff1a;只能反应模型输出是否类似于测试文本。
BLUE#xff08;Bilingual Evaluation Understudy#xff09;#xff1a;是用于评估模型生成的句子(candidate)和实际句子(referen…在机器翻译任务中常用评价指标BLEU、ROGUE、METEOR、PPL。
这些指标的缺点只能反应模型输出是否类似于测试文本。
BLUEBilingual Evaluation Understudy是用于评估模型生成的句子(candidate)和实际句子(reference)的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景如语言生成、图像标题生成、文本生成、语音识别。 Python使用NLTK库实现BLEU的计算。 ROGUE指标是在机器翻译、自动摘要、问答生成等领域常见的评估指标。ROUGE 通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算得到对应的得分。 Python使用rouge库实现。 METEOR: PPLPerplexity困惑度 参考文章
机器翻译评价指标BLEU介绍_bleu指标-CSDN博客