当前位置：首页 > news >正文

北京网站建设有限公司学网站开发优帮云

news 2026/5/1 2:59:02

北京网站建设有限公司,学网站开发优帮云,网页设计与制作怎么插视频,亚瑟中文在线模型BERT 任务#xff1a;提取问题和答案问题的起始位置和结束位置。数据集数据集 DRCDODSQA 先分词#xff0c;然后tokenize 文章长度是不同的#xff0c;bert的token的长度有限制#xff0c;一般是512#xff0c; self-attention的计算量是 O ( n 2 ) O(n^2) O(n… 模型BERT 任务提取问题和答案问题的起始位置和结束位置。数据集数据集 DRCDODSQA 先分词然后tokenize 文章长度是不同的bert的token的长度有限制一般是512 self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。 Train 以正确答案为中心以固定长度的windows去找问题。关键字答案一般在关键字附近在答案的附近画一个window越大越好。然后将这些片段进行tokenizer再去训练。 Hints Linear Learning rate decay overlapping window 因为分割可能会看不到重叠一些部分。修改doc stride参数。正确答案不一定是在窗户正中心。不同的预训练模型建议使用中文预训练模型。自动混合精度有的时候不需要那么高的精度Float32仅部分卡支持以加速训练。如果GPU内存不够的话可以使用Gradient accumulation累计参数一次更新。 Kaggle项目套件pip install transformers

查看全文

http://www.hkea.cn/news/14482971/