北京网站建设有限公司,学网站开发 优帮云,网页设计与制作怎么插视频,亚瑟中文 在线模型BERT 任务#xff1a;提取问题和答案 问题的起始位置和结束位置。
数据集 数据集 DRCDODSQA 先分词#xff0c;然后tokenize 文章长度是不同的#xff0c;bert的token的长度有限制#xff0c;一般是512#xff0c; self-attention的计算量是 O ( n 2 ) O(n^2) O(n…
模型BERT 任务提取问题和答案 问题的起始位置和结束位置。
数据集 数据集 DRCDODSQA 先分词然后tokenize 文章长度是不同的bert的token的长度有限制一般是512 self-attention的计算量是 O ( n 2 ) O(n^2) O(n2),所以无法将长的整篇文章送进去处理。
Train 以正确答案为中心以固定长度的windows去找问题。关键字答案一般在关键字附近在答案的附近画一个window越大越好。然后将这些片段进行tokenizer再去训练。 Hints Linear Learning rate decay overlapping window 因为分割可能会看不到重叠一些部分。 修改doc stride参数。 正确答案不一定是在窗户正中心。 不同的预训练模型建议使用中文预训练模型。 自动混合精度有的时候不需要那么高的精度Float32仅部分卡支持以加速训练。 如果GPU内存不够的话可以使用Gradient accumulation累计参数一次更新。 Kaggle项目 套件pip install transformers