当前位置: 首页 > news >正文

网页设计个人网站怎么做为什么百度不收录wordpress

网页设计个人网站怎么做,为什么百度不收录wordpress,建设网站收废品,西安百度推广运营公司训练 RAG#xff08;Retrieval-Augmented Generation#xff09;模型涉及多个步骤#xff0c;包括准备数据、构建知识库、配置检索器和生成模型#xff0c;以及进行训练。以下是一个详细的步骤指南#xff0c;帮助你训练 RAG 模型。 1. 安装必要的库 确保你已经安装了必…训练 RAGRetrieval-Augmented Generation模型涉及多个步骤包括准备数据、构建知识库、配置检索器和生成模型以及进行训练。以下是一个详细的步骤指南帮助你训练 RAG 模型。 1. 安装必要的库 确保你已经安装了必要的库包括 Hugging Face 的 transformers 和 datasets以及 Elasticsearch 用于检索。 pip install transformers datasets elasticsearch2. 准备数据 构建知识库 你需要一个包含大量文档的知识库。这些文档可以来自各种来源如维基百科、新闻文章等。 from datasets import load_dataset# 加载示例数据集例如维基百科 dataset load_dataset(wikipedia, 20200501.en)# 获取文档列表 documents dataset[train][text]将文档索引到 Elasticsearch 使用 Elasticsearch 对文档进行索引以便后续检索。 from elasticsearch import Elasticsearch# 初始化 Elasticsearch 客户端 es Elasticsearch()# 定义索引映射 index_mapping {mappings: {properties: {text: {type: text},title: {type: text}}} }# 创建索引 index_name knowledge_base if not es.indices.exists(indexindex_name):es.indices.create(indexindex_name, bodyindex_mapping)# 索引文档 for i, doc in enumerate(documents):es.index(indexindex_name, idi, body{text: doc, title: fDocument {i}})3. 准备训练数据 加载训练数据集 你需要一个包含问题和答案的训练数据集。 from datasets import load_dataset# 加载示例数据集例如 SQuAD train_dataset load_dataset(squad, splittrain)预处理训练数据 将训练数据预处理为适合 RAG 模型的格式。 from transformers import RagTokenizer# 初始化 tokenizer tokenizer RagTokenizer.from_pretrained(facebook/rag-token)def preprocess_data(examples):questions examples[question]answers examples[answers][text]inputs tokenizer(questions, truncationTrue, paddingmax_length, max_length128)labels tokenizer(answers, truncationTrue, paddingmax_length, max_length128)[input_ids]return {input_ids: inputs[input_ids], attention_mask: inputs[attention_mask], labels: labels}# 预处理训练数据 train_dataset train_dataset.map(preprocess_data, batchedTrue)4. 配置检索器和生成模型 初始化检索器 使用 Elasticsearch 作为检索器。 from transformers import RagRetriever# 初始化检索器 retriever RagRetriever.from_pretrained(facebook/rag-token, index_nameknowledge_base, es_clientes)初始化生成模型 加载预训练的生成模型。 from transformers import RagSequenceForGeneration# 初始化生成模型 model RagSequenceForGeneration.from_pretrained(facebook/rag-token, retrieverretriever)5. 训练模型 配置训练参数 使用 Hugging Face 的 Trainer 进行训练。 from transformers import Trainer, TrainingArguments# 配置训练参数 training_args TrainingArguments(output_dir./results,evaluation_strategysteps,eval_steps1000,per_device_train_batch_size4,per_device_eval_batch_size4,num_train_epochs3,warmup_steps500,weight_decay0.01,logging_dir./logs,logging_steps10, )# 初始化 Trainer trainer Trainer(modelmodel,argstraining_args,train_datasettrain_dataset,eval_datasettrain_dataset, )# 开始训练 trainer.train()6. 保存和评估模型 保存模型 训练完成后保存模型以供后续使用。 trainer.save_model(./rag-model)评估模型 评估模型的性能。 from datasets import load_metric# 加载评估指标 metric load_metric(squad)def compute_metrics(eval_pred):predictions, labels eval_preddecoded_preds tokenizer.batch_decode(predictions, skip_special_tokensTrue)decoded_labels tokenizer.batch_decode(labels, skip_special_tokensTrue)result metric.compute(predictionsdecoded_preds, referencesdecoded_labels)return result# 评估模型 eval_results trainer.evaluate(compute_metricscompute_metrics) print(eval_results)完整示例代码 以下是一个完整的示例代码展示了如何训练 RAG 模型 from datasets import load_dataset from elasticsearch import Elasticsearch from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration, Trainer, TrainingArguments, load_metric# 加载示例数据集例如维基百科 dataset load_dataset(wikipedia, 20200501.en) documents dataset[train][text]# 初始化 Elasticsearch 客户端 es Elasticsearch()# 定义索引映射 index_mapping {mappings: {properties: {text: {type: text},title: {type: text}}} }# 创建索引 index_name knowledge_base if not es.indices.exists(indexindex_name):es.indices.create(indexindex_name, bodyindex_mapping)# 索引文档 for i, doc in enumerate(documents):es.index(indexindex_name, idi, body{text: doc, title: fDocument {i}})# 加载训练数据集例如 SQuAD train_dataset load_dataset(squad, splittrain)# 初始化 tokenizer tokenizer RagTokenizer.from_pretrained(facebook/rag-token)def preprocess_data(examples):questions examples[question]answers examples[answers][text]inputs tokenizer(questions, truncationTrue, paddingmax_length, max_length128)labels tokenizer(answers, truncationTrue, paddingmax_length, max_length128)[input_ids]return {input_ids: inputs[input_ids], attention_mask: inputs[attention_mask], labels: labels}# 预处理训练数据 train_dataset train_dataset.map(preprocess_data, batchedTrue)# 初始化检索器 retriever RagRetriever.from_pretrained(facebook/rag-token, index_nameknowledge_base, es_clientes)# 初始化生成模型 model RagSequenceForGeneration.from_pretrained(facebook/rag-token, retrieverretriever)# 配置训练参数 training_args TrainingArguments(output_dir./results,evaluation_strategysteps,eval_steps1000,per_device_train_batch_size4,per_device_eval_batch_size4,num_train_epochs3,warmup_steps500,weight_decay0.01,logging_dir./logs,logging_steps10, )# 初始化 Trainer trainer Trainer(modelmodel,argstraining_args,train_datasettrain_dataset,eval_datasettrain_dataset, )# 开始训练 trainer.train()# 保存模型 trainer.save_model(./rag-model)# 加载评估指标 metric load_metric(squad)def compute_metrics(eval_pred):predictions, labels eval_preddecoded_preds tokenizer.batch_decode(predictions, skip_special_tokensTrue)decoded_labels tokenizer.batch_decode(labels, skip_special_tokensTrue)result metric.compute(predictionsdecoded_preds, referencesdecoded_labels)return result# 评估模型 eval_results trainer.evaluate(compute_metricscompute_metrics) print(eval_results)注意事项 数据质量和数量确保知识库中的文档质量高且数量充足以提高检索和生成的准确性。模型选择根据具体任务选择合适的 RAG 模型如 facebook/rag-token 或 facebook/rag-sequence。计算资源RAG 模型的训练和推理过程可能需要大量的计算资源确保有足够的 GPU 或 TPU 支持。性能优化可以通过模型剪枝、量化等技术优化推理速度特别是在实时应用中。 参考博文RAGRetrieval-Augmented Generation检索增强生成基础入门
http://www.hkea.cn/news/14546074/

相关文章:

  • 美的网站建设规划书小程序制作费付款的时候备注什么比较好呢
  • 创建网站多少钱网站开发需要
  • 居士做网站十个程序员必备的网站
  • flash 网站 源码番禺公司网站建设
  • 那种广告式网站怎么做wordpress目录遍历漏洞
  • 柳州市城乡建设局网站wordpress博客页修改
  • 广东网站搭建wordpress 重写规则
  • 新余+网站建设湖北系统app定制开发系统
  • 网站主题有哪些wordpress手动加水印
  • 福州公司网站建设网站设计要学什么
  • 连云港网站设计树莓派搭建wordpress
  • 网站建设公司哪里可以做太原 招聘 网站建设 技术经理
  • 济宁网站建设方面单页网站 开元
  • 外贸网站建设评价网站地图有什么作用
  • 盐城外贸网站建设赛事网站开发
  • 怎样做QQ网站呢做网站做好用的软件
  • 做的网站速度慢seo推广软件
  • wordpress网站地图百度插件郑州网站建设咨询
  • 肃宁县做网站新余网站开发公司
  • 网站开发 技术路线win10本地安装wordpress
  • 备案的网站有什么好处wordpress 私密
  • 广州北京网站建设公司常州网站建设公司如何
  • 无障碍网站开发杭州网站设计公司推荐
  • 阿里 做网站陕西手机网站建设公司
  • 北京网站制作培训学校选择郑州网站建设
  • 电子商务网站建设收益举例小程序免费制作平台小程序
  • 重庆网站制作设计公司做微信的网站叫什么
  • 2017自己做网站的趋势中山微网站建设报价
  • 为什么多个网站域名有同个网站备案想学网站建设
  • 建设工程网站单位名单小程序制作后维护成本