做3d动画的斑马网站,施工企业会计王玉红课后答案,中职学校网站建设情况总结,直邮网站的推广活动怎么做文章目录 LLM大模型的向量数据库应用实战1 大模型的局限性大模型的4点局限性大模型的4点局限性的改进实践方法 2 向量数据库使用场景以及改建大模型向量数据库向量数据库选型知识库文档检索增强(Retrieval Augmented Generation) 3 向量数据库应用技术架构剖析向量数据库应用技… 文章目录 LLM大模型的向量数据库应用实战1 大模型的局限性大模型的4点局限性大模型的4点局限性的改进实践方法 2 向量数据库使用场景以及改建大模型向量数据库向量数据库选型知识库文档检索增强(Retrieval Augmented Generation) 3 向量数据库应用技术架构剖析向量数据库应用技术总体架构向量数据库应用离线索引技术向量数据库应用在线检索技术 4 利用向量检索构建知识库案例实战库总体流程3大步骤向量数据库选型写入向量数据库(离线索引)使用向量数据库(在线检索)私人助手回答结果 LLM大模型的向量数据库应用实战
1 大模型的局限性
大模型的4点局限性
缺乏领域特定信息LLM仅基于公开数据预训练缺乏领域特定信息、专有/专业数据等非公开数据容易产生幻觉LLM只能根据现有数据提供信息和答案如果超出该范围LLM回提供错误或捏造的信息无法获取最新信息/知识LLM训练成本十分高昂训练ChatGPT-3的成本高达 140万美金LLM无法及时更新知识库“不变”的预训练数据LLM使用的预训练数据可能包含过时或者不正确的信息并且这些数据无法更正或删除
大模型的4点局限性的改进实践方法
缺乏领域特定信息 利用向量数据库建立知识库拓展 LLM 的认知边界微调Fine-tuning针对专业领域进行特定训练 容易产生幻觉 使用提示词工程 Prompt Engineering 规定限制 无法获取最新信息/知识 利用向量数据库为大模型建立记忆及时更新 “不变”的预训练数据 RLHFReinforcement Learning from Human Feedback人工纠正再次微调从知识库中删除无效信息
2 向量数据库使用场景以及改建大模型 用向量数据库/知识库改进大模型 向量数据库
向量是非结构化数据在高维空间中的表征Embedding Model 是将非结构化数据映射到高维空间的工具使用合适的 Embedding Model向量的近似度代表语义的近似度 Embedding过程 向量数据库选型
国产Milvus、Tencent Cloud VectorDB、Zilliz Cloud 等海外Pincone免费、Redis、FAISS、PgVector、Elasticsearch Cloud 等技术架构 知识库
知识图谱全文检索知识库和向量数据库关系 大模型应用离不开向量检索 文档检索增强(Retrieval Augmented Generation)
利用提前构建好的知识库通过检索与 Query 相关的知识片段来增强大模型回答效果 RAG 优势——更经济、更具可行性、更具扩展性 容易管理更精确和上下文相关的答案适应性强、敏捷性强更好的模糊搜索能力 Fine-tuning 不足 适用于较小的知识数据库没有知识访问控制前期成本高维护成本高知识更新不及时
3 向量数据库应用技术架构剖析
向量数据库应用技术总体架构
以一个在线查询为例 向量数据库应用离线索引技术 离线索引更多优化 针对文档特性语言、内容选择 Embedding 模型更有针对性的文档分段模型文档转问题用问题召回 向量数据库应用在线检索技术 在线检索更多优化 用户问题改写使用改写的问题召回多路召回结合全文检索的结果把问题编造成“假”文档使用“假”文档召回 4 利用向量检索构建知识库案例实战库 构建私人智能助手整体架构设计 总体流程3大步骤
将私人数据转换为向量数据并写入到向量数据库中根据 Prompt 从向量数据库中提取相似数据结合相似数据重新组装 Prompt让 ChatGPT 生成回答 向量数据库选型
推荐 Pinecone 向量数据库https://www.pinecone.io/ 免费、秒审通过 核心三个参数 索引名称满足规范特征维度向量维度OpenAI 转化为 1536 维度量距离指标提供了3种推荐 cosine 写入向量数据库(离线索引)
安装对应的 Python 库pip install pinecone-client写入向量数据采用读取文件形式 将所有数据从文档中读取出来通过 OpenAI Embedding 转换成对应的向量化数据将向量化数据存储到 Pinecone 创建的 index 中 在 Pinecone 网站查看这份数据 使用向量数据库(在线检索)
从 Pinecone 获取指定的索引 将 Prompt 转换为向量数据从向量数据库提取相似数据 将提取的数据与 Prompt 重新构建输入发送给 ChatGPTChatGPT 整理内容后输出结果 私人助手回答结果
关于亚运会首日中国金牌信息可以看到完美成为了我们的私人智能助手来回答问题