RAG 技术原理解析

image.png

Huggingface 向量模型排行榜

访问地址 https://huggingface.co/spaces/mteb/leaderboard

向量模型的种类

向量模型的种类大概分为六大类,向量模型的数量有上百种以上

  1. BERT 是一种基于 Transformer 架构的预训练语言表示模型,被广泛应用情感分析、问答系统、命名实体识别等场景。
  2. M3E 通过大规模混合嵌入技术提高了词向量的表达能力和泛化能力,适用于各种文本处理任务
  3. BGE 是一种基于双向生成编码的深度学习模型,主要用于将文本数据编码为高维向量表示,适用于文本相似度计算、信息检索、聚类和分类等。
  4. Sentence Transformers - 基于孪生 BERT 网络预训练得到的模型,对句子的嵌入效果比较好
  5. OpenAI Embedding - OpenAI Embedding 向量模型是一种将文本转换为高维向量表示的技术,适用于搜索引擎、推荐系统、问答系统等场景。
  6. Instructor Embedding - Instructor Embedding 向量模型提供任务指令而生成相对定制化的文本嵌入向量,无需进行任何微调。

文档分段技巧

  • 分段标识规范:离线文档的分段标识要有一定规范,否则拆分出来的段落不规整。段落完整:在一个分段中集中描述一个完整的内容
  • QA 问答对是问答效果最好的;其次依次排序为MarkDown、Word、PDF
  • 关联问题可以优化问题回答的准确度
  • 通过命中测试可以修改相似度、分段,逐渐调试
  • 知识库准备一定要确保向量化,默认在线和离线文档导入会向量化,后续如果需要重新向量化,需要重新点击向量化完成向量化。

QA问答对:电商客服助手

Excel表格优化

MarkDown文档

高质量的 Word 文档格式

PDF 文件处理

MinerU 工具进行转换
olmOCR 文本识别