跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 卖家故事 > 智源发布最强开源可商用中英文语义向量模型 BGE,超越同类模型,解决大模型制约问题

智源发布最强开源可商用中英文语义向量模型 BGE,超越同类模型,解决大模型制约问题

时间:2024-05-01 09:35:43 来源:网络cs 作者:亙句 栏目:卖家故事 阅读:

标签: 模型  超越  向量  同类  制约  解决  发布 
阅读本书更多章节>>>> 4.1 语义向量模型是什么?

语义向量模型(Embedding Model)被广泛应用于搜索、推荐、数据挖掘等重要领域,将自然形式的数据样本(如语言、代码、图片、音视频)转化为向量(即连续的数字序列),并用向量间的 “距离” 衡量数据样本之间的“相关性” 。

4.2 大模型时代,帮助缓解幻觉问题、长期记忆挑战等的必要技术

与时俱进获取知识

只能基于模型训练中的阶段性「死板」知识储备,是导致大模型在回答问题时出现幻觉的重要因素。而借助语义向量模型的帮助,大模型可以获取与时俱进的「活知识」,答案又新又准。具体而言,通过语义向量模型建立某个垂直领域的知识库索引(Index),可以为大模型高效补充世界知识、本地知识:当用户向 LLM 提问时,LLM 会从最新最全知识库中获取答案。

提升大模型长期记忆

大模型困长期记忆久已,现有 LLM 存在上下文输入长度限制,制约了长文本方面的处理能力。利用语义向量模型,可将长文档结构化,与 LLM 更好地直接交互,从而弥补长文本处理能力短板。

4.3 LangChain 等大模型明星应用的关键力量

OpenAI、Google、Meta 等厂商均推出了针对大模型的语义向量模型及 API 服务,直接促进了全球大模型开发者社区诞生了众多有影响力的大模型应用框架及工具:诸如大模型应用框架 LangChain、向量存储数据库 Pinecone、文档格式化索引工具 Llama Index、自主 “思考” 步骤并完成任务的助手 AutoGPT 等。

参考文献:

[1] Unsupervised Dense Information Retrieval with Contrastive Learning (Contriever), https://arxiv.org/pdf/2112.09118.pdf

[2] Large Dual Encoders Are Generalizable Retrievers (GTR), https://aclanthology.org/2022.emnlp-main.669.pdf

[3] Text Embeddings by Weakly-Supervised Contrastive Pre-training (E5), https://arxiv.org/abs/2212.03533

[4] Introducing text and code embeddings (OpenAI Text Embedding), https://openai.com/blog/introducing-text-and-code-embeddings , https://openai.com/blog/new-and-improved-embedding-model

[5] RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder (RetroMAE), https://aclanthology.org/2022.emnlp-main.35/

[6] RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models (RetroMAE-2), https://aclanthology.org/2023.acl-long.148/

[7] Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval (Tevatron), https://github.com/texttron/tevatron

[8] Dense Passage Retrieval for Open-Domain Question Answering (DPR), https://arxiv.org/abs/2004.04906

[9] One Embedder, Any Task: Instruction-Finetuned Text Embeddings (Instructor), https://instructor-embedding.github.io

[10] Wudao Corpora (悟道), https://github.com/BAAI-WuDao/Data

[11] The Pile: An 800GB Dataset of Diverse Text for Language Modeling (Pile), https://github.com/EleutherAI/the-pile

[12] MTEB: Massive Text Embedding Benchmark (MTEB), https://huggingface.co/blog/mteb

阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/gushi/2024-05-01/163910.html,文章来源:网络cs,作者:亙句,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论