2026年哪个本文嵌入模型最适合推荐系统

2026/3/1大约 5 分钟

2026年哪个本文嵌入模型最适合推荐系统

在2025年的文章推荐场景下文本嵌入模型性能对比中，我们评估了本文嵌入模型在相似推荐上的表现。在文章发布之后的半年内，阿里云和谷歌相继推出了新一代的开源本文嵌入模型，分别是阿里云的qwen3-embedding和谷歌的embeddinggemma。最近gorse-bench工具也新增了文本嵌入模型的基准测试功能，本文将使用gorse-bench和playground数据集，对热门的开源本文嵌入模型进行一次全面的评测。

评估方法：基于相似度的单样本推荐

在2026年的评测使用了更贴近实际推荐场景的评测方法，具体步骤如下：

样本划分：对于每个用户，将其行为序列按时间排序。取最新的一个反馈作为测试集，紧邻其前的一个反馈作为训练集。由于没有训练的过程，训练集并不是用于训练，而是用于计算候选集物品和训练集物品之间的相似度作为排序的依据。
候选集生成：随机选择99个用户未产生反馈的物品，与测试集中的物品组成一个包含100个物品的候选集。
排序逻辑：计算训练集物品的嵌入向量与候选集中100个物品的嵌入向量之间的欧式距离，按照距离从小到大进行排序，距离越小表示物品越相似。
评估指标：根据相似度得分对 100 个物品进行排序，计算NDCG@10，数值越大表示排序准确率越高。

实验配置

首先需要将API地址和API密钥添加到配置文件的以下字段中：

[openai]

# Base URL of OpenAI API.
base_url = "https://integrate.api.nvidia.com/v1"

# API key of OpenAI API.
auth_token = "NVIDIA_API_KEY"

也可以将这些字段通过环境变量覆盖：

OPENAI_BASE_URL="https://integrate.api.nvidia.com/v1"
OPENAI_AUTH_TOKEN="NVIDIA_API_KEY"

从代码仓库编译好gorse-bench运行以下命令评估文本嵌入模型的准确率：

./gorse-bench embedding --config ./config/config.toml \
  --text-column item.Comment \
  --embedding-model qwen3-embedding:0.6b \
  --embedding-dimensions 1024 \
  --shot 1

--text-column参数指定用于生成嵌入的文本字段。
--embedding-model参数指定使用的文本嵌入模型。
--embedding-dimensions参数指定嵌入向量的维度
--shot参数指定使用多少条训练样本来计算相似度，本文使用单样本。

实验结果

评测的开源模型在推荐场景下文本嵌入模型性能对比一文的基础上新增了阿里云的qwen3-embedding系列和谷歌的embeddinggemma系列。另外，阿里云的text-embedding-v4作为商业模型的代表作为参考：

排序准确率对比

根据实验结果，我们可以得出以下结论：

商业模型依然领先：阿里云的 text-embedding-v4 在绝大多数维度下都表现最佳。特别是在2048维时，NDCG@10达到了0.1727，展现了其强大的语义表征能力。
千闻3系列的惊艳表现：
- qwen3-embedding:4b模型表现非常稳健，在 512 维左右达到了性能峰值，甚至超过了参数量更大的8b模型。这表明在嵌入任务中，模型规模并不是越大越好。
- qwen3-embedding:0.6b作为轻量级模型，在极低维度（32, 64, 128）下展现了极高的效率，非常适合资源受限的端侧推荐场景。

维度与性能的权衡：大多数模型在512维到1024维之间进入性能饱和期。对于大多数推荐系统，选择512维可以在保证准确率的同时，大幅降低存储和索引计算成本。

总结与建议

在2026年的推荐系统本文嵌入向量选型中，本文的建议如下：

追求极致效果：首选商业模型。其在各种维度下均有极高的上限，且对多语言支持极佳。
追求高性价比/私有化部署：qwen3-embedding:4b是目前的性价比之王。它以较小的参数量实现了媲美商业模型的推荐精度。
低延迟/端侧场景：qwen3-embedding:0.6b结合64或128维向量，是最佳的轻量化方案。

即使本文提供了一些建议，但是在实际选型时，建议使用gorse-bench在自己的数据集上进行评测，以选择最适合自己业务场景的文本嵌入模型。