Sources
下图是“消费品使用问答助手”的真实问题,当用户问,“在人机对话时,机器识别不到讲的语音怎么办”。我们肉眼可见在上传的产品说明书里有一个极其贴切的回答:“a. 需要点击对话键,激活对话功能……”。然而,AI 问答助手却给出了非常笼统的回答:“可能多种原因导致的,比如环境噪音……”在 RAG 里,常见的检索方式有:向量检索、关键词检索、混合检索。向量检索向量检索就是将用户问题对应的向量与知识库中文本块对应的向量进行比较,距离相近的向量会被选中,也是我们在这个案例中使用的检索方式(Dify 界面中可以设置)。举个例子,在现实生活中,你可能会觉得“桃子”与“梨”这两个词完全没有重合,但是在向量空间里,他们之间的距离是非常近的。因为词的向量化就是把一个词拆解为到几百甚至几千个维度,比如形状、大小、类型、颜色等等。由于“桃子”与“梨”在很多维度相似,比如都是水果,因此它们在向量空间里非常接近,甚至比“梨”与“梨树”之间的距离更近,所以当我们用向量检索来寻找与“梨”接近的词时,排在第一位的可能是“桃子”,而不是“梨树”。
Podcast Editor
Podcast.json
Preview
Audio
