Leo
大家好,欢迎收听本期播客。今天我们很荣幸邀请到了知乎技术中台智能算法部AI组的王难研究员,他将为我们详细介绍知乎是如何利用大模型解决海量标签多分类问题的。王难,欢迎你!
王难
谢谢Leo,大家好。知乎作为一个高质量的问答社区,积累了大量的内容数据。如何对这些内容进行高质量的刻画和分发,是我们一直在探索的问题。
Leo
是的,内容理解和分发是提升用户体验的关键。那么,传统的标签分类方法在处理海量标签时遇到了哪些困境呢?
王难
传统方法在处理海量标签时,主要面临训练周期长、模型泛化性能差、标签体系迭代周期长等问题。特别是当标签数量达到十万甚至百万量级时,传统方法的性能会急剧下降。
Leo
听起来确实是一个很大的挑战。那么,你们是如何通过大模型来解决这些问题的呢?
王难
我们提出了一种基于语义检索模型和知海图AI大模型的多标签分类方法。首先,我们使用预训练的语义检索模型在标注好的数据集上进行微调,召回与文本相关的候选标签。然后,通过Prompt工程技术将文本和候选标签输入到大模型中,筛选出正确的标签。
Leo
这种方法听起来非常创新。能详细介绍一下模型的结构和训练优化吗?
王难
当然。我们的模型结构包括召回模型和生成模型两部分。召回模型主要负责从海量标签中快速、准确地召回一批语义相关的标签。生成模型则负责从候选标签中筛选出正确的标签。在训练优化方面,我们对损失函数和标签语义信息进行了优化,以提高模型的准确率和召回率。
Leo
听起来非常复杂且高效。那么,实验结果如何呢?
王难
实验结果非常令人振奋。与传统方法相比,我们的模型在准确率和召回率上都有显著提升。特别是在处理长文和短文时,准确率分别提升了20%和15%。
Leo
这确实是一个巨大的进步。那么,未来你们还有什么计划或展望吗?
王难
未来,我们计划进一步优化模型,提升其在更多场景下的适用性。同时,我们也在探索如何更好地利用用户反馈数据,进一步提升模型的性能。
Leo
主持人
王难
知乎技术中台智能算法部AI组研究员