李思思
大家好,欢迎收看今天的访谈。我是科技记者李思思,今天我们非常荣幸地邀请到了知乎技术中台智能算法部AI组的研究员王难老师,来和我们探讨基于大模型的海量标签多分类方法。王难老师,您好!
王难
你好,李思思,很高兴来到这里。今天我会和大家分享我们在海量标签多分类方法上的一些研究成果和实践经验。
李思思
王难老师,首先请您简要介绍一下目前主流的标签分类方法及其面临的主要困境。
王难
好的。目前主流的标签分类方法通常采用预训练语言模型,然后在特定的数据集上进行参数微调。这种方法在标签数量较少且标签体系固定的情况下效果较好。然而,当面对海量标签时,这种方法存在几个主要困境:一是训练周期较长,二是模型的泛化性能较差,三是标签体系迭代周期长,四是未充分利用标签信息。
李思思
那么,针对这些困境,你们提出了基于大模型的海量标签多分类方法。能否详细介绍一下这个方法的模型结构和训练优化?
王难
当然可以。我们提出的方法将分类问题转化为检索问题。首先,使用预训练的语义检索模型,在标注好的数据集上进行微调,使得文本和标签进行对齐。然后,使用微调后的检索模型进行文本的候选标签召回。最后,采用Prompt工程技术将文本和候选标签作为知海图AI大模型的输入,对大模型进行微调,使得大模型从候选标签集中筛选出正确标签。
李思思
听起来这个方法非常有创新性。在实验设计和优化方面,你们做了哪些具体的工作?
王难
在实验设计中,我们对损失函数进行了优化,特别是在标签召回阶段,我们采用知乎高质量语料集对检索模型进行微调,优化输入query和标签label之间的损失。此外,我们还对标签增加了解释信息,以丰富标签的语义信息,提高召回的准确性。
李思思
那么,实验结果如何?与传统的基于预训练BERT模型的方法相比,你们的方法有哪些显著的提升?
王难
实验结果非常令人满意。在短文数据集上,我们的方法准确率提升了约15%,覆盖率提升了约15%。在长文数据集上,准确率提升了约20%,覆盖率提升了约20%。这些提升使得我们能够对内容进行更为精准和全面的刻画。
李思思
最后,您认为基于大模型的海量标签多分类方法未来的发展方向是什么?
王难
未来的发展方向主要有两个方面:一是进一步提高模型的准确率和召回率,二是探索更高效、更低成本的模型训练和迭代方法。此外,我们还希望将这一方法应用到更多领域,如推荐系统、内容审核等,以更好地服务于业务发展。
李思思
感谢王难老师的分享,今天的访谈非常精彩,让我们对基于大模型的海量标签多分类方法有了更深入的了解。再次感谢王难老师,也感谢大家的收看,我们下次再见!
王难
感谢李思思的邀请,也感谢大家的关注,期待与大家再次交流。再见!
李思思
科技记者
王难
知乎技术中台智能算法部AI组研究员