Leo
大家好,欢迎收听本期播客,我是主持人Leo。今天我们将深入探讨中国大模型的发展,以及我们在这个领域面临的挑战,尤其是中文语料资源的短缺问题。很高兴我们今天邀请到了周源,他不仅是全国政协委员,还是知乎的创始人和CEO。周源,欢迎你!
周源
谢谢Leo,很高兴能和大家分享我的想法。最近我确实在思考这些问题,特别是在全国两会期间,我提交了几份提案,涵盖了新质生产力、民营经济以及大模型技术等多个方向。
Leo
是的,我注意到你提到的新质生产力,能不能给我们详细聊聊这个概念以及它为何如此重要?
周源
当然可以。新质生产力实际上是指在当前经济和技术环境下,提升经济发展质量和效率的新趋势。它需要具备高素质的人才支撑,尤其是在科技创新和产业升级方面。民营企业在这个过程中扮演了非常重要的角色。
Leo
这让我想到,民营企业在推动新业态和新模式方面确实发挥了重要作用。你提到它们可以作为新业态的试验田,这个观点很有意思!
周源
没错,民营企业由于灵活性高,能够快速适应市场的变化,抓住新的需求。它们不仅是新业态的先行者,还推动了新商业模式的创新。在这个过程当中,虽然有挑战,但同时也是推动整个行业进步的动力。
Leo
听起来非常有启发性。那么说到中文语料资源短缺的问题,我知道这是一个非常复杂的课题。你在提案中提到的中文语料资源问题,能不能分享一下你的看法?
周源
是的,中文语料资源的短缺确实是一个亟待解决的问题。虽然中国的数据量在迅速增长,但高质量的中文语料却很稀缺。这不仅影响到模型的训练质量,还会极大地限制人工智能技术的发展潜力。
Leo
这让我想到,如何提升中文数据的标注标准和交易模式是关键。你提到要规范数据标注标准,这具体是怎样的呢?
周源
对的,建设标准化的标注方法是非常重要的。当前,中文数据存在不完整、标注不一致的问题,这极大地影响了数据的流通与共享。我提到要构建一个合理的、统一的标准体系,才能让数据更好地服务于大模型的训练。
Leo
这确实是一个复杂的系统工程。同时,探索合理的数据交易模式也很重要。你认为现状怎样?
周源
现在的确面临缺乏合理定价机制的问题,很多时候数据的流通也不够顺畅。我们需要通过相关行业组织和政策的引导,去促进数据交易市场的规范化发展。这对整个行业的健康成长都是有益的。
Leo
我觉得政府在这个方面的推动力也不可小觑。你刚才提到的公共数据资源开放共享,实际上也是一个非常重要的方向。
周源
是的,政府的主导作用将大大促进数据的开放和共享。目前我国在这方面已经有了初步的部署,但在利用效率和协同方面还有很多不足。我们需要加快构建一个安全可靠的公共大数据资源体系,这是未来发展的重要保障。
Leo
播客主持人
周源
全国政协委员、知乎创始人兼CEO