Manus AI助手的诞生与技术原理Mudong Xin

Manus AI助手的诞生与技术原理

a year ago

failed

在这个特别的播客中,我们将深入探讨Manus.im是如何诞生的,以及其独特的技术原理。Manus不仅仅是一个聊天机器人,它是一个能够异步、并行执行任务的通用型AI助手。让我们一起揭开Manus背后的神秘面纱,探索其创新之路。

腳本

speaker1

大家好,欢迎收听我们的播客!我是主持人,今天我们邀请到一位非常特别的嘉宾——Manus.im的创始人肖弘。Manus.im不仅是今年最火的AI助手之一,它背后的技术原理更是让人眼前一亮。在接下来的十分钟里,我们将深入探讨Manus的诞生背景和技术细节。让我们开始吧!

speaker2

太棒了!我一直对AI助手很感兴趣,特别是Manus的异步执行能力。肖弘,你能先给我们介绍一下Manus的诞生背景吗?

speaker1

当然可以。Manus的诞生其实源自于我们的上一个未公开项目——AI浏览器。当时我们发现,传统的AI浏览器存在很多问题,比如AI会不断打断用户,用户很难上手。于是,我们决定放弃AI浏览器,寻找下一个‘ChatGPT时刻’的AI产品,最终找到了通用型agent这个目标,也就是现在的Manus.im。

speaker2

嗯,我明白了。那你能具体解释一下,为什么传统的AI浏览器会有这些问题吗?

speaker1

好的。传统的AI浏览器是为单用户设计的,当AI开始工作时,用户只能看着AI工作,而不能同时进行其他操作。这导致了一个很大的问题:用户在使用过程中感到很不自然,甚至会因为误操作导致AI的整个流程中断。这就像你正在用电脑工作,突然AI抢走了你的鼠标,你不仅不敢抢回来,还怕一不小心碰到键盘导致所有工作都要重新来过。

speaker2

这听起来确实挺烦人的。那Manus是怎么解决这个问题的呢?

speaker1

Manus的核心技术在于它的异步体验设计。具体来说,Manus不是在用户的浏览器里运行,而是在云端有一台虚拟的浏览器。用户可以向Manus提出多个任务,它会同步执行这些任务,而用户可以在电脑上做其他任何事情,比如看视频、写文档、打游戏等等。一旦任务完成或遇到问题,Manus会通知用户。这样用户就不再受限于AI的操作,可以更自由地使用电脑了。

speaker2

哇,这听起来真的很厉害!那『Less Structure,More Intelligence』的理念是怎么来的呢?

speaker1

这个理念是在我们产品开发过程中逐渐明确的。我们发现,现有的大模型虽然功能强大,但它们往往是为聊天机器人的场景做优化的,即在一个回复里尽可能回答所有问题。这种设计在agent场景中并不适用,因为agent需要的是逐步规划和解决问题的能力。所以,我们决定减少对AI的结构限制,让它通过自己的进化来发挥作用。这样一来,Manus就能像一个真正的实习生一样,灵活地完成各种任务。

speaker2

这确实很有意思。我很好奇,Manus在任务执行中有哪些创新呢?

speaker1

Manus的一个很大创新在于它的多智能体系统。具体来说,Manus将规划和执行分离,规划器负责制定任务的步骤,而执行器则在云端的虚拟机上执行这些步骤。例如,在解决一个复杂问题时,Manus会先打开相关的网页,然后逐步执行任务,比如截图、记录数据、分析结果等。这个过程非常流畅,用户甚至可以中途补充提示词,Manus会根据新的上下文继续执行任务。

speaker2

太神奇了!那你能举个具体的例子吗?比如Manus是如何处理一个复杂的任务的?

speaker1

当然。举一个非常有趣的例子,我们在GAIA测试集中让Manus数一个YouTube视频中一帧画面里同时出现的最多种企鹅的数量。Manus先是打开了视频链接,然后用快捷键‘K’暂停视频,挨个截图记录哪一帧出现了哪种企鹅,最后得出最多的一帧画面有3种企鹅。这个过程中,Manus甚至还知道如何用‘3’这个快捷键来精确定位视频的30%进度。这让团队成员都感到非常震惊。

speaker2

这太厉害了!连我们都没想到AI还能这么用快捷键。那Manus和其他现有的AI产品相比,有哪些优势呢?

speaker1

Manus的最大优势在于它的通用性和异步执行能力。与专门针对某个垂直领域的AI产品不同,Manus可以处理各种工作和生活中的任务。例如,它可以帮你找房子、做市场研究、编写代码等。而且,Manus的成本非常低,以OpenAI打榜时1/10左右的成本(2美元/任务)就能完成同样的任务。这使得Manus在性能和成本上都有很强的竞争力。

speaker2

听起来确实很强大。那Manus的多智能体系统具体是怎么工作的呢?

speaker1

Manus的多智能体系统分为两部分:规划器和执行器。规划器负责制定任务的步骤,而执行器则在云端的虚拟机上执行这些步骤。规划器会根据用户的需求生成一系列指令,执行器则在虚拟机上执行这些指令,并将结果反馈给规划器。这种分离的设计使得Manus能够在复杂的任务中逐步推进,而不会因为一个步骤的错误导致整个任务失败。

speaker2

那模型的对齐问题是怎么解决的呢?我听说对齐问题是个很大的挑战。

speaker1

确实,对齐问题是Manus开发过程中的一个关键点。我们发现,现有的模型往往是为了聊天机器人的场景做优化的,它们会急功近利地在一个回复里尽量回答所有问题。但这种设计在agent场景中并不适用。因此,我们团队决定用不同的数据专门做对齐,让模型学会逐步规划和解决问题。这需要大量的数据和训练,但效果非常好。

speaker2

这听起来确实很复杂。那Manus在实际应用中表现如何呢?有没有一些具体的案例可以分享?

speaker1

Manus在实际应用中表现非常出色。举个例子,我们有一个用户用Manus来找房子。Manus不仅能够浏览房地产网站,还能用专门的SaaS产品来筛选和分析房源信息。用户只需要给出一些基本的要求,Manus就能自动完成所有步骤,最后给出符合条件的房源列表。这个过程非常高效,用户感到非常满意。

speaker2

这真的太方便了!那Manus的未来发展方向是什么呢?你们有没有一些长远的规划?

speaker1

Manus的未来发展方向是成为一个更加通用和智能的AI助手。我们希望通过不断的优化和迭代,让Manus能够更好地理解用户的需求,更高效地完成各种任务。我们还计划将Manus的应用场景扩展到更多的领域,比如教育、医疗、金融等。此外,我们还会开源更多的技术细节,让更多的开发者能够利用Manus的能力来创造更多的价值。

speaker2

哇,这听起来非常有前景!那你们在开发过程中遇到的最大挑战是什么呢?

speaker1

开发过程中最大的挑战之一是模型的对齐问题。我们发现,现有的模型虽然功能强大,但它们往往是为了特定的场景优化的,比如聊天机器人。因此,我们需要用不同的数据来专门训练这些模型,让它们学会逐步规划和解决问题。此外,创新速度也是一个很大的挑战。在这样一个快速发展的领域里,我们必须不断探索、试错,快速找到正确的路径。

speaker2

那你们是如何保持这么快的创新速度的呢?

speaker1

保持创新速度的关键在于团队的灵活性和高效的决策机制。我们的团队成员都非常有经验,他们在聊天机器人、浏览器、AI编程等领域都有深厚的技术背景。当新机会出现时,我们能够在有限的资源里贯通整个公司从上到下的资源,并且以极高的决策速度来适应新的挑战。这种心手合一的创造精神,正是我们团队的核心优势。

speaker2

太棒了!感谢肖弘今天的分享。Manus真的是一款非常有潜力的AI产品,期待它未来的发展。听众朋友们,如果你对Manus感兴趣,可以在我们的网站上了解更多详情。谢谢收听,我们下期再见!

參與者

s

speaker1

主持人

s

speaker2

联合主持人

主題

  • Manus的诞生背景
  • Manus的技术原理:异步体验的设计
  • Less Structure,More Intelligence的理念
  • Manus在任务执行中的创新
  • Manus与现有AI产品的对比
  • Manus的多智能体系统
  • Manus的模型对齐问题
  • Manus在实际应用中的表现
  • Manus的未来发展方向
  • Manus团队的创新速度