Manus AI助手的诞生与技术原理

a year ago

failed

在这个特别的播客中，我们将深入探讨Manus.im是如何诞生的，以及其独特的技术原理。Manus不仅仅是一个聊天机器人，它是一个能够异步、并行执行任务的通用型AI助手。让我们一起揭开Manus背后的神秘面纱，探索其创新之路。

腳本

speaker1

大家好，欢迎收听我们的播客！我是主持人，今天我们邀请到一位非常特别的嘉宾——Manus.im的创始人肖弘。Manus.im不仅是今年最火的AI助手之一，它背后的技术原理更是让人眼前一亮。在接下来的十分钟里，我们将深入探讨Manus的诞生背景和技术细节。让我们开始吧！

speaker2

太棒了！我一直对AI助手很感兴趣，特别是Manus的异步执行能力。肖弘，你能先给我们介绍一下Manus的诞生背景吗？

speaker1

当然可以。Manus的诞生其实源自于我们的上一个未公开项目——AI浏览器。当时我们发现，传统的AI浏览器存在很多问题，比如AI会不断打断用户，用户很难上手。于是，我们决定放弃AI浏览器，寻找下一个‘ChatGPT时刻’的AI产品，最终找到了通用型agent这个目标，也就是现在的Manus.im。

speaker2

嗯，我明白了。那你能具体解释一下，为什么传统的AI浏览器会有这些问题吗？

speaker1

好的。传统的AI浏览器是为单用户设计的，当AI开始工作时，用户只能看着AI工作，而不能同时进行其他操作。这导致了一个很大的问题：用户在使用过程中感到很不自然，甚至会因为误操作导致AI的整个流程中断。这就像你正在用电脑工作，突然AI抢走了你的鼠标，你不仅不敢抢回来，还怕一不小心碰到键盘导致所有工作都要重新来过。

speaker2

这听起来确实挺烦人的。那Manus是怎么解决这个问题的呢？

speaker1

Manus的核心技术在于它的异步体验设计。具体来说，Manus不是在用户的浏览器里运行，而是在云端有一台虚拟的浏览器。用户可以向Manus提出多个任务，它会同步执行这些任务，而用户可以在电脑上做其他任何事情，比如看视频、写文档、打游戏等等。一旦任务完成或遇到问题，Manus会通知用户。这样用户就不再受限于AI的操作，可以更自由地使用电脑了。

speaker2

哇，这听起来真的很厉害！那『Less Structure，More Intelligence』的理念是怎么来的呢？

speaker1

这个理念是在我们产品开发过程中逐渐明确的。我们发现，现有的大模型虽然功能强大，但它们往往是为聊天机器人的场景做优化的，即在一个回复里尽可能回答所有问题。这种设计在agent场景中并不适用，因为agent需要的是逐步规划和解决问题的能力。所以，我们决定减少对AI的结构限制，让它通过自己的进化来发挥作用。这样一来，Manus就能像一个真正的实习生一样，灵活地完成各种任务。

speaker2

这确实很有意思。我很好奇，Manus在任务执行中有哪些创新呢？

speaker1

Manus的一个很大创新在于它的多智能体系统。具体来说，Manus将规划和执行分离，规划器负责制定任务的步骤，而执行器则在云端的虚拟机上执行这些步骤。例如，在解决一个复杂问题时，Manus会先打开相关的网页，然后逐步执行任务，比如截图、记录数据、分析结果等。这个过程非常流畅，用户甚至可以中途补充提示词，Manus会根据新的上下文继续执行任务。

speaker2

太神奇了！那你能举个具体的例子吗？比如Manus是如何处理一个复杂的任务的？

speaker1

当然。举一个非常有趣的例子，我们在GAIA测试集中让Manus数一个YouTube视频中一帧画面里同时出现的最多种企鹅的数量。Manus先是打开了视频链接，然后用快捷键‘K’暂停视频，挨个截图记录哪一帧出现了哪种企鹅，最后得出最多的一帧画面有3种企鹅。这个过程中，Manus甚至还知道如何用‘3’这个快捷键来精确定位视频的30%进度。这让团队成员都感到非常震惊。

speaker2

这太厉害了！连我们都没想到AI还能这么用快捷键。那Manus和其他现有的AI产品相比，有哪些优势呢？

speaker1

Manus的最大优势在于它的通用性和异步执行能力。与专门针对某个垂直领域的AI产品不同，Manus可以处理各种工作和生活中的任务。例如，它可以帮你找房子、做市场研究、编写代码等。而且，Manus的成本非常低，以OpenAI打榜时1/10左右的成本（2美元/任务）就能完成同样的任务。这使得Manus在性能和成本上都有很强的竞争力。

speaker2

听起来确实很强大。那Manus的多智能体系统具体是怎么工作的呢？

speaker1

Manus的多智能体系统分为两部分：规划器和执行器。规划器负责制定任务的步骤，而执行器则在云端的虚拟机上执行这些步骤。规划器会根据用户的需求生成一系列指令，执行器则在虚拟机上执行这些指令，并将结果反馈给规划器。这种分离的设计使得Manus能够在复杂的任务中逐步推进，而不会因为一个步骤的错误导致整个任务失败。

speaker2

那模型的对齐问题是怎么解决的呢？我听说对齐问题是个很大的挑战。

speaker1

确实，对齐问题是Manus开发过程中的一个关键点。我们发现，现有的模型往往是为了聊天机器人的场景做优化的，它们会急功近利地在一个回复里尽量回答所有问题。但这种设计在agent场景中并不适用。因此，我们团队决定用不同的数据专门做对齐，让模型学会逐步规划和解决问题。这需要大量的数据和训练，但效果非常好。

speaker2

这听起来确实很复杂。那Manus在实际应用中表现如何呢？有没有一些具体的案例可以分享？

speaker1

Manus在实际应用中表现非常出色。举个例子，我们有一个用户用Manus来找房子。Manus不仅能够浏览房地产网站，还能用专门的SaaS产品来筛选和分析房源信息。用户只需要给出一些基本的要求，Manus就能自动完成所有步骤，最后给出符合条件的房源列表。这个过程非常高效，用户感到非常满意。

speaker2

这真的太方便了！那Manus的未来发展方向是什么呢？你们有没有一些长远的规划？

speaker1

Manus的未来发展方向是成为一个更加通用和智能的AI助手。我们希望通过不断的优化和迭代，让Manus能够更好地理解用户的需求，更高效地完成各种任务。我们还计划将Manus的应用场景扩展到更多的领域，比如教育、医疗、金融等。此外，我们还会开源更多的技术细节，让更多的开发者能够利用Manus的能力来创造更多的价值。

speaker2

哇，这听起来非常有前景！那你们在开发过程中遇到的最大挑战是什么呢？

speaker1

开发过程中最大的挑战之一是模型的对齐问题。我们发现，现有的模型虽然功能强大，但它们往往是为了特定的场景优化的，比如聊天机器人。因此，我们需要用不同的数据来专门训练这些模型，让它们学会逐步规划和解决问题。此外，创新速度也是一个很大的挑战。在这样一个快速发展的领域里，我们必须不断探索、试错，快速找到正确的路径。

speaker2

那你们是如何保持这么快的创新速度的呢？

speaker1

保持创新速度的关键在于团队的灵活性和高效的决策机制。我们的团队成员都非常有经验，他们在聊天机器人、浏览器、AI编程等领域都有深厚的技术背景。当新机会出现时，我们能够在有限的资源里贯通整个公司从上到下的资源，并且以极高的决策速度来适应新的挑战。这种心手合一的创造精神，正是我们团队的核心优势。

speaker2

太棒了！感谢肖弘今天的分享。Manus真的是一款非常有潜力的AI产品，期待它未来的发展。听众朋友们，如果你对Manus感兴趣，可以在我们的网站上了解更多详情。谢谢收听，我们下期再见！

參與者

speaker1

主持人

speaker2

联合主持人

主題

Manus的诞生背景
Manus的技术原理：异步体验的设计
Less Structure，More Intelligence的理念
Manus在任务执行中的创新
Manus与现有AI产品的对比
Manus的多智能体系统
Manus的模型对齐问题
Manus在实际应用中的表现
Manus的未来发展方向
Manus团队的创新速度