AI 新动态：探索最新多模态和生成模型 | PodLM - AI 播客生成器

來源

国外动态谷歌推出 Gemini 2.0 https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍，关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入，提供文本、音频和图像的集成响应，具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手，谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型，展现在编程、数据分析等领域的应用潜力。Gemini 2.0 Flash 及API目前免费提供，基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用，每分钟最多15个提问，每天最多1500个提问，计划于明年开放更多模型尺寸和功能。 Google 新视频生成模型 Veo https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai Google 新视频生成模型「Veo」正式在 Vertex AI 上以私密预览形式上线，Imagen 3 将于下周开始向所有 Vertex AI 客户开放。Veo 能根据文本或图像提示生成高质量的视频，支持多种电影和视觉风格，且速度极快。 Ollama 0.5 全新发布 https://ollama.com/blog/structured-outputs 支持结构化输出！用户可以通过 JSON 模式定义特定的格式来约束模型的输出。 FishSpeech v1.5 发布 https://x.com/reach_vb/status/1864382548685492339 ● 多语言、零样本即时语音克隆、低延迟、开源文本转语音模型 ● 仅 5 亿参数 ● 训练数据：100 万小时音频 ● 支持 13 种语言 ● 低延迟（<150 毫秒） ● 开源模型——检查点已上线 🤗 ● 在 TTS Arena 中排名第二 Meta Llama 3.3 发布 https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct Meta Llama 3.3 是一款预训练的大型多语言语言模型（LLM），拥有700亿参数，支持文本输入和输出。这款Llama 3.3经过指令微调的纯文本模型专注于多语言对话场景，并在常见的行业基准测试中超越了许多已有的开源和封闭式聊天模型。 OpenAI o1 正式推出 https://x.com/btaylor/status/1864767602381459802 OpenAI 的 o1 现在在 ChatGPT 中已经脱离预览阶段。更快、更强大的推理模型，它在编程、数学和写作方面更擅长。 o1 现在还支持图像上传，能够对视觉内容进行推理，从而提供更详细和有用的响应。 OpenAI o1 Pro 模式发布 https://openai.com/index/introducing-chatgpt-pro/ OpenAI 推出了 $200 每月的 ChatGPT Pro 会员，可以使用 OpenAI o1 pro、o1-mini 等最新模型。o1 pro 模式被设计用于解决更复杂的问题（例如一些科学、数学问题），模型思考的时间也更长，并且用户可以查看完整的推理过程。 SORA 发布 https://sora.com/ https://mp.weixin.qq.com/s/CR7dLLWN2XmTNHuxEKm66A Sora 发布，附各种案例，最高 1080P 20s 视频生成。 Anthropic 发布 MCP AI 数据交换协议 https://www.anthropic.com/news/model-context-protocol Anthropic上周开源了 MCP 协议，这是一个开源的标准，旨在帮助前沿 AI 模型更有效地与数据源连接，包括内容仓库、商业工具和开发环境。 MCP 的目标是解决 AI 助手即使具备高级推理和质量提升能力，但由于与数据隔离而受限的问题。通过 MCP，开发者可以构建安全的双向连接，使 AI 系统能够更简单、可靠地访问所需数据。 Anthropic 发布了 MCP 的三个主要组件：MCP 规范和 SDK，Claude Desktop 应用中的本地 MCP 服务器支持，以及一个开源的 MCP 服务器仓库。Claude 3.5 Sonnet 能够快速构建 MCP 服务器实现，使得组织和个人可以轻松地将重要数据集连接到各种 AI 工具。开发者可以开始构建和测试 MCP 连接器，Claude for Work 的客户可以在本地开始测试 MCP 服务器，并将 Claude 连接到内部系统和数据集。Anthropic 计划提供用于部署远程生产 MCP 服务器的开发者工具包，以服务于整个 Claude for Work 组织。国内动态腾讯推出混元视频 https://aivideo.hunyuan.tencent.com/ 腾讯宣布推出混元视频，这是一个新的开源视频生成人工智能模型，旨在与现有商业解决方案的功能相匹配。腾讯表示，它拥有超过 130 亿个参数，是同类产品中规模最大的公开模型。根据技术文档，混元视频的性能优于当前的系统，如跑道 Gen-3 和 Luma 1.6，以及三个主要的中国视频生成模型。该系统在运动质量测试中表现出特别强的效果。该模型可以处理多种任务，包括从文本描述生成视频、将静止图像转换为视频、创建动画化身以及为视频内容制作音频。 AI 工具 Google 新玩具 Whisk：用图片组合生成图片 https://x.com/dotey/status/1868714448191402393 Google 的新玩具 Whisk，可以简单的用图片组合生成新的图片，用户可以输入三类图片： ● 主题图片(subject) ● 场景图片(scene) ● 风格图片(style) 就可以基于输入生成新的风格突破背后的技术技术原理： ● 后端使用 Gemini 模型自动为输入的图片生成详细描述 ● 然后将这些描述输入到 Google 最新的图像生成模型 Imagen 3 中 ● 系统会提取图片的关键特征，而不是完全复制主要用途： ● 快速视觉创意探索 ● 可以创作数字玩偶、珐琅徽章或贴纸等 ● 适合进行快速创意迭代，而不是精确的图像编辑 Adobe 的 MultiFoley AI 为视频创建同步的声音效果 https://ificl.github.io/MultiFoley/ Adobe Research 和密歇根大学的研究人员已经创建了一个人工智能系统，可以产生 Foley 声音-在后期制作期间添加到电影和视频中的自定义声音效果。该系统名为 MultiFoley，用户可以通过文本提示、参考音频或视频示例创建声音。在演示中，该系统将猫的喵喵声转换成狮子的咆哮，并使打字机的声音像钢琴音符一样播放，同时与视频保持精确的同步。该系统以其在 48kHz 带宽下产生高质量音频的能力而脱颖而出。研究人员通过在网络视频和专业音效库上训练人工智能来实现这一目标。 MultiFoley 是第一个在单一模型中结合多种输入方法（文本、音频和视频参考）的系统。它通过一种专门的机制来保持视频和生成音频之间的紧密同步，该机制以每秒 8 帧的速度分析视觉特征，然后将它们扩展到与 40 Hz 音频采样率相匹配。 Image to 3D Asset with TRELLIS https://huggingface.co/spaces/JeffreyXiang/TRELLIS 把二维图片转换成 3D。

Podcast Editor

Podcast.json

預覽

音頻

Title

Description

Topics