新闻中心

Shengma技术Zhu Jun：视频模型期待“ Chatgpt Mist”

日期：2025-03-30 08:52 浏览：

2024年4月，人工智能研究所副主任朱·朱（Zhu Jun），欣华大学（Tsinghua University）的创始人兼首席科学家，首次发行了中文版的索拉（Sora），这是一个模型Vidu视频。一年后，即2025年3月29日，在中冈论坛上，Vidu模型被正式启动。此升级的关键在于“高控制”。 Zhu Jun在一次采访中解释说：Q代表质量，该质量代表了模型的高控制，包括多主题的细节，同时控制的声音效果以及提高图像质量。在视频生成的实际过程中，受控位置一直是一个困难的问题，在以前的模型中通常不准确地根据说明生成。现在，Vidu Q1使用集成到Sagunicipalipal图表中的视觉说明，以根据语义说明更准确地控制场景中的字符位置特征。越来越多的人数受控生物也是技术的成功。以前，当AI视频生成面临更多主题时，很难准确地生产。 Vidu Q1增加了受控主题的数量，并获得了多个主体的一致性和遵守物理定律的突破。此外，声音控制的Vidu Q1功能可以在基于语义指令开发视频图像时产生准确和受控的声音效果，从而控制每个声音效果的长度和时间。从Vidu1.0到Vidu Q1，在一年之内，大型语言模型轨道逐渐进入改组时期，而Video模型模型的大型轨道正处于增长的旺盛时代。 Kuaishou Keling，Byte Dream，Minimax Conch AI继续迭代，Openai Sora已正式推出，Heygen，Pika，Aishi Technology和其他人已经完成了融资。随着技术在整个人工智能领域的升级，路径开发的发展逐渐从单个模式变为多模式和跨模式状态，人类计算机接触与工业应用之间的界限逐渐改变。与专门针对视频数据特征的视频模型相比，多模式模型可以处理各种数据，例如文本，图像，视频等，并通过数据对齐，集成和统一的身份技术执行复杂的任务，例如视觉问题和答案。关于多模式轨道的发展，朱·朱尼（Zhu Jun）表示，第一金记者说，Vidu基地从一开始就成为了多模式模型，而出生人数的定位也是多模式的。该视频只是表达形式之一。此更新的音频功能代表不同的模式以及受控的机器人数据操作。对于公司而言，基础架构通常是相同的，并且可以执行许多模式而不会改变。目前，DirecVidu商业化的商业化主要包括在B端的C-End和Maas中。朱朱朱（Zhu Jun）认为，2025年是视频模型快速发展商业化的一年，消费者对视频的需求广泛，这也是视频模型和大语言模型之间的差异。朱约翰（Zhu Jun）认为，当前的顶级模型平台该视频具有其自身的特征和商业化路径，并且尚未达到大语言模型的“音量”状态。当涉及DeepSeek对视频轨道的影响时，Zhu Jun告诉记者，视频模型很有可能没有像DeepSeek这样的顶级模型，因为该行业已经掌握了DeepSeek的优势，制造商希望该视频模型受到更越来越有用，并且越来越有用，“ Chatgpt”进入视频领域。