MiniMax低沉发布首款文生视频模型_常见问题_淘金反波胆app下载网址/TG平台怎么注册

信息来源：常见问题发布时间：2024-11-29 18:00:48

8月31日，MiniMax低沉发布首款视频生成大模型，一起发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。

值得注意的是，现在MiniMax并未发布模型的详细参数和技能关键。当天，MiniMax创始人闫豪杰在承受界面新闻等媒体群访时表明，“咱们确真实视频模型生成方面获得很大的发展，依据内部评测以及跑分，咱们比Runway的（生成视频）作用更好。”

据其泄漏，现在的视频生成模型仅仅榜首版，很快会有新版本，后续还会在数据、算法自身、运用细节等方面持续迭代，现在只提供文生视频。未来图生视频、文+图生成视频都会连续出来。

“咱们的战略先再等一两周，等新东西抵达满足状况后，或许会考虑商业化。”闫豪杰进一步表明。

现在，MiniMax的商业化由两部分所组成，敞开渠道有两千多家客户。其次，该公司的产品中也有广告机制。“现阶段，最重要的东西不是商业化，而是技能能抵达广泛可用的程度。”闫豪杰说。

但是，相较于快手可灵，MiniMax推出视频生成模型在时刻上晚了一两个月。

闫豪杰解说，这期间，团队一直在处理更难的技能问题——怎么练习算力较高的内容。难度在练习视频生成才能，需求先把视频变成token，这些token十分长，越长复杂度越高。终究，MiniMax团队经过算法不断下降复杂度，压缩率变得更高，因而发布时刻晚了一两个月。

但他也表明，不管是视频、文本、声响，MiniMax团队的中心研制思路不在于找一个算法提高5%、10%的途径，“如果能提高几倍就必定要做出来，只提高5%就不太值得做。”

谈及为何必定要做文生视频，闫豪杰以为，实质在于人类每天消费的大部分内容是图文和视频，文字占比不高。为了有更高的用户掩盖度和运费用，仅有的方法是输出多模态内容，而不是单纯输出文字内容，必定要做多模态，这个道路是一以贯之的。

视频生成大模型存在必定难度。闫豪杰解说称，视频的作业复杂度比做文本更难，视频的上下文文本天然很长，处理难度大。

其次，视频量很大，例如5秒视频有几兆，100个字或许都不到1K，背面是几千倍的存储距离。

生成视频模型的应战在于，之前根据文本建的这套底层基础设施不适用于视频生成，例如怎么正确地处理、清洗以及标示数据，这就从另一方面代表着基础设施也需求晋级。

在当天的发布会上，闫豪杰侧重提及“快”。他以为，长时间看，前进越快的东西就越好。不管是做MOE仍是Linear attention，仍是其他探究，实质上仍是让相同的作用模型变得更快。闫豪杰指出：“快才意味着相同的算力（练习内容）可以变得更好。”

当天，MiniMax敞开渠道负责人魏伟业在活动中表明，当时，大模型的作用、本钱和多模态还面对应战。

榜首，大模型有不可避免的错觉，也会由于对指令遵照和言语理解才能不行，导致输出不符合预期，因而要坚持做更高、更快、更强的模型。

本年五月以来，大模型范畴掀起价格战，API一路降至“白菜价”。魏伟以为，低本钱可以激宣布更多使用场景的呈现，未来API本钱会再进一步降级。

第三，多模态会触宣布更多的使用场景，比方文本和语音的结合，可以让大模型更好地辨认和表达心情。语音和视频的结合，可以生成带配音的短视频和广告片段。

当时，大模型范畴存在许多非一致：究竟要做toB（企业）仍是toC（用户）？国内商场仍是做海外商场，Scaling Law（规划规律）能否连续？针对这一些行业界遍及的问题，闫豪杰直言：虽然有许多应战，咱们归于最达观的公司，对技能前进、用户、产品迭代功率都充溢达观。

上一篇：美国亚马逊广告对话Xmars：全球卖家可利用AMC精准提升PD广告转化率下一篇：全媒体微信广告业务署理盈余8成全媒体广告业务署理入局详尽解说