8月31日,MiniMax低沉发布首款视频生成大模型,一起发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。
值得注意的是,现在MiniMax并未发布模型的详细参数和技能关键。当天,MiniMax创始人闫豪杰在承受界面新闻等媒体群访时表明,“咱们确真实视频模型生成方面获得很大的发展,依据内部评测以及跑分,咱们比Runway的(生成视频)作用更好。”
据其泄漏,现在的视频生成模型仅仅榜首版,很快会有新版本,后续还会在数据、算法自身、运用细节等方面持续迭代,现在只提供文生视频。未来图生视频、文+图生成视频都会连续出来。
“咱们的战略先再等一两周,等新东西抵达满足状况后,或许会考虑商业化。”闫豪杰进一步表明。
现在,MiniMax的商业化由两部分所组成,敞开渠道有两千多家客户。其次,该公司的产品中也有广告机制。“现阶段,最重要的东西不是商业化,而是技能能抵达广泛可用的程度。”闫豪杰说。
但是,相较于快手可灵,MiniMax推出视频生成模型在时刻上晚了一两个月。
闫豪杰解说,这期间,团队一直在处理更难的技能问题——怎么练习算力较高的内容。难度在练习视频生成才能,需求先把视频变成token,这些token十分长,越长复杂度越高。终究,MiniMax团队经过算法不断下降复杂度,压缩率变得更高,因而发布时刻晚了一两个月。
但他也表明,不管是视频、文本、声响,MiniMax团队的中心研制思路不在于找一个算法提高5%、10%的途径,“如果能提高几倍就必定要做出来,只提高5%就不太值得做。”
谈及为何必定要做文生视频,闫豪杰以为,实质在于人类每天消费的大部分内容是图文和视频,文字占比不高。为了有更高的用户掩盖度和运费用,仅有的方法是输出多模态内容,而不是单纯输出文字内容,必定要做多模态,这个道路是一以贯之的。
视频生成大模型存在必定难度。闫豪杰解说称,视频的作业复杂度比做文本更难,视频的上下文文本天然很长,处理难度大。
其次,视频量很大,例如5秒视频有几兆,100个字或许都不到1K,背面是几千倍的存储距离。
生成视频模型的应战在于,之前根据文本建的这套底层基础设施不适用于视频生成,例如怎么正确地处理、清洗以及标示数据,这就从另一方面代表着基础设施也需求晋级。
在当天的发布会上,闫豪杰侧重提及“快”。他以为,长时间看,前进越快的东西就越好。不管是做MOE仍是Linear attention,仍是其他探究,实质上仍是让相同的作用模型变得更快。闫豪杰指出:“快才意味着相同的算力(练习内容)可以变得更好。”
当天,MiniMax敞开渠道负责人魏伟业在活动中表明,当时,大模型的作用、本钱和多模态还面对应战。
榜首,大模型有不可避免的错觉,也会由于对指令遵照和言语理解才能不行,导致输出不符合预期,因而要坚持做更高、更快、更强的模型。
本年五月以来,大模型范畴掀起价格战,API一路降至“白菜价”。魏伟以为,低本钱可以激宣布更多使用场景的呈现,未来API本钱会再进一步降级。
第三,多模态会触宣布更多的使用场景,比方文本和语音的结合,可以让大模型更好地辨认和表达心情。语音和视频的结合,可以生成带配音的短视频和广告片段。
当时,大模型范畴存在许多非一致:究竟要做toB(企业)仍是toC(用户)?国内商场仍是做海外商场,Scaling Law(规划规律)能否连续?针对这一些行业界遍及的问题,闫豪杰直言:虽然有许多应战,咱们归于最达观的公司,对技能前进、用户、产品迭代功率都充溢达观。
Copyright ©2017-2022 琼ICP备13000627号