集结开源力量,支持国产芯片——揭秘Sora“盲盒”,北大这个团队“格局打开了”

2024年2月,美国OpenAI公司推出Sora——这个被很多人称为“可能电影工业要被颠覆”的人工智能大模型,达到了从单一的文本模态向多模态发展的境界,其用文本生成的视频画质精良逼真,在视频长度、质量以及可控性等方面均达到了当前的技术最高水平。

Sora的框架和技术细节立刻成为了全世界关注的热点。然而大放异彩的Sora却选择了最大限度地隐藏技术的“闭源”之路。“OpenAI变成了ClosedAI”,能否复现Sora,拨开Sora背后的技术迷雾?2024年3月初,北京大学深圳研究生院信息工程学院博雅特聘教授田永鸿、助理教授袁粒决心带领学生团队与兔展智能公司一道启动Sora复现计划,团队集结开源社区的力量,力求在这一炙手可热的视频生成领域有所作为。

近期,这个项目有了新成果,Open-Sora-Plan v1.0.0问世。新研究显著增强了视频生成的质量以及对文本的控制能力。北大的研究团队表示,他们正在训练更高分辨率(>1024)以及更长时间(>10s)的视频。目前,该项目已支持国产 AI 芯片(华为昇腾 910b)进行推理,下一步将支持国产算力训练。

Open-Sora-Plan v1.0.0从文本到视频生成的案例:

提示文字:海上的日落

提示文字:黎明时分,宁静的海滩,海浪轻轻拍打着海岸,天空被涂上柔和的色调......

文本到视频生成的更多效果展示:

文本到图像生成展示:

海纳百川 集结全世界的开源力量

短短的几秒到十秒生成的视频背后,是北京大学Open Sora Plan项目组数周以来对人工智能生成视频工作的深度探究与为开源工作所作的不懈努力。

“Open Sora Plan从一开始推出的初心就是集结开源的力量。”袁粒告诉记者。作为“90后”的年轻教师,去年他曾经带领学生团队设计出爆款项目ChatExcel,它将复杂的表格操作简化为“日常聊天”一般的人机交互,大大地减少了“苦表格处理已久矣”的从业者的工作量。

Sora横空出世后,全世界的人工智能专家和爱好者围绕如何“打开盲盒”进行着头脑风暴。与其坐而论道和羡慕别人,不如撸起袖子来拆盒——田永鸿和袁粒两位老师带着10余位团队学生与兔展智能创始人兼CEO董少灵(北大校友)、CTO周星一起在GitHub开源社区上开启了力争让Sora复现的探索工作。目前,这个项目已经获得了超过1万的标星(10K+ Star: https://github.com/PKU-YuanGroup/Open-Sora-Plan),来自世界各地对这个项目感兴趣的代码爱好者在开源社区中热烈地讨论着。

开源社交平台技术人员对Open Sora Plan的讨论和支持

为了能够使大家能够成功上传自己的想法,团队成员还设计了一整套的上传指南,“每天的贡献者和更新量都在不断突破,也有很多鼓励的话语让我们倍感欣慰。”袁粒说道。

聚沙成塔 模型框架与细节完整诠释

在开源社区,Open Sora Plan项目全面地展示了框架图和实现细节。它的框架由以下三个部分组成:

    Video VQ-VAE(视频量化变分自动编码器)

    Denoising Diffusion Transformer(扩散变换器模型)

    Condition Encoder(条件编码器)

731250477e8d4e8eb77648ea9e5d42b7.png

项目的框架图

在技术细节的处理上,Open Sora Plan团队在可变长宽比、可变分辨率、可变时长上均已批量训练。

对于可变长宽比——“我们实施了一种动态掩码策略, 能并行批量训练的同时保持灵活的长宽比。具体来说, 就是将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于VideoVQ VAE以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。”

对于可变分辨率——“在推理过程中, 尽管我们在固定的256x256分辨率上进行训练, 但我们使用位置插值可以实现可变分辨率采样。我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。”

对于可变时长——“我们使用VideoGPT中的Video VQ-VAE, 将视频压缩至潜在空间, 并且支持变时长生成。同时, 我们扩展空间位置插值至时空维度, 实现对变时长视频的处理。”

对于复现Sora这样一个堪称“浩大”的工程,Open Sora Plan项目在开源社区中有条不紊地更新着当前进度条,并详细地展示着尚未完成、有待完善的工作。随着3—10秒视频的推出,目前项目组已经完成了框架搭建、初步框架验证等任务,修正框架中的bug、增加并行采样脚本、在视频文本对数据集上训练1080P分辨率的视频生成模型……这些未来需要进一步完善的工作则在开源社区中以“To do list”的形式完整呈现。

虽然“To do list”道阻且长,但团队相信技术会在清晰的路径中不断进步

训练大模型的背后,高质量的算力和数据极为重要。由于某些国家对中国的技术封锁,为了保证中长期的算力供应,Open Sora Plan团队陆续得到了华为昇腾和鹏城云脑的支持,人工智能算力国产化的实践也在这个项目上日臻成熟。在训练数据的获得方面,袁粒表示:“目前开源数据和部分合作伙伴提供的闭源数据都在训练中,为了推动技术突破的初心把这些‘知识共产主义者’聚在一起,每个人都期待着‘从0到1’的突破。这也成为了推动我们团队夜以继日进行攻关的原动力。”

功成有我 北大年轻科研人的使命担当

这支由北京大学信息工程学院师生组成的“开盲盒”团队,研究生的平均年龄只有23岁。作为团队的核心成员,正在读研一的林彬回忆了当初“火花”擦亮的过程。“Sora刚刚推出的时候,AI社区里关于生成视频的热情一下子高涨起来,我们都在第一时间解读OpenAI发布的技术报告,然而却遗憾地发现一点都不‘open’,几乎没有披露任何具体的技术路线。在组会上,大家感叹新事物的强大的同时也一拍即合,我们要努力复现它!”

在这群从小就冲在高科技浪尖上的年轻北大人看来,开源是推动技术进步的重要条件。“无论Open Sora Plan是哪个团队发起的,这个项目本身的意义就是在于凝聚技术共同体的力量,科学技术没有国界,就算一开始对Sora知之甚少,但有兴趣、有智慧的人一起推动去揭开奥秘的本身就是一种强大的力量。”袁粒这样说道。

对技术的热忱推动着这群年轻人奋力奔跑。林彬在项目中负责核心代码的编程并统筹大家分工的不同子模块。“前期的codebase我主要是从VideoVQVAE+DiT这条路线来搭建的,VideoVQVAE和DiT本身就是两个伟大的开源项目,没有他们开源出代码,我们也不可能搭建得这么快。”

在项目刚发起的时候,团队师生每天都要开会,上次既定的计划有哪些未完成?资源是否需要重新按照需求进行调配?还有哪些未完成的事项可以更新?下次开会前要完成那些任务?每个问号后面都饱含着师生们辛勤又无私的付出。

“尽管不一定每个人都能像之前爆红的OpenAI公司某位大神‘早9晚1’地浸泡在工作里,但我们团队的每一个人都按照清晰的计划在忘我地工作。”林彬的一天基本所有的课余时间都奉献给了Open Sora Plan项目,早已发表多篇国际学术论文的他尽管是硕士一年级学生,但已达到了博士生毕业的要求,这也让他和团队中的很多同样优秀的学生一起可以心无旁骛地进行项目的推进。与全世界的智慧大脑一起解谜题的乐趣让这群年轻人颇为主动而高效地工作着。

cd3ad459052b4d93bddb8ff9d2c60556.jpg

项目组合影

“功成不必在我,功成必定有我!”这是袁粒借鉴北大黄铁军老师的话。打破技术的壁垒,在人工智能的潮涌中乘风破浪,年轻的北大科研人在奋进着、突破着,团队第1版大模型的推出也是一个开始,让我们共同期待Open Sora Plan项目带来的更大惊喜!

项目牵头人介绍:

45b71bdc69ab4dfbb395f10fb826cb11.jpg

田永鸿,北京大学博雅特聘教授,博士生导师,IEEE Fellow,北京大学深圳研究生院信息工程学院院长,鹏城实验室网络智能部副主任兼云脑研究所所长,国家杰出青年科学基金获得者。主要研究方向为分布式机器学习、神经形态视觉和视频大数据。累计主持国家重点研发计划项目、国家自然科学基金杰青/重点/重大仪器项目等国家、省部级与企业合作项目40余项,累计发表学术论文300余篇,两获国际期刊和会议最佳论文奖;拥有美/中国发明专利95项,获国家技术发明二等奖1次、国家科技进步二等奖1次、教育部科技进步一等奖1次、中国电子学会技术发明一等奖和自然科学二等奖各1次,是首届高校计算机专业优秀教师奖励计划获奖者。曾任国际期刊IEEE TCSVT/TMM/Multimedia等期刊编委,IEEE MIPR2020/ICME2021大会主席,IEEE ICME2015/BigMM2015/ISM2015/ MIPR2018/MIPR2019程序主席,现任IEEE数据压缩标准委员会副主席兼IEEE 2941标准工作组组长、中国图象图形学会理事与交通视频专委会副主任等。他是科技部十四五重点专项“智能传感器”专家组成员。

944735f4ba764855b7cb38e3f7de9019.jpg

袁粒,北京大学深圳研究生院信息工程学院助理教授、博士生导师,入选国家优青(海外)、国家优秀留学生奖(归国类)、福布斯30岁以下亚洲杰出人物榜单等,主持国家科技重大专项课题和国家自然科学基金青年基金等。研究方向为多模态深度学习,代表性学术工作包括VOLO、T2T-ViT等深度神经网络框架和知识蒸馏相关工作,作为第一作者的论文单篇被引用千余次,代表性应用工作包括ChatExcel、ChatLaw等大模型垂直领域应用。

Open Sora Plan项目组学生成员:

林彬、李宗建、袁盛海、唐振宇、张俊武、程鑫华、陈柳汉、叶阳、成泽森、王少东、王宇、李昊、金鹏、朱斌、葛云阳、吴子昂、林宗莹

转载本网文章请注明出处