Sora Generated Videos
很荣幸受王又又邀请,今天和她以及《宇宙探索编辑部》副导演吕启洋(Ash)一起聊聊了一下当前火爆的话题 Sora,看 Sora 如何改变我们的生活。 Sora Generated Video
我把技术相关的一些问题整理成了文字,希望能够帮助大家更好地理解 Sora。我将问题大约整理成了四类:
Sora Generated Video
注意,这里的回答都是我个人的观点,一部分也借鉴了大家在帖子中讨论的结果,很多答案不一定准确,仅供参考。也欢迎指正其中错误或者提出不同观点。
简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。
之所以 Sora 引发极大关注,主要在于它生成视频质量要比之前的高很多,不仅时间最长能到 60 秒,而且它可以支持镜头切换、画面人物和背景稳定、很高画质。 Sora Generated Videos
Pika 是基于 Diffusion 模型,把图片和视频训练成毫无意义的马赛克图片,再从空白马赛克图片能反向扩散生成图片和视频,有两种主要模式,一种是基于图片关键帧扩展成视频,例如已有视频的风格变换;一种是对视频的训练,但是由于显卡限制,只能一次训练特定分辨率的几秒视频,一次也只能生成几秒钟的视频。
LLM、ChatGPT 是 Transformer 模型,预测 Token 生成文本内容,Token 可以理解为字和词。
Sora 则是基于 Diffusion Transformer 模型,结合了扩散模型和 Transformer 模型,不过它是预测生成的不是文本 Token,而是“时空补丁(spacetime patches) ”,可以理解为一个几帧(一秒不到)的视频的一个小块。 Sora Videos
主要优势是训练的时候不受视频和显卡约束,生成的时候也更加多样,可以灵活组合时空补丁。
现在"DALL-E 3 HD Image 价格 0.08;���������−2价格是0.08;RunwayGen−2价格是0.05/秒。 Sora Generated Videos
Sora 没有公布相关数据,纯猜测:Sora 的推理大约需要 ~8xA100,生成视频预估一秒一分钟,半小时成本约 ~$10"
未来应该是可以的,现在没有是因为: Sora Videos
不需要本地搭建,预计会提供两种方式:ChatGPT 集成、API 调用;但生成视频的成本偏高、耗时也比较长;可能会限制次数或者提供更高一档的订阅。
预计三个月到半年内会逐步放开。 Sora Videos
同样的提示词每次都不会相同,但是 seed 相同应该可以做到相似;
Sora 支持图片生成视频和视频生成视频,但人物是否可以做到一致还需要产品发布后才能下结论。 Sora Videos
生成视频时间越长对显存要求越高,但是按照现在技术发展的速度,乐观估计 1 年后应该可以到 5-10 分钟,30 分钟 60 分钟预计在 3-5 年的时间。 Sora Generated Video
根据图片生成的规则来推测,应该是归创作者所有,但是生成的作品本身不能侵权。
现在的视频都有水印,未来应该会有检测工具。 Sora Generated Video
另外仔细看是能看出视频中不符合逻辑的地方,例如蚂蚁只有 4 条腿,人的手会变形等等。 Sora Videos
我们其实早已经历过:照片不是真的、电视不是真的、电影不是真的,人民群众的鉴别水平也会同步提升。
伪造和鉴别伪造是长期攻防战。
短片完全没问题,复杂场景和更长时间的还不行,未来可期。 Sora Videos
我从四个方面总结了 Sora 的价值和应用: Sora Generated Videos
首先它能放大了普通人的表达能力,张小龙说汽车是双腿的延伸,ChatGPT 就是双手的延伸,Sora 就是我们表达的综合延伸,也就是传说中的“嘴替”
这意味着我们可以更好的来表达自己的想法,不再受限于自己的写作能力、画画能力、摄影能力、视频剪辑能力,甚至是演讲能力。
Sora 是一种低成本的视频工具 Sora Generated Video
Sora 将极大的降低了视频制作的成本,这意味着更多的人可以用更低的成本来制作视频,这对于视频创作者来说是一个很大的利好。 Sora Generated Videos
新的人机交互方式,动态生成视频 Sora Videos
Sora 已经演示了生成我的世界这样游戏的能力,也许未来我们可以用 Sora 来动态生成游戏的剧情、任务、场景。另外,我们也可以让 Sora 动态对新闻、文章生成视频,而不需要去阅读。 Sora Videos
情感上的寄托
生成已故亲人的视频,保留他们的记忆。数字伴侣。
取决于围绕 Sora 创造的价值: Sora Videos
我倾向于是。
真实有用,可以马上应用到短视频,例如 OpenAI 在 Tiktok 的账号,视频以假乱真
OpenAI 已经投入了一年多,领先业界半年到一年,甚至更多,具体体现在: Sora Generated Video
目前不清楚是否中国公司已经有做这个方向的,但是字节、阿里、腾讯、百度在 AI 视频领域都有深厚积累
中国和欧美的差距主要在于对 AI 技术方向上的把握,但这也不仅仅是中国的问题,目前全世界所有其他公司都跟随 OpenAI 的步伐;另外就是算力上还不能完全自给自足。
看怎么定义吧,从文本生成视频领域来说,一定是划时代的!真正的文本生成视频领域的 GPT 时刻。
未来几年视频生成会继续热门,继续需要大量的算力,也就是需要大量的显卡,但未来显卡应该不会只有 NVIDIA 一家独大,应该会有更多的公司参与进来,这样的话,显卡的供应会更充足,价格会更加合理,性能也会更高。 Sora Generated Videos
以上就是今天访谈的主要内容。
另外以上很多内容总结自我在 Twitter 和微博上开的讨论帖,很多观点(例如 Sora 生成亲人视频)确实是我之前没有想到的,这也算是将大家讨论的内容的一个总结。谢谢各位的参与! Sora Videos
X 讨论帖:https://twitter.com/dotey/status/1759861034708251116 微博讨论帖:https://weibo.com/1727858283/O1tUdnbt8 Sora Generated Video
完整的视频地址在: Sora Generated Videos
You are welcome to place your advertisement, you can contact us at the bottom email address.