后来我还会经常想起这段经历,这个故事本身戏剧性不强,它只是我的一段记忆,很难拍出来。但AI给了低成本制作多元场景的能力,我就在故事里加上了奇幻的穿书动作,从视觉上去弥补故事本身比较平淡的问题,勉勉强强地把它做了出来。Sora Generated Video 接下来就是制作流程了。 这次我梳理了一套更高效的工作流,效率会比上次制作会高一些,所以做出了更长的视频。花费了大概10天左右的时间。制作流程多了AI声音制作这一步,共五步。1️⃣写剧本/分镜——2️⃣生图——3️⃣生视频——4️⃣AI声音——5️⃣剪辑
Sora Videos
Sora Generated Video
第一步,写剧本/分镜Sora Generated Videos
除了使用GPT4/Claude/Kimi/智谱清言/文心一言等AI工具之外,更重要的是你想写一个什么故事,故事可以从哪里来。 Sora Generated Videos
这次我们用的是第二种方式。首先,先确定好影片风格,这次用的是皮克斯动画风格。真的不是我们不做其他题材,是因为这个故事比较适合用动画呈现,后面的片子我们会多尝试别的题材风格。其次,先确定好人物形象。短片有两个主要角色,角色一:扎马尾、穿白色T恤、穿牛仔裤的14岁女孩;角色二:戴眼镜、灰色头发、穿灰色短衬衫的50岁男人。我们每一个prompt的角色形象都这么写——景别+角色特征+位置关系+环境+影片风格+比例,其实差不多生2-3次,就能生出差不多匹配的角色形象。Sora Videos Prompt:Medium shot, side view, a middle-aged man wearing glasses and a gray short shirt with gray hair is sitting at the desk with his head lowered. A 14-year-old girl with a ponytail wearing a white T-shirt and jeans is standing in front of the bookshelf. The room surrounded by bookshelves is at dusk. Pixar animated movie style, highly detailed, 8k --niji 6 --ar 7:3(这张双人关系的图我最后没用,因为四个工具都跑不出稳定的视频,我懒得Roll了)
比如女孩发现不对劲之后,回到书店,问阿叔怎么回事,阿叔没有说话,女孩生气离开这场戏,其实还需要一个两人在书店走廊里的中景或全景镜头,去展示两人的位置关系,但Roll得有点累了。最后用取巧的方式,用特写镜头和声音勉强去带过了。所以如果有什么高效的、好的、能生成同一空间内、双人或多人位置关系镜头的办法,请各位大佬赐教呜呜!!Sora Generated Videos 第三步,生视频最近一两周,陆续出了好多新的AI视频产品,比如LTX、Morph Studio、还有马上要上线的Dreamia等等,但因为这些产品都还没能使用上,所以主要还是以当下能使用到的产品为主。Pika:https://pika.art/Pixverse:https://pixverse.ai/Runway:https://runwayml.com/SVD:https://www.stablevideo.com/Sora Generated Videos 奇遇书屋(SOULHOME)我用得最多的是Pika和Pixverse,因为很幸运地成为了两家官方的超级合作者,可以免费使用Pika和Pixverse赠送的百万积分和私信通道,部分镜头也使用了Runway和SVD,发挥各家所长。这里可以做一个简单的小测评,测试一下前Sora时代,四家AI视频产品的能力。 Sora Videos 通常我们会把影片大类分为剧情片、纪录片、实验片。我们这里的测试主要以剧情片和纪录片为主。剧情片包含多种类型片,结合AI的擅长,我们主要以科幻片、战争片、奇幻片三个类型为主;纪录片我们以风光片、美食片两个类型为主。每个类型,采用两种景别,对四家产品分别进行测试。众所周知,AI视频需要大量的抽卡才能有合适的画面,但我这次决定每家视频每张图片,只抽一次卡,一卡定终身。虽然有些偏颇,但我确实没肝来搞bestcase了,效果只能看命了大家伙儿。 Sora Videos 图片和GIF动图顺序是:MJ图——Pika——Pixverse——Runway——SVD以下是我让AI为我写作和生成的视频内容 Sora Generated Video 剧情片:Sora Generated Video 科幻片1、远景:太空舰队在星系间交战,飞船群在遥远的星云背景下进行激烈的激光炮击,爆炸的光芒在宇宙的黑暗中绽放。PikaPixverseRunwaySVD2、特写:宇航员头盔上的反射显示着控制台的紧急指示,紧张的呼吸声在头盔内回响,体现了科幻片的紧张氛围。PikaPixverseRunwaySVD
纪录片:Sora Generated Video 风光片7、远景:壮丽的山脉在晨曦中苏醒,阳光透过云层洒在山谷间,展现了风光片的宏伟与宁静。PikaPixverseRunwaySVD8、特写:一朵野花在微风中摇曳,露珠在花瓣上闪烁,细节丰富,体现了纪录片对自然美的捕捉。PikaPixverseRunwaySVD
Sora Videos
美食片9、中景:厨师在厨房中熟练地切割食材,刀工流畅,食材的新鲜色彩和质感在镜头前展现,体现了美食片对食物制作过程的精细记录。PikaPixverseRunwaySVD10、特写:一块刚出炉的蛋糕表面细腻的纹理,糖霜在热力作用下微微融化,展现了美食片对食物质感的深入描绘。PikaPixverseRunwaySVD总结一下,整体看下来,Pika、Pixverse、Runway三家各有优劣,综合能力差距不算太大。Pika对于奇幻感比较强的画面把控是四家里最好的,会比较自然,但真实环境的画面比较容易糊,Pika更新的唇形同步功能虽然没有太引发热议,也是一个要不断抽卡的功能,但嘴形同步集成到平台上实际上是非常便捷的;Sora Generated Videos Pixverse在高清化方面是四家里比较优势的,以及对于一些偏风景和纪录的、有特定物体移动的画面会非常友好,Pika和Runway在测试风景那里的时候,差点垮了,但有一个问题就是生成的视频有点帧率问题,导致处理到人物的时候,会有种慢速播放的感觉,容易出戏; Sora Videos Runway在真实影像方面质感是最好的,战争片全景的镜头处理得最好,以及Runway的控件确实目前体验感也比较好,但Runway就是特别爱变色,光影非常不稳定; Sora Generated Video SVD整体真的略拉垮……唯一能打的就是在风景片的测试,那条测试他是跑得最好的,其他方面就真的还很一般…… Sora Videos 我在做视频的时候,其实是会根据不同工具对画面的处理能力进行组合使用。Sora Generated Video 举个栗子:Pixverse擅长物体滑行运动,我们就会用Pixverse生成,但这个视频里前面有一部分的飞机变形了,我们就会把Pixverse里生成的视频再放到Pika里面去局部重绘。有手部特殊运动的画面,我们就会用Runway来辅助完成。需要人物表情比较自然的画面我们就会用Pika来生成。总之就是,办法总比困难多,想尽一切招数,解决问题。这里本来可以对应介绍一些视听语言的书,但篇幅实在太长了目前,下次再推荐!
Sora Generated Video
第四步,AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里,声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文,但我英语比较拉垮,所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色,形成配音稿。接着使用AI声音软件11labs(官网 :https://elevenlabs.io/)进行对白制作,11labs的英文效果比较好,但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似,需要不断地抽卡(反复生成),因为11labs无法使用语速、情绪调节等控件,我们只能通过标点符号去改变语音效果,比如使用,、……。!等等标点符号,有时会叠加不同标点符号,去试它的语音效果。1,尾鳍Vicky,2秒2,尾鳍Vicky,2秒3,尾鳍Vicky,2秒同一句台词,大家可以听出不同标点和抽不同卡时,声音的情绪都不太一样,所以要在AI声音里调试到合适的声音,抽声音卡的难度其实并不亚于抽视频的难度……我们常常一句台词要生成十几二十段音频,才能找到稍微能听得过去的、自然的声音。国内的可以使用出门问问的魔音工坊。魔音工坊可以使用情绪调节控件,还比较友好,但具体的评测还得等我们有机会做中文短片再试试! Sora Generated Video 第五步,剪辑上篇剪辑没有多说,这次我会多说一些。目前大部分AI短片的创作者用的都是剪映,我也是,因为短片1-3分钟,用剪映其实会比传统剪辑软件更方便一些。但更长的篇幅,比如可能到5-10分钟,或者10分钟以上,要更好的效果的话,还是避免不了可能要用PR/FCP/达芬奇等等传统剪辑软件。剪映非常方便在于它有很多人性化的设计以及简单的音效库/小特效,难用的点在于剪映无法协同工作,导出工程文件,不像PR等软件可以导出XML打包工程文件,无法与各软件进行工程联通,应用起来就很难使视频内容达到更好的商业化效果。剪辑的流程是:视频粗剪——视频定剪——音效/音乐——特效——包装(如字幕)很多人在做视频的时候可能会先上来直接把音乐铺满,然后再开始剪,这样其实放弃了很多听觉上的制作空间。声音的运用在影像制作中是非常重要的部分,好的声音制作可以为影片增加非常多的优势。视频粗剪:剪辑比较高效的方式,可以先确定好画面逻辑,声音有部分参考,但最好等画面确定了再去制作和精调。粗剪的画面不需要非常精美,而是先让你快速对片子的全貌有一个整体的把握,把素材先放上去,再去看哪个部分需要细节调整和画面替换。视频定剪:将画面素材调整和替换到满意的效果为止。粗剪和定剪部分涉及到的视听语言内容太多了,篇幅限制,有机会再单独写。音效/音乐:以剪映为例,剪映中有简单的音效库,制作简单的短片可用,但涉及到更为复杂和真实的音效,可能还是需要另外制作。音乐的使用如果涉及到商用,请注意购买版权或使用无版权音乐。特效:以剪映为例,我不会加太多特效,但有些光的效果我会加,因为AI视频生成经常会吃掉一些光影,为了让效果更好,会使用一些光影效果。包装(如字幕):字幕最后上,剪映比较方便的一点就是可以智能匹配字幕再修改。传统字幕制作要用PS做完再去PR里面对时间线,确实挺痛苦的……一些剪辑相关的书推荐给大家:、