sora是什么?为什么Pika和Runway做不出这样的效果?

常规的计算机CG没有几个月是做不出来的,Pika、Runway为什么做不出这样的效果?这两天网上介绍所有的视频已经非常多了,我更喜欢琢磨背后的东西,大家都在说sora好,到底为什么好,它是怎么做的呢?

我特别对三个场景印象深刻:一群金毛小狗在雪地里打滚,其真实感让人惊叹;一个咖啡杯中的海盗船战斗场景,展现了惊人的特效;以及无人机穿越城市古迹的画面,其3D效果和一致性维护得非常好。这些效果展现了目前技术的极限,以及为何传统的CG方法无法轻易复制这些效果的原因。

Pika和Runway,那为什么做不出这样的效果?

我理解Pika和Runway实际上还是基于这种图形图像本身的操作来进行的生成,在一个画面上选定一两个目标,一两个对象。让这一、两个对象要么保持不动,背景在动,要么背景不动,这一两个对象在动,就形成一种比较简单的计算机动画的效果,它是肯定做不到刚才的三个画面的能力。

在CG领域,创建真实感强的画面,比如毛茸茸的动物或是动态的水面,需要极其复杂的建模和粒子效果模拟。这不仅涉及到每一根毛发的建模,还包括每一个水滴的物理建模,以及如何表现出毛发随风飘动的感觉和雪花的质感。这样的工作量是巨大的,使用常规的电影工业特效手段,可能需要几个月的时间才能完成。

如果用电影特效来表示咖啡杯里的那个波动,这个就需要给粒子特效来模拟多少个水分子,把每个水分子看成是一个粒子,然后利用水的这种物理方程来模拟流体的特质,一帧帧的把它渲染出来。阿凡达为了做水的特效,据说花了好几年的时间才完成了大量的海浪,水波纹这些特效镜头。

那么像无人机飞跃一个城市,所有飞跃的地方,都要需要做真实的3D建模,3D的贴图和3D的渲染,在镜头飞跃的每一个观察点上,都要对这个3D的画面做若干次的渲染。对一个城市的3D建模的工作量特别大,所谓叫数字孪生还是非常昂贵的一个技术。

但是到了sora这里,这些东西都变得非常的简单,只要给一堆文字的提示要求,它就能给你非常逼真的描绘出来。

sora到底做3D建模没有?

我觉得答案应该是没有,因为sora如果也只是3D建模在进行渲染,和传统的电影工业走一样的路,那就它就不具备颠覆性和革命性了。

sora怎么做到的呢?

第一点

sora应该还是模拟了我们人类去观察世界、描绘世界和表现世界的这种方法,比如说如果要我们人类一个有经验的画师用笔画出来看才3个场景,我们人类在大脑里并不需要3D建模。

因为人类已经对世界有了一个基本的认知,我们知道透视的原理,我们知道随着这个镜头的移动,每个物体的视觉画面会发生改变,我们知道如何去画毛茸茸的毛发,如何去画这个雪,当狗转身的时候,我们知道整个画面会有什么样的变化,我们不需要懂粒子特效,不需要3D建模,不需要懂物理定律,我们靠着对世界的观察,我们也能画出惊涛骇岸的这种海浪的感觉。

sora应该通过大量的训练,掌握了人类这种观察世界、描绘世界、表现世界的这种能力,所以就使得他通过表面看的是2D画面的这种生成,完全理解了这个3D世界的物理规律。

第二点

我觉得sora在学习的过程中,不光是用了很多视频电影的内容来作为训练的输入,当你输入一些画面给sora模型做训练的过程中,你不仅要解读出画面有什么元素,你还要解读出来这里面反映的一些物理定律。

openai在对他的论文。你提到一个叫recaptioning技术,很多人把它翻译错了,翻译成叫字幕技术,像recaptioning的意思是说对每一帧画面能够把它变成用文字来描述,这点也非常符合人人类认知世界的方法。

比如说一个见过大海的人,向一个没有见过大海的人,用语言来描述这个海浪的效果,让他来进行学习,进行想象。所以这一点说明openai的多模态技术已经达到一个新的空间,我估计Google的Gemini看来短期内是很难赶上了。

第三点

大胆的猜测一下,openai应该是自己产生了很多3D的内容,也不排除他用现在的游戏引擎做了很多这种实时3D模型的渲染,利用这种3D模型来把更多的物理知识训练给sora。

为什么人类对AIGI的突破可能就剩下最后一步了?

sora表面上看起来是一个刮胡刀,实际上它是一个吹风机,或者它看起来像一个吹风机,它实际上是个刮胡刀,它表面上看来是一个记录文字生成视频AIGC的工具。

它反映了AI对我们这个世界的理解,已经从文字进到图像,已经从图像进成视频,对这个世界3D模型的理解,对物理定律的理解,还有些人在吹毛求疵,我看到一个sora翻车的视频,比如一个杯子没有碎掉,水就流出来了,还比如说从土里挖出一个凳子,那个凳子没有表现出重力的感觉。

s我恰恰觉得有这些问题呢,非常正常,就像大模型会产生幻觉一样,在梦中不也是会让很多物理定律失效吗?

sora所谓的失效,我觉得有两种可能,一种是这种模型先天具备的,这种也有幻觉的问题,会产生一些魔幻的效果,还有一种,是物理知识训练的不够,所以我们面对一个新的东西,不要老是盯着它的弱点,这些弱点都是可以被改进的。

ChatGPT

Sora来了,有人又嗅到了赚钱的机会

2024-2-17 18:39:03

ChatGPT

Sora什么时候开放?OpenAI的Sora学习笔记

2024-2-19 14:42:36