随着元宇宙的飞速发展,以及Open AI近期发布的Sora人工智能文生视频大模型的崭新功能,我们的未来正在迎来一场全新的科技革命。
一起走进这个充满无限可能的虚拟世界,探索Sora如何助力我们开启元宇宙的新纪元。
【元宇宙:降温!沉寂探索期!】
“元宇宙”自诞生之日起便受到广泛关注。2021年更是元宇宙元年!
2023年,元宇宙逐渐趋于降温。
1月,微软解散成立仅4个月的工业元宇宙团队;
2月,腾讯游戏XR业务将变更硬件发展路径,并对相关业务团队进行调整;
字节旗下虚拟现实品牌PICO进行新一轮人员优化;
4月,迪士尼在2022年刚刚成立的元宇宙部门被“连锅端”;
Meta在2022年营收和净利润出现双降情况下正在酝酿新一轮裁员;
。。。。。。各大企业均进行相关人员业务调整
与此同时,以ChatGPT为代表的AIGC(生成式人工智能)正在成为各方瞩目的焦点。
北京社科院副研究员王鹏表示:元宇宙概念在2023年回归理性是一个积极的发展。
在过去的几年里,元宇宙的概念经历了过度的炒作和夸大其词的宣传,导致许多投资者和公司对其产生了过高的期望,如今的降温,让一些科技巨头也开始反思自己的战略方向,他们意识到,虽然元宇宙是一个非常有前途的领域,但是也需要考虑到自身的资源和能力,不能盲目跟风,需要注重实际可行性和长期可持续性,他们开始重新审视自己的战略布局,寻找更加适合自己的发展方向。
虚拟环境的构建不仅仅是一项技术挑战,更是对艺术、设计、科技和创新的全面考验。实现一个互动且极具吸引力的元宇宙需要在诸多因素之间不断寻找平衡,从成本、创意到技术,每一步都要精心设计与持续的努力。
企业开发者们对这些问题也开始了深入的探讨和反思。他们开始思考,元宇宙是否真的能够满足人们的需求?是否真的能够带来真正的价值?元宇宙的研发投入,提高研发效率,优化技术架构,降低设备体积和重量,提高云传输速率,丰富内容配套等,都不是一朝一夕能够解决的,此外,还需考虑到市场、用户需求、商业模式等多个方面。
元宇宙并不是一个单一的技术或产品,而是一个庞大的、复杂的生态系统。在这个系统中,各种技术、应用和商业模式正在不断发展和演变。虽然当前AIGC等新技术对互联网行业产生了重大影响,但这并不意味着元宇宙将完全被取代。相反,元宇宙可以与AIGC等技术相结合,创造出更加丰富和多元化的体验,元宇宙的长期愿景依然被看好!
【Sora:新生!新纪元开启!】
2024年2月15日,Open AI发布了人工智能文生视频大模型Sora,不过Open AI并没有单纯将其视为视频大模型,而是称其为world simulators(世界模拟器)。
Sora在日语中是“天空”(そら)的意思,引申含义还有“自由”,象征着其无限的创造潜力。Sora的诞生给业内也带来不小的震撼,以碾压式的时长遥遥领先于其他同类型大模型,不论是构建虚拟视频还是虚拟空间,Sora凭借其巨大的潜力在一夜之间成为元宇宙的救星。
< 救星或存疑?>
从Sora一经发布,“史诗级”“现实不存在了”“爆火”“拯救元宇宙”等词便刷屏各大平台,人们既感叹于它“灭霸”级别的生成能力,又对其充满疑问的态度。
Sora意味着什么?
一起来看一下Open AI发布的Sora技术报告开头部分:首先大标题映入眼帘‘作为世界模拟器的视频生成模型’,接着往下看摘要部分,Open AI在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型并尝试用一种Transformer的构架来对视频和图像的潜在代码的时空补丁进行操作。Sora,能够生成一分钟的高保真视频。结果表明,缩放视频生成模型是构建物理世界通用模拟器的一条有希望的途径。
小白们是不是看了文字也一头雾水!
接下来我们可以看一下这样一段视频,能更好地帮助我们理解:
文字描述:
一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。
从视频中我们可以看到,文字所描述的基本都完美呈现,并且时长达到了一分钟,多角度的转换与背景的高清晰度一直保持在同一水准,光影的映照反射、人物运动都十分符合逻辑,可见Sora的强大之处。
<打造全新元宇宙场景>
Sora是一种扩散模型,它能够从噪声中生成完整的视频。通过一系列复杂的步骤,Sora生成的视频开始时看起来像静态噪音,但随着去除噪声的进程不断深入,视频逐渐转化为清晰的图像场景,能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。
Sora也可以把静态图转化为视频。
图片:一只穿着贝雷帽和黑色高领衫的柴犬。
Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频内容的补充和完善。
Sora连接两个输入视频,在具有完全不同主题和场景组成的视频之间实现无缝过渡
Sora具有以下几个颠覆性的特点:
一、生成时长更长:相比同类大模型几秒时长更长,可达到一分钟;
二、视频质量更高:所生成的视频更加逼真、各项参数符合逻辑,达到人类认知范畴;
三、文本生成视频:提供文字描述就可转换成具体的视频播放;
四、静态图生成视频:静态图动起来,更加关注细节部分,使视频更加逼真;
五、视频扩展与补充:对现有的视频进行扩展或补充缺失帧,完善视频内容;
六、连接视频:连接两个视频,使得不同内容的视频间可实现无缝过度;
七、新兴仿真能力:3D一致性、远距离连贯性、物体持久性、互动性、模拟数字世界、多机位角度;
在Sora如同天降陨石的消息传开后,各行各业的反应犹如链式反应一般迅速且强烈。原本,短视频平台的竞争已经进入了白热化阶段,各大平台都在寻找新的突破口。Sora的出现,仿佛给他们提供了一个全新的思路。通过Sora,短视频的观看体验得到了极大的提升,用户在观看视频的同时,可以轻松地链接到其他相关的内容,这无疑大大提高了短视频的丰富度和用户粘性。再者,传统的教育方式已经显得有些过时,无法满足现代人的学习需求,Sora的出现为教育产业提供了一种全新的教学方式。教育内容可以以更加生动、有趣的方式呈现给用户,还能将学习内容与实际生活联系起来,大大提高了学习的效果和实用性。影视业则被Sora激发出了更多的创意和可能性,以往的电影、电视剧往往只关注故事情节和演员表现,而忽视了观众的互动需求,而Sora让观众不仅可以观看电影、电视剧,还可以参与到剧情的发展中去,这无疑大大提高了观众的参与感和体验感。
< 潜在危险?>
当然Sora也并非绝对完美,还是存在一些Bug,可能无法理解一些复杂的物理定律,或者无法将这些定律应用到现实世界的场景中。对于因果关系,Sora可能会因为缺乏足够的背景知识或者对世界运作的理解而感到困惑,视觉和空间感知能力的限制而难以精确地解析细节,特别是在处理三维空间中的物体时,Sora可能会对距离、角度和方向等细节的判断出现偏差,对于时间的连续性和动态性也无法精准预测。
但Sora带来优秀成果的同时也带来几点深思:
1、是否会被大众使用增加一些灰色收入,产生更多触犯法律问题;
2、各行各业人类创作者直接性失业;
3、虚假信息,虚假视频,诈骗案件升级;
4、AI统治世界,人类思维模式下降;
已知的与未知的都值得我们思考,在科技飞速发展的同时,人工智能的安全性将成为外界持续关注的热点话题。
随着技术的不断进步和人们对娱乐需求的不断增长,文生视频行业预计将在2024年迎来飞速发展,各大公司将会投入更多的资源和精力竞逐元宇宙,以赶超Sora,让我们拭目以待!