Sora,从入门到精通[常识篇+注册篇]
时间:2024-05-04 21:15:17 来源:网络cs 作者:欧阳逸 栏目:卖家故事 阅读:
ChatGPT狂飙160天,世界已经不是之前的样子。
新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源
今天开一个新系列,Sora
阅读对象,IT 小白
我将用通俗易懂的语言,和大家分享关于 Sora 的一切
本公众号 Sora 系列文章,见文末
春节前几天,我根据种种迹象,预测 OpenAI 要放大招了
年还没过完,OpenAI 就放出"二向箔" ,一个名为Sora 的文字到视频 AI 模型,
Sora 能够根据文本提示生成逼真的视频。该模型能创造长达一分钟的视频,并且视频分辨率高达 1080p。它在处理反射和阴影方面表现良好。
目前它还没有向普通用户开放,因为 OpenAI 正在与专家合作进行红队测试,以评估该模型可能存在的偏见、风险和危害。
本文分为两部分,第一是 Sora 常识、体验网站、效果展示,第二是如何注册 Sora
一、常识
1.OpenAI 是一家什么公司?
答:OpenAI 是 AI 界的顶流公司,专注于开发大型语言模型
大型语言模型的江湖,有五大门派:
"南帝"(谷歌 Gemini)、"北丐"(亚马逊 Claude),"东邪"(马斯克 Grok)、"西毒"(Meta Llama)、"中神通" OpenAI 的 ChatGPT!
OpenAI 前身是一家非营利性的人工智能研究实验室,由马斯克、阿尔特曼发起设立。这家企业故事太多了,回头给大家写一个 OpenAI 大事记。
OpenAI 主要产品包括 GPT 系列,文生图 DALL-E3
总之,纵观全球 AI 界,OpenAI 算法第一、算力第一、产品口碑第一
2.Sora 是什么?
答:Sora 是 OpenAI 于 2024 年 2 月 16 日发布的一个 “文生视频”AI 模型,它可以根据文本指令创建现实且富有想象力的场景视频。
简单讲,想象一下,如果你能告诉一台特别聪明的电脑“给我讲个超级英雄的故事”,然后电脑就能制作出一整个视频来,里面有超级英雄飞来飞去,救人的场景,甚至还有特效和背景音乐。这就是 OpenAI 的 SORA 能做的事情。
Sora 是一个很先进的工具,你只要给它一些文字,比如描述一下你想看的视频内容,它就能根据你说的话创造出一个视频。
上面的动图是 Sora 主页抓图,请注意下面的那行小字“本页所有视频均由 Sora 直接生成,未经修改”
3.什么是“文生视频”?
答:从文本创造视频,简称文生视频。
就像是有个小电影工作室,但是全部都是由电脑自动完成的,不需要真人演员或者真正的摄影机。
Sora 看过了很多视频、图片素材,可以根据用户的提示词,产生新的视频
案例:寄居蟹使用白炽灯泡作为外壳的夜间镜头
4.有哪些文生视频软件?
答:在 Sora 之前,主流的有 Pika、Runway、moonvalley、DomoAI、leonard 等
相关评测见《文生视频软件合集》
用户不需要了解具体的技术,你使用冰箱,你需要研究制冷技术么?
Sora 与其他文生视频的优势在于,算法更优!算力更强!其他视频软件只能生成几秒,最多十秒的视频。Sora 1次可以60秒
OpenAI 能够在以前不可能的更广泛的视觉数据上训练扩散 Transformer ,包括不同的持续时间、分辨率和长宽比。更忠实地遵循用户在生成的视频中的文本指令
简单说,其他软件是图片推测视频,而 Sora 是理解后自动类似 3D 建模生成视频!
不怕不识货,就怕货比货啊
看下面的对比视频:
5.Sora 的定位是是"世界模拟器"
答:将 Sora 成为文生视频模型,是小看了 OpenAI 的野心
从流出的视频来看,Sora 有能力在一定程度上模拟现实世界中的人动物和环境。
不需要对三维空间,物体有任何特定的预设,纯粹是 scale 之后的自然现象。
我甚至觉得 sora 有一定的智力,它可以根据场景自己推断出周边的场景。
Sora 的先进性在于它可以根据已有的知识推断、生成新的东西,这是自我意识的雏形。
比如说一个你从来没见过摩拜单车撞击过坦克,但是你根据你的经验知道肯定是以卵击石,脑海里就会自动浮现出来惨不忍睹的画面,
sora 也具备和你同样的推断能力。
Sora 它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破
比如下面的视频,仅一句话,AI 可以自己切换镜头,实现转场
6.谁可以使用 Sora
答:目前仅“红队(red team)”可以使用 Sora
红队由最早期客户,影视专业人士构成。
他们正在全面评测 Sora,确保它做出的视频既酷炫又安全,不会有任何不好的内容
目前,网上流出的各种 Sora 视频,只有两个来源,官方 demo 和红队评测结果。
7.Sora 生成视频效果
答:Sora 不但可以模拟真实的视频,还能生成特效视频,还可以在一个视频中展现不同的镜头
案例1:输入提示语“蚂蚁在蚁巢内部移动的 POV 镜头”
你会得到一个动物世界的特效镜头
案例2:“一片叶子的微距照片,显示微小的列车在叶脉中移动”
Sora 会生成以下视频给你:
8.使用 Sora 需要编程技巧么?
答:不需要,直接用自然语言提示。
所谓自然语言就是人类的语言,俗称“说人话”,看上面的提示词。
9.Sora 支持中文么?
答:从 OpenAI 的风格来看,应该支持直接输入中文提示词
10.预计 Sora 什么时候正式发布?
答:预计 3 月底之前!
按照 OpenAI 发布 DELL-E(绘图 AI)的路径来看
应该分为两个使用路径,第一是独立可用的版本、二是与 GPT4 或 GPT5 结合的版本!
11.使用 Sora 的途径 ?
答:两种方式,官方网页版、API 版
官方网页版直接在 OpenAI 的网站上生成,不需要用户安装到本机
API 版,是通过第三方调用官方的服务器资源
后期可能会有 APP 版
12.使用 Sora 需要支付费用么?
答:需要!目前 OpenAI PLUS 会员是 20 美元/月
Sora 开通后,应该 PLUS 会员可以使用一定限制(如时长)的 Sora
API 则是按流量,单独计费!
13.现在可以使用 Sora 吗?
答:目前少量用户可用,未对大众开放!
ChatGPT Plus 会员应该是下一批使用的用户!
14.Sora 和 ChatGPT 如何结合?
答:结合有两种方式
第一是界面结合,类似现在的 DALL-E
第二是功能结合,比如你才 Chatgpt 对话完成后,直接召唤 sara,说“根据 XXX,生成一段类似的视频”
15.不满意生成的视频,如何让 Sora 修改?
答:直接输入新的提示,举例如下:
Sora 不仅可以从文本生成 AI 视频,它还可以改变上传视频的风格和环境。
比如上传一段赛车视频后,只修改了提示词,就生成了 12 个不同风格和环境的视频。
篇幅有限,放 2 个
原版
让它潜入水下
上天入地都可以!作者一口气,同一辆车,弄了12个风格。
16.Sora用于影视行业版权算谁的
答:制作方的。根据现在的案例来看,只要不是赤裸裸的全盘 copy,法律上是认可的,尤其是日本等国家,鼓励 AI 发展
我查了一下,我发现各个国家的法律尺度不一样,大部分国家的法律是只要你不完全抄袭,可以借鉴风格,对原内容重新整理组合,这个是允许的,比如日本。
17、Sora 的底层技术?
答:Sora 的核心技术源自 Diffusion Transformers (DiT)模型
这是一个 2022 年 12 月由伯克利和纽约大学两位研究人员提出的模型,目前这两位一个在 Meta AI,一个在 OpenAI
都是基于谷歌的开放论文
谷歌自己的论文,但实践下来,OpenAI 最佳,谷歌人才济济但是有大公司病啊
业内梗,OpenAI 摸着谷歌过河,大家摸着 OpenAI 过河
18.我在国内如何使用 Sora?
答:等 API 开发版,应该可以直接用
可以关注本公众号,有资源,第一时间推送!
19.Sora 有 APP 吗?
答:早期不会有,预计后期会集成到 GPT APP
20.Sora 只能生成 视频吗?
答:还可以生成图片
Sora 定位在真实世界的模拟器,做视频只是顺手为之
就像歌者文明,做个视频只是“二向箔”常规武器,GPT5 才是降维大杀器
21.如何让 Sora 生成高质量的视频?
答:高质量的提示词,
这需要第一美感、第二想象力!第三,摄影、摄像经验
案例:有人看到一只白色和橙色的虎斑猫在大雨中飞快地穿过后街小巷,寻找庇护所……”(查德·尼尔森提示)
22.如何让 Sora 有声音?
答:目前官方没有配音,估计快了
另外,ElevenLabs 即将推出半自动 AI 配音测试,预计是 Prompt 形式
现在测试名单需要申请 https://form.typeform.com/to/gg0xzZW4
下面是他把 Sora 的视频配音
23.Sora 会让影视人员实业么?
答:不会。Sora 会成为影视人员的工具。
Sora 能够“无缝”混合两个视频,视频 1 是一个 Sora 生成我的世界(Minecraft)视频,然后将它跟一个骑摩托车的视频混合起来就变成了第二个视频。
可以预见未来这个功能拥有巨大的创造潜力。
24.为什么我要使用 Sora?
答:纵观人类历史,每一次能源,生产工具的提升,都会带来社会的变革。
20 多年前,PC 普及,互联网兴起,人人都在说信息化;10 多年前,手机兴起,处处讨论移动办公。
但是,现在的人已经不提信息化,不强调移动办公了。因为 IT、移动办公已经成为基础资源,类似水一样,无处不在。AI 未来也是这样。
目前 AI 的应用,只是一个开始。不仅国外,国内的各个 AI 产品也在日新月异。
工具都大同小异,掌握了 ChatGPT,使用其他 AI,轻松上手。越早掌握,越早上车。
25.Sora 会取代哪些岗位?
答:故步自封,工作场景比较固定,与视频有关的岗位
26.哪些人适合学些 Sora
答:很多人以为是程序员,其实不是。传统程序员思维有了定式。
影视专业,文学+IT青年 很适合!
27.教育应该如何发展?
答:我建议国内影视专业,尽快开通相关选修课程。提前为大家做好置业规划和知识储备
再来看一个案例,Sora 可以同时并排生成多个视频。
这是 Sora 的单个视频样本。我们没有把这一切拼凑在一起;空决定要同时拥有五个不同的视点!
二、Sora 体验网址和注册
机会是留给有准备的人的,虽然 Sora 还没有正式发布,但我们完全可以做好前期准备,进入教父的“睡床垫”战斗状态,迎接它发布的那一天
1.Sora 资源
官方网址:openai.com/sora
官网技术报告:
原文:https://openai.com/research/video-generation-models-as-world-simulators
译文:https://baoyu.io/translations/openai/video-generation-models-as-world-simulators
2、如何注册 Sora
答:按 OpenAI 惯例
Sora 应该优先提供给 Plus 用户使用
为了优先用上 Sora,你要先注册为 GPT,然后升级为 PLUS 会员,坐等 Sora 发布
按照惯例,Sora 发布后,在 ChatGPT 的界面上,就会多一个子栏目
3、如何注册 Sora 的 API
暂时未放出 API 接口,但是 OpenAI 的所有 API 都是一个账号
结语:
本篇文章是 Sara 系列的第一篇正式文章 ,后面还有更多精彩的文章和案例,还有工具。
机会是留给有准备的人的,你可以当做一切没有发生,你也可以选择主动迎接变化
创新精神根植于中华民族的传统文化。《大学》中有“苟日新,日日新,又日新”;《易经》的精神本源也是创新,易就是变化,所谓“天行健,君子以自强不息”
跟上世界发展的节奏,把握变化,在这个缺乏确定性的繁杂世界为自己找一份确定性。
好啦,今天的分享到这里,别忘了关注、收藏、点赞、分享这篇文章哦!以便第一时间收到更多更好玩儿的 Sora技巧分享哦。
阅读本书更多章节>>>>本文链接:https://www.kjpai.cn/gushi/2024-05-04/164925.html,文章来源:网络cs,作者:欧阳逸,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!
下一篇:返回列表
相关文章
- 视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起
- 不了解Sora?看完这篇文章你就懂了
- 陈巍:Sora大模型技术精要万字详解(上)——原理、关键技术、模型架构
- 【好书推荐-第九期】Sora核心技术相关书籍《扩散模型:从原理到实
- 视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、
- 深度解读丨火爆全球的AI文生视频大模型Sora
- 【附教程】2024,人工智能+ 视频,除了OpenAI Sora,这13个视频生成式a
- 7万张H100打造的Open AI文生视频Sora功能原理详解|Sora注册全攻
- GPT-4引领AI新纪元,Claude3、Gemini、Sora能否跟上步伐?
- AI新工具(20240321) 又一个开源的Sora实现;高质量动漫风格图像的