跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 平台政策 > 【好书推荐-第九期】Sora核心技术相关书籍《扩散模型:从原理到实战》与《GPT 图解:大模型是怎样构建的》:Sora的两大核心技术,都藏在这两本书里!

【好书推荐-第九期】Sora核心技术相关书籍《扩散模型:从原理到实战》与《GPT 图解:大模型是怎样构建的》:Sora的两大核心技术,都藏在这两本书里!

时间:2024-05-01 18:20:44 来源:网络cs 作者:往北 栏目:平台政策 阅读:

标签: 核心  技术  模型  怎样  图解  实战  相关  推荐  书籍 
阅读本书更多章节>>>> 4.1 计算机视觉

扩散模型可以在图像处理任务中发挥重要作用,有如下三种场景。

· 图像分割与目标检测。

· 图像超分辨率。

· 图像修复、图像翻译和图像编辑。
在这里插入图片描述

4.2 时序数据预测

时序数据预测是根据历史观测数据,预测未来可能出现的数据。而基于扩散思想,就可以将时序数据预测视为生成任务,基于历史数据的基本条件生成未来数据。

时序数据预测可以在多种业务中应用,包括气温预测、股票价格走势预测、销售与产能预测等。

4.3 自然语言处理

基于扩散思想,只要将自然语言类的句子分词并转换为词向量后,就可以通过扩散方法来学习自然语言的语句生成,实现语言翻译、问答对话、搜索补全、情感分析、文章续写等功能。

目前这一领域的霸主还是 GPT 模型,但扩散模型在自然语言处理领域的发展还是相当值得期待的。

4.4 AI基础科学

AI 基础科学也称 AI for Sicence,是以人工智能技术分析处理多维度、多模态、多场景下的模拟和真实数据,解决复杂推演计算问题,加快基础科学和应用科学的发现、验证、应用,打造下一代科学范式。

在基础科学中生成预测类的研究,就是扩散模型的擅长领域。例如,2021 年 DeepMind 研究的 AlphaFold 2 可以预测人类世界 98.5% 的蛋白质。
在这里插入图片描述

五、再显神威的Transformer

在 OpenAI 一战封神的 GPT 系列产品中,Transformer 架构是助其成功的头号功臣。而 Sora 的成功再次让 Transformer 大显神威,这说明 Transformer 并非只适用于文本大模型。

Transformer起源于 2017 年,谷歌大脑团队发布了论文“Attention is All You Need”,提出了这种结构。Transformer 的核心是自注意力机制,它能够为输入序列中的每个元素分配不同的权重 ,从而更好地捕捉序列内部的依赖关系。

Transformer 还摒弃了 RNN 和 LSTM 中的循环结构,采用全新的编码器-解码器结构,这种设计使得模型可以并行处理输入数据,进一步加速训练过程,提高计算效率。

在这里插入图片描述
相对于 Runway 和 Pika 在扩散模型中使用的 U-Net来说,Transformer架构的参数可拓展性强,即参数量增加,性能加速提升,同时支持任意分辨率、长宽比、时长的视频训练数据,不会因为压缩而导致训练数据质量下降。

OpenAI 利用 Transformer 的编码能力,配合扩散模型对视频进行训练,也就使得 Sora 生成视频的时长能够远超竞争对手。

Transformer 如此重要,它的技术底层是如何实现的?答案都在《GPT 图解:大模型是怎样构建的》这本书中,完整的代码示例让你一次性悟透 Transformer。

六、学习两本书掌握Sora核心技术

6.1《扩散模型:从原理到实战》

在这里插入图片描述
本书内容基于 Jonathan Whitaker 和 Lewis Tunstall 在 Hugging Face 上开设的 Diffusion Model 课程,本书是 Hugging Face 的第一本中文图书。

Hugging Face 是为机器学习从业者提供的协作和交流平台,涵盖了机器学习各方面的知识。学习者可以在平台上开源自己的机器学习模型、数据集或者创建机器学习应用。

这本书由 Hugging Face 中国社区的本地化志愿者团队成员完成,作者团队在 AI 领域有着丰富的理论与实践经验,高质量地将在线课程转化为本书内容。

书中首先详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM 反转等重要概念与方法。然后对 Hugging Face 平台进行了简单介绍。接着说明从零开始搭建扩散模型的完整过程。通过 Diffusers 实战,演示了生成美丽蝴蝶图像的方法。

此外还介绍了 Stable Diffusion、ControlNet 与音频扩散模型等内容。附录还提供由扩散模型生成的高质量图像集,以及 Hugging Face 社区的相关资源。

本书的最大特点就是注重实战,书中配备大量案例帮助读者快速熟悉扩散模型。同时作者们还精心设计编写了大量功能完整的代码,清晰的代码结构与注释可以帮助读者快速实现扩散模型生成精美图像。

在这里插入图片描述
读者想学会扩散模型最好的办法,就是在阅读本书的过程中搭建自己的开发环境,编写并运行书中提供的源代码。
另外,书中通过诸多图例手把手地教会读者使用 Diffusers 库训练扩散模型,学会使用 Stable Diffusion 和 ControlNET 生成图像。读懂这本书,读者能够做到从零开始搭建扩散模型,并完成退化、训练、采样过程。
在这里插入图片描述

6.2 《GPT 图解:大模型是怎样构建的》

在这里插入图片描述
《GPT 图解:大模型是怎样构建的》从 NLP 技术的发展脉络梳理,讲述了 N-Gram、词袋模型(BoW)、Word2Vec(W2V)、神经概率语言模型(NPLM)、循环神经网络(RNN)、Seq2Seq(S2S)、注意力机制、Transformer,从初代 GPT 到 ChatGPT 再到 GPT-4 等一系列突破性技术的诞生与演进。

本书最大的特点是通过两位虚拟人物“咖哥”和“小冰”的对话来展开技术讨论,将枯燥的技术细节化作轻松幽默的故事和缤纷多彩的图画,引领读者穿梭于不同时空,见证自然语言处理技术的传承、演进与蜕变。

本书对于技术的讨论也绝非停留在理论上,而是以大量代码来演示技术的底层细节。书中实现了一个完整的 Transformer 框架,包含了 10 个关键组件。基于该 Transformer 框架,还实现了一个简版 GPT,帮助读者透彻理解大模型。

本书作者黄佳,笔名就是“咖哥”,他目前是新加坡科技研究局人工智能研究员,主攻方向为 NLP 大模型的研发与应用。咖哥在 AI 领域深耕多年,在政府、银行、医疗等多个行业有丰富的 AI 实践经验。

配套资源丰富是本书另一大特色,咖哥精心编写每一章的示例代码,并编排为 Python notebook 文件。读者可以在 notebook 的交互式环境中轻松运行调试代码,观察输出结果。

在这里插入图片描述

毫无疑问,Sora 是扩散模型极其成功的应用,将来一定还会有更加出色的应用出现。对于想要在 AI 时代获得跨越发展的诸君来说,现在学会《扩散模型:从原理到实战》和《GPT 图解:大模型是怎样构建的》,就是站在未来的制高点上!

七、抽奖方式

抽奖送书老规矩(不点赞收藏中奖无效):注意记得关注博主及时获取中奖通知。

1. 点赞+收藏 文章2. 评论区留言:我要成为架构师(留言才能进入奖池,每人最多留言三条)3. 2024年3月10日 本周天晚八点随机抽奖3人4. 京东自营购买链接:https://item.jd.com/13958977.html 和 https://item.jd.com/13803847.html5. 添加博主VX关注送书动态等福利:bdizztt
阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/zhengce/2024-05-01/164120.html,文章来源:网络cs,作者:往北,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论