玩音乐的人写的Suno.ai教程就是不一样!全球大模型汇总清单(持续更新);深度盘点文生图&文生视频;AI Native工作流即将崛起 | ShowMeAI日报
时间:2024-05-04 14:10:49 来源:网络cs 作者:胡椒 栏目:广告工具 阅读:
https://www.ycombinator.com/companies
补充一份背景:Y Combinator (简称YC) 是全球知名的创业孵化器,不仅为创业者提供资金支持,还提供一系列的资源和服务来帮助解决创业过程中的各种问题。
YC 独特的投资策略和敏锐的洞察力一直备受好评,其投资成绩也很显著,大量独角兽公司已经脱颖而出。现在炙手可热的 Sam Altman 曾经是 YC 总裁 👀
YC 官网可以查看所有创业公司详细信息了!!
2005年以来,YC 已经投资 4000+ 创业公司了,合起来的总估值也已经超过了 6000 亿美元。
YC官网上线了「Startup Directory」页面,可以按照 Batch、Industry、Region、Tags、Company Size 维度对其投资的所有公司进行检索,还支持关键词搜索。检索结果列表包含公司的简要信息,点击可以看到每家公司的详情页,非常具体全面!!
如果你对 YC 的投资历史和动向感兴趣,那么可以研究起来了 👀
https://www.ycombinator.com/companies/industry/generative-ai
YC 还设置了一个生成式AI专题页面「Generative AI Startups funded by Y Combinator (YC) 2024」,包含100家 YC 投资的 GenAI 相关初创企业。
YC 的投资动向一直是硅谷创业的风向标之一。如果你也想投身 GenAI 创业的浪潮,记得跟上 YC 的节奏~
🉑 中美之外,还有哪些大模型?这里有份「比较完整」的全球大模型名单
补充一份背景:中美大模型太多了,日报只列举最常被提及的一些;其他国家和地区的大模型信息很少,努力查找但难免疏漏,欢迎大家前往 👆 评论补充,帖子会定期更新~
🔔 美国 (部分)
GPT-4:OpenAI 发布,拥有超过1万亿参数,支持32768个令牌的最大上下文长度
PaLM 2 (Bison-001):谷歌发布,专注于常识推理、形式逻辑、数学和多语言处理
Gemini:谷歌发布,是原生多模态AI模型,包含文本、图像、音频、视频和代码
Claude:Anthropic 发布,接近 GPT-4 的性能,专注于构建有用、诚实和无害的AI助手
LLaMA:Meta AI发布,从 70 亿到 650 亿参数不等的系列开源大语言模型
**Vicuna 33B:LMSYS 发布,基于 330 亿参数训练的开源大模型
🔔 中国 (部分)
悟道:智源人工智能研究院发布,参数达到 1.75 万亿
文心一言:百度发布,基于文心大模型
盘古:华为发布,包含 CV 和 NLP 两类大模型
通义:阿里巴巴发布,包含 NLP、视觉和多模态大模型
星火:科大讯飞发布,具有跨领域知识和语言理解能力
ChatGLM:清华大学发布,支持中英双语的对话语言模型
书生·浦语 (InternLM):上海人工智能实验室发布,多语千亿参数基座模型
baichuan:百川智能发布,开源可商用的大规模预训练语言模型
kimi:月之暗面 (MoonShot) 发布,支持超长文本处理
云雀:字节跳动发布,可以在「豆包」「扣子」等产品种使用
混元:腾讯发布,万亿中文 NLP 预训练模型
Yi:零一万物发布,拥有超长上下文窗口的开源模型
🔔 欧洲
Mistral / Mixtral:法国 Mistral AI 公司发布,7.3 亿参数,击败其他开源模型
Luminous:德国 Aleph Alpha 公司发布,700 亿参数,注重安全和隐私
BLOOM:Hugging Face 发起,1760 亿参数,注重伦理考量和可访问性
🔔 韩国
HyperCLOVA:Naver 发布,2040 亿参数,针对韩语的大模型
KoGPT:Kakao Brain 发布,基于 GPT-3 的韩语模型
Exaone:LG AI Research 发布,3000 亿参数的多模态模型
A.:SKT 发布,全球首个韩语大语言模型
🔔 日本
HyperCLOVA:NAVER 和 LINE 发布,针对日语的大语言模型
Rinna:微软日本发布,基于 GPT-2 的日语聊天机器人
ELYZA Pencil:ELYZA Co., Ltd. 发布,生成式AI产品
open-calm:CyberAgent 训练的 70 亿参数基础模型
Stormy-7b-10ep:Izumi-Lab 在 open-calm 上微调的版本
🔔 其他
YaLM:俄罗斯模型,1000 亿参数,免费供全球开发者使用
Falcon:阿联酋技术创新研究所发布,多语言开源大模型
NOOR:阿联酋发布,100 亿参数的阿拉伯语 NLP 模型
AI21 Labs:以色列公司发布,拥有 Jurassic-2 基础大模型
🉑 玩音乐的人写的 Suno 教程就是不一样:真正的从0到1,顺带补乐理知识
https://www.suno.ai
补充一份背景:Suno.ai 是一个基于AI的音乐创作平台,可以根据用户输入的简单提示词生成带有伴奏和人声的音乐,自发布之后就疯狂刷榜 🏆 因为生成的音乐真的很!好!听!
我们曾经在 ⋙ 这篇日报 里介绍过 Suno.ai 和 匹配的提示词教程
但是!社群的小伙伴在一起玩时,遇到了一个很棘手的问题:怎么把生成的片段拼成一首完整的歌呢?
这就要熟练地结合乐理知识来设计提示词了?!嘶……感觉需要很深的行业 Know-How 哇 🤷♀️
然后这篇教程就出现了!作者用 7500 字非常详细地介绍了 Suno 的使用方法,从最基础的操作界面讲起,细致列出了音乐领域提示词技巧,介绍了最常用的辅助工具和拓展资源,还整理了常见问题与解决方案!!最难得的是,在涉及到乐理知识的部分有简明扼要的补充,帮助我们快速 get 操作的背后原理 👏👏👏
也就是说,跟着这份教程操作,我们真的可以搞定「提示词 → 音乐片段 → 一首完整歌」的全部流程啦!
这样具有行业知识的高水平的教程,请多来一点,我们真的很需要! ⋙ 阅读原文
Chirp 是 Suno 公司发布的「文本生成音乐」模型,目前已经进化到 Chirp V2 版本
🔔 Part 1-2: 简介 & Chirp 操作流程
网页版最大生成时长1分20秒,延续最大时长60秒
Explore、Create、Library、Credits、Subscribe 的页面布局和详细介绍
🔔 Part 3: Chirp 基础知识
Chirp 支持的语言:支持多种语言,并且能够自动检测并使用正确的语言进行演唱
元标签 (Metatags):元标签是一种特殊的提示,用于在创作内容时提供方向性指引
两类特色功能
风格提示 (Style Prompting):在提示框中输入完整的句子,或者由逗号隔开的一系列乐器、音乐元素、流派、风格词汇
⭐ 写好风格提示词的建议和注意事项
歌词提示 (Lyric Prompting):通过元标签来引导后面的歌词、歌曲结构、音乐风格,一定程度上为歌词提示功能减负
⭐ 歌词提示的书写格式
⭐ 知识科普:歌词结构包含 Intro (引子或前奏)、Verse (诗歌部分 / 主歌)、Chorus (合唱部分 / 副歌)、Bridge (桥接部分)、Outro (尾奏)、Pre-Chorus (前副歌)(可选) 、间奏 (Interlude)(可选)
🔔 Part 4: 辅助工具
Sonotellerhttps://sonoteller.ai
智能的音乐分析网站,输入 YouTube 链接可生成包含歌曲的分析报告
Every noise at oncehttps://everynoise.com
音乐流派分类网站,点击流派名称就可以播放对应的音乐示例
Chosichttps://www.chosic.com
提供音乐信息和强大的搜索功能
音乐术语查询器https://nicechord.com/terms
通过搜索栏查找音乐术语的定义
维基百科音乐术语大全https://en.wikipedia.org/wiki/Glossary_of_music_terminology
提供详细的音乐术语解释和相关信息
🔔 Part 5: Chirp 进阶知识
Chirp的采样特性:在第一个生成片段的最后10秒进行采样并应用于后续片段,保持歌曲的连贯性和一致性
元标签的书写技巧:支持不同格式的括号,内容可以是名词、形容词+名词、句子(尽可能短) 等
⭐ 常用格式清单
🔔 Part 6: 实战
歌曲生成使用常见的歌曲结构 [intro]—[verse 1]—[chorus]—[verse 2]—[chorus]—[bridge]—[chorus]—[outro]
⭐ 前奏:生成「独立前奏」的四种操作方法,解决前奏过长或不唱歌词的方法,指定乐器演奏的方法
⭐ 主歌与副歌:主歌与副歌之间自然过渡的方法
⭐ 结尾部分:控制生成需要的尾奏
纯音乐生成⭐ 生成纯音乐的两种操作方法
⭐ 生成没有人声的伴奏的两种操作方法
🔔 Part 7: 更多
SunoBeats GPTs:质量很高,尤其对流派和风格的把控很准,能满足日常需求
非官方Suno wiki:https://www.notion.so/suno-ai-wiki/4e24aa838bf84fffaf383b1f9ed50748
🔔 Part 8: 常见问题与解决方案
歌词延续:如果歌词被切断,应在下一个片段中接上,但避免重复使用被中断的元标签
器乐过渡:在器乐部分结束后,可以通过添加语气词或使用特定的元标签来提示Chirp进入歌词部分
生成错误:如果遇到“无法生成”或“尝试另一个提示”的错误,可能是由于版权、使用真实乐队或艺术家名称、违规词汇或积分用尽等原因
👀 a16z 最新洞察 | prosumer (producer-consumer) 的未来:AI Native工作流的崛起
https://a16z.com/the-future-of-prosumer-the-rise-of-ai-native-workflows
补充一份背景:a16z (全称 Andreessen Horowitz) 是全球知名的风险投资机构,从去年开始 a16z 发布在网站的多篇 GenAI 主题分析文章都曾引起广泛关注
名词解释:prosumer 是一个合成词,由 producer 和 consumer 两个词组成,可以翻译为产消者 (生产消费者),用来描述既消费产品或服务,又参与生产过程的个人或群体。在AI领域,prosumer 可指用AI工具和技术来创造内容、解决问题或提高工作效率的个人。
a16z 这篇文章提出的观点很棒:目前大多数AI产品仍然专注于单一功能,但是随着LLM 能力的提升,这些产品将发展出更全面的 AI Native 工作流。
而且!即将出现的 GenAI Native Workflow 可以满足「用户操作简单 BUT 输出也能达到专业级别」这样曾经属于「异想天开」的要求!比如用户可以快速生成一张精美的图片,而不再需要吭哧吭哧花很长时间学 Adobe Photoshop 花样繁多的操作技巧。
GenAI使我们每个人都可以成为程序员、制作人、设计师、音乐家,把创造力和操作技巧之间的鸿沟抹平,轻松跨越 producer 与 consumer 之间的壁垒,成为身份切换自如的新一代 prosumers
GenAI Native Workflow 产品首先要把大模型能力转化为易用高效的用户界面,然后具备以下功能点:
生成工具:真正解决「空白页面」的需求,或者把增量资产 (例如草图或大纲) 转化为更完整的产品
多模态组合:可以在一个地方生成并组合多种模态的内容 (比如图片、文字、音频、视频等),不过目前还没有一个模型可以生成所有这些资源类型
智能编辑器:因为生成模型的随机性使得用户有大量的修改需求,智能编辑使得内容生成的迭代更加容易,比如基于已有输出进行微调 (而不是从头开始),
平台内细化:最后10%的润色工作通常是创造出好作品和伟大作品之间的区别,平台可以帮助识别哪些需要改进并自动完成
可重复/可转换的输出:AI生成的内容灵活性很高,可以作为后续迭代的起点,新的工作流要允许用户在不同媒介间之间自由转换
a16z 判断未来几个月 Prosumer产品有望出现以下工具:
编辑工具的进化:期待出现能够在单一平台上完成从内容生成到编辑、混音等所有步骤的工具,例如视频编辑可能不再需要在多个平台之间切换
交互模式的多样化:期待出现更多支持语音、草图等非文本交互方式的工具,以便用户以更自然的方式与AI工具合作,例如Oasis、TalkNotes
和 AudioPen 等工具可以将语音笔记转化为电子邮件、博客文章或推文平等对待人类和AI生成内容:期待工具能够平等对待人类和AI生成的内容,使它们可以无缝结合,例如 Runway 编辑工具允许用户在同一个时间线上使用AI生成的剪辑和真实资产,并使用魔法工具对两者进行编辑
🉑 一文纵览「文生图」「文生视频」技术的发展路径与应用场景
一、主流文生图技术发展路径
横向来看,文生图的主流技术路径可分为4类
纵向来看,主流文生图技术的演进路径
二、主流文生视频技术发展路径
早期发展 (2016 年以前)
奠基任务:GAN/VAE/flow-based (2016-2019 年)
自回归模型及扩散模型生成阶段 (2019-2023)
未来发展趋势 (2024-?)
视频生成模型 mapping
三、应用场景
基于闭源模型
基于开源模型 ⋙ 阅读原文
🉑 如何将大语言模型集成到系统和产品中?一共有7种模式!
https://eugeneyan.com/writing/llm-patterns
这是一篇长文,详细讲解了将大语言模型集成到系统和产品中地7种模式,并将其按照「Data - User」「Defensive - Offensive」划分成了四个象限。
以下是这7种模式地简单介绍,原文详细且专业地讨论了模式的具体使用方式,包括评估的构建、RAG的实现、微调的方法、缓存策略、防护措施的实施以及如何通过用户体验设计来收集反馈等。感兴趣可以访问上方 👆 链接:
评估 (Evals):用于衡量模型在特定任务上的性能,包括基准数据和指标
检索增强生成 (RAG):通过从外部检索相关数据并增强输入,为模型提供更丰富的上下文,以提高输出的质量
微调 (Fine-tuning):通过在特定任务上进一步训练预训练模型,使其更好地完成任务
缓存 (Caching):通过存储先前检索或计算的数据,减少响应的延迟和成本
防护措施 (Guardrails):确保LLM输出的质量,包括验证输出的语法正确性、事实准确性和无害内容
防御性用户体验 (Defensive UX):设计策略,以预见并优雅地处理用户与基于LLM的产品交互中可能出现的错误
收集用户反馈:通过收集用户反馈来构建数据飞轮,这些反馈有助于改进模型、微调和防护措施
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!
本文链接:https://www.kjpai.cn/news/2024-05-04/164761.html,文章来源:网络cs,作者:胡椒,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!