分享
入门必读科普
输入“/”快速插入内容
入门必读科普
飞书用户4090
飞书用户3287
2024年4月3日修改
作者:
Derrick Harris
,
Matt Bornstein
和
Guido Appenzeller
原文地址:
https://a16z.com/2023/05/25/ai-canon/
整理翻译:AI星球
人工智能研究的发展速度正以指数级增长。即使是AI专家也很难跟上所有新出现的研究成果,对于初学者来说,更是难以知道从何处入手。
因此,在这篇文章中,我们分享了一份我们依赖的精选资源列表,用来提高对现代人工智能的理解。我们称之为"AI正典",因为这些论文、博客文章、课程和指南在过去几年对这个领域产生了巨大影响。
我们从温和地介绍推动当前AI浪潮的transformer模型和潜在扩散模型做起。接下来,我们将深入探讨技术学习资源;构建大型语言模型(LLM)的实用指南;以及对AI市场的分析。最后,我们列出了一份里程碑式研究成果的参考资料,从2017年谷歌发表的"注意力就是你所需要的"论文开始,这篇论文引入了transformer模型,并拉开了生成式AI时代的序幕。
基础介绍
这些文章不需要任何专门的背景知识,可以帮助你快速了解现代AI浪潮中最重要的部分。
•
Software 2.0
:
(Andrej Karpathy)是最早清晰解释(在2017年!)为什么这场新的AI浪潮真的很重要的人之一。他的论点是,AI是一种强大的新方式来编程计算机。随着大语言模型的快速改进,这一论点被证明是有先见之明的,并为AI市场的未来发展提供了一个良好的心智模型。
•
State of GPT
::也来自卡帕西,这是一个非常简单的解释,说明ChatGPT/通用GPT模型是如何工作的,如何使用它们,以及未来的研发可能会采取什么方向。
•
What is ChatGPT doing … and why does it work?
::计算机科学家和企业家斯蒂芬·沃夫拉姆(Stephen Wolfram)从第一原理出发,对现代AI模型是如何工作的给出了一个冗长但非常易懂的解释。他沿着从早期神经网络到当今的大型语言模型和ChatGPT的时间线进行了解说。
•
Transformers, explained
:这篇文章由戴尔·马克威茨(Dale Markowitz)撰写,更直接地回答了"什么是LLM,它是如何工作的?"这是一个很好地方式来轻松进入这个主题,并发展对这项技术的直觉。这篇文章是关于GPT-3的,但仍然适用于更新的模型。
•
How Stable Diffusion works
:如何稳定扩散工作:这是计算机视觉领域的类似文章。克里斯·麦考密克(Chris McCormick)给出了一个通俗的解释,说明了稳定扩散是如何工作的,并发展了对文本到图像模型的直觉。要获得更为温和的介绍,可以查看r/StableDiffusion上的这个漫画。
基础学习:神经网络、反向传播和嵌入
这些资源提供了对机器学习和人工智能基础思想的基本理解,从深度学习基础到来自AI专家的大学水平课程。
文章教程
•
深度学习-核心概念(
Deep learning in a nutshell: core concepts
)
:
这是来自英伟达的四部分系列文章,通过2015年实践的深度学习基础知识,是任何刚开始学习人工智能的人的良好资源。
•
实用深度学习给程序员(
Practical deep learning for coders
):
这是一门全面的免费课程,通过实际示例和代码解释深度学习基础知识。
•
解释-Word2vec(
Word2vec explained
):
对嵌入和标记的简单介绍,这是大型语言模型(以及所有语言模型)的构建块。
•
你应该理解反向传播(
Yes you should understand backprop
):、
如果你想深入理解细节,这里有一篇更深入的关于反向传播的文章。如果你想了解更多,可以尝试斯坦福大学 CS231n 课程的 Youtube 视频。
课程
•
Stanford CS229
: 斯坦福CS229:安德鲁·恩格(Andrew Ng)的机器学习导论,涵盖机器学习的基础知识。
•
Stanford CS224N
: 斯坦福CS224N:克里斯·曼宁(Chris Manning)的自然语言处理与深度学习,从基础到第一代大型语言模型。
深入探讨技术:理解变压器和大型模型
有无数资源试图解释大型语言模型是如何工作的。以下是我们最喜欢的一些,针对不同程度的读者/观众。
文章教程
•
图解变压器(
The illustrated transformer
):
这是杰伊·阿拉马尔(Jay Alammar)对变压器架构的较为技术性的概述。
•
注释变压器(
The annotated transformer
):如果你想在源代码级别理解变压器,这是一篇深入的文章。需要一些PyTorch的知识。