你好,这里是科技前哨,今天继续跟你分享新兴科技企业有关的新鲜见闻。
如今的 AI技术,功能正变得越来越强大,可以编写文本、生成图像、编辑视频,虽然还没有达到完全取代人类的程度,但也的确很是让人震惊了。
我们这里简单梳理一下这些新技术的背后的科学突破,让你看到新技术发展的关键节点在哪里。
其实很多科技的跨越式发展并不是一步到位的,了解了产业趋势就明白没有什么令人吃惊的颠覆式成果,而是一个相对缓慢的渐变的动态过程,长期关注的人,不会觉得惊奇,也更理解其中的潜力和缺陷。
1.深度学习的兴起
人工神经网络是推动深度学习的核心技术。
它的第一批应用集中在图像识别上,一个简单示例就是猫的图像检测:通过大量猫的图片数据集训练深度学习模型。
你可以教模型了解猫的基本特征:胡须、大小、眼睛颜色等等等。一旦完成,模型可以依据自身对猫的理解,高精度预测新图像是否与其匹配。
与通过固定的统计模型匹配的传统机器学习不同,深度学习模型不会“记住”猫是什么,相反,它会通过大量数据处理,自己找到猫的某些特征,通过这些特征整合出对猫的判断。
传统的机器学习方法中,科学家们将任务分解为不同的问题陈述或者是“特征集”,开发相应的模型可以按顺序来处理它们。当用于小数据集和易于理解的问题时,这个策略非常有效。然而,随着研究人员开始涉猎更多开放式问题,例如理解人类语言或驾驶自动驾驶汽车,这种传统的方式就“崩溃”了。这两个问题也因此成了成为深度学习要解决的基石问题。
深度学习领域始于 1980 年代,由现任的Facebook 首席人工智能科学家 Yann LeCun 发明的卷积神经网络 (CNN)开始。当时,CNN并没有得到大规模的应用,因为它的结果并不能保证准确,而且从硬件的角度来看,运行 CNN 所需的计算水平还没有达到。
深度学习的重大突破是 Transformer 模型的发明,2017年在 Google Brain 论文“Attention is All You Need”中,这个模型第一次被介绍给公众,至今它仍然是深度学习中最先进的技术。
Transformer论文与我们在 AI 领域看到的大部分最新进展之间的直接联系怎么强调都不为过。OpenAI 的大模型 GPT-3 和 DALL-E 都基于这个模型架构,Hugging Face 是当今世界上最大的 AI 社区之一,随着开源 AI 模型的推出而迅速崛起。
在过去的五年里,人工智能的大模型竞赛也是Transformer的特性决定的,随着人工智能模型越来越大,它们的性能也越来越强大。
最初的Transformer论文合作者也耐不住寂寞,先后创办了几个当下来看最重要的新 AI 公司,例如 Adept (创始人是Ashish Vaswani)、Character.ai (创始人是Noam Shazeer)、Inceptive (创始人是Jakob Uszkoreit) 和 Inflection.ai (Mustafa Suleyman,DeepMind 的创始人)。
2.自然语言处理 (NLP) 和计算机视觉 (CV)
Transformers 发布后,两个推动研究和投资向前发展的问题是:自然语言处理 (NLP) 和计算机视觉 (CV)。
Google 和 Meta 对 NLP的发展有很大的贡献,这也使这两家公司成了 AI产业的 领导者。谷歌在 2018 年发布了 BERT,它在维基百科上进行了“预测下一句”的训练。Meta 于 2019 年发布了 RoBERTa,对最初的 BERT 研究进行了改进。Hugging Face 最终成为真正普及这种方法的公司,它发布了开源 Transformers 库,其中包括 BERT 和 RoBERTa 模型的预训练版本。
深度学习的第二个重要用途是计算机视觉。计算机视觉专注于理解视觉世界,特别是训练模型来检测汽车、人、树——以及这些物体中的轮廓、颜色等。正如 Google 和 Meta 因为解决 NLP 问题而有先发优势一样,特斯拉、Waymo、Nuro 和 Apple 等公司已经投入超过1000 亿美元来做研究,来解决他们的自动驾驶汽车问题,这是人工智能产业中最有利可图的机会。
随着人工智能技术的不断进步,相关领域都在进一步融合。比如,OpenAI 的 DALL-E 图像模型建立在其 GPT-3 语言模型之上。
许多研究人员认为,未来基础 AI 模型将是多模态的,这意味着相同的模型将用于文本、图像、视频等领域。这也是他们看到的通向通用人工智能 (AGI) 的一条可行性道路,在这条道路上,某个领域内不可知的模型可以复制甚至超越人类智能。
3.大模型的崛起
深度学习的一大优势是模型越大越好。自从Transformers发明以来,扩展这些模型已成为研究和投资的关键领域。在过去三年中,人工智能模型的规模增长了 15500 倍以上。
Source: 15,000x calculated as no. of parameters in Wu Dao 2.0 over no. of parameters in GPT 1
OpenAI 一直是推动模型扩展的最大力量之一。从微软筹集超过 10亿 美元后,该公司发布了一系列语言模型,称为 GPT 模型。今年夏天,OpenAI 发布了图像生成模型 DALL-E。GPT 和 DALL-E 发布后,立即成为占主导地位的最先进模型,现在已成为日益复杂的模型的代名词。
更多的计算意味着更好的结果,如果这是一个基本前提的话,那么你可以由此期待人工智能生态系统将会如何发展才能产生巨大的影响。重要的是,这意味着与其让每家公司都建立自己的人工智能模型,不如平衡一下,更像今天的云生态系统--由少数具有成本结构优势和规模的主导供应商组成。
这一认识拉开了人工智能军备竞赛的序幕。根据 Pitchbook 的说法,在 OpenAI 从微软筹集 10 亿美元之后,竞争对手 Cohere 以 10 亿美元的估值筹集了 1 亿美元。由 Mustafa Suleyman(也是 Google DeepMind 的联合创始人)创立的 Inflection.ai 筹集了 2 亿多美元,由 OpenAI 本身的团队创立的 Anthropic 筹集了 5 亿多美元。随着人工智能领域的升温,可能会有更多的进入者加入。
云供应商也意识到了巨大的机遇。随着微软全力投入 OpenAI,谷歌和亚马逊将很快加入竞争。考虑到人工智能工作负载的计算强度,随着时间的推移,这将为云供应商带来巨额收入,每个公司都可能将这一类别视为一项战略要务。
大模型趋势的最大赢家可能是英伟达。NVIDIA 的图形处理单元 (GPU)——尤其是其最先进的 A100 芯片——已成为运行云 AI 的事实标准。目前投资于这个生态系统的大部分资金,可能最终都会使英伟达受益,因为每家公司都需要购买计算资源。
4.基础模型
随着模型变得越来越大,人工智能领域出现了一个新的类别--基础模型。基础模型公司的愿景是提供其他公司可以利用的核心人工智能基础设施。通过这种方法,公司可以在现有的基础模型之上,构建他们的应用程序,而不是每家公司都必须从头开始重新训练自己的模型。
这种范式大大降低了构建新的 AI 应用程序的障碍,这解释了如今在应用程序层看到的寒武纪新物种大爆发。
例如,Jasper 没有自己的 AI 模型,它向 OpenAI 支付访问 API 的费用;同样,GitHub Copilot 独立于底层 AI 模型(即 OpenAI 的 Codex 模型)而存在;Canva 在 9 月宣布将使用 Stable Diffusion 在其平台内生成图像。
随着越来越多的终端产品使用人工智能进行设计,关于分销策略的争论将会升温。今天,我们看到了三种可能的 AI 分布路径:
全民AI:随着越来越多的学生选择这一专业,大学每年都会发出越来越多的 AI 文凭。根据 LinkedIn 的数据,如今美国约有 50万 名机器学习工程师。这个数字在未来几十年会增长 10 倍或 100 倍吗?Coatue预测,未来人工智能工程师的数量可能与软件工程师一样多,或者两者之间甚至不会有区别。在这个世界上,这些 AI 工程师将使用一流的工具包,使用 Weights & Biases 和 Hugging Face 等平台为他们的企业和客户构建和部署模型。
新的 FAANG:如果基础模型成为未来部署 AI 的主要方式,那么少数新的公司可能会成为“AI 的 FAANG”。这些公司可能包括当前的部分或全部 FAANG 队列,都将控制一个大型模型并通过 API 将其授权出去。
为了保持市场地位,每家基础人工智能公司都将不得不花费数十亿美元进行模型训练。在非 AI 公司中,软件工程师利用这些大模型来开发自己的应用程序,他们可能会针对自己的实际业务微调这些模型,但不会自己构建任何模型。
混合方法:关于人工智能生态系统如何演变的第三个假设是混合方法。在这个未来愿景中,会有许多基础人工智能模型免费使用和开源。使用这些模型,每个企业都可以训练自己的基础模型集——例如,迪士尼可以构建星球大战模型和漫威复仇者模型。然后,他们再对自己的专有数据集进行模型训练和微调。
基于目前我们在AI产业中看到的迭代速度,这三种方法都有可能被另一种方法超越。未来是不确定的,但这正是这一时刻如此引人注目的原因。
5.人工智能应用
基础模型的最大影响是AI 更广泛的可用性。一旦这些模型经过训练和部署,它们的功能就可以通过开源代码或 API 向公众提供,开发人员可以在这些模型之上构建应用程序——这种趋势可以称为“应用人工智能”。
许多开发人员和设计师正在将 AI 作为其创意库中的新工具,并为消费者和企业打造令人难以置信的产品。鉴于这些模型问世不到两年——而且仅在几个月内广泛可用——这一类别才刚刚起步。
应用人工智能的一个新兴特性是正在出现一种新的开发人员类别,称为 Prompt Engineer--提示工程师。他们知道提供什么样的智能提示可以让AI 模型运作良好,可以输出更好的结果,但他们不需要知道如何编码。这为非技术专业人士打开了获得人工智能力量的机会。
在对 Github 前首席执行官、著名人工智能投资者 Nat Friedman 的采访中,他分享了以下轶事:“有人告诉我一个卡车司机的故事,司机在卡车停靠站停下来时,他不再浏览 Netflix,而是在睡前几个小时制作AI图像,这个朋友被这件事惊呆了。客观上来讲,这似乎比看 Netflix 和播放节目要好:它正在探索自己的创造力空间,并且能看到实时反馈。事实上,很多人有这种创造性的冲动,只是没有工具,没有表达它和创造艺术的手工技能,像 Midjourney 或像 Stable Diffusion 这样的东西给了他们这种可能,这不可思议,令人非常兴奋!”
在这一趋势中,令人兴奋的想法的创意空间非常广阔,对于创业和设计新产品的企业家和工程师来说,这将是一个成熟的基础。我们很高兴看到接下来会发生什么,因为还有很多想法有待测试或探索。
6.MLOps——人工智能是如何构建的?
像所有软件一样,人工智能基本上是由代码组成的。深度学习开发人员需要工具来编写、测试、迭代、调试、部署和监控他们的代码。随着人工智能变得越来越流行,新的工具正在出现,给从业者赋能。
像 Weights & Biases 这样的公司使人工智能从业者能够获得更多的影响力——为他们提供构建、监控和微调 ML 模型的工具。
Hugging Face 提供了一个共享模型和数据集的协作平台。它现在是有史以来最受欢迎的商业开源项目之一。
就像 Atlassian、Github 和 Gitlab 提高了开发人员的生产力并扩大了可以构建软件应用程序的范围一样,我们相信 W&B 和 Hugging Face 将在机器学习方面做同样的事情。
7.GPU 和人工智能硬件
随着人工智能研究支出的增加,硬件创新及其有效使用(使用 CUDA、AIT 等软件)肯定会越来越重要。
NVIDIA 已成为 AI 领域的核心硬件公司,几乎所有大型 AI 模型都在其 GPU 上进行训练和运行。此外,大多数 AI 开发人员已经熟悉 NVIDIA 的 CUDA 框架,这是一个允许开发人员使用 GPU 加速应用程序的并行计算平台。
谷歌的张量处理单元 (TPU) 提出了替代方案,而亚马逊正在使用自己的芯片进入硬件游戏,例如人工智能加速器 Inferentia。最雄心勃勃的努力之一是由 Cerebras 领导,它正在构建有史以来最大的计算机芯片,专门用于运行深度学习工作负载。
英伟达会继续占据主导地位,还是新进入者会占据大量市场份额?这是一个悬而未决的问题,答案将在未来几年产生重大影响。
8.在现实世界中部署 AI
对于所有关于 AI 模型改进的说法,最大的未解决问题之一是部署。今天,从 Hugging Face 获取现成的 Transformer 模型或使用 Stability 的最新开源版本相当容易。从“0到1”比以往任何时候都容易,但从“1到100”的量产仍然没有那么简单。
将人工智能集成到公司的业务流程中仍然具有挑战性。例如,如何确保你的 AI 模型不会在生产中突然中断?如何找到需要更多数据的极端情况?由于 AI 不是确定性的,并且有许多潜在的应用场景,因此很难对每个场景进行“单元测试”以确保模型正常运行。
为了让 AI 发挥其潜力,需要更广泛的生命周期方法来进行 AI 操作和部署。
将 AI 投入生产,在生产中监控这些模型,然后通过收集更多训练数据来改进,这可能是下一个重大创新领域之一。像 Gantry 这样的公司专注于这个问题。
物理部署模型带来了额外的挑战。虽然许多早期的 AI 平台在云端进行训练,但这仅适用于潜在应用程序的一个子集。许多最终应用将涉及在边缘设备部署模型——安全摄像头、可穿戴设备,甚至能源基础设施。像 Edge Impulse 这样的新创业公司专注于解决最后一英里的问题,即把 AI 模型放在需要的地方;像 OctoML 这样的其他人正在开发编译器,为部署它的端点优化模型。
在企业市场上,从消费级应用的演示到生产级机器学习的飞跃将是未来几年的一项重大任务。
本文节选自风险投资公司Coatue人工智能的报告《AI 2022: The Explosion》,报告详细全文链接:https://coatue-external.notion.site/AI-2022-The-Explosion-e76afd140f824f2eb6b049c5b85a7877
以上就是今天的内容,希望你能有所收获,如果你喜欢我们的节目,欢迎分享给你的朋友,这会对我们非常有帮助,更多精彩内容下周再见~
科技前哨,每天都为你点亮。