generative-AI-in-a-nutshell

ChatGPT正式上线一年多带领人类进入AI时代,生成式AI给文字、图片和视频创造领域带来了巨大变化,深入了解AI,我们才能更好的驾驭它为己所用。Hups和GoClimate联合创始人Henrik Kniberg制作了一期视频节目,深入浅出地讲解了生成式AI的原理、训练方式以及给人类工作方式的改变,新个体主创团对视频用GPT4做了精译和整理,希望能帮助你更好的理解AI,用好AI。


自从计算机问世以来,它们在很长一段时间里都被视作高级计算器,忠实执行程序员编写的指令。然而,如今发生了翻天覆地的变化:计算机开始展现出学习、思考和交流的能力,这些能力曾经是我们认为只有人类才具备的。它们能够完成创造性的智力工作,这在过去被认为是人类的专利。

我们把这项技术称为生成式人工智能(Generative AI),你可能通过GPT这类产品已经有所接触。简而言之,智能服务现已成为现实,仿佛有一个巨大的大脑悬浮在云端,任何人都可以与之对话。虽然它并非完美无缺,但其能力惊人,并且正以指数级的速度进步。

1. 生成式AI的实际应用

这一进展极为重要,几乎会对全球的每个人和每家公司产生积极或消极的影响。这篇介绍目的是帮助你深入理解生成式人工智能的实际应用,超越表面的炒作。对于个人、团队或公司而言,深入理解这项技术,将更有利于在人工智能时代的生存与发展。

这里有一个虽然简单但实用的思维模型:想象你的地下室里住着爱因斯坦,这个“爱因斯坦”是历史上所有智者的集合体。你可以随时向爱因斯坦请教,他能随时接入人类全部知识的宝库,并在几秒内回答你的任何问题,从不厌烦。他还能扮演任何你想要的角色——无论是喜剧演员、诗人、医生还是教练,并且在所扮演的领域里表现出专家级水平。

不过,他也有一些相认一样的局限,比如会犯错、跳跃性地得出结论、误解你的意思。但实际上,最大的限制因素可能是你的想象力以及你与它有效沟通的能力。这种沟通技巧被称为“提示词工程”,在人工智能时代,它的重要性堪比读写能力。

2. 大语言模型和ChatGPT

大多数人极大地低估了“地下室里的爱因斯坦”能做的事情。就像请真正的爱因斯坦校对一份高中报告,或者让一位世界级厨师去切洋葱一样。你与“爱因斯坦”的互动越多,就越能发现他以意想不到而强大的方式帮助你或你的公司。

好了,让我们把这些形象的比喻放在一边,来澄清一些概念。

众所周知,AI代表的是人工智能。AI并非新概念,诸如机器学习和计算机视觉等技术已经存在数十年。无论是YouTube的推荐、网络搜索结果,还是信用卡交易的批准,你所见到的都是传统AI的工作成果。

而最新的人工智能则是能够创造新的、原创内容的AI,而不仅仅是查找或分类已有内容。例如,“G”在GPT中代表的正是生成(Generative)。大语言模型(LLM)是一种能够使用自然人类语言进行交流的生成式AI。

ChatGPT是OpenAI公司推出的一款产品,它最初是一个基于全新架构——变压器(Transformer)架构的高级聊天机器人,这也是GPT中“T”的来源。它对人类语言的掌握如此流畅,以至于任何人都可以轻松使用,无需成为AI专家或程序员。这一点触发了整个行业的革命。

3. AI模型的工作机制和训练过程

那么,它是如何工作的呢?简单来说,大语言模型是一种人工神经网络,本质上是许多数字或参数的相互连接,这与我们的大脑由众多神经元或脑细胞相互连接相似。

神经网络仅处理数字:你输入数字,根据参数的设置,输出也是数字。但任何类型的内容,无论是文本还是图像,都可以转换为数字形式。

例如,当我输入“狗是…”时,这句话被转换为数字,经过神经网络处理后,输出的数字再转换回文本,这里就是“动物”这个词。所以,“狗是动物”。实际上,这基本上是一个“猜下一个词”的机器

更有趣的是,如果我们将输出与输入结合起来重新送入模型,它就会继续添加新的词汇。这就是你在ChatGPT输入内容时背后发生的过程。在这种情况下,它生成了一个完整的故事,并且我可以通过不断添加新的提示来无限地延续这个过程。

一个大型语言模型可能拥有数十亿甚至数万亿的参数,这就是它们被称为“大型”的原因。那么,所有这些参数是如何设定的呢?肯定不是通过手工编程,那是不可能的,而是通过训练来实现的,就像婴儿学习说话一样。婴儿并不是被告知该如何说话,她也没有接受任何正式的指导。相反,她通过听周围的人说话,逐渐学会识别模式,最终能够说出单词,让她的父母感到欣喜若狂,后来甚至能够说出完整的句子。

同样,在训练期间,语言模型会被喂入大量的文本数据,主要来源于互联网,通过不断地“猜测下一个词”的游戏,模型的参数会自动调整,直到它能够非常准确地预测下一个词。这个过程称为反向传播,简而言之,就是“我猜错了,需要改变一些东西”。然而,要使模型真正有用,还需要进行人类的训练,这称为带有人类反馈的强化学习。这个过程涉及数千小时的人类对模型输出的测试和评估,提供反馈,有点像使用训练点击器来训练狗,以强化好的行为。**

这就是为什么像GPT这样的模型不会告诉你如何抢劫银行——它确实知道如何抢劫银行,但通过人类的训练,它学会了不应该帮助人们犯罪。训练完成后模型被冻结,尽管稍后可能进行一些微调。这就是GPT中“P”代表的预训练(pre-trained)。尽管如此,未来我们可能会看到能够持续学习的模型,而不仅仅是在训练和微调期间。

4. 生成式AI的多样性和多模态应用

尽管ChatGPT引领了趋势,但GPT并非唯一的模型。新的模型如雨后春笋般涌现,它们在速度、能力和成本方面差异巨大。有些模型可以下载并在本地运行,而其他模型只能在线使用;有些是免费或开源的,而其他模型是商业产品;有些非常容易使用,而其他模型需要复杂的技术设置。有些模型专为特定用途设计,而其他模型则更为通用,几乎适用于任何场景;有些模型被整合到产品中,以助手或聊天窗口的形式出现。这是一个充满变数的新领域,但要记住,你通常得到的是你所付出的——如果是免费模型,你可能只得到了一个聪明的高中生而不是爱因斯坦。

例如,GPT-3.5和GPT-4之间的差距非常大。值得注意的是,不同类型的生成式AI模型,它们生成不同类型的内容。文本到文本的模型,如GPT-4,接受文本输入并生成文本输出。文本可以是自然语言,也可以是结构化信息,如代码、JSON、HTML。我个人经常使用它来生成编程代码,这大大节省了时间,同时我也从它生成的代码中学到了很多。

文本到图像的模型能够根据描述生成图像,你甚至可以指定一种风格。图像到图像的模型能够执行如图像转换或组合等操作。我们还有图像到文本的模型,它们可以描述指定图像的内容,以及语音到文本的模型,它们能够创建语音转录,这对于会议记录等场景非常有用。

文本到音频的模型可以根据提示生成音乐或声音,甚至还有文本到视频的模型,它们可以根据提示生成视频。迟早,我们会看到无限连续剧,它们能够根据你的口味自动生成下一集。如果你仔细想想,这其实有点可怕。当前的趋势是多模态AI产品,也就是说,它们将不同类型的模型整合到一个产品中,这样你就可以在不切换工具的情况下处理文本、图像、音频等。ChatGPT的移动应用就是一个很好的例子。

我拍摄了一个房间的照片,并询问我可以在哪里藏东西。我有点喜欢ChatGPT它提到了炉子,但也警告我说,炉子可能会太热了烧坏东西。

当我需要思考诸如这个视频内容这样的事情时,我喜欢外出散步,把ChatGPT当作一个头脑风暴的讨论对象。我开始时会说:“除非我要求你做某事,否则请总是用‘好的’回应。”这样它就只会倾听,不会打断我。在我完成思考后,我会要求反馈,我们进行一些讨论,然后我让它用文本形式做出总结。我真心推荐尝试这种方法,它是一种非常有效的使用工具的方式。事实证明,爱因斯坦并不仅仅被困在地下室,你完全可以带他出去散步。

5. 个人与AI的合作

最初,语言模型仅仅被视为词汇预测器,是用途有限的统计机器。但随着它们变得更大,并在更多数据上进行训练,它们开始展现出意想不到的能力,这些能力甚至让技术开发者自己都感到惊讶。它们可以进行角色扮演、写诗、编写高质量代码、讨论公司策略、提供法律和医疗建议、教学和培训,几乎涵盖了以前认为只有人类才能完成的创造性任务。

当一个模型接触到足够多的文本和图像后,它开始识别模式,并理解更高层次的概念,就像婴儿开始理解世界一样。

让我们来看一个简单的例子,我给GPT-4提供了一个涉及绳子、剪刀、鸡蛋、锅和火的小图画。问它如果我使用剪刀会发生什么呢?尽管模型可能没有直接接受过这一特定场景的训练,但它给出了一个相当合理的回答,这表明了它对剪刀、鸡蛋、重力和热量本质的基本理解。

当GPT-4发布时,我开始将它作为编程助手使用,并对其能力感到震惊。在有效地使用提示时,它比我过去合作过的任何程序员都要优秀。同样的情况也出现在文章写作、产品设计、工作坊规划等方面——我使用它的任何任务中都是如此。主要的限制因素是我的提示词工程技巧,因此我决定改变职业方向,全身心投入到学习和教授如何有效利用这项技术上来,因此有了这份介绍。

6. AI智力与人类智力的发展速度

现在,让我们退后一步,考虑这对我们这个种族来说意味着什么。在大约30万年的时间里,人类一直是地球上最聪明的物种,这当然取决于你如何定义智能。但问题在于,我们的智力能力并没有显著提高——我们的大脑大小和重量与几千年前相比几乎没有变化。而计算机仅仅存在了大约80年,现在随着生成式AI的出现,它们突然能够流利地使用人类语言,并执行越来越多的以前认为只有人类才能完成的创造性任务。

因此,我们正处于一个交叉点,一方面AI在某些任务上表现更优,另一方面人类在其他任务上仍有优势,但AI的能力正在以指数级速度提升,而我们的能力却没有。我们不知道这种指数级的提升会持续多久,或者它是否最终会达到一个平稳状态,但毫无疑问,我们正进入一个新的世界秩序。

这并非我们经历的第一次革命。我们驯服了火、发展了农业、发明了印刷机、蒸汽动力和电报——这些都是革命性的变革,但它们花了几十年甚至几个世纪的时间才变得普遍。与AI革命不同的是,新技术几乎可以瞬间在全球范围内传播,应对这种变化速度对个人和公司来说是一个巨大的挑战。

7. 看待AI的合理态度

谈及AI时,很多个体和公司的心态都不一样。一方面,我们过度乐观,认为AI不能取代我的工作,或者我们没有时间去研究这项技术。这是一个危险的立场,一个常见的说法是,AI可能不会取代你的工作,但使用AI的人会。这对个人和公司是很有可能的。

另一方面,我们过于恐慌和绝望,认为无论如何AI都会取代我的工作,AI将使我的公司破产。这种心态对你不会有任何帮助,因此我建议采取一个平衡的积极心态:AI将使我、我的团队、我的公司变得极为高效。

拥有这种心态就像获得了超能力。我可以在更短的时间内从想法转化为成果,我可以更多地专注于我想要实现的目标,而不是构建事物的繁琐工作,同时我也在更快地学习。这就像随时有一个出色的导师在我身边。这种心态不仅感觉良好,而且还为未来做好了准备,使你不太可能失去工作或公司,并更有可能在AI时代繁荣发展。

尽管还不确定,一个重要的问题是,AI时代是否还需要人类来担任某种职业角色,例如医生、开发者、律师、CEO等。随着AI能力的提升,这个问题变得越来越相关。当然,有些工作肯定会消失,但对于大多数角色来说,我认为我们人类仍然是必需的,仍然需要有领域知识的人来决定向AI提出什么问题,如何制定提示词,需要提供什么上下文,以及如何评估结果。

AI模型并不完美,有时它们可以表现得非常聪明,但有时也可能非常愚蠢。它们有时会出现幻觉,并以非常令人信服的方式给出虚假信息。那么,你应该何时信任AI的回应?何时应该重新检查或自己完成工作?关于法律合规性、数据安全性等问题,我们可以向AI模型发送什么信息,这些数据又存储在哪里?需要人类专家来做出这些判断,并弥补AI模型的不足。

因此,我建议将AI视为你的同事,一个天才,但也是一个怪人,有一些个人怪癖,你需要学会如何与之合作。你需要识别出,什么是你的天才同事“喝醉了”的时候。

作为医生,我的AI同事可以帮助诊断我甚至不知道存在的罕见疾病。作为律师,我的AI同事可以进行法律研究和审查合同,使我能够有更多时间与我的客户在一起。或者作为一名教师,我的AI同事可以评分测试,帮助生成课程内容,为学生提供个性化支持等等。如果你不确定它如何帮助你,只需问它。我从事X工作,你如何帮助我?总的来说,人类加AI的组合是一种魔法版的存在。

8. 用AI驱动产品的使用和开发

区分模型和基于这些模型构建的产品是很重要的。作为用户,你通常不直接与模型交互,而是与产品、网站或移动应用交互,这些产品反过来与背后的模型通信。产品提供用户界面,并增加了模型本身没有的功能和数据。

作为开发者,你可以利用这些模型构建自己的AI驱动产品和功能。例如,假设你拥有一个在线学习网站,你可以添加一个聊天机器人来回答有关课程的问题,或者作为一个招聘公司,你可能构建AI驱动的工具来帮助评估候选人。在这两种情况下,你的用户与你的产品交互,然后你的产品与模型进行交互。这是通过应用程序编程接口(API)完成的,它们允许你的代码与模型通信。

这里还有一个自动评估候选人的示例,正如我之前提到的,它在拿到一个职位描述和一个文件夹中的一系列简历之后,自动评估每个候选人。顺便说一下,这段代码大部分是由AI编写的。

作为产品开发者,你可以将AI模型视为一种外部大脑,将智能嵌入到你的产品中,这非常强大。为了有效利用生成式AI,你需要精通提示工程或我更喜欢称之为提示设计。无论作为用户还是产品开发者,这项技能都是必需的,因为在这两种情况下,你都需要能够制定有效的提示,以从AI模型中获得有用的结果。

这里有一个例子,假设我想要帮助规划一个工作坊。这个提示不太可能给出有用的结果,因为无论AI有多聪明,如果它不知道我的工作坊的上下文,它只能给出模糊的、高层次的建议。

第二个提示更好,现在我提供了一些上下文。这通常是通过迭代完成的,写一个提示,查看结果,添加一个后续提示以提供更多信息,或编辑原始提示,并重复这个过程,直到你得到一个满意的结果。

在这第三种方法中,我要求它对我进行采访,所以与其我一开始就提供大量上下文,不如直接告诉它,你需要知道什么才能帮助我?然后它将提出一个工作坊议程。我经常将这两种方法结合起来。我提供一些上下文,然后告诉它,如果需要更多信息,就问我。

这些只是一些提示工程技巧的例子,总的来说,你在提示工程方面越擅长,你就能从AI那里得到更快、更好的结果。有很多课程、书籍、视频、文章可以帮助你学习这个,但最重要的是通过实践和学习来练习。

一个很好的附加价值是,你将变得更擅长沟通,因为提示工程实际上完全是关于清晰和有效的沟通。我认为生成式AI的下一个前沿是具有工具属性的自主代理。这些是AI驱动的软件实体,它们自行运行,而不是只是坐在那里等待你不断地给出提示。

9. AI领导力:成为人工智能的领导者

因此,你走下地下室,对你的“爱因斯坦”做一个好领导者该做的事情——你给他一个高层次的任务和完成它所需的工具,然后打开门,让他出去,不加干预地运行自己的任务。工具可以是诸如访问互联网、查看储蓄情况、发送和接收消息、订购比萨或其他任何事物。在这种情况下,提示工程变得更加重要,因为你的自主代理,如果配备了工具,可以根据你如何制定那个任务声明,做很多好事或很多坏事。

好的,让我们在这里结束。这里是我希望你从这份介绍中记住的关键事项:生成式AI是一个非常有用的工具,可以极大地帮助你、你的团队和你的公司。你对它的了解越多,它就越有可能成为一个机会而不是一个威胁。

生成式AI比你想象的更强大,最大的限制不是技术,而是你的想象力——我能做什么,以及你的提示工程技能——我怎么做。

提示工程/设计是一项关键技能,就像所有新技能一样,只是你一开始可能会有点吃力,但随着时间的推移,通过刻意练习,你会变得更好。因此,我的最佳建议是进行实验,使这成为你日常生活的一部分,学习将自然而然地发生。

本文翻译和整理自Generative AI in a Nutshell – how to survive and thrive in the age of AI,原视频链接:https://todaylab.net/ai-nutshell


点击下方卡片,关注「新个体研习社」,在每日精进中创造财富与自由,一起跑步迈进AI时代。

欢迎加我微信mindhack,围观我的朋友圈,了解更多关于新个体创业、自我发展、AI应用的话题。