生成式AI详解：如何在人工智能时代生存和发展

generative-AI-in-a-nutshell

ChatGPT正式上线一年多带领人类进入AI时代，生成式AI给文字、图片和视频创造领域带来了巨大变化，深入了解AI，我们才能更好的驾驭它为己所用。Hups和GoClimate联合创始人Henrik Kniberg制作了一期视频节目，深入浅出地讲解了生成式AI的原理、训练方式以及给人类工作方式的改变，新个体主创团对视频用GPT4做了精译和整理，希望能帮助你更好的理解AI，用好AI。

自从计算机问世以来，它们在很长一段时间里都被视作高级计算器，忠实执行程序员编写的指令。然而，如今发生了翻天覆地的变化：计算机开始展现出学习、思考和交流的能力，这些能力曾经是我们认为只有人类才具备的。它们能够完成创造性的智力工作，这在过去被认为是人类的专利。

我们把这项技术称为生成式人工智能（Generative AI），你可能通过GPT这类产品已经有所接触。简而言之，智能服务现已成为现实，仿佛有一个巨大的大脑悬浮在云端，任何人都可以与之对话。虽然它并非完美无缺，但其能力惊人，并且正以指数级的速度进步。

1. 生成式AI的实际应用

这一进展极为重要，几乎会对全球的每个人和每家公司产生积极或消极的影响。这篇介绍目的是帮助你深入理解生成式人工智能的实际应用，超越表面的炒作。对于个人、团队或公司而言，深入理解这项技术，将更有利于在人工智能时代的生存与发展。

这里有一个虽然简单但实用的思维模型：想象你的地下室里住着爱因斯坦，这个“爱因斯坦”是历史上所有智者的集合体。你可以随时向爱因斯坦请教，他能随时接入人类全部知识的宝库，并在几秒内回答你的任何问题，从不厌烦。他还能扮演任何你想要的角色——无论是喜剧演员、诗人、医生还是教练，并且在所扮演的领域里表现出专家级水平。

不过，他也有一些相认一样的局限，比如会犯错、跳跃性地得出结论、误解你的意思。但实际上，最大的限制因素可能是你的想象力以及你与它有效沟通的能力。这种沟通技巧被称为“提示词工程”，在人工智能时代，它的重要性堪比读写能力。

2. 大语言模型和ChatGPT

大多数人极大地低估了“地下室里的爱因斯坦”能做的事情。就像请真正的爱因斯坦校对一份高中报告，或者让一位世界级厨师去切洋葱一样。你与“爱因斯坦”的互动越多，就越能发现他以意想不到而强大的方式帮助你或你的公司。

好了，让我们把这些形象的比喻放在一边，来澄清一些概念。

众所周知，AI代表的是人工智能。AI并非新概念，诸如机器学习和计算机视觉等技术已经存在数十年。无论是YouTube的推荐、网络搜索结果，还是信用卡交易的批准，你所见到的都是传统AI的工作成果。

而最新的人工智能则是能够创造新的、原创内容的AI，而不仅仅是查找或分类已有内容。例如，“G”在GPT中代表的正是生成（Generative）。大语言模型（LLM）是一种能够使用自然人类语言进行交流的生成式AI。

ChatGPT是OpenAI公司推出的一款产品，它最初是一个基于全新架构——变压器（Transformer）架构的高级聊天机器人，这也是GPT中“T”的来源。它对人类语言的掌握如此流畅，以至于任何人都可以轻松使用，无需成为AI专家或程序员。这一点触发了整个行业的革命。

3. AI模型的工作机制和训练过程

那么，它是如何工作的呢？简单来说，大语言模型是一种人工神经网络，本质上是许多数字或参数的相互连接，这与我们的大脑由众多神经元或脑细胞相互连接相似。

神经网络仅处理数字：你输入数字，根据参数的设置，输出也是数字。但任何类型的内容，无论是文本还是图像，都可以转换为数字形式。

例如，当我输入“狗是…”时，这句话被转换为数字，经过神经网络处理后，输出的数字再转换回文本，这里就是“动物”这个词。所以，“狗是动物”。实际上，这基本上是一个“猜下一个词”的机器。

更有趣的是，如果我们将输出与输入结合起来重新送入模型，它就会继续添加新的词汇。这就是你在ChatGPT输入内容时背后发生的过程。在这种情况下，它生成了一个完整的故事，并且我可以通过不断添加新的提示来无限地延续这个过程。

一个大型语言模型可能拥有数十亿甚至数万亿的参数，这就是它们被称为“大型”的原因。那么，所有这些参数是如何设定的呢？肯定不是通过手工编程，那是不可能的，而是通过训练来实现的，就像婴儿学习说话一样。婴儿并不是被告知该如何说话，她也没有接受任何正式的指导。相反，她通过听周围的人说话，逐渐学会识别模式，最终能够说出单词，让她的父母感到欣喜若狂，后来甚至能够说出完整的句子。

同样，在训练期间，语言模型会被喂入大量的文本数据，主要来源于互联网，通过不断地“猜测下一个词”的游戏，模型的参数会自动调整，直到它能够非常准确地预测下一个词。这个过程称为反向传播，简而言之，就是“我猜错了，需要改变一些东西”。然而，要使模型真正有用，还需要进行人类的训练，这称为带有人类反馈的强化学习。这个过程涉及数千小时的人类对模型输出的测试和评估，提供反馈，有点像使用训练点击器来训练狗，以强化好的行为。**

这就是为什么像GPT这样的模型不会告诉你如何抢劫银行——它确实知道如何抢劫银行，但通过人类的训练，它学会了不应该帮助人们犯罪。训练完成后模型被冻结，尽管稍后可能进行一些微调。这就是GPT中“P”代表的预训练（pre-trained）。尽管如此，未来我们可能会看到能够持续学习的模型，而不仅仅是在训练和微调期间。

4. 生成式AI的多样性和多模态应用

尽管ChatGPT引领了趋势，但GPT并非唯一的模型。新的模型如雨后春笋般涌现，它们在速度、能力和成本方面差异巨大。有些模型可以下载并在本地运行，而其他模型只能在线使用；有些是免费或开源的，而其他模型是商业产品；有些非常容易使用，而其他模型需要复杂的技术设置。有些模型专为特定用途设计，而其他模型则更为通用，几乎适用于任何场景；有些模型被整合到产品中，以助手或聊天窗口的形式出现。这是一个充满变数的新领域，但要记住，你通常得到的是你所付出的——如果是免费模型，你可能只得到了一个聪明的高中生而不是爱因斯坦。

例如，GPT-3.5和GPT-4之间的差距非常大。值得注意的是，不同类型的生成式AI模型，它们生成不同类型的内容。文本到文本的模型，如GPT-4，接受文本输入并生成文本输出。文本可以是自然语言，也可以是结构化信息，如代码、JSON、HTML。我个人经常使用它来生成编程代码，这大大节省了时间，同时我也从它生成的代码中学到了很多。

文本到图像的模型能够根据描述生成图像，你甚至可以指定一种风格。图像到图像的模型能够执行如图像转换或组合等操作。我们还有图像到文本的模型，它们可以描述指定图像的内容，以及语音到文本的模型，它们能够创建语音转录，这对于会议记录等场景非常有用。

文本到音频的模型可以根据提示生成音乐或声音，甚至还有文本到视频的模型，它们可以根据提示生成视频。迟早，我们会看到无限连续剧，它们能够根据你的口味自动生成下一集。如果你仔细想想，这其实有点可怕。当前的趋势是多模态AI产品，也就是说，它们将不同类型的模型整合到一个产品中，这样你就可以在不切换工具的情况下处理文本、图像、音频等。ChatGPT的移动应用就是一个很好的例子。

我拍摄了一个房间的照片，并询问我可以在哪里藏东西。我有点喜欢ChatGPT它提到了炉子，但也警告我说，炉子可能会太热了烧坏东西。

当我需要思考诸如这个视频内容这样的事情时，我喜欢外出散步，把ChatGPT当作一个头脑风暴的讨论对象。我开始时会说：“除非我要求你做某事，否则请总是用‘好的’回应。”这样它就只会倾听，不会打断我。在我完成思考后，我会要求反馈，我们进行一些讨论，然后我让它用文本形式做出总结。我真心推荐尝试这种方法，它是一种非常有效的使用工具的方式。事实证明，爱因斯坦并不仅仅被困在地下室，你完全可以带他出去散步。

5. 个人与AI的合作

最初，语言模型仅仅被视为词汇预测器，是用途有限的统计机器。但随着它们变得更大，并在更多数据上进行训练，它们开始展现出意想不到的能力，这些能力甚至让技术开发者自己都感到惊讶。它们可以进行角色扮演、写诗、编写高质量代码、讨论公司策略、提供法律和医疗建议、教学和培训，几乎涵盖了以前认为只有人类才能完成的创造性任务。

当一个模型接触到足够多的文本和图像后，它开始识别模式，并理解更高层次的概念，就像婴儿开始理解世界一样。

让我们来看一个简单的例子，我给GPT-4提供了一个涉及绳子、剪刀、鸡蛋、锅和火的小图画。问它如果我使用剪刀会发生什么呢？尽管模型可能没有直接接受过这一特定场景的训练，但它给出了一个相当合理的回答，这表明了它对剪刀、鸡蛋、重力和热量本质的基本理解。

当GPT-4发布时，我开始将它作为编程助手使用，并对其能力感到震惊。在有效地使用提示时，它比我过去合作过的任何程序员都要优秀。同样的情况也出现在文章写作、产品设计、工作坊规划等方面——我使用它的任何任务中都是如此。主要的限制因素是我的提示词工程技巧，因此我决定改变职业方向，全身心投入到学习和教授如何有效利用这项技术上来，因此有了这份介绍。

6. AI智力与人类智力的发展速度

现在，让我们退后一步，考虑这对我们这个种族来说意味着什么。在大约30万年的时间里，人类一直是地球上最聪明的物种，这当然取决于你如何定义智能。但问题在于，我们的智力能力并没有显著提高——我们的大脑大小和重量与几千年前相比几乎没有变化。而计算机仅仅存在了大约80年，现在随着生成式AI的出现，它们突然能够流利地使用人类语言，并执行越来越多的以前认为只有人类才能完成的创造性任务。

因此，我们正处于一个交叉点，一方面AI在某些任务上表现更优，另一方面人类在其他任务上仍有优势，但AI的能力正在以指数级速度提升，而我们的能力却没有。我们不知道这种指数级的提升会持续多久，或者它是否最终会达到一个平稳状态，但毫无疑问，我们正进入一个新的世界秩序。

这并非我们经历的第一次革命。我们驯服了火、发展了农业、发明了印刷机、蒸汽动力和电报——这些都是革命性的变革，但它们花了几十年甚至几个世纪的时间才变得普遍。与AI革命不同的是，新技术几乎可以瞬间在全球范围内传播，应对这种变化速度对个人和公司来说是一个巨大的挑战。

7. 看待AI的合理态度

谈及AI时，很多个体和公司的心态都不一样。一方面，我们过度乐观，认为AI不能取代我的工作，或者我们没有时间去研究这项技术。这是一个危险的立场，一个常见的说法是，AI可能不会取代你的工作，但使用AI的人会。这对个人和公司是很有可能的。

另一方面，我们过于恐慌和绝望，认为无论如何AI都会取代我的工作，AI将使我的公司破产。这种心态对你不会有任何帮助，因此我建议采取一个平衡的积极心态：AI将使我、我的团队、我的公司变得极为高效。

拥有这种心态就像获得了超能力。我可以在更短的时间内从想法转化为成果，我可以更多地专注于我想要实现的目标，而不是构建事物的繁琐工作，同时我也在更快地学习。这就像随时有一个出色的导师在我身边。这种心态不仅感觉良好，而且还为未来做好了准备，使你不太可能失去工作或公司，并更有可能在AI时代繁荣发展。

尽管还不确定，一个重要的问题是，AI时代是否还需要人类来担任某种职业角色，例如医生、开发者、律师、CEO等。随着AI能力的提升，这个问题变得越来越相关。当然，有些工作肯定会消失，但对于大多数角色来说，我认为我们人类仍然是必需的，仍然需要有领域知识的人来决定向AI提出什么问题，如何制定提示词，需要提供什么上下文，以及如何评估结果。

AI模型并不完美，有时它们可以表现得非常聪明，但有时也可能非常愚蠢。它们有时会出现幻觉，并以非常令人信服的方式给出虚假信息。那么，你应该何时信任AI的回应？何时应该重新检查或自己完成工作？关于法律合规性、数据安全性等问题，我们可以向AI模型发送什么信息，这些数据又存储在哪里？需要人类专家来做出这些判断，并弥补AI模型的不足。

因此，我建议将AI视为你的同事，一个天才，但也是一个怪人，有一些个人怪癖，你需要学会如何与之合作。你需要识别出，什么是你的天才同事“喝醉了”的时候。

作为医生，我的AI同事可以帮助诊断我甚至不知道存在的罕见疾病。作为律师，我的AI同事可以进行法律研究和审查合同，使我能够有更多时间与我的客户在一起。或者作为一名教师，我的AI同事可以评分测试，帮助生成课程内容，为学生提供个性化支持等等。如果你不确定它如何帮助你，只需问它。我从事X工作，你如何帮助我？总的来说，人类加AI的组合是一种魔法版的存在。

8. 用AI驱动产品的使用和开发

区分模型和基于这些模型构建的产品是很重要的。作为用户，你通常不直接与模型交互，而是与产品、网站或移动应用交互，这些产品反过来与背后的模型通信。产品提供用户界面，并增加了模型本身没有的功能和数据。

作为开发者，你可以利用这些模型构建自己的AI驱动产品和功能。例如，假设你拥有一个在线学习网站，你可以添加一个聊天机器人来回答有关课程的问题，或者作为一个招聘公司，你可能构建AI驱动的工具来帮助评估候选人。在这两种情况下，你的用户与你的产品交互，然后你的产品与模型进行交互。这是通过应用程序编程接口（API）完成的，它们允许你的代码与模型通信。

这里还有一个自动评估候选人的示例，正如我之前提到的，它在拿到一个职位描述和一个文件夹中的一系列简历之后，自动评估每个候选人。顺便说一下，这段代码大部分是由AI编写的。

作为产品开发者，你可以将AI模型视为一种外部大脑，将智能嵌入到你的产品中，这非常强大。为了有效利用生成式AI，你需要精通提示工程或我更喜欢称之为提示设计。无论作为用户还是产品开发者，这项技能都是必需的，因为在这两种情况下，你都需要能够制定有效的提示，以从AI模型中获得有用的结果。

这里有一个例子，假设我想要帮助规划一个工作坊。这个提示不太可能给出有用的结果，因为无论AI有多聪明，如果它不知道我的工作坊的上下文，它只能给出模糊的、高层次的建议。

第二个提示更好，现在我提供了一些上下文。这通常是通过迭代完成的，写一个提示，查看结果，添加一个后续提示以提供更多信息，或编辑原始提示，并重复这个过程，直到你得到一个满意的结果。

在这第三种方法中，我要求它对我进行采访，所以与其我一开始就提供大量上下文，不如直接告诉它，你需要知道什么才能帮助我？然后它将提出一个工作坊议程。我经常将这两种方法结合起来。我提供一些上下文，然后告诉它，如果需要更多信息，就问我。

这些只是一些提示工程技巧的例子，总的来说，你在提示工程方面越擅长，你就能从AI那里得到更快、更好的结果。有很多课程、书籍、视频、文章可以帮助你学习这个，但最重要的是通过实践和学习来练习。

一个很好的附加价值是，你将变得更擅长沟通，因为提示工程实际上完全是关于清晰和有效的沟通。我认为生成式AI的下一个前沿是具有工具属性的自主代理。这些是AI驱动的软件实体，它们自行运行，而不是只是坐在那里等待你不断地给出提示。

9. AI领导力：成为人工智能的领导者

因此，你走下地下室，对你的“爱因斯坦”做一个好领导者该做的事情——你给他一个高层次的任务和完成它所需的工具，然后打开门，让他出去，不加干预地运行自己的任务。工具可以是诸如访问互联网、查看储蓄情况、发送和接收消息、订购比萨或其他任何事物。在这种情况下，提示工程变得更加重要，因为你的自主代理，如果配备了工具，可以根据你如何制定那个任务声明，做很多好事或很多坏事。

好的，让我们在这里结束。这里是我希望你从这份介绍中记住的关键事项：生成式AI是一个非常有用的工具，可以极大地帮助你、你的团队和你的公司。你对它的了解越多，它就越有可能成为一个机会而不是一个威胁。

生成式AI比你想象的更强大，最大的限制不是技术，而是你的想象力——我能做什么，以及你的提示工程技能——我怎么做。

提示工程/设计是一项关键技能，就像所有新技能一样，只是你一开始可能会有点吃力，但随着时间的推移，通过刻意练习，你会变得更好。因此，我的最佳建议是进行实验，使这成为你日常生活的一部分，学习将自然而然地发生。

本文翻译和整理自Generative AI in a Nutshell – how to survive and thrive in the age of AI，原视频链接：https://todaylab.net/ai-nutshell

点击下方卡片，关注「新个体研习社」，在每日精进中创造财富与自由，一起跑步迈进AI时代。

欢迎加我微信mindhack，围观我的朋友圈，了解更多关于新个体创业、自我发展、AI应用的话题。

生成式AI详解：如何在人工智能时代生存和发展

1. 生成式AI的实际应用

2. 大语言模型和ChatGPT

3. AI模型的工作机制和训练过程

4. 生成式AI的多样性和多模态应用

5. 个人与AI的合作

6. AI智力与人类智力的发展速度

7. 看待AI的合理态度

8. 用AI驱动产品的使用和开发

9. AI领导力：成为人工智能的领导者

评论 (0)

文章目录

生成式AI详解：如何在人工智能时代生存和发展

1. 生成式AI的实际应用

2. 大语言模型和ChatGPT

3. AI模型的工作机制和训练过程

4. 生成式AI的多样性和多模态应用

5. 个人与AI的合作

6. AI智力与人类智力的发展速度

7. 看待AI的合理态度

8. 用AI驱动产品的使用和开发

9. AI领导力：成为人工智能的领导者

评论 (0)

猜你喜欢

文章目录