「科普」人工智能 – Artificial intelligence | AI

人工智能人工智能机器学习深度学习神经网络特征提取

发布于 6 个月前

人工智能（AI）已经走进了普通大众的生活，我们经常能看到与 AI 相关的产品。例如 Siri、AI 美颜和 AI 换脸等。

虽然大家听起来比较常见，但很多人并不真正理解什么是人工智能，甚至存在一些误解。这个文档的目的不是提供技术细节，而是帮助人们更好地理解人工智能的本质。

什么是人工智能？

很多人对人工智能都有误解：

1. 电影中的机器人就是人工智能的典型代表。

2. AI 是无所不能的。

3. 未来会威胁到人类生存。

这些误解主要是因为人们只关注一些人的言论，而没有真正了解 AI 的基本原理。传统软件和人工智能进行了比较，有了参照系就更容易理解一些。

传统软件 VS 人工智能

传统软件是“if-then”的逻辑，通过人类的经验总结出有效规则，并让计算机按照这些规则执行操作。传统软件永远无法超越人类的知识边界，因为所有的规则都是由人制定的。

简单来说：传统软件是基于规则的，需要人为设定条件，并且告诉计算机符合这个条件后该做什么。

这种逻辑在处理一些简单的任务时非常好用，因为规则明确，结果是可以预期的，程序员就是软件的主宰者。但是现实生活中充满了各种复杂的问题，这些问题几乎无法通过制定规则来解决。

例如人脸识别，传统软件可能很难达到很高的识别准确率，因为它需要考虑很多复杂的因素，而这些因素不能简单地通过规则来处理。

因此，了解人工智能的本质有助于我们正确看待这个技术，并避免一些不必要的误解。

人工智能已经取得了显著的发展，并涌现出了多种不同分支和技术原理。

当前最热门的深度学习技术，其原理与传统软件逻辑大相径庭。机器能够从大量的数据中总结规律和知识，并将这些知识应用于实际场景解决各类问题。这就是人工智能现阶段的主要发展逻辑。而人工智能归纳出的知识并非像传统软件一样可以直观精确地表达出来。这种知识更像是人类通过长期学习积累下来的经验，相对抽象且难以直接阐述。

总的来说，人工智能的发展已经进入了一个全新的阶段，其核心在于从大量数据中总结规律、归纳知识，并将这些知识应用到实际问题解决上。而这个过程的逻辑与传统软件不同，最终形成的知识更加抽象和难以表达。

首先，人工智能可以理解为一种工具。就像我们使用的锤子、汽车或电脑一样，它们都有一个共同点：其本质都是工具。

然而，工具必须有人使用才能发挥其应有的价值。如果这些工具独立存在于世界之中，它们也就失去了原有的功能和意义。比如放在工具箱里的锤子，如果没有被挥舞，它的价值就无法体现出来。同样地，如果人工智能只是存在于电脑、服务器等物理设备中，而没有被人类利用，它也就成了无用之物。

因此，人工智能作为一种工具，必须通过人类的使用来发挥其价值。只有当人们使用AI进行学习、决策和解决问题时，才能真正体现出它的能力和服务。

人工智能之所以受到全社会的关注，是因为它显著扩展了传统软件的功能边界。在过去，计算机在许多领域无法执行的任务，如今却能由人工智能来处理。

然而，无论技术如何发展，传统软件和人工智能的本质并未改变：它们都是为了解决实际问题而存在的工具。这一点始终不变。

目前的人工智能主要局限于解决特定问题，还远远没有达到能够全面胜任各种复杂任务的水平。例如，《终结者》中的机器人虽然具备超凡能力，但在现实中还只是个特例，并不代表人工智能无所不能。

实际上，尽管人工智能在某些方面表现出色，如图像识别、自然语言处理等，但它仍然局限于执行特定的任务，而不是具备通用的能力去解决所有问题。因此，我们应以理性和现实的态度看待人工智能的发展，避免将其夸大化为无所不能的工具。

单一任务模式和多任务模式是两种不同的思维方式。单一任务模式是一种简单的处理方式，比如打电话、玩游戏、听音乐或者开车等，每种活动使用专用设备或工具。

而多任务模式则是指在一台设备上运行多个应用程序或应用功能，进行各种不同事情的切换。例如，通过智能手机可以同时使用多种应用程序，如旅行App、闹钟App和打车App，完成一系列不同的任务。

然而，这种单一任务模式的叠加并没有达到人类智慧的程度。人类拥有更复杂的思维方式，能够将不同技能融会贯通。在下围棋时，一个人不仅可以识别情绪，还可以运用围棋技巧，交流沟通，并理解心理学。但AlphaGo却不会这样做，它只会用棋局本身来评估胜败。

要实现融会贯通，必须将所有知识整合成一个网络结构。例如，在商业领域可以运用军事上的策略知识，在经济学中也可以应用生物学的原理。知其然还不等于知其所以然，当前人工智能只是在数据中总结归纳出一些规律，并不关心背后的机制和原因。

庞氏骗局类诈骗手段利用的是这种现象！

它通过提供超高的回报吸引韭菜参与，然后让早期参与者获利。然而，旁观者一旦发现所有人都真正获利了，就会简单地认为：历史经验显示这靠谱。

于是越来越多的人眼红并加入进来，直到有一天骗子跑路。当我们用逻辑来分析这个情况就能得出骗子的结论：

这么高的回报并不符合市场规律，稳赚不赔？我不需要承担高回报的风险，好像不太合理。

为什么这么好的事情会落到我的头上？好像不太对劲。

正是因为当下的人工智能是建立在“归纳逻辑”上的，所以也会犯低级错误。

人工智能的发展历程：

首先，让我们回顾一下人工智能发展的历史。随着计算机技术的不断进步，尤其是大数据时代的到来，人工智能已经取得了显著的进步。特别是近年来，深度学习和机器学习算法的发展为人工智能带来了新的突破。

数据在人工智能发展中扮演了至关重要的角色。大量数据能够帮助人工智能系统更好地理解世界，并从中提取有价值的信息。通过归纳逻辑，人工智能可以从这些数据中得出经验规律或模式，并将这些经验应用于新情况以作出预测或决策。

随着大数据的积累和处理技术的进步，人工智能的应用范围也在不断扩大。从图像识别、语音识别到自动驾驶、自然语言处理等，人工智能已经渗透到了生活的各个领域。同时，深度学习和神经网络的发展为更复杂的任务提供了可能，如情感分析、推荐系统等等。

总结来说，数据是支撑人工智能发展的基础，而归纳逻辑则帮助我们从这些数据中发现规律并应用在实际问题上。

### 第一次浪潮（非智能对话机器人）

20世纪50年代至60年代是人工智能领域的重要阶段。

#### 1. 图灵测试

- **提出者**：图灵在1950年提出了人工智能的概念，并提出了著名的图灵测试，用于测试机器是否能通过某种方式与人类进行有效交流。

- **历史意义**：这一提议很快就引发了对AI概念的进一步讨论和探索。

#### 2. ELIZA诞生

- **时间**：1966年

- **背景**：ELIZA是一个基于图灵测试的思想，使用有限对话库实现交互的早期机器人。它通过理解病人的关键词并相应回复来模仿人类心理治疗师。

- **评价**：在那个时期，人们对ELIZA给予了很高的评价，甚至有些病人喜欢和机器人聊天。

### 第二次浪潮（语音识别）

20世纪80年代至90年代是人工智能技术的重大突破期，以语音识别为代表。

#### 1. 科学进展

- **核心原理**：这一时期的技术突破主要归功于对符号学派的放弃，转而采用统计学思路解决实际问题。

- **关键人物**：李开复等参与其中的人物为第二次浪潮的发展贡献了重要力量。

#### 2. 最大成就

- **改变观念**：这次技术进步改变了人们使用计算机的方式，摒弃了传统符号学派的思维模式，转而采用统计学方法来解决实际问题。

- **代表性事件**：ELIZA等早期语音识别系统的成功展示了这一转变的有效性。

### 第三次浪潮（深度学习+大数据）

21世纪初是人工智能领域进入快速发展的时期，以深度学习为代表的技术大放异彩。

#### 1. 关键时间点

- **标志性事件**：杰弗里·辛顿在2006年发表《一种深度置信网络的快速学习算法》一文，在这之后许多重要的深度学习学术文章陆续发布。

#### 2. 充分条件成熟

- **数据资源**：2000年后，互联网行业飞速发展，形成了海量的数据。同时，数据存储的成本迅速下降，使得处理大量数据成为可能。

- **计算能力提升**

- GPU的不断成熟提供了必要的算力支持，提高了算法的可用性，并降低了算力成本。

#### 结论

第三次浪潮的到来是多个因素共同作用的结果：互联网行业的飞速发展、数据存储成本的降低以及GPU技术的进步，使得深度学习和大数据的结合成为可能。这标志着人工智能进入了快速发展的新阶段。

在各种成熟条件下，深度学习展现出了强大的能力。在这个领域，语音识别错误率降至6%，人脸识别准确率达到人类水平之上，BERT在11项表现中超越人类。AI已经进入“可用”的阶段，达到这一水准。这是第三次浪潮的主要原因。

人工智能经历了三次浪潮：

- 第一次：学术主导。

- 第二次：市场宣传主导。

- 第三次：商业需求主导。

这三次浪潮的区别在于驱动因素不同：第一次由学术研究推动，第二次为商业模式导向，第三次则为市场需求推动力量增强。

在人工智能的不同级别中：

1. 基础级：具备基本的识别能力。

2. 进阶级：能够解决复杂问题。

3. 专家级：超越人类智能水平。

弱人工智能

弱人工智能，又称限制领域人工智能（Narrow AI）或应用型人工智能，是指专注于特定领域并能解决该领域的特定问题的人工智能。

例如：AlphaGo、Siri和FaceID等。

强人工智能

强人工智能，又称通用人工智能（Artificial General Intelligence）或完全人工智能，是指具有人类所有工作能力的人工智能系统。

强人工智能具备以下能力：

1. 存在不确定性因素时进行推理。

2. 使用策略解决问题。

3. 制定决策。

4. 知识表示，包括常识性知识的表示。

5. 规划能力。

6. 学习能力。

7. 使用自然语言与人类交流沟通的能力。

8. 将上述能力整合起来实现既定目标。

超人工智能

假设计算机程序通过不断发展，比世界上最聪明、最有天赋的人类还聪明。由此产生的人工智能系统可以被称为超人工智能。

我们当前所处的阶段是弱人工智能，强人工智能尚未实现（甚至差距较远），而超人工智能更是连影子都看不到。所以“特定领域”目前仍是AI无法逾越的边界。

世界上的问题众多，其中仅有少部分属于数学范畴。即使是在数学领域内，能被解决的问题也极为有限。在能够被解答的问题中，又只有极少数符合理想状态，即可以由图灵机处理。对于那些可以被计算机解决的部分，AI的介入更是显得微不足道。

即便如此，在特定情境下，人工智能的表现依然十分出色；然而，当涉及大部分场景时，AI的价值便大打折扣，其实际应用价值有限。一些工作是否会因为人工智能而消失？

李开复提出的一个判断标准是：如果一项任务所需决策时间在5秒内，则该任务的大约半数可能被人工智能所替代。

简而言之，虽然人工智能对某些特定场景下的任务有显著帮助，但在多数情况下，它的应用价值并不明显。

这种工作具有一些显著的特点：

1. **信息量不大**：做决策时所需的信息相对较少。

2. **过程简化**：决策的流程比较简单，逻辑也较为清晰。

3. **独立性强**：能够独自完成任务，无需依赖他人协作。

4. **重复性高**：需要反复进行同样的工作。

这些特点使得这类工作成为一种高效且专注的工作方式。

科学家总结出人工智能难以替代的人工智能技能：

1. 社交智慧：包括洞察力、谈判技巧和同理心。

2. 创造力：涵盖原创性与艺术审美。

3. 感知和操作能力：涉及手指灵敏度、协调操作能力和应对复杂环境的能力。

机器学习是人工智能的一个分支，它研究的是让计算机自行从数据中学习并进行预测的一种特殊算法。它包含了许多种不同的机器学习算法，如决策树、聚类和贝叶斯等。深度学习则是一种特定的机器学习方法，灵感来源于大脑的结构和功能，模拟人工神经网络来处理复杂的任务。

总之，虽然人工智能在某些方面已经表现出了惊人的能力，但社交智慧、创造力和感知与操作能力依然是人类独有的技能。

机器学习是一种人工智能技术，它让计算机能够在不进行明确编程的情况下从大量数据中自动学习规律和模式。以下是关于机器学习的基本概念：

1. **抽象问题和数学建模**：首先，将现实生活中的问题抽象为一个数学模型，并明确地定义每个参数的作用。

2. **求解模型**：利用数学方法对这个数学模型进行求解，以解决特定的问题。

3. **评估与优化**：最后，通过评估模型的性能，以确定它是否真正解决了现实世界的问题以及解决方案的效果如何。

无论使用哪种算法还是数据，机器学习的核心思路始终是这3步：抽象问题、建立数学模型并求解，然后评估和优化。

当我们理解了这个基本思路时，我们会发现：

并非所有的问题都能转化为数学问题。那些无法转换的现实问题 AI 就无法解决。而最难的部分也就在于将现实问题转化为数学问题这一步。

机器学习原理

下面以监督学习为例，给大家讲解一下机器学习的实现原理。

假设我们正在教小朋友识字（一、二、三）。首先，我们会拿出3张卡片，并让孩子们看卡片，一边说“一条横线是一，两条横线是二，三条横线是三”。

不断重复上面的过程，小朋友的大脑就在不停的学习。

当小朋友重复学习汉字“一”、“二”、“三”等动作足够多次后，他们便掌握了这个技能。

我们用人类的学习过程来类比机器学习。

在机器学习中，认字的卡片被称为**训练集**。它们是机器学习的基础数据源。

“一条横线，两条横线”这种区分不同汉字属性的方法叫做**特征**。特征是用于识别事物或对象的描述性元素。

小朋友不断学习的过程叫**建模（训练模型）**。在这个过程中，他们通过识别和处理各种信息来构建理解世界的方式。

学会了识字后总结出来的规律称为**模型**。这些模式是人类在认知过程中的抽象化结果。

最终，通过训练集不断识别特征，并不断进行建模，最后形成一个有效的模型，这个过程就叫做“机器学习”。

机器学习的训练方法可以大致分为以下三类：

1. **监督学习**：在这种类型的学习中，算法首先被提供一个数据集，并且被给出正确答案。通过分析这个数据集，机器能够学习出计算正确答案的方法。

2. **非监督学习**：与监督学习不同，非监督学习不需要明确的标签或分类。这种方法通常是用来发现数据中的潜在模式或者结构，比如聚类和降维等。

3. **强化学习**：在强化学习中，机器通过与环境进行交互来学习如何行动以最大化某个奖励函数的目标。这个过程是通过试错的方式进行优化的，而不是直接给出答案。

举个栗子：

假设我们要让机器学会识别猫和狗的照片。在这种情况下，我们使用监督学习方法。我们需要准备一组包含猫和狗照片的数据集，并为每张图片打上相应的标签（例如：“猫”或“狗”）。通过分析这些数据，机器可以学习到识别特征，从而能够正确地对新的未标记图像进行分类。

这种方法是基于一个明确的、有指导的学习过程，通过对已有数据的学习来优化模型。

给照片打上标签是“猫”或“狗”这样的信息，意味着这些标签反映了猫和狗这两种动物的基本特征。当机器反复接触这种数据集时，它就能逐步学习并理解这些特征的组合。

这个过程涉及到以下步骤：

1. **数据收集**：首先需要大量标注好的样本图片，即对每张照片明确标记为“猫”或“狗”的标签。

2. **训练模型**：将收集到的数据输入到机器学习算法中。模型会试图找出图像和其标签之间的关联模式，以便在新图像上进行分类预测。

3. **优化与迭代**：通过调整模型参数（如学习率、权重等），不断改进模型性能。这一步可能需要多次迭代才能达到较好的结果。

经过这样的训练过程后，机器就能够识别出更多不同种类的动物，并正确地将它们归类为“猫”或“狗”。这种技术被广泛用于各种图像识别应用中，比如人脸识别、自动驾驶系统中的交通标志识别等。

非监督学习是一种让机器从数据中发现内在模式的方法。在这种方法下，数据集没有明确的目标或“正确答案”，机器必须自己寻找结构。例如，如果我们向一个系统提供一堆猫和狗的照片，而没有为这些图像打任何标签，我们的目标是让机器能够将它们分类。

监督学习与非监督学习的不同在于，监督学习依赖于人工提供的“标签”来指导模型的学习过程，这使得其在准确性和效率方面通常优于非监督学习。然而，这种方法要求大量的手工标记数据，并且对于处理大规模和复杂的数据集具有很高的成本。

综上所述，非监督学习是让机器从无目标的输入中自主发现结构的过程。

通过学习，机器可以将这些照片分为两类：一类是猫的照片，另一类是狗的照片。与上面的监督学习不同的是，在非监督学习中，即使分类结果看起来相似，但机器并不会知道哪个是猫，哪个是狗。对于机器来说，这些照片实际上被分成了两组，A和B。

在这种情况下，虽然机器能够识别出两类不同的图像（例如猫和狗），但它并没有提供任何关于这些类别的信息或意义。因此，非监督学习的结果主要依赖于算法的设计和训练数据的分布特性。

强化学习是一种接近生物学习本质的技术，有望带来更高智能。它关注的是智能体如何在环境中采取一系列行为以获得最大累积回报。通过这种方式，一个智能体需要了解在什么状态下应该采取什么行动。

最典型的场景之一就是玩电子游戏。

2019年1月25日，AlphaStar（由Google开发的人工智能程序，采用了强化学习的训练方式）轻松击败了星际争霸的职业选手TLO和MANA。这次胜利展示了机器学习技术在实际操作上的能力。

7个步骤实操

机器学习是一个涉及多个步骤的过程：

数据收集

数据准备

模型选择

训练过程

评估结果

参数调整

预测使用

这些步骤有助于构建智能体，使其能够更好地适应环境并做出最优决策。

在分析红酒和啤酒的酒精度和颜色以实现区分时，我们通常会利用机器学习技术来进行预测模型的设计与优化。以下是一个简要的步骤说明：

首先，我们需要收集大量的数据集，这些数据集中包含红酒和啤酒的信息，包括它们的酒精浓度（如乙醇含量）、颜色以及其他可能影响其口感的因素。

接着，我们将使用统计分析工具对这些数据进行预处理和清洗，以去除重复或无效的数据点，并确保数据格式正确。

接下来，我们可以运用机器学习算法来训练我们的模型。在红酒和啤酒分类任务中，我们可能会选择使用支持向量机、决策树或其他监督学习算法。这些算法可以根据所给定的输入特征（如酒精度和颜色）预测输出类别（红酒或啤酒）。

然后进行模型优化，这通常包括调整超参数以改善模型性能，并尝试不同的训练策略。此外，为了保证结果的有效性，我们可能还需要通过交叉验证来评估模型的效果并确定最佳的超参数设置。

最后，在实际应用中，我们需要使用已训练好的模型来进行分类预测。例如，如果一个新的红酒和啤酒样本的酒精浓度和颜色被输入到模型中，那么该模型将能够输出是红酒还是啤酒。

总的来说，这个过程涉及从数据收集、预处理、模型选择和优化再到最终应用的完整流程。

步骤1：数据收集

我们从超市购买了一堆不同种类的啤酒和红酒。接下来，我们需要使用光谱仪来测量这些酒的颜色，以及酒精度计来测量它们的酒精含量。

在这一阶段，我们将所有购买来的酒标记上它们的颜色和酒精浓度，并记录到一张表格中。这张表格会显示各种颜色、不同种类的酒精浓度及其对应的酒类：

| 颜色 | 酒精度 | 种类 |

| :--: | :---: | :--: |

| 610 | 5 | 啤酒 |

| 599 | 13 | 红酒 |

| 693 | 14 | 红酒 |

重要的是，这一环节的数据数量和质量将直接影响到预测模型的性能。

步骤2：数据准备

在实际应用中，我们收集到的数据可能会出现各种问题，因此需要进行数据清洗等预处理工作。为了确保数据的准确性，我们需要将其分成三个部分：

- **训练集**（60%）用于训练模型。

- **验证集**（20%）用于评估模型的表现和避免过拟合。

- **测试集**（20%）用于最终的性能验证。

通过将数据划分为这三个部分，我们可以更好地分析各个阶段的效果，并确保模型在实际应用中的表现。

步骤3：选择一个模型

研究人员和数据科学家多年来创造了许多模型。有些非常适合图像数据，有些非常适合于序列（如文本或音乐），有些用于数字数据，有些用于基于文本的数据。

在我们的例子中，由于我们只有2个特征，颜色和酒精度，我们可以使用一个小的线性模型，这是一个相当简单的模型。

步骤4：训练

大部分人都认为这个是最重要的部分，其实并非如此~ 数据数量和质量、还有模型的选择比训练本身重要更多（训练知识台上的3分钟，更重要的是台下的10年功）。

这个过程就不需要人来参与的，机器独立就可以完成，整个过程就好像是在做算术题。因为机器学习的本质就是将问题转化为数学问题，然后解答数学题的过程。

步骤5：评估

一旦训练完成，就可以评估模型是否有用。这是我们之前预留的验证集和测试集发挥作用的地方。评估的指标主要有准确率、召回率、F值。

这个过程可以让我们看到模型如何对尚未看到的数是如何做预测的。这意味着代表模型在现实世界中的表现。

步骤6：参数调整

完成评估后，您可能希望了解是否可以以任何方式进一步改进训练。我们可以通过调整参数来做到这一点。当我们进行训练时，我们隐含地假设了一些参数，我们可以通过认为的调整这些参数让模型表现的更出色。

步骤7：预测

我们上面的6个步骤都是为了这一步来服务的。这也是机器学习的价值。这个时候，当我们买来一瓶新的酒，只要告诉机器他的颜色和酒精度，他就会告诉你，这是啤酒还是红酒了。

经典机器学习算法

卷积神经网络（CNN）

循环神经网络（RNN）

线性回归

逻辑回归

线性判别分析

决策树

朴素贝叶斯

K邻近

学习向量量化

支持向量机

随机森林

AdaBoost

高斯混合模型

限制波尔兹曼机

K-means 聚类

最大期望算法