强化学习是有监督的还是无监督的? 虽然这个技术问题很重要,但让我们将注意力转移到商业角度。 强化学习 (RL) 在改变决策流程和优化跨行业策略方面具有巨大潜力。
计算机、智能手机和各种技术产生的海量数据可能令人望而生畏,特别是对于那些不确定其影响的人来说。 为了有效地利用这些数据,研究人员和程序员经常使用机器学习来增强用户体验。
数据科学家的复杂方法论每天都在涌现,包括监督学习、无监督学习和强化学习技术。 本文旨在简洁地描述监督学习、无监督学习和强化学习,强调它们的区别,并说明著名公司对它们的应用。
强化学习是有监督的还是无监督的?
强化学习在世界中开辟了自己的道路 机器学习,与监督学习和无监督学习不同。 但首先让我们先了解一下什么是监督学习和无监督学习。
什么是监督学习?
监督学习是一种机器学习技术,其中模型在标记数据集上进行训练。 这意味着数据包括输入示例及其相应的所需输出(标签)。 模型的目标是学习输入和输出之间的关系,以便能够准确预测新的、未见过的数据的输出。
把它想象成一个学生在老师的指导下学习。 带标签的数据集就像带有解决方案的练习题。 学生(模型)研究这些例子,老师(算法)指导学习过程。 目标是让学生学习如何独立解决类似问题。
关键概念:
- 标记数据: 监督学习的核心。 每个数据点都有一个输入(特征)及其相应的正确输出(标签)。
- 训练: 该模型被输入标记数据。 它分析输入和输出之间的模式和相关性。
- 学习功能: 该模型开发了一种数学函数,可以尽可能准确地将输入映射到输出。
- 预言: 经过训练,模型可以接受新的输入并预测其相应的输出。
什么是无监督学习?
无监督学习是一种机器学习技术,其中模型在未标记的数据集上进行训练。 这意味着数据仅包括输入,没有相应的目标输出。 模型的目标是发现数据本身中隐藏的模式、结构或关系。
可以把它想象成一个孩子在没有任何具体说明的情况下探索新环境。 孩子通过观察模式、对相似的物体进行分组以及理解关系来学习,而无需任何人直接告诉他们事物的名称。
关键概念:
- 未标记数据: 无监督学习没有可供学习的预定义答案。
- 模式发现: 该模型分析数据以发现相似点、差异和基础结构。
- 没有明确的指导: 没有“老师”来纠正模型。 它通过自我发现来学习。
什么是强化学习?
强化学习是机器学习的一种,代理通过与环境交互的反复试验来学习。 代理尝试不同的动作,根据其动作接收奖励或惩罚,并调整其策略以随着时间的推移最大化总奖励。
想象一下训练一只狗。 你没有明确告诉狗如何坐下。 相反,当它执行导致坐下的动作时,你就给予它奖励(零食)。 随着时间的推移,狗学会将坐着与奖励联系起来
关键概念:
- 代理人: 决策者,学习的实体。
- 环境: 代理与之交互的系统。
- 状态: 代理在其环境中的当前状况。
- 行动: 代理在其环境中可以做什么。
- 奖励: 代理收到其行为的积极或消极反馈信号。
- 政策: 代理用来确定在给定状态下采取什么操作的策略。
选择哪种机器学习技术?
没有一种“最佳”机器学习技术能够普遍优于所有其他技术。 最好的技术完全取决于以下因素:
- 问题: 您想解决什么任务?
- 分类(例如,电子邮件垃圾邮件过滤)?
- 回归(例如,预测房价)?
- 聚类(例如,对客户进行分组)
- 异常检测(例如,识别欺诈交易)?
- 数据类型:
- 您的数据是带标签的还是未带标签的?
- 您的数据集有多大?
- 数据是结构化的(例如数字、类别)还是非结构化的(例如图像、文本)?
- 期望的性能:
- 您优先考虑速度还是高精度?
- 模型易于解释(理解它如何做出决策)有多重要?
如果您有一个带有标记示例的数据集(输入数据及其相应的正确输出),请选择监督学习。 流行的技术包括线性回归(用于预测连续值)、逻辑回归(用于分类)、决策树(用于创建基于规则的模型)、SVM(用于查找数据类之间的边界)和神经网络(用于复杂模式识别)。
无监督学习非常适合探索数据集、发现隐藏模式或在您没有预定义结果时对相似数据点进行分组。 流行的技术包括 K 均值聚类(按相似性对数据进行分组)、主成分分析 (PCA)(降低数据复杂性)和自动编码器(用于查找数据的紧凑表示)。
强化学习对于关注长期奖励决策的问题特别有用,例如游戏或机器人技术。 在强化学习中,代理与环境交互,以奖励或惩罚的形式获得反馈,并学习随着时间的推移最大化奖励的最佳策略。
图片来源: 凯雷姆·葛兰/中途