机器学习中的监督学习与非监督学习

1. 监督学习与非监督学习

1.1. 监督学习(Supervised Learning)

在监督学习中,模型通过学习输入数据与其对应的标签之间的关系来进行训练。这意味着给定一组输入数据和其对应的正确输出(标签),模型尝试学习如何将输入映射到输出。
监督学习的常见应用包括分类和回归问题。在分类任务中,模型试图将输入数据分为预定义的类别之一;在回归任务中,模型试图预测一个连续值。
例如,给定一组电子邮件和它们的分类(垃圾邮件或非垃圾邮件),监督学习算法可以学习如何自动将新的电子邮件分类为垃圾邮件或非垃圾邮件。

1.2. 非监督学习(Unsupervised Learning)

在非监督学习中,模型在没有标签的情况下从未标记的数据中学习结构和模式
非监督学习的目标通常是发现数据中的隐藏结构或特征。这可以通过聚类或降维等技术来实现。
聚类是将数据集中的样本分成不同的组,使得每个组内的样本彼此相似,而不同组之间的样本则尽可能不同。降维则是将高维数据转换为低维表示,同时尽可能地保留原始数据的信息。
例如,给定一组包含未标记的图片,非监督学习算法可以将这些图片分成不同的群组,而无需事先知道图片的内容或主题。
总的来说,监督学习关注如何从带有标签的数据中学习,而非监督学习关注如何从无标签的数据中学习。这两种学习范式都在各自的场景中有着广泛的应用。

2.监督分类与非监督分类

2.1 监督分类(Supervised Classification)

监督分类是一种监督学习任务,其中数据集中的每个样本都有一个明确的标签或类别。
监督分类的目标是通过训练模型来预测新数据的类别标签,使得模型能够将输入数据正确地分类到预定义的类别中
常见的监督分类算法包括支持向量机(SVM)、决策树、随机森林、逻辑回归等。

2.2 非监督聚类(Unsupervised Clustering)

非监督聚类是一种非监督学习任务,其中数据集中的样本没有明确的标签或类别。
非监督聚类的目标是将数据集中的样本分成不同的组或簇,使得每个组内的样本彼此相似,而不同组之间的样本尽可能不同
聚类算法试图找到数据中的内在结构,而不是根据预定义的类别进行分类。
常见的非监督聚类算法包括 K-means 聚类、层次聚类、DBSCAN(基于密度的聚类)、高斯混合模型等。
虽然监督分类和非监督聚类都涉及将数据划分为不同的类别或组,但它们的关键区别在于监督分类需要标签,而非监督聚类不需要。监督分类的目标是学习数据中的模式,以便根据这些模式对新数据进行分类,而非监督聚类的目标是在不知道数据内在结构的情况下对数据进行分组。

参考博客

监督学习和非监督学习的区别
有监督机器学习和无监督机器学习之间有什么区别?


机器学习中的监督学习与非监督学习
https://singyutang.github.io/2024/05/09/机器学习中的监督学习与非监督学习/
作者
SingyuTang
发布于
2024年5月9日
许可协议