首页>>科技 >>内容

机器学习算法之一:Logistic,回归算法的优缺点

发布时间:2023-08-28 12:48:33编辑:温柔的背包来源:

很多朋友对机器学习算法之一:Logistic,回归算法的优缺点不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

机器学习算法之一:Logistic,回归算法的优缺点

逻辑回归是二元分类任务中最常用的机器学习算法之一。其设计思想简单,易于实现,可以作为性能基准,在很多任务中表现良好。所以每个接触机器学习的人都应该熟悉它的原理。逻辑回归的基本原理也可以用于神经网络。在本文中,您将了解什么是逻辑回归,它是如何工作的,优点和缺点等等。

什么是逻辑回归?像许多其他机器学习算法一样,逻辑回归是从统计学中借鉴来的。虽然名字中有回归这个词,但它并不是一个需要预测连续结果的回归算法。相反,逻辑回归是二元分类任务的首选。它输出介于0和1之间的离散二进制结果。简单来说,它的结果不是1就是0。

癌症检测算法可以看作是逻辑回归问题的一个简单例子。该算法输入病理图片,应区分患者是否患有癌症(1)或(0)。它是如何工作的?逻辑回归通过使用其固有的逻辑函数来估计概率,从而测量因变量(我们要预测的标签)与一个或多个自变量(特征)之间的关系。

那么这些概率必须二进制化后才能真正预测。这是逻辑函数的任务,也称为sigmoid函数。Sigmoid函数是一条S形曲线,可以将任意实值映射到0到1之间的值,但不会得到0/1。然后使用阈值分类器将0和1之间的值转换为0或1。下图显示了逻辑回归获得预测所需的所有步骤。以下是逻辑函数(sigmoid函数)的图形表示:

我们要最大化随机数据点被正确分类的概率,这就是最大似然估计。最大似然估计是统计模型中估计参数的一种通用方法。你可以使用不同的方法(如优化算法)来最大化概率。牛顿法也是其中之一,可以用来求很多不同函数的最大值(或最小值),包括似然函数。也可以用梯度下降法代替牛顿法。

Logistic回归vs线性回归你可能很好奇:logistic回归和线性回归有什么区别?逻辑回归得到的是离散的结果,而线性回归得到的是连续的结果。预测房价的模型是返回连续结果的一个很好的例子。该值根据房子的大小或位置等参数而变化。离散的结果总是这样(你得了癌症)或者那样(你没得癌症)。

优缺点Logistic回归是一种被广泛使用的算法,因为它非常高效,不需要太多的计算,容易理解,不需要缩放输入特征,不需要任何调整,容易调整,输出标定的预测概率。和线性回归一样,当你去掉与输出变量无关的属性和相似度高的属性时,逻辑回归真的更好。因此,特征处理在逻辑回归和线性回归的性能中起着重要的作用。

逻辑回归的另一个优点是它非常容易实现并且训练效率高。在我的研究中,我通常使用逻辑回归模型作为基准,然后尝试使用更复杂的算法。逻辑回归也是一个很好的基准,因为它简单并且可以快速实现。您可以用它来衡量其他更复杂算法的性能。

它的一个缺点是不能用logistic回归来解决非线性问题,因为它的决策面是线性的。让我们看看下面的例子。每个类有两个实例。显然,我们不可能不犯错误地画一条直线来区分这两个阶级。使用简单的决策树是更好的选择。逻辑回归并不是最强大的算法之一,它很容易被更复杂的算法超越。另一个缺点是它高度依赖于正确的数据表示。

这意味着在你确定了所有重要的独立变量之前,逻辑回归不是一个有用的工具。因为结果是离散的,所以Logistic回归只能预测分类结果。它也以容易过度拟合而闻名。什么时候适用?正如我所提到的,逻辑回归通过线性边界将你的输入划分为两个“区域”,每个类别划分一个区域。因此,您的数据应该是线性可分的,如下图所示:

换句话说:当y变量只有两个值时(例如,当你面临一个分类问题时),你应该考虑使用逻辑回归。请注意,您还可以使用逻辑回归进行多类别分类,这将在下一节中讨论。多分类任务有很多多分类算法,比如随机森林分类器或者朴素贝叶斯分类器。虽然有些算法看起来不能用于多分类,比如Logistic回归,但是通过一些技巧也可以用于多分类任务。

让我们来讨论这些来自MNIST数据集的最常见的“技能”,该数据集包含带有从0到9的手写字符的数字图像。这是一个多分类的任务,我们的算法应该会告诉我们图像对应的是哪个数字。1.一对多(OVA)按照这个策略,你可以训练10个二元分类器,每个数一个。这意味着训练一个分类器来检测0、1、2等等。当你想对图像进行分类的时候,只要看看哪个分类器的预测得分最高就可以了。

2.一对一(OVO)根据这种策略,应该为每对数字训练一个二进制分类器。这意味着训练一个能区分0和1的分类器,一个能区分0和2的分类器,一个能区分1和2的分类器,等等。如果有N个类别,需要训练NN(N-1)/2个分类器,对于MNIST数据集,需要45个分类器。

当你要对图像进行分类时,分别运行这45个分类器,选择性能最好的分类器。与其他策略相比,这种策略有一个很大的优势,就是你只需要在两个类别的训练集上进行训练就可以进行分类。

支持向量机分类器等算法在大数据集上不具有可扩展性,因此在这种情况下最好使用Logistic回归等二元分类算法的OvO策略,因为在小数据集上训练大量分类器比在大数据集上训练一个分类器更快。在大多数算法中,sklearn可以识别何时使用两个分类器进行多分类任务,并自动使用OvA策略。特例:当你尝试使用支持向量机分类器时,它会自动运行OvO策略。

其他分类算法其他常见的分类算法有朴素贝叶斯、决策树、随机森林、支持向量机、k近邻等。我们将在其他文章中讨论它们,但不要被这些机器学习算法的数量吓到。请注意,最好是真正理解4、5个算法,以特征处理为主,这也是以后工作的主题。

在这篇文章中,你已经学习了什么是逻辑回归以及它是如何工作的。现在你对它的优缺点有了深刻的理解,知道什么时候用它。

以上知识分享希望能够帮助到大家!

版权声明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们

推荐阅读