about云开发

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 790|回复: 1

[介绍解说] 注册免费送体验金平台

[复制链接]

436

主题

394

听众

243

收听

版主

Rank: 7Rank: 7Rank: 7

积分
5060
发表于 2018-12-6 17:09:10 | 显示全部楼层 |阅读模式

问题导读

1.什么是逻辑回归?
2.如何处理因变量取值离散的情况?
3.如何求解w、b?
4.逻辑回归有哪些用途?


关注最新经典文章,欢迎关注公众号


1.什么是逻辑回归
逻辑回归,有很多的概念。这里从应用角度来介绍逻辑回归?

首先,逻辑回归是一种分类(Classification)算法。比如说:
  • 给定一封邮件,判断是不是垃圾邮件
  • 给出一个交易明细数据,判断这个交易是否是欺诈交易
  • 给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤

逻辑回归是互联网上最流行也是最有影响力的分类算法,也是深度学习(Deep Learning)的基本组成单元。


设想有这么一种情况,有一组数据,因变量只有0和1两种取值,我们想用一个函数拟合这组数据,传统的线性回归的因变量取值是连续的,而逻辑回归用于处理因变量取值0-1时的函数拟合的情况,逻辑回归处理的是令人头疼的离散值连续化的问题

2.如何处理因变量取值离散的情况
对于一个事物,在已知自变量的情况下,如果这个事物的取值为1,逻辑回归不是单纯的认为其取值为1,而是认为相对于取值为0,该事物取值为1的概率更大,若使用y表示已知自变量的情况下,该事物取值为1的概率,则1-y表示已知自变量的情况下,该事物取值为0的概率,则使用:
1.png
表示已知自变量的情况下,该事物作为取值为1的相对可能性,式1.0又称为几率,通过概率角度,我们将因变量的0-1取值转变为(0,+∞) (0,+\infin)(0,+∞)区间的连续值,但是,线性回归的取值区间是(−∞,+∞) (-\infin,+\infin)(−∞,+∞),所以我们还需要一个手段,将几率的取值范围扩展为(−∞,+∞) (-\infin,+\infin)(−∞,+∞),逻辑回归采用了对数函数,即:
1.png


该函数即为sigmoid函数复合 1.png 后获得,sigmoid函数长这样:
1.png


这个函数因变量取值为(0,1),当自变量大到一定程度时,sigmoid函数的取值将趋近于1。

对于因变量取值为1的数据,逻辑回归只是认为该数据取值为1的相对概率较大,即对数几率比较大,那么,只需让式1.1的输出尽可能大,即y尽可能大,对于取值为0的数据,只需让式1.1的输出尽可能小,即y尽可能小。
说白了,逻辑回归只保证在已知自变量的情况下,对于取值为1的数据,式1.3的取值将会尽可能的趋近于1,对于取值为0的数据,式1.3的取值将会尽可能的趋近于0,但是并没有给出区分取值0-1的区分点,这就需要我们根据自己的实际需要进行确定,但这也给了逻辑回归一定的灵活性


3.如何求解w、b
经过上述分析,我们已经获得了逻辑回归的表达式——式1.3,接下来,该怎么求解 1.png 依据线性回归的思想,我们很容易想到通过均方误差作为损失函数,如下:
1.jpg


上图中的 1.png 即为sigmoid函数,但是这个函数是非凸函数,给定一组样本,考虑二维的情况,其函数图像如下:


1.jpg


1.png

从逻辑回归的角度出发,假设有m个样本,样本与样本间相互独立(即一个样本的出现不会影响其他样本的出现),我们来梳理一下我们现有的条件

  • 1、m个样本数据之间互相独立
  • 2、已知样本的概率密度函数(式2.2,式2.3)

满足使用极大似然估计的条件,则最大化对数似然:


1.png
等等,极大似然估计真的很好的解释逻辑回归的思想么?即对于取值为1的样本,式1.3的输出尽可能靠近1 。取值为0的样本,式1.3的输出尽可能靠近0。
首先注意到式(2.2)分子分母同除以 1.png 就可以得到式1.3 。
极大似然法是想令每个样本属于其真实标记的概率越大越好,那么对于取值为1的样本,极大似然法将使式2.2的取值尽可能大,即y的取值尽可能大,即式1.3的取值尽可能趋近于1,对于取值为0的样本,极大似然法将使式2.3的取值尽可能大,即y的取值尽可能小,即式1.3的取值尽可能趋近于0

对式2.2,2.3使用0-1规划,可得:
1.png


式2.8的海森矩阵为半正定,故其为凸函数,可以使用最优化理论获得其最小值
这里我们使用梯度下降法,下面给出梯度下降法的推导过程


4.梯度下降法的推导

1.png

将上面这一坨式子写成矩阵的形式,则有:
1.png


1.png

5.逻辑回归的例子
比如有下面一组数据:
一门考试之前学生的复习时间与这个学生最后是否Pass这门考试的数据

1.png
数据:学生复习时间与考试通过
通过这些数据,利用逻辑回归算法进行模型训练,可以得到最终的模型结果是这个样子:

2.png
logistic equation
这样,给出任何复习时间,就可以预测出是否通过的概率

1.png

参考:
https://blog.csdn.net/hanghangaidoudou/article/details/79281638
https://blog.csdn.net/dhaiuda/article/details/84653890
欢迎加入about云群425860289432264021 ,云计算爱好者群,关注about云腾讯认证空间
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /3 下一条

QQ|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号

GMT+8, 2018-12-16 16:06 , Processed in 0.451593 second(s), 33 queries , Gzip On.

Powered by Discuz! X3.2 Licensed

快速回复 返回顶部 返回列表