首页 > 人工智能(Artificial Intelligence) > 神经网络模型

深度学习 -- 损失函数

在机器学习中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用 $L(Y, f(x))$ 来表示,损失函数越小,模型的鲁棒性就越好,正是损失函数指导了模型的学习。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:

1192699-20180623120336580-830249688.png

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ

LogLoss对数损失函数(逻辑回归,交叉熵损失)

在逻辑回归的推导中,它假设样本服从伯努利分布(0-1分布),然后求得满足该分布的似然函数,接着取对数求极值等。逻辑回归没有求似然函数的极值,而是把极大化当做是一种思想,进而推导出它的经验风险函数为:最小化负的似然函数(即max F(y, f(x)) —> min -F(y, f(x)))。从损失函数的视角来看,它就成了log损失函数了。

log损失函数的标准形式:

1192699-20180623131608760-1581173013.png

取对数是为了方便计算极大似然估计,因为在MLE(最大似然估计)中,直接求导比较困难,所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。

逻辑回归的P(Y=y|x)表达式如下(为了将类别标签y统一为1和0,下面将表达式分开表示):

1192699-20180623132940057-2092485671.png

将它带入到上式,通过推导可以得到logistic的损失函数表达式,如下:

1192699-20180623133130474-1239399796.png

逻辑回归最后得到的目标式子如下:

1192699-20180623133215671-1349575400.png

上面是针对二分类而言的。

平方损失函数(最小二乘法, Ordinary Least Squares )

最小二乘法是线性回归的一种,最小二乘法(OLS)将问题转化成了一个凸优化问题。在线性回归中,它假设样本和噪声都服从高斯分布(因为中心极限定理,参考【central limit theorem】),最后通过极大似然估计(MLE)可以推导出最小二乘式子。最小二乘的基本原则是:最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。换言之,OLS是基于距离的,而这个距离就是我们用的最多的欧几里得距离。选择使用欧式距离作为误差度量(即Mean squared error, MSE),主要有以下几个原因:

  • 简单,计算方便;
  • 欧氏距离是一种很好的相似性度量标准;
  • 在不同的表示域变换后特征性质不变。

平方损失(Square loss)的标准形式如下:

1192699-20180623134354357-118851936.png

当样本个数为n时,此时的损失函数变为:

1192699-20180623134429444-995232248.png

Y-f(X)表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和(residual sum of squares,RSS)。

而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:

1192699-20180623134533400-1496909325.png

我们通常说的线性有两种情况,一种是因变量y是自变量x的线性函数,一种是因变量y是参数

关闭
感谢您的支持,我会继续努力!
扫码打赏,建议金额1-10元


提醒:打赏金额将直接进入对方账号,无法退款,请您谨慎操作。