机器学习笔记01:回归分析;代价函数,误差的表示 木灵的炼金工作室

线性回归模型的建立可能是机器学习中的最简单的问题,它属于有监督学习中的回归分析问题。我们的模型假定训练集中属性-标记$(x,y)$的关系为线性关系:

$h(x) = \theta_0 + \theta_1 x$

以此,通过某种方式确定两个参数$\theta_0$和$\theta_1$的取值,使得我们的”预测函数(Hypothesis Function)”的预测值与实际值的误差最小,因此我们需要以某种方式来表征预测函数的误差。

代价函数

我们假定训练集可以泛化为实际情况,因此我们可以通过预测函数在训练集上的误差来近似表征其在实际实践中的误差。直观地,我们提出如下的函数来描述训练集中的一个$(x,y)$组在预测函数上的误差:

$J_i(\theta_0, \theta_1) = (h_{\theta_0,\theta_1}(x_i) - y_i)^2$

将整个训练集的各个元素的误差函数累加并求算术平均:

$J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i=0}^m(h_{\theta_0,\theta_1}(x_i) - y_i)^2$

我们将上述的函数称为”均方误差函数”(MSE),以其最小化条件作为选择最合适${\theta}_0$和${\theta}_1$之取值的依据。

“最小二乘”参数估计

最直观地,我们可以通过求上述两参数的偏导数,并使其同时为零来解决上述的问题:

展开上述均方误差函数,对其两个变量分别求偏导数得:

$\frac{\partial{J}}{\partial{\theta_0}}=2\theta_0+2\theta_1 x-\frac{2\bar{y}}{m}$

$\frac{\partial{J}}{\partial{\theta_1}}=\frac{2k}{m}\sum_{i=0}^m{x^2}+2\theta_0\bar{x}-\frac{2}{m}\sum_{i=0}^m{xy}$

令其全部为零,得到解:

$\theta_0 = \frac{1}{m}\sum_{i=0}^m{(y_i - \theta_1 x_i)}$

$\theta_1 = \frac{\sum_{i=0}^m{y_i(x_i - \bar{x})}}{(\sum_{i=0}^m{x_i^2})-\frac{1}{m}(\sum_{i=0}^m{x_i})^2}$


Copyright AmachiInori 2017-2021. All Right Reserved.
Powered By Jekyll.
amachi.com.cn