从最小二乘法到梯度下降法(一)


前言

最小二乘法是一种数学优化方法,它通过计算数据残差的平方和并使之最小,从而得到数据的最佳函数匹配。

线性回归的例子

假设我们需要得到变量 $x, y$ 满足的函数关系 $y=ax+b$ 。现在已知一系列点$(x_i, y_i)(1 \leq i \leq n)$,我们得到残差平方和为:$$F(a, b) = \sum_{i=1}^n \frac{1}{2} [y_i-(ax_i+b)]^2$$其中,乘以$\frac{1}{2}$是为了后面计算方便。
现在我们得到了一个关于 $a, b$ 的函数 $F$ 。我们的目的是求 $F$ 的最小值,那么,可以怎么求呢?我们想到偏导数。通过计算 $F’_a$ 和 $F’_b$ ,并令其都为0,我们可以得到对应的 a 和 b ,即计算出对应的参数值。其中:$$\begin{cases} F’_a = \sum_{i=1}^n (-x_i)[y_i-(ax_i+b)] \\ F’_b = \sum_{i=1}^n -[y_i-(ax_i+b)] \end{cases}$$

扩展到多重回归

现在,我们将线性回归扩展到多维。同样的,我们假设变量y和 $x_1, x_2, \ldots, x_k$ 满足 $y=a_0+a_1x_1+a_2x_2+ \cdots +a_kx_k$ 。这里,我们假设 $A=[ a_0, a_1, \ldots, a_k ]^T$ , $X=[ x_0, x_1, \ldots, x_k ]^T$ ,其中 $x_0=1$ ,则 $y=A^{T}X$ 。计算残差平方和为:$$F(a_0, a_1, \ldots, a_k)= \frac{1}{2} \sum_{i=1}^n (y_i-A^{T}X_i)^2$$
同样,我们可以计算出函数F关于所有参数的偏导数,然后令它们都为0,便求得了多维线性回归的函数表达式。


坚持原创技术分享,您的支持将鼓励我继续创作!