为什么梯度是上升最快的方向（为什么负梯度的方向下降最快）

摘要

本文主要围绕为什么梯度方向是函数最快下降的方向展开，共分为两部分，分别是基本定义部分和证明部分。

一、基本定义：分别复述了导数、偏导数和方向导数。

二、证明部分：用了两种证明方式，分别是基于定义证明和基于泰勒展开证明。

1. 概念定义1.1 导数

设一元函数f(x)在x0的某个邻域内有定义，当自变量x在x0处有增量，且增量也在邻域内，如果当x趋于零，极限存在（增量f和增量x），则称函数在点x0处可导，并称此极限为函数在点x0处的导数，记作

为什么梯度是上升最快的方向（为什么负梯度的方向下降最快）(1)

导数的几何意义：曲线上某一点的切线斜率

1.2 偏导数

在上面的导数定义中，导数即是函数的变化率，对于多元函数来说，变量有多个，此时当沿某一个自变量方向变化时，此时的变化率即是偏导数。

Note：注意和导数的区别，导数中仅有一个自变量，而偏导数中则会有多个自变量

1.3 方向导数

上面无论是导数还是偏导数，其方向均是沿着自变量的方向，如果此时想对任意一个方向求导呢，此时则可用方向导数来表示，

在函数定义域内的点，对某一方向求导得到的导数称之为方向导数。

下面分别以二元函数和三元函数来表示，

为什么梯度是上升最快的方向（为什么负梯度的方向下降最快）(2)

1.4 梯度

梯度是一个向量，其中向量中的每个元素表示函数对某一个自变量的偏导，具体表示某一函数在某一固定点处沿此方向变化最快，或者说变化率最大（该值为梯度的模）。

为什么梯度是上升最快的方向（为什么负梯度的方向下降最快）(3)

2. 为什么梯度方向是最快下降方向？2.1 定义角度证明

（1）首先证明梯度方向为函数变化最快的方向

梯度是一个向量，表示某一函数在某一固定点处沿此方向变化最快，或者说变化率最大（该值为梯度的模）。

为什么梯度是上升最快的方向（为什么负梯度的方向下降最快）(4)

2.2 最优化角度证明

首先问题转化一下，如下所示，

设n元函数f(x1, x2, ..., xn)在空间G内有定义且具有一阶连续偏导数，点P(x1,..,xn)属于G，在点P处沿方向θ移动。

问题: 当θ取什么方向时，函数在点P下降最快？

证明:

对f(P θ)在点P点处进行一阶泰勒展开，有如下，

f(P θ) ≈ f(P) ▽f(P) • θ

对上式转换后，有如下关系，

f(P) - f(P θ) ≈ -▽f(P) • θ

函数f在点P下降最快，相当于最大化f(P) - f(P θ)，也就是最大化-▽f(P) • θ，也即最小化▽f(P) • θ，后续证明问题和上面一致。