1. 写在前面的话

数学是一种思维,可以用在方方面面。可以隐性的在工程中使用,保证逻辑合理;也可以在显性的在机器学习中使用。数学是对数据规律的一种研究,哪怕在机器学习中也没有超出这个范畴(目前最火的神经网络,也只是矩阵变换的一种应用而已)。所以不用被’人工智能‘这个伪概念吓到。实践 理论基础,就可以学好机器学习。

  1. 微积分 泰勒级数

数学中极其强大的函数近似工具,

$$e^x \approx 1 x \frac{1}2x^2$$,在x = 0 附近成立

  1. 导数

定义:速度在瞬时会有变化率??有矛盾

这里的瞬时是指一个无限趋近于0,但是依然有长度的值。--微小变化量才是导数的本质。

程序员用不上数学(程序员的数学)(1)

链式法则

程序员用不上数学(程序员的数学)(2)

  1. 概率论

不支持在 Docs 外粘贴 block

  1. 期望

定义:离散型随机变量X的分布律为$$P\{X=x_k\}=p_k, k = 1,2,...$$,

若级数$$\displaystyle\sum_{k=1}^nx_kp_k$$,绝对收敛,则称此级数和为随机变量X的数学期望,记为E(X)。

即$$E(X)=\displaystyle\sum_{k=1}^nx_kp_k$$。

连续性随机变量X的概率密度为f(x),若积分$$\begin{matrix} \int_{-\infty}^{ \infty} xf(x)\, dx\end{matrix} $$绝对收敛,则称此积分值为随机变量X的数学期望,记为E(X),即E(X) =$$\begin{matrix} \int_{-\infty}^{ \infty} xf(x)\, dx\end{matrix} $$

性质:E(C)=C E(aX)=aE(X) E(X Y)=E(X) E(Y) 当X,Y相互独立时,E(XY)=E(X)E(Y)

  1. 方差

定义:设随机变量X的数学期望为E(X),若$$E(X-E(X))^2$$存在,则称它为X的方差(此时,也称X的方差存在),记为Var(X) 或D(X)。

离散型随机变量:$$Var(X) = \displaystyle\sum_{k=1}^{ \infty}(x_k-E(X))^2p_k$$

连续性随机变量:$$Var(X) = \begin{matrix} \int_{-\infty}^{ \infty} (x-E(X))^2f(x)d(x)\end{matrix} $$

计算方差常用公式$$Var(X)=E(X^2)-E^2(X)$$

  1. 数据归一化

设随机变量X的期望E(X)、方差D(X)都存在,且$$D(X)\not=0$$,

则称$$X^* = \frac{X-E(X)}{\sqrt[]{D(X)}}$$为X的标准化随机变量。显然,$$E(X^*)=0,D(X^*)=1$$

  1. 高斯分布
  1. 分布函数

$$P\{{x_1

  1. 均匀分布
  2. 指数分布
  1. 联合分布 边缘概率密度
  2. 协方差 协方差矩阵

定义:设$$X=(X_1, X_2,...,X_n)'$$为n维随机向量,并记$$\mu=E(X_i)$$,$$C_{ij} = Cov(X_i, X_j) (i,j=1,2,...,n)$$则称

$$\mu=(\mu_1,\mu_2,...,\mu_n)'$$为向量X的数学期望或者均值,称矩阵

$$C= \begin{Bmatrix} C_{11} & C_{12} & ... & C_{1n} \\ C_{21} & C{22} & ... & C_{2n} \\ \vdots & \vdots & \cdots &\vdots \\ C_{n1} & C{n2} & \cdots & C_{nn} \\ \end{Bmatrix}$$为向量X的协方差矩阵。

  1. 切比雪夫不等式

定义:设随机变量X具有数学期望$$E(X)=\mu$$,方差

$$D(X)=\sigma^2$$,则对于任意正式$$\varepsilon$$,不等式$$P\{{|X-\mu}| \geq \varepsilon\} \leq \frac{\sigma^2}{\varepsilon^2}$$成立

应用:切比雪夫不等式可以使用人们在随机变量X的分布位置的情况下,对时间发生的概率做出估计。

  1. 中心极限定理

中心极限定义是阐述大量随机变量之和的极限分布,是正态分布的一系列定理的总称

该定律表明,当n足够大时,独立分布的一些列随机变量的算术平均值接近(以概率收敛于)数学期望,即平均数具有稳定性。

  1. 矩估计
  2. 极大似然估计法
  3. 思想:寻找最想真实分布的那个分布
  4. 应用逻辑回归的参数估计
  5. 定义:设离散总体X=x的概率为$$p(x;\theta)$$,其中$$\theta是未知参数$$

$$x_1,x_2,...,x_n是一组样本观测值,则称:\\L(\theta)=\prod_{i=1}^{n}p(x_i,\theta),即\\ P(X_1=x_1,X_2=x_2,...,X_n=x_n)=p(x_1,\theta) \cdot p(x_2,\theta)\cdots p(x_n,\theta)为似然函数 \\ 称L(\hat\theta)=maxL(\theta)为最大似然估计值$$

程序员用不上数学(程序员的数学)(3)

程序员用不上数学(程序员的数学)(4)

  1. 贝叶斯法则

程序员用不上数学(程序员的数学)(5)

  1. 线性代数 向量的范式

程序员用不上数学(程序员的数学)(6)

程序员用不上数学(程序员的数学)(7)

程序员用不上数学(程序员的数学)(8)

程序员用不上数学(程序员的数学)(9)

  1. 优化 线性规划 梯度下降 批量梯度下降BGD 随机梯度下降SGD 小批量梯度下降MBGD 牛顿法

程序员用不上数学(程序员的数学)(10)

  1. 泰勒公式
  2. 拟牛顿法
  3. 共轭方向法

程序员用不上数学(程序员的数学)(11)

  1. 动量梯度下降法
  2. 均方根优化法
  3. Adam算法
  1. 距离度量 欧式距离 修正欧式距离 曼哈顿距离 海明距离 角度度量
  2. 关于数据中哪些需要背诵 定义是需要背诵的; 性质是不需要背诵的;对于证明题,我们不用去背诵用了哪些性质,只需要背诵定义和结论即可。 定义,还是定义。定义不会改变,但是性质总是不断的扩展。
,