AI Basic Notes
复数平面 (Complex Plane) 上的圆周运动:
eix=cosx+isinx
Time to frequency transform:
f^(ξ)=∫−∞∞f(t)e−2πiξtdt
Discrete Fourier Transform (DFT):
X[k]=n=0∑N−1xne−Ni2πkn
outcomes
111⋮11en2πien2πi(2)⋮en2πi(n−1)1en2πi(2)en2πi(4)⋮en2πi(2)(n−1)………⋱…1en2πi(n−1)en2πi(2)(n−1)⋮en2πi(n−1)(n−1)
若随机变量 X 服从一个位置参数为 μ, 尺度参数为 σ 的概率分布,
且其概率密度函数 (Probability Density Function, PDF) 为:
f(x)=σ2π1e−21(σx−μ)2
则这个随机变量称为正态随机变量, 正态随机变量服从的分布称为正态分布,
记作 X∼N(μ,σ2), 读作 X 服从 N(μ,σ2) (正态分布).
其中 μ 为均值 (数学期望 Mean), σ 为标准差 (Standard Deviation).
正态分布 (又称 Gaussian Distribution) 是一种连续概率分布.
当 μ 为 0, σ 为 1 时, 称为标准正态分布 (Standard Normal Distribution).
∫−∞∞e−x2dx=π
高维空间求解高斯积分:
对于正态分布, 系数 π1 使得概率密度函数的积分为 1,
即 ∫−∞∞f(x)dx=1, 使其成为有意义的概率分布.
在自然界与生产中, 一些现象受到许多相互独立的随机因素的影响,
如果每个因素所产生的影响都很微小时, 总影响 (Sum) 可以看作服从正态分布.
相互独立的正态分布, 其和也是正态分布.
总体正态分布的均值等于各个分布的均值之和,
E(X1+⋯+Xn)=E(X1)+⋯+E(Xn)=nμ.
假设协方差为 0, 则总体正态分布的方差等于各个分布的方差之和,
Var(X1+⋯+Xn)=Var(X1)+⋯+Var(Xn)=nσ2,
可以得到总体正态分布的标准差为 nσ.
设随机变量 X1,X2,…,Xn 独立同分布(Independent Identically Distribution),
且均值为 E(Xi)=μ, 方差为 D(Xi)=σ2,
对于任意 x, 其分布函数为
Fn(x)=P{nσ∑i=1nXi−nμ≤x}
满足
n→∞limFn(x)=n→∞limP{nσ∑i=1nXi−nμ≤x}=2π1∫−∞xe−2t2dt=∅(x)
独立同分布的中心极限定理说明, 当 n 足够大时,
随机变量 Xn=i=1∑nXi
近似服从正态分布 N(nμ,nσ2);
标准化后的随机变量 Yn=nσ∑i=1nXi−nμ
近似服从标准正态分布 N(0,1).
更一般化的中心极限定理,
可参见林德伯格中心极限定理 (Lindeberg CLT)
etc.
多层感知机是一种前馈神经网络 (Feedforward Neural Network)
就像是一个模拟大脑处理信息的过程,
通过多层处理 (输入层, 隐藏层, 输出层),
从原始数据中提取特征, 并做出预测或分类,
它通过调整内部连接权重来学习和改进其预测能力.
H=WX+B:
- wijl (
weight
): 第 l 层第 i 个节点与上一层第 j 个节点连接的权重.
- bil (
bias
): 第 l 层第 i 个节点的偏置.
H=w00lw10l⋮wk0lw01lw11l⋮wk1l……⋱…w0nlw1nl⋮wknlx0l−1x1l−1⋮xnl−1+b0lb1l⋮bkl
Learning is the process of finding the right weights and biases.