515 次浏览

机器学习中所用的概念

空间

Euclidean space(欧式空间): 最基本的空间,具备长度,距离,角度,内积的向量空间

Hilbert space(希尔伯特空间): 来自于泛函分析,是欧式空间的推广,欧式空间是有限维的,希尔伯特空间是无限维的完备内积空间(内积空间的内容是基于线性运算与内积的,再推出其他的概念,不同于赋范空间,先有范数概念,再推出其他概念),几何概率和术语都和欧式距离相似。内积空间四条最基本的性质(括号表示内积):
1. \(\)\((a, a) \geq 0, (a, a) = 0, 当且仅当a=0\)\(\)
2. \(\)\((a, b) = \overline{(b, a)}\)\(\)(上划线为共轭)
3. \(\)\((\alpha a, b) = \alpha (a, b)\)\(\)
4. \(\)\((a + b, c) = (a, c) + (b, c)\)\(\)
具体可以看看内蒙古大学的孙炯老师的泛函分析课(reference 1),老师讲的简单易懂,也讲一些关于数学思考方式的东西。

Metric space(度量空间): 度量空间也是欧式空间的推广,定义一个集合\(\)\(M\)\(\),\(\)\(M\)\(\)上的度量(metric) 是一个函数:\(\)\(d: M \times M \rightarrow \mathbb{R}\)\(\),满足:
1. \(\)\(\forall x, y \in M, d(x, y) = d(y, x)\)\(\)
2. \(\)\(\forall x, y \in M, d(x, y) \geq 0, d(x, y) = 0 当且仅当x=y\)\(\)
3. \(\)\(\forall x, y, z \in M, d(x, z) \leq d(x, y) + d(y, z)\)\(\)
称\(\)\((M, d)\)\(\)是一个度量空间。

Vector space(向量空间): 向量空间,则是对向量\(\)\(x\)\(\)定义了范数,范数需要满足:
1. \(\)\(||x||\geq 0, ||x||=0当且仅当x=0\)\(\)
2. \(\)\(||\lambda x|| = |\lambda |||x||\)\(\)
3. \(\)\(||x+y|| \leq ||x|| + ||y||\)\(\)
常见的范数有\(\)\(l_1, l_2, l_{\infty}\)\(\),\(\)\(l_0\)\(\)不符合上面的性质。
线性代数的基本

Topology space(拓扑空间): 集合\(\)\(X\)\(\)上的拓扑\(\)\(\mathcal{T}\)\(\)是集合\(\)\(X\)\(\)子集的集合,其中的元素称为开集(open set)并满足:
1. \(\)\(X \in \mathcal{T}, \emptyset \in \mathcal{T}\)\(\)
2. \(\)\(U_1, U_2, \ldots, U_n \in \mathcal{T}, 有\bigcap ^n _ {i=1} U_i \in \mathcal{T}\)\(\)
3. \(\)\(\mathcal{T}中任意集合\{U_{\alpha}\}_{\alpha \in A}, 有\bigcup _{\alpha \in A} U_{\alpha} \in \mathcal{T}\)\(\)
称\(\)\((X, \mathcal{T})\)\(\)是一个拓扑空间
eg:
令\(\)\(X = \{1, 2, 3\}\)\(\),\(\)\(\mathcal{T} = \{\emptyset, \{1\}, \{2, 3\}, \{1, 2, 3\}\}\)\(\),则\(\)\(X\)\(\)为拓扑空间
更多内容可以看reference 2。
在机器学习算法的降维算法会经常见到流形结构的说法

Metric

准确率(accuracy):最常用的评价指标

TP/TN,表示分类正确,FP/FN,表示分类错误

召回率(recall):\(\)\(recall = \frac{TP}{TP+FN}\)\(\),表示有多个正例被分为正例

精准率(precision):\(\)\(recall = \frac{TP}{TP+FP}\)\(\),表示被分为正例的示例中实际为正例的比例

reference
1. https://www.bilibili.com/video/av20207040?p=33
2. https://www.bilibili.com/video/av28302921