Skip to content

机器学习(未完结。。。)🤖

统计学习及监督学习概论

统计学习

统计学习分为:监督学习、非监督学习、强化学习

统计学习方法如下:

A.从给定的、有限的、用于学习的训练数据(training set)集合出发。
B.假设数据是独立同分布产生的。
C.假设要学习的模型属于某个函数的集合,称为假设空间。
D.应用某个评价准则,从假设空间中选取一个最优的模型;这个模型使它对已知训练数据及位置测试数据(testing set)在给定的评价准则下有最优的预测。
E.最优模型的选取由算法实现。


统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合; (2)确定包含所有可能的模型假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或者分析;

统计学习的分类

统计分析或者机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

监督学习

输入空间:将输入所有可能取值的集合称为输入空间。
输出空间:将输出所有可能取值的集合称为输出空间,通过输出空间远远小于输入空间。
特征空间:每个具体的输入是一个实例,通常由特征向量表示。这时,所有的特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。
输入实例的x的特征向量记作:

x=(x(1),x(2),,x(i),,x(n))T

监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入(或者特征空间)与输出对组成,训练通常表示为

T={(x1,y1),(x2,y2),,(xN,yN)}

测试数据也由相应的输入与输出对组成。输入与输出对又称样本或者样本点。


联合概率分布:监督学习假设输入与输出的随机变量x和y遵循联合概率分布P(X,Y)表示分布函数,或者分布密度函数。

假设空间:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。

概率模型条件概率分布P(y|x)

非概率模型/决策函数: y=f(x)

附录

专业词汇积累

监督学习(supervised learning)

输入空间(input space)

输出空间(output space)

假设空间(hypothesis space)

训练数据(training set)

测试数据(testing set)

决策函数(decision function)

相关概念

独立同分布

一堆随机变量,相互独立,而且概率分布完全一样。

独立同分布(independent and identically distrubuted, i.i.d.)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且相互独立,那么这些随机变量是独立同分布。

独立:每次抽样/观测互不影响

同分布:每次抽样的概率规律完全一样,均值、方差、概率模型都相同。

条件概率分布

条件概率分布:对于二维随机变量(X,Y),可以考虑在其中一个随机变量取得(可能的)固定值的条件下,另一随机变量的概率分布,这样得到的X或Y的概率分布叫做条件概率分布,简称条件分布。

Last updated: