机器学习(未完结。。。)🤖
统计学习及监督学习概论
统计学习
统计学习分为:监督学习、非监督学习、强化学习
统计学习方法如下:
A.从给定的、有限的、用于学习的训练数据(training set)集合出发。
B.假设数据是独立同分布产生的。
C.假设要学习的模型属于某个函数的集合,称为假设空间。
D.应用某个评价准则,从假设空间中选取一个最优的模型;这个模型使它对已知训练数据及位置测试数据(testing set)在给定的评价准则下有最优的预测。
E.最优模型的选取由算法实现。
统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合; (2)确定包含所有可能的模型假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或者分析;
统计学习的分类
统计分析或者机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
监督学习
输入空间:将输入所有可能取值的集合称为输入空间。
输出空间:将输出所有可能取值的集合称为输出空间,通过输出空间远远小于输入空间。
特征空间:每个具体的输入是一个实例,通常由特征向量表示。这时,所有的特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。
输入实例的x的特征向量记作:
监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入(或者特征空间)与输出对组成,训练通常表示为
测试数据也由相应的输入与输出对组成。输入与输出对又称样本或者样本点。
联合概率分布:监督学习假设输入与输出的随机变量x和y遵循联合概率分布
假设空间:监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
概率模型条件概率分布:
非概率模型/决策函数:
附录
专业词汇积累
监督学习(supervised learning)
输入空间(input space)
输出空间(output space)
假设空间(hypothesis space)
训练数据(training set)
测试数据(testing set)
决策函数(decision function)
相关概念
独立同分布
一堆随机变量,相互独立,而且概率分布完全一样。
独立同分布(independent and identically distrubuted, i.i.d.)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且相互独立,那么这些随机变量是独立同分布。
独立:每次抽样/观测互不影响
同分布:每次抽样的概率规律完全一样,均值、方差、概率模型都相同。
条件概率分布
条件概率分布:对于二维随机变量
