站酷网网址西安seo黑
机器学习的主要挑战主要可分为错误的数据和错误的算法。
错误的数据主要是指训练数据量不足:训练数据太少
训练数据没有代表性:训练数据没有代表性,训练的模型也就没有不可准确预测。
数据质量低:数据中错误、异常值、噪声太多、
不相关的特征:成功的关键之一是:用好的特征进行训练。主要方法是特征选择和特征提取。
训练数据过拟合:模型在训练数据上表现很好,但是推广效果不好。
过拟合发生的场景:
训练数据较少,噪声较多,模型过于复杂。
解决方法:
1.简化模型。选择一个参数更少的模型。
简化模型,降低过拟合风险被称为正则化。
例子:例如,我们之前定义的线性模型有两个参数,θ0和θ1。它给了学习算法两个自由度以让模型适应训练数据:可以调整截距θ0和斜率θ1。如果强制θ1=0,算法就只剩一个自由度,拟合数据就会更为困难:能做的只是将在线下移动,尽可能地靠近训练实例,结果会在平均值附近。这就是一个非常简单的模型!如果我们允许算法可以修改θ1,但是只能在一个很小的范围内修改,算法的自由度就会介于1和2之间。它要比两个自由度的模型简单,比1个自由度的模型要复杂。你的目标是在完美拟合数据和保持模型简单性上找到平衡,确保算法的推广效果。
简单来说就是给参数一个限制的范围来减少自由度的数目。
正则化的度可以用一个超参数控制,超参数是学习算法的一个参数,不是模型的。
2.收集更多的数据。
3.减小训练数据的噪声,修改数据错误和去除异常值。
训练数据欠拟合:由于模型太过简单引起的
解决方法:
1.选择一个更强大的模型,带有更多参数。
2.用更好的特征训练学习算法。
3.减小对模型的限制,减小正则化超参数。