机器学习中的小数据集诅咒

发布时间：2021-05-01 10:51:01 所属栏目：评论来源：互联网

导读：仅具有非常复杂艰深的结构，而且还有足够多的数据。不同的算法其性能可能是相同的，这个问题已经在工业界和学术界得到了很好的证实。但需要注意的是，大数据应该是有意义的信息，而不是杂乱无章的，这样，模型才能从中学习。这也是谷歌、Facebook、亚马逊、

仅具有非常复杂艰深的结构，而且还有足够多的数据。不同的算法其性能可能是相同的，这个问题已经在工业界和学术界得到了很好的证实。

但需要注意的是，大数据应该是有意义的信息，而不是杂乱无章的，这样，模型才能从中学习。这也是谷歌、Facebook、亚马逊、Twitter、百度等公司在人工智能研究和产品开发领域占据主导地位的主要原因之一。

虽然与深度学习相比，传统的机器学习会需要更少的数据，但即使是大规模的数据量，也会以类似的方式影响模型性能。下图清楚地描述了传统机器学习和深度学习模型的性能如何随着数据规模的提高而提高。出球能抛多远。根据高中物理知识，我们知道球做一个抛物线运动，我们可以使用图中所示的公式算出距离。

上述公式可被视为任务的模型或表示，公式中涉及的各种术语可被视为重要特征，即v、θ和g(重力加速度)。在上述模型下，我们的特征很少，我们可以很好地理解它们对我们任务的影响。因此，我们能够提出一个好的数学模型。让我们考虑一下另一种情况：我们希望在2018年12月30日预测苹果公司的股价。在这个任务中，我们无法完全了解各种因素是如何影响股票价格的。

在缺乏真实模型的情况下，我们利用历史股价和标普500指数、其他股票价格、市场情绪等多种特征，利用机器学习算法来找出它们潜在的关系。这就是一个例子，即在某些情况下，人类很难掌握大量特征之间的复杂关系，但是机器可以通过大规模的数据轻松地捕捉到它。

另一个同样复杂的任务是：将电子邮件标记为垃圾邮件。作为一个人，我们可能要想许多规则和启式的方法，但它们很难编写、维护。而另一方面，机器学习算法可以很容易地获得这些关系，还可以做得更好，并且更容易维护和扩展。既然我们不需要清晰地制定这些规则，而数据可以帮助我们获得这些关系，可以说机器学习已经彻底改变了不同的领域和行业。

大数据集是怎样帮助构建更好的机器学习模型的?

在我们开始讨论大规模数据是如何提高模型性能之前，我们需要了解偏差(Bias)和方差(Variance)。

偏差：让我们来看这样一个数据集：它的因变量和自变量之间是二次方关系。然而，我们不知道他们真实的关系，只能称它们近似为线性关系。在这种情况下，我们将会发现我们的预测与实际数据之间的明显的差异。观测值和预测值之间的这种差异称为偏差。这种模型，我们会说它功能小，欠拟合。

方差：在同一个例子中，如果我们将关系近似为三次方或任何更高阶，就会出现一个高方差的情况。方差能够反映训练集与测试集的性能差异。高方差的主要问题是：模型能很好地拟合训练数据，但在训练外数据集上表现得不好。这是验证确认测试集在模型构建过程中非常重要的一个主要原因。

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!