爬升用于机器学习的测试集

发布时间：2021-03-27 12:48:36 所属栏目：动态来源：互联网

导读：案，并进行适当评分。与测试集得分最高的参赛作品赢得了比赛。机器学习竞赛的挑战可以被定义为一个优化问题。传统上，竞赛参与者充当优化算法，探索导致不同组预测的不同建模管道，对预测进行评分，然后对管道进行更改以期望获得更高的分数。此过程也可以直

案，并进行适当评分。与测试集得分最高的参赛作品赢得了比赛。机器学习竞赛的挑战可以被定义为一个优化问题。传统上，竞赛参与者充当优化算法，探索导致不同组预测的不同建模管道，对预测进行评分，然后对管道进行更改以期望获得更高的分数。此过程也可以直接用优化算法建模，无需查看训练集就可以生成和评估候选预测。通常，这称为爬山测试集，作为解决此问题的最简单的优化算法之一就是爬山算法。尽管在实际的机器学习竞赛中应该正确地爬升测试集，但是实施该方法以了解该方法的局限性和过度安装测试集的危险可能是一个有趣的练习。此外，无需接触训练数据集就可以完美预测测试集的事实常常使很多初学者机器学习从业人员感到震惊。最重要的是，当我们反复评估不同的建模管道时，我们暗中爬升了测试集。风险是测试集的分数得到了提高，但代价是泛化误差增加，即在更广泛的问题上表现较差。进行机器学习竞赛的人们都非常清楚这个问题，并且对预测评估施加了限制以应对该问题，例如将评估限制为每天一次或几次，并在测试集的隐藏子集而不是整个测试集上报告分数。。有关更多信息，请参阅进一步阅读部分中列出的论文。接下来，让我们看看如何实施爬坡算法来优化测试集的预测。

爬山算法

爬山算法是一种非常简单的优化算法。它涉及生成候选解决方案并进行评估。然后是逐步改进的起点，直到无法实现进一步的改进，或者我们用光了时间，资源或兴趣。从现有候选解决方案中生成新的候选解决方案。通常，这涉及对候选解决方案进行单个更改，对其进行评估，并且如果候选解决方案与先前的当前解决方案一样好或更好，则将该候选解决方案接受为新的“当前”解决方案。否则，将其丢弃。我们可能会认为只接受分数更高的候选人是一个好主意。对于许多简单问题，这是一种合理的方法，尽管在更复杂的问题上，希望接受具有相同分数的不同候选者，以帮助搜索过程缩放要素空间中的平坦区域（高原）。当爬上测试集时，候选解决方案是预测列表。对于二进制分类任务，这是两个类的0和1值的列表。对于回归任务，这是目标变量范围内的数字列表。对候选分类解决方案的修改将是选择一个预测并将其从0翻转为1或从1翻转为0。对回归进行候选解决方案的修改将是将高斯噪声添加到列表中的一个值或替换一个值在列表中使用新值。解决方案的评分涉及计算评分指标，例如分类任务的分类准确性或回归任务的平均绝对误差。现在我们已经熟悉了算法，现在就来实现它。

如何进行爬山

我们将在综合分类任务上开发爬坡算法。首先，我们创建一

（编辑：莆田站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

迪卡侬推出 Stilus E-	雷克沙公布新款 SL660
5999 元起戴尔发布新	支持电子书模式华为