Unix的哲学换一些关键词,完全适用于机器学习。
原则1: 你无法断定模型会在什么情况下失效。问题经常出现在想不到的地方,所以别急于胡乱找个地方调整参数和模型,除非你已经证实那儿就是瓶颈所在。
原则2:分析。在你没对任务进行分析,特别是没找到关键问题之前,别去调参数或模型。
原则3:复杂的模型在小(方差小)或脏(噪声多)的数据上通常不work,而数据通常小或脏。复杂模型的参数很多。除非你的数据大且净,否则不要用复杂的模型(即使数据大且净,也优先考虑原则2)。
原则4:复杂的模型比简单模型更容易过拟合,难以调试。尽量使用简单的模型配合正确的数据。
原则5:数据压倒一切。如果已经做了正确的数据处理并且把一切组织的井井有条,正确的模型也就不言自明了。机器学习的核心是数据,而不是模型。
原则6:没有原则6。