1.综述 More data beats clever algorithms, but better data beats more data“,更多的数据打败聪明的算法,更好的数据打败更多的数据。这也是在强调特征工程的重要性。 如何评估一个特征,这个可以用于特征选择 “引入了某个信息量很大的特征之后,模型效果提升明显。“这里的信息量是对特征的修饰,代表着引入了这个特征,提高了模型预估的准确性,降低了算法预估的不确定性。 “特征A的信息量比特征B的信息量更大。”这里是引入特征A和引入特征B相比,引入特征A对于模型效果提升更加明显。 ”引入新特征效果不明显,新特征信息量几乎为零。“这里的意思是新的特征中蕴含的信息在老的特征中已有,所以引入新的特征没有意义。 我在考虑各种算法系统的时候,都是在用信息量的视角去思考的,哪些处理可以更好利用信息量,哪些数据引入可以更大程度提高信息量。 1.1了解有哪些坑 非常的最前面提到的谷歌的那篇论文,写得是真的很好。自己实践中无数的痛点 把一个机器学习算法用到工程上,有多少隐藏的坑,首先必阅读 1.2 DL cheatsheet https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-deep-learning 1.3 书籍的知识体系(精通特征工程) https://item.jd.com/12515465.html?cu=true&utm_source=www.zhihu.com&utm_medium=tuiguang&utm_campaign=t_1001542270_1001969010_0_1927659642&utm_term=ac0f6b242f69408e9528519f5c9c56d9 1.4 其它人的总结 1.特征工程精囊 <一些很实用的特征工程技巧> https://github.com/Pysamlam/Tips-of-Feature-engineering 2.阿里的特征交叉 想为特征交互走一条新的路 - 周国睿的文章 - 知乎 https://zhuanlan.zhihu.com/p/287898562 2.评估 okay...那感觉这...
评论
发表评论