Word Embedding 稳定性研究
https://zhuanlan.zhihu.com/p/113339927 我们在production的系统里面会遇到一个问题,模型如何处理新进来的数据。重新训练的话下游的prediction可能会非常不一样,但是我们不知道到底怎么不一样。之前在MLSys 2020 看到了这个关于稳定心的文章,所以跟大家分享一下。这个paper尝试总结retraining对embedding的影响到底有多大,原文在这里 https://proceedings.mlsys.org/static/paper_files/mlsys/2020/104-Paper.pdf proceedings.mlsys.org 既然我们要讨论稳定性,我们得先给一个稳定性的定义 这个定义的逻辑本身是根据下游的task来定义上游够不够稳定,如果完全稳定的话下游的模型就不用retrain了。这里文章讲用zero one可能是因为讨论的是NLP的问题,假设是ctr的话这种zero one loss就不合理。 对于word embedding的算法,文中用了三种 Matrix Completion GloVE word2vec quantization用的是uniform quantization,原文在这里 https://arxiv.org/pdf/1909.01264.pdf arxiv.org