五年前深度学习的一切都是关于如何构建新的、更优化的模型,以便更好地从非结构化数据中学习。这些努力带来了许多研究突破,突破了神经网络的可能性。但慢慢地越来越多的人对这种方法提出了批评,并建议首先关注数据的质量和一致性。这些批评的声音通常来自行业,来自在关键业务环境中长时间大规模操作模型的专业人士。
在这篇文章中,我将对这两种方法提供一个新的视角。我将从统计的角度来看它们,看看它是否可以阐明哪种方法更好以及在什么情况下更好。
统计学有两个学派——频率派和贝叶斯派——它们与我们的主题有着有趣的相似之处。
- 在频率派中寻找概率 p(data|model),这意味着我们“假设”数据,“知道”模型。换句话说,模型是确定的(至少在工作目的上),但我们的不确定的测量,即数据,可能或可能不完美地反映模型(甚至现实)。
- 在贝叶斯方法中,我们寻找的概率是p(model|data),即我们“假设”模型,“知道”数据。我们的模型是不确定的,而数据是我们的基本事实——我们所知道的唯一确定的就是手头上的数据。