机器学习西瓜书笔记——绪论
1.1引言
什么是机器学习?
人是通过经验学习; 而机器学习的主要内容是在计算机上从数据中产生“模型”(model) 的算法,模型的作用是更好的预测、判断未发生的样例。
1.2基本术语
主要基本概念
- 数据集(data set) : 整个所有数据样本; 所有西瓜提供的数据
- 样本(sample) : 所有西瓜是数据集,一个西瓜就是样本
- 属性(attribute): 西瓜对应的特征,比如颜色,而对应的值就是属性值
- 样本空间(sample space)/属性空间(attribute space) : 属性张成的空间
- 特征向量(feature vector): 每个西瓜可以对应多种属性特征,可以看成一个多维的向量,一个样本对应一个特征向量。
- 训练集(training set): 用于训练模型时的数据集
- 训练样本(training sample): 用于训练模型时的样本
- 标记(label) :如果说属性对应的判断的特征依据,那么标记就是判断的结果,比如“好瓜"
- 样例(example): 样本 + 标记 = 样例
- 泛化(generalization): 有训练集学习得到的模型适用于新样本的能力
-