发布时间:2022-10-01 15:30
谷歌的自动驾驶汽车和机器人受到了很多媒体的关注,但该公司真正的未来是在机器学习领域,这种技术能使计算机变得更聪明,更个性化。-Eric Schmidt(Google董事长)
我们可能生活在人类历史上最具决定性的时期。从大型的电脑主机到个人电脑再到云计算的时代。但是,它的定义并不是发生了什么,而是未来几年我们将面临什么。
对于我这样的人来说,这段时期真的是让人兴奋和着迷的,因为随着技术的发展,各种工具和技术都实现了飞跃化,现在欢迎人类来到数据科学的世界!
今天,作为一名数据科学家,我可以用每小时几美元的成本,用复杂算法构建数据处理机器。但是实现这并不容易!因为我需要面临度过无数个黑暗的日日夜夜。
从广义上讲,有3种类型的机器学习算法。
**工作原理:**该算法由一个目标/结果变量(或因变量)组成,该变量将从给定的一组预测变量(自变量)中预测。使用这些变量集,我们生成一个将输入映射到所需输出的函数。训练过程继续进行,直到模型在训练数据上达到所需的准确度。监督学习的例子:回归,决策树,随机森林,KNN,逻辑回归等。
**工作原理:**在此算法中,我们没有任何目标或结果变量来进行预测/估计。它用于将人群进行聚类到不同群体中,广泛用于将客户划分到不同的群体中去并进行具体的干预。无监督学习的例子:Apriori算法,K-means。
**工作原理:**使用这种算法,机器经过培训,可以做出具体决策。它的工作原理是这样的:机器暴露在一个环境中,在这个环境中,它通过反复试验不断地训练自己。机器从过去的经验中学习,并尝试获取尽可能好的知识,以做出准确的业务决策。强化学习的例子:马尔可夫决策过程
以下是常用机器学习算法的列表。这些算法几乎可以应用于任何数据问题:
线性回归
逻辑回归
决策树
SVM
朴素贝叶斯
k近邻
K均值
随机森林
降维算法
梯度增强算法
GBM
XGBoost
LightGBM
CatBoost
线性回归用于根据连续变量估算实际值(房屋成本,通话成本,总销售额等)。在这里,我们通过拟合一条直线来建立自变量和因变量之间的关系。该最佳拟合线称为回归线,并由线性方程Y = a * X + b表示。
理解线性回归的最佳方法是重温这种童年经历。让我们假设,你让一个五年级的孩子,通过体重增加的顺序来安排他们班级中的人,而不是通过问他们的体重!你觉得孩子会怎么做?他/她可能会在人的身高和体型上进行(视觉分析)安排,并使用这些可见参数的组合进行排列。这就是现实生活中的线性回归!这个孩子实际上已经发现高度和体格将通过一个关系与体重联系起来,就像上面的方程一样。
在这个等式中: