发布时间:2024-05-06 17:01
什么是商业智能
什么是数据仓库
DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来
什么是数据挖掘
DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息
数据清洗:去除重复数据、干扰数据及填充缺失值
数据集成:将多个数据源中的数据存放在一个统一的数据存储中
数据变换:将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间
1. 数据挖掘的核心
分类:通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类 分类是已知了类别,然后看样本属于哪个分类
聚类:将数据自动聚类成几个类别, 聚类是不知道有哪些类别,按照 样本的属性来进行聚类
预测:通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险
关联分析:发现数据中的关联规则,被广泛应用于购物、事务数据分析中
2. 数据挖掘的基本流程
商业理解:从商业的角度理解项目需求
数据理解:尝试收集部分数据,对数据进行探索
数据准备:开始收集数据,并进行清洗、集成等操作
模型建立:选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
模型评估:对模型进行评价,确认模型是否实现了预定的商业目标
上线发布:把挖掘的知识转换成用户的使用形式
数据挖掘的数学基础
概率论与数据统计
线性代数
图论
最优化方法
数据挖掘的十大算法
1. 分类
C4.5:十大算法之首,决策树算法,特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
朴素贝叶斯:基于概率论原理,计算未知物体出现的条件下,各个类别出现的概率,取概率最大的分类
SVM:超平面的分类模型
KNN:每个样本的分类都可以用其最接近的K个邻居的分类代表
Adaboost:构建分类器的提升算法,可以让多个弱的分类器组成一个强的分类器
CART:决策树算法,分类树 + 回归树
2. 聚类
K-Means:将物体分成K类,计算新点跟K个中心点的距离,哪个距离近,则新点归为哪一类
EM:最大期望算法,求参数的最大似然估计的一种方法
3. 关联分析
Apriori:挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系
4. 连接分析
PageRank:起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重
什么是数据可视化
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息,让我们直观了解数据分析的结果
数据可视化工具:
1. python库
Matplotlib
Seaborn
Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
2. 商业智能软件
Tableau
PowerBI
3. 可视化大屏
大屏作为一种视觉效果强、科技感强的技术,被企业老板所青睐,可以很好地展示公司的数据化能力
4. 前端可视化组件
可视化组件都是基于 Web 渲染的技术的
Web 渲染技术:Canvas(位图)、SVG (失量图)和 WebGL(3D绘图)
什么是用户画像
简单的说,用户画像就是标签的汇总,用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像,用户标签能产生的业务价值
在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
在粘客上,提升用户的单价和消费频次
在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%
1. 用户标签4个纬度
基础信息:性别、年龄、地域、收入、学历、职业等
消费信息:消费习惯、购买意向、是否对促销敏感
行为分析:时间段、频次、时长、访问路径
内容分析:浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等
2. 数据处理的3个阶段
业务层:获客预测、个性化推荐、用户流失率、GMV趋势预测
算法层:用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
数据层:用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次
什么是埋点
在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据,埋点一般是在需要统计数据的地方植入统计代码。
数据采集都有哪些方式
开源数据源
爬虫抓取
日志采集
传感器
什么是数据清洗
数据清洗是去除重复数据、干扰数据及填充缺失值。
数据清洗的4个关键点(完全合一):
完整性:单条数据是否存在空值,统计的字段是否完善
全面性:观察某一列的全部数值,判断列是否有问题,比如:数据定义、单位标识、数值本身。例如有的单位是克,有的是千克或磅
合法性:数据的类型、内容、大小的合法性。例如存在非ASCII字符,性别未知,年龄超过150岁等。
唯一性:数据是否存在重复记录。因为数据通常来自不同渠道的汇总,重复的情况是常见的,行和列数据都需要是唯一的
什么是数据集成
数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库) 大数据项目中80%的工作都和数据集成有关。
Extract / 提取 :从datasource/txt/csv/Excel/等原始数据源中 Extract数据
Transform / 转换 :将数据预处理,字段补全、类型检查、去除重复数据等,根据预定的条件将数据统一起来
Load / 装载 :将转换完的数据存到数据仓库中
1. 数据集成的两种架构
ELT 过程为数据提取(Extract)——转换(Transform)——加载(Load),在数据源抽取后首先进行转换,然后将转换的结果写入目的地。
ETL 过程为数据提取(Extract)——加载(Load)——转换(Transform),在数据抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部框架,如Spark来完成转换的步骤。
2. ETL和ELT的区别
ETL和ELT主要是先清洗数据还是先入库的区别。ETL一般使用主流框架用程序在提取的时候就将数据进行清洗,ELT则是将数据存到数据仓库,再用sql进行数据清洗。
未来使用ELT作为数据集成架构的会越来越多,有以下好处:
使用 ELT 方法,在提取完成之后,数据加载会立即开始。一方面更省时,另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据,为分析师提供了更大的灵活性,使之能更好地支持业务。
在 ELT 架构中,数据变换这个过程根据后续使用的情况,需要在 SQL 中进行,而不是在加载阶段进行。这样做的好处是你可以从数据源中提取数据,经过少量预处理后进行加载。这样的架构更简单,使分析人员更好地了解原始数据的变换过程。
什么是数据变换
数据变换是数据准备的重要环节,通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。
1. 数据平滑
去除数据中的噪声,将连续数据离散化
2. 数据聚集
对数据进行汇总,例如Sum、Max、Mean等
3. 数据概化
将数据由较低的概念抽象成较高的概念,如北上广深圳概化为中国。
4. 数据规范化
合属性数据按比例缩放,将原来的数值映射到新的特定区域中。
min-max规范化:将原始数据变化到[0, 1]的空间中,公式为:新数值=(原数值-极小值) / (极大值-极小值),对应的有SciKit-Learn的preprocessing.MinMaxScaler函数
z-score规范化:可以用相同的标准比较不同规格的成绩。公式为:新数值=(原数值-均值) / 标准差。对应的有SciKit-Learn的preprocessing.scale函数,求出每行每列的值减去了平均值,再除以方差的结果,使得数值都符合均值为0,方差为1的正态分布
小数定标规范:通过移动小数点的位置来进行规范化
5. 属性构造
构造出新的属性并添加到属性集中。
什么是方差、标准差
方差和标准差是测算离散趋势最重要、最常用的指标
标准差是方差的平方根
一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
End.
作者:雪山飞猪
来源:博客园
本文为转载分享,如有侵权请联系后台删除
--end--
扫描下方二维码
添加好友,备注【交流群】
拉你到学习路线和资源丰富的交流群