新手必知的数据分析名词(建议收藏)

发布时间：2024-05-06 17:01

什么是商业智能

BI：Business Intelegence，商业智能，基于数据仓库，经过数据挖掘后，得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

什么是数据仓库

DW：Data Warehouse，数据仓库，数据库的升级概念，一般量更庞大，将多个数据来源的数据进行汇总、整理而来

什么是数据挖掘

DM：Data Mining，数据挖掘

数据挖掘流程：Knowledge Discovery in Database，也叫数据库中的知识发现，简称KDD

KDD流程：输入数据->数据预处理->数据挖掘->后处理->信息

数据清洗：去除重复数据、干扰数据及填充缺失值
数据集成：将多个数据源中的数据存放在一个统一的数据存储中
数据变换：将数据转换成适合数据挖掘的形式，比如将数值东篱一个特定的0~1的区间

1. 数据挖掘的核心

分类：通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类分类是已知了类别，然后看样本属于哪个分类
聚类：将数据自动聚类成几个类别，聚类是不知道有哪些类别，按照样本的属性来进行聚类
预测：通过当前和历史数据预测未来趋势，可以更好地帮助我们识别机遇和风险
关联分析：发现数据中的关联规则，被广泛应用于购物、事务数据分析中

2. 数据挖掘的基本流程

商业理解：从商业的角度理解项目需求
数据理解：尝试收集部分数据，对数据进行探索
数据准备：开始收集数据，并进行清洗、集成等操作
模型建立：选择和应用数据挖掘模型，并进行优化，以便得到更好的分类结果
模型评估：对模型进行评价，确认模型是否实现了预定的商业目标
上线发布：把挖掘的知识转换成用户的使用形式

数据挖掘的数学基础

概率论与数据统计
线性代数
图论
最优化方法

数据挖掘的十大算法

1. 分类

C4.5：十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据
朴素贝叶斯：基于概率论原理，计算未知物体出现的条件下，各个类别出现的概率，取概率最大的分类
SVM：超平面的分类模型
KNN：每个样本的分类都可以用其最接近的K个邻居的分类代表
Adaboost：构建分类器的提升算法，可以让多个弱的分类器组成一个强的分类器
CART：决策树算法，分类树 + 回归树

2. 聚类

K-Means：将物体分成K类，计算新点跟K个中心点的距离，哪个距离近，则新点归为哪一类
EM：最大期望算法，求参数的最大似然估计的一种方法

3. 关联分析

Apriori：挖掘关联规则的算法，通过挖掘频繁项集揭示物品之间的关联关系

4. 连接分析

PageRank：起源于论文影响力的计算方式，如果一篇文论被引入的次数越多，就代表这篇论文的影响力越强，Google将其用于计算网页权重

什么是数据可视化

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息，让我们直观了解数据分析的结果

数据可视化工具：

1. python库

Matplotlib

Seaborn

Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等

2. 商业智能软件

Tableau

PowerBI

3. 可视化大屏

大屏作为一种视觉效果强、科技感强的技术，被企业老板所青睐，可以很好地展示公司的数据化能力

4. 前端可视化组件

可视化组件都是基于 Web 渲染的技术的

Web 渲染技术：Canvas（位图）、SVG （失量图）和 WebGL（3D绘图）

什么是用户画像

简单的说，用户画像就是标签的汇总，用户画像是现实世界中的用户的数学建模，将海量数据进行标签化，来复以更精准的用户画像，用户标签能产生的业务价值

在获客上，找到优势的宣传渠道，通过个性化的宣传手段吸引有潜在需求的用户
在粘客上，提升用户的单价和消费频次
在留客上，降低流失率，顾客流失率降低 5%，公司利润提升 25% ~ 85%

1. 用户标签4个纬度

基础信息：性别、年龄、地域、收入、学历、职业等
消费信息：消费习惯、购买意向、是否对促销敏感
行为分析：时间段、频次、时长、访问路径
内容分析：浏览的内容、停留时长、浏览次数，内容类型，如金融、娱乐、教育、体育、时尚、科技等

2. 数据处理的3个阶段

业务层：获客预测、个性化推荐、用户流失率、GMV趋势预测
算法层：用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
数据层：用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

什么是埋点

在需要的位置采集相应的信息，进行上报。比如用户信息、设备信息、操作行为数据，埋点一般是在需要统计数据的地方植入统计代码。

数据采集都有哪些方式

开源数据源
爬虫抓取
日志采集
传感器

什么是数据清洗

数据清洗是去除重复数据、干扰数据及填充缺失值。

数据清洗的4个关键点（完全合一）：

完整性：单条数据是否存在空值，统计的字段是否完善
全面性：观察某一列的全部数值，判断列是否有问题，比如：数据定义、单位标识、数值本身。例如有的单位是克，有的是千克或磅
合法性：数据的类型、内容、大小的合法性。例如存在非ASCII字符，性别未知，年龄超过150岁等。
唯一性：数据是否存在重复记录。因为数据通常来自不同渠道的汇总，重复的情况是常见的，行和列数据都需要是唯一的

什么是数据集成

数据集成是将多个数据源合并存放在一个数据存储中（如数据仓库）大数据项目中80%的工作都和数据集成有关。

Extract / 提取：从datasource/txt/csv/Excel/等原始数据源中 Extract数据
Transform / 转换：将数据预处理，字段补全、类型检查、去除重复数据等，根据预定的条件将数据统一起来
Load / 装载：将转换完的数据存到数据仓库中

1. 数据集成的两种架构

ELT 过程为数据提取(Extract)——转换(Transform)——加载(Load)，在数据源抽取后首先进行转换，然后将转换的结果写入目的地。
ETL 过程为数据提取(Extract)——加载(Load)——转换(Transform)，在数据抽取后将结果先写入目的地，然后利用数据库的聚合分析能力或者外部框架，如Spark来完成转换的步骤。

2. ETL和ELT的区别

ETL和ELT主要是先清洗数据还是先入库的区别。ETL一般使用主流框架用程序在提取的时候就将数据进行清洗，ELT则是将数据存到数据仓库，再用sql进行数据清洗。

未来使用ELT作为数据集成架构的会越来越多，有以下好处：

使用 ELT 方法，在提取完成之后，数据加载会立即开始。一方面更省时，另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据，为分析师提供了更大的灵活性，使之能更好地支持业务。

在 ELT 架构中，数据变换这个过程根据后续使用的情况，需要在 SQL 中进行，而不是在加载阶段进行。这样做的好处是你可以从数据源中提取数据，经过少量预处理后进行加载。这样的架构更简单，使分析人员更好地了解原始数据的变换过程。

什么是数据变换

数据变换是数据准备的重要环节，通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。

1. 数据平滑

去除数据中的噪声，将连续数据离散化

2. 数据聚集

对数据进行汇总，例如Sum、Max、Mean等

3. 数据概化

将数据由较低的概念抽象成较高的概念，如北上广深圳概化为中国。

4. 数据规范化

合属性数据按比例缩放，将原来的数值映射到新的特定区域中。

min-max规范化：将原始数据变化到[0, 1]的空间中，公式为：新数值=(原数值-极小值) / (极大值-极小值)，对应的有SciKit-Learn的preprocessing.MinMaxScaler函数

z-score规范化：可以用相同的标准比较不同规格的成绩。公式为：新数值=(原数值-均值) / 标准差。对应的有SciKit-Learn的preprocessing.scale函数,求出每行每列的值减去了平均值，再除以方差的结果，使得数值都符合均值为0，方差为1的正态分布

小数定标规范：通过移动小数点的位置来进行规范化

5. 属性构造

构造出新的属性并添加到属性集中。

什么是方差、标准差

方差和标准差是测算离散趋势最重要、最常用的指标
标准差是方差的平方根
一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。
由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来这就是我们要说的标准差。

End.

作者：雪山飞猪

来源：博客园

本文为转载分享，如有侵权请联系后台删除

--end--




扫描下方二维码

添加好友，备注【交流群】
拉你到学习路线和资源丰富的交流群

新手必知的数据分析名词(建议收藏)

BI：Business Intelegence，商业智能，基于数据仓库，经过数据挖掘后，得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

相关推荐