该篇学习记录主要是记录和总结极客时间专栏 「数据分析实战45讲」
如何培养 数据思维?
前言
陈旸总结的高效学习方法,称为MAS方法:
- Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它
- Ask:不懂就问,技术不需要这么羞涩,需要突破
- Sharing:最好的学习方式就是分享,将学习的技术通过自己的语言表述出来,这也是对知识的进一步梳理,比如写博客与人讨论也是一种高效的学习方式
如何与数据建立多维度的连接?
- 第一类是基础概念,学习的基础
- 第二类是工具,锻炼动手实操的能力
- 第三类是题库,进行查漏补缺
从这三类实现 思维 到 工具 再到 实践 的一个突破过程
数据分析需要掌握的概念
什么是BI、DW、DM?
- 商业智能(Business Intelligence,BI):基于数据仓库,经过了数据挖掘后,得到了商业价值的过程
- 数据仓库(Data Warehouse,DW):数据仓库将多个数据源进行汇总、整理,数据仓库量比较庞大,相比数据库是升级的概念
- 数据挖掘(Data Mining,DM):包括分类、聚类、预测、关联分析等任务,从数据仓库中得到有用的信息,绘制成商业报告
元数据 VS 数据元
- 元数据(MetaData): 描述其他数据的数据,也称为“中介数据”
- 比如说图书的信息,包含书名、作者等
- 数据元(Data Element):最小的数据单元
- 在图书这个元数据中,书名、作者、出版社都是数据元
数据挖掘的流程
英文解释为 Knowledge Discovery in Database,KDD,数据库中的知识发现
包含分类、聚类、预测和关联分析
- 分类:通过训练得到一个分类模型,然后用这个模型对其他的数据进行分类
- 聚类:聚类就是将数据自动聚类成几个类别,聚在一起的相似度大
- 预测:通过当前和历史数据来预测未来趋势
- 关联分析:发现数据中的关联规则,典型应用在购物篮分析
KDD 过程:
输入数据 -> 数据预处理 -> 数据挖掘 -> 后处理 -> 信息
数据预处理通常包括:
- 数据清洗:去除重复数据,去噪声
- 数据集成:将多个数据源数据统一存放在数据存储中
- 数据变换:将数据转换成合适的数据挖掘形式,比如相同的计量单位
数据后处理:将模型预测的结果进一步处理导出
上帝不会告诉我们规律,而是展示给我们数据
用户画像
互联网下半场精细化运营将是长久的主题
用户是根本,也是数据分析的出发点
用户画像的准则
- 统一化:统一标识用户ID,如使用手机号、微信号、微博等
- 标签化:给用户打标签,对用户行为进行理解
- 业务化:由用户标签,指导用户关联
用户唯一标识:用于用户行为的串联
对用户标签化,可以进行用户消费行为分析:
- 用户标签:基础信息如性别、年龄、地域等
- 消费标签:消费习惯、购买意向、是否对促销敏感等
- 行为标签:时间段、频次、访问路径等
- 内容分析:页面停留时长、内容浏览,分析用户感兴趣的内容
因此用户画像是现实世界中的用户的数学建模
当得到了精准的用户画像,那么就可以为企业更精准的解决问题,业务推荐等
用户生命周期
- 获客:拉新,精准营销获取客户,找到优势的宣传渠道
- 粘客:场景运营,个性化推荐,提高用户使用频率,比如说可以通过红包、优惠等方式激励优惠敏感人群
- 留客:流失率的预测,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%
用户画像建模过程
按照数据流处理阶段划分用户画像建模的过程,分为三个层,每一层次,都需要打上不同的标签。
- 数据层:用户消费行为的标签。打上事实标签,作为数据客观的记录
- 算法层:透过行为算出的用户建模。打上模型标签,作为用户画像的分类
- 业务层:指的是获客、粘客、留客的手段。打上预测标签,作为业务关联的结果
标签化的作用
数据挖掘的最终目的不是处理 EB 级别的大数据,而是理解、使用这些数据挖掘的结果。
对数据的标签化能让我们快速理解一个用户、一个商品,乃至一个视频内容的特征,从而方便我们去理解和使用数据。
而数据标签化实际上是考验我们的抽象能力:如何将繁杂的事物简单化?