《数据思维》作者王汉生简介

北京大学光华管理学院商务统计与经济计量系教授、博导、系主任,北京大学商务智能研究中心主任,微信公众号“狗熊会”创始人。美国统计学会Fellow(2014),国家杰出青年基金获得者(2016),美国统计学会会刊《JASA》、美国商业与经济统计学杂志《JBES》、泛华统计学会会刊《SINICA》、《中国科学:数学》等多个国际学术期刊的编委(Associate Editor)。

 

《数据思维》读书笔记

一、朴素的数据价值观

1.数据的价值

a.什么是数据:凡是可以被电子化记录的都是数据。

b.数据有什么用?从收入、支出、风险三个方面看待这个问题:

  • 收入。典型如百度付费搜索广告,它为百度所创造的收入增长就是数据的价值。
  • 支出。企业根据数据分析可以砍掉低效的产品迟滞支持。
  • 风险。例如金融行业的个人信用评估系统,降低了企业信贷风险。

2.什么是数据思维?

数据思维是把“业务问题”定义成“数据可分析问题”,具体的做法就是在乱成一锅粥的业务问题中,准确定位业务的核心诉求(因变量Y),并找到影响核心诉求的相关因素(自变量X),然后利用各种数据分析工具进一步研究。

什么回归分析,即确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

什么样的问题可以被看作数据可分析问题?你需要找到两种变量:

  • 因变量Y:因为别人的改变而改变的变量,这是业务的核心诉求。
  • 自变量X:用来解释因变量Y的相关变量,通俗点说,自变量X的改变,影响了因变量Y的变化。X表现了数据分析者对业务的洞见。

案 例

假设A君向你借一万元钱,你也许会从A君平时的为人开始分析,顺便考虑你俩关系够不够铁、是否签下借条、A君的家境情况等等各种因素,依此衡量A君还钱的可能性。此处A君还钱的可能性就是因变量Y;而为人、关系、借条、家境都是自变量X。

二、 大数据到底是什么

1.大数据和统计学的关系

  • a.统计学关注的核心,是对数据的分析建模,并通过建模对业务不确定性的刻画,这对大数据的贡献巨大。
  • b.大数据并不能代替抽样,相反,越是大数据抽样越重要。

2.大数据的准确度如何

“预测不准是常态,预测准确是变态。”

  • 相关关系:客观现象存在的一种非确定的相互依存关系。例子:公鸡叫,太阳升起来。
  • 因果关系:第一个事件(因)和第二个事件(果)之间的作用关系,其中后一事件被认为是前一事件的结果。例子:按下开机键,电脑亮了。

我们经常会混淆这一对概念,甚至有些时候连相关关系都不算的事件A和事件B,由于它们常相伴发生,我们便迷信地以为两者具有因果关系。

三、人人应有数据思维

1.提高沟通效率

公司内部自上而下有必要培养数据思维。决策者要认识到哪些事与数据相关,需求部门应该有将核心诉求讲清楚的能力。这可以大大提高沟通效率!

2.抓住商业机会

三个步骤:

  • 我所在的创业方向,数据是否能帮助我?
  • 如果数据很重要,将业务中的因变量Y和自变量X梳理清楚。
  • 在战略层面上,保证Y和X的高质量供给、长时间积累。

3.生活中的数据思维

  • 首先,培养数据思维帮你养成一种思考有的放矢的习惯:分析的目的是什么?核心诉求是什么?因变量Y是什么?
  • 其次,搞清楚目的后,你就能将注意力聚焦在相关的自变量X上,就不会陷入“放眼望去都是重点”的迷乱状态中。
  • 最后,你可以尝试最简单的分析,专业的建模暂且不说,至少可以区分一下哪些是相关关系、哪些是因果关系。

四、 各种数据分析方法

几种常见的数据分析工具。

1.回归分析

它主要有五种类型:线性回归、0-1回归、定序回归、计数回归以及生存回归

  • 线性回归,更严格地说是普通线性回归,其主要特征是:因变量Y必须是连续型数据,而对解释性变量X没有太多要求。在数据世界中,线性回归可以应用于股票投资、客户终身价值、医疗健康等领域。
  • 0-1回归就是因变量Y是0-1型数据(只有两个可能取值)的回归分析模型。例如,性别只有“男”或“女”。购买决策只有“买”或“不买”。癌症诊断只有“得癌症”或“不得癌症”。0-1回归可以应用于互联网征信、个性化推荐、社交好友推荐等。
  • 定序回归就是因变量Y为定序数据(关乎顺序的数据)的回归分析模型。举个例子,现在请各位书友为本期作者光临打分,根据喜好程度:1表示非常喜欢,2表示有点喜欢,3表示感觉一般,4表示有点不喜欢,5表示非常不喜欢。这就是一种定序数据。定序回归常见的应用场景有:电影的打分评级(1~5星);电商产品的满意度评分(1~5星)等。
  • 计数回归。如果因变量Y是一个计数数据(非负整数),那么对应的回归分析模型就是计数回归。计数回归常被应用于:客户关系管理中的RFM模型,即一定时间内客户到访的次数;二胎政策研究中,一对夫妻选择生育孩子的数量等。
  • 生存回归是生存数据回归的简称,即因变量Y为生存数据(刻画一个现象或个体存续生存了多久)的回归分析模型,例如人的寿命、电子产品使用年限、创业公司存续时间。

2.数据可视化

最基础的数据可视化方法就是统计图,而一张好的统计图应该满足四个标准:准确、有效、简洁、美观。常见的统计图有:柱状图、堆积柱状图、饼图、直方图、折线图、散点图、箱线图、茎叶图等。

3.机器学习

机器学习代表着一大类优秀的数据模型分析方法,是立志成为数据科学家的书友们的必修课。它主要涉及的方法有:朴素贝叶斯、决策树(含随机森林)、神经网络(含深度学习)、K均值聚类

4.非结构化数据

数据是结构化的还是非结构化的,这是一个相对的、主观的概念。当然,其中也有一些达成了共识,公认的非结构化数据包括中文文本、数据结构、图像等。

案 例

以《倚天屠龙记》为例,张无忌到底最爱谁,是赵敏吗,是周芷若吗,还是殷离或者小昭?本书利用数据分析的方法,得到了答案!

第一步,把小说的主要人物和他们的称谓提取出来。接下来,要确定分析单位,这里取的是自然段。本书中从人物出场频次、出场时间、亲密程度等不同角度进行分析,这里简单说一下最重要的亲密程度分析,这是通过她们与张无忌出现在同一自然段的次数(同时出场)刻画的:

说明:本案例详情,可从微信公众号狗熊会(ID:CluBear)获得。

本文通过“樊登读书”整理而来。如果喜欢本篇,请前往官方应用购买会员,这是快速链接樊登读书APP
数据思维完整音频,数据思维完整视频,数据思维完整读书文字笔记您可以扫描下方二维码订阅:
樊登读书二维码

扫码开通VIP
畅享无阻阅读体验

樊登读书7天试听卡

扫码7天VIP
领取免费体验权益

备注:《数据思维》作者:王汉生。本篇是数据思维读书笔记和读书心得。其它内容数据思维简介,数据思维读后感,数据思维电子书,数据思维pdf/txt/epub/kindle,或者数据思维在线阅读可自行查找。

最新内容