数据时代,我们去哪儿找数据?

17-06-08

作者: 科特勒咨询中国区合伙人 王赛博士

“问渠哪得清如许,为有源头活水来。”

在大数据产业的全景图中,数据分析是技术含量非常大的一环,然而很多企业的CEO和CMO受困于没有数据的难题。数据源在这个产业,在中国尤其重要,否则,大数据在营销上的使用会受限并逊色不少。

那么在前大数据时代,公司是如何获得数据源的?主要是以下几种方式:公开信息的整理,包括统计局数据、公司年报、市场机构的研究报告等公开的零散信息整理;直接购买数据库,购买很多产品化的数据库,比如Bloomberg,OneSource,Wind等;自建数据库,一手数据收集,比如自己设置问卷,或者对企业运营的数据进行集合,比如每年的消费者调研或者品牌调研。

而在当下,大数据时代的数据源头已经发生了天翻地覆的变化:互联网与智能手机的发展在更多的维度上增加了许多新的用户数据,而且有很多数据的形式是以往难以想象的。除此之外,持续在线的用户还在源源不断的产生新数据,并随时发生变化。还有更多的采集数据的设备不断涌现。以特斯拉为代表的智能汽车会采集汽车运行数据;工业4.0、工业互联网浪潮推动智能化数字化生产,持续产生、收集生产领域的数据;可穿戴设备层出不穷,谷歌的谷歌眼镜、苹果的智能手表、Facebook的Oculus VR都会产生新的用户数据。

大数据行业的从业者有多种途径获得数据,也就是我们常说的数据源,具体有以下几种:

 • 官方数据(政府部门或企业直接提供的数据或数据接口,比如目前贵州就在构建大数据产业中心);

 • 半官方数据:如各类行业协会,俱乐部,这些数据本身是小数据,但是把这些不同维度的小数据综合起来可以看到全景视角;

 • 各个平台的数据:如京东、淘宝、天猫,有些会免费开放数据,有些是付费的,有些是封闭的,

 • 企业自己收集的数据,一般都是用一些数据采集工具或软件,工具如:爬虫软件,网络蜘蛛等;

 • 最后就是购买的数据,一般有一些专门数据采集的机构,像市场调研企业,不过在和这些企业合作时,仍旧需要问清楚它们的数据源是什么,因为绝大部分市场研究公司不拥有产生数据源的基础;

 • 最后就是一些数据黑市,虽然它们不见阳光,但是可以交易到你要的一些数据;

数据的获取方式有很多种,所以需要鉴别数据源的质量,数据就像一个任人打扮的姑娘,使用的人会选取自己想要的数据来展示,所以考量数据的真实性,一个是数据来源,还有就是数据的选择是否合理。

互联网本身就是一个巨量的数据库。自互联网建立以来的所有页面、访问、内容每一天都在往这个数据库中增加字节。只要具备网络爬虫技术,就能按照一定的规则抓取网上的公开数据。结合语义挖掘的技术,就能转化为对消费者行为和观点的理解,这就是大数据商业化的主要模式。Cookie是某些网站为了识别用户身份并进行追踪而形成的加密身份认证文件,存储于用户使用的计算机上。企业可以通过该工具了解用户的访问习惯,比如在什么时间访问了哪个页面,以及不同页面的停留时间。理论上而言,一个网站仅能获得跟他相关的Cookie信息,但浏览器厂家或者某些非法手段可以获得所有的Cookie数据。SDK就是智能手机上的Cookie。它内置于各个APP应用之中。用户使用APP的所有数据都会被采集并上传。第三方的数据公司会与各家开发厂商合作,将自身的SDK置入其他APP中,从而获得对一个用户所有智能手机行为的关键数据。

“外借”数据源——哪些公司具备数据源?

企业可以通过与外部具备数据源的企业进行合作来获取数据。我们其实可以把数据源的公司分为三类:

 • 第一类是“丰饶型“大数据企业,这种企业非常稀缺,国外的企业如苹果、亚马逊、Facebook、Google,中国国内的企业典型的就是BAT、京东。当然这种丰饶型大数据企业虽然拥有强有力的数据源,但是由于他们数据源的产生都是依托于他们不同的业务流,尤其是互联网的业务流而形成,所以他们本身的互联网业务类型也决定了这些丰饶型数据的维度。比如淘宝的数据维度是以交易为中心展开的,你可以看到什么样的商品品类畅销,同一品类下不同品牌的竞争力如何,还可以定量看到促销与业绩之间的关系。而百度是围绕信息搜寻展开的,他更能丰富的看到人们对哪些条目感兴趣,对哪些概念点击率高,从它的数据源能够揭示需求的“正在发生的未来”。同样是BAT,腾讯是围绕人展开的数据,以社交数据为中心,覆盖用户的娱乐、金融、交易、教育等等。选择与丰饶型的大数据企业合作,首先要考虑他们的数据类型和你的业务目标的匹配性,另外,由于他们垄断性强,也要考虑他们是否具有数据交易的动力与意愿。

 • 既然丰饶型大数据企业太少了,那怎么办?你也可以从垂直细分型的互联网平台公司去找数据源,比如对于生产某款卫生巾的快消品企业,他们也可以和“大姨吗”来进行合作,从大姨吗的平台数据中买到数据源或者建立合作关系。这就是我们谈到的第二种数据源公司,叫做垂直型数据源企业。这样的公司在互联网、移动互联网领域非常多。

 • 第三种大数据源公司就是“横切面型大数据公司”,和丰饶型、垂直型不一样,这类公司的数据深度并不丰富,但是在某一个维度上广度甚至超过BAT,比如覆盖大多数APP中的SDK开发者,他们可以拿到某些APP后台的若干维度的数据,如用户的地理信息数据、APP使用活跃度数据,这些数据也可以聚集成数据源,在某些领域来进行商业化。

自建数据源

以上谈的是三种类型的大数据源头公司,但是很多企业还想建立自己的数据源,他们可以一方面把自身企业的数据整理好,和外部的数据(比如我们上面提到的前三种数据)来进行对接,也可以利用物联网、传感器等多种技术维度来构建自己新的数据维度。


图3-6

以迪斯尼为例,迪斯尼最近投资三十亿美金打造大数据追踪系统MyMagic,这套系统能追踪迪斯尼乐园游客的分布(见图3-6),轨迹,如何进行消费,什么时候用餐,以及最后购买了什么,所有消费者在迪斯尼内留下的行为最后都发生了“比特化”。MyMagic的核心产品是腕带MagicBand。MagicBand中嵌入了无线射频识别芯片,并能与遍布迪斯尼乐园的无线射频扫描设备保持信息连接。每当游客带上MagicBand后,其游览信息可以被遍布游乐园的数据读取器接收到,目前,MyMagic的大数据被迪斯尼规划为未来的核心增长产品之一。对游客而言,Magicband帮助他们更方便的完成园内体验,可以通过这一智能手环打开园内酒店房间房门,进入主题乐园,完成吃饭、游玩、交通的所有支付,因而游客非常乐意使用这一便利的设备。但在迪斯尼的角度,这就是一个自建大数据采集源的典型案例。

企业从无到有的构建数据平台,具体计划大体分为三步:

第一:建立数字化战略,找到数据源

企业先要考虑根据你的数字化战略,你需要哪些维度的数据,当然对于很多不了解大数据源和大数据分析技术的高管来讲,可能要先去了解大数据可以商业化的范围,并结合自身的行业和业务来形成自己的数据化战略。

保留哪些数据、和外部哪些数据融合,首先需要对应到自身公司的业务模式,业务模式不同,需要涵盖的数据也不同。比如,对于零售型企业,他们需要关注客户的地理信息位置的数据、要建立基于地理门店可以识别客户的大数据CRM系统,而如果我们把零售型企业再细分,对于奢侈品企业来讲,他们一方面需要对CRM进行大数据的升级,还有一个很重要的就是对品牌竞争力的监控,于是追踪网络声量数据就变的尤其重要,CMO可以设置自身企业的品牌声量和竞争对手的比较维度、权重以及频率。

第二:建立数据管理和应用平台。

要有IT方面良好的基础设施以保证数据处理的结构,比如数据分布式存储、Hadoop框架。企业需要基于自身业务背景和需要,建立自有大数据平台,进行数据采集、数据库管理、数据分析等工作。现在,市场上有很多这类专业的数据管理公司。云计算和数据中心的出现,外部数据成本已经下降很多,数据的存储费用也降低了,这就是很多企业会选择外包的原因。

第三:数据团队的组建

根据数字化战略,建立自己的数据团队,和更新IT系统不一样,数据团队的组建必须是“一把手工作”。这个团队中需要CMO和CIO在一起,必要时需设置CDO首席数据官,以保证数据和业务之间能够贯通。



王赛 博士  
科特勒咨询管理合伙人


王赛博士是科特勒咨询集团(KMG)中国区合伙人,师从营销学之父菲利普科特勒,主管并领导科特勒咨询(KMG)中国公司的数字战略咨询业务,王博士为领袖型和创新型公司提供深度市场战略决策服务,受到这些公司的高管一致推崇。王博士是《数字时代的营销战略》一书的作者,是巴黎大学(九大多芬纳)博士,并进修于哈佛商学院、巴黎高商HEC,他多次应阿里、腾讯、中航国际、宝钢、GDMS等为企业高管做内训和论坛嘉宾。


主打课程:

数字时代的品牌战略:从定位到大数据