沸沸扬扬的美国大选告一段落,唐纳·德川普(DT,Donald Trump)在众多媒体、华尔街精英和知识分子的反对声中,爆冷逆袭,成功入住白宫。这一让人始料不及的结果懵圈了一众看客。

回过头去看大选前的各种民调和预测,纷纷唱好希拉里胜出。

摸象大数据

摸象大数据

有人说特朗普的胜利,代表着大数据的失败。

小编作为大数据行业的一员,此时,非常有义务站出来为大数据表态,“这个锅我们不背”。

知识普及:何为民调?

一般我们看到的民调,是由专门的民调机构,比如耳熟能佯的Gallup,还有各大媒体,主要报纸,以及各地的大学研究机构组织的。

像美国大选的全国民调,主要是由大的民调机构和大媒体独立或共同完成的。

民调的主要方法很简单,用得是最基本的统计采样的理论,就是在全部选民中随机挑选一批选民,了解他们的投票倾向,综合起来,就得到全国选民的意向了。

在实践中,民调分为3个阶段:随机采样,调查问卷,整理数据。

民调是不是大数据?

众所周知,民调是否能预测民意,和样本大小息息相关。但是民调的样本容量对于大数据来说,就好比是地球和银河系之间的差距。

况且小编要说的是,大数据除了最显著的特性“大”之外,它还有存储和处理速度快、数据多样化等特征。

大数据的3V模型

所谓大数据的特性,2001年,麦塔集团(META Group)分析师莱尼(Doug Laney)就提出了3V模型,即 Volume、Velocity和Variety。

随着资讯科技不断地往前推进,数据量的复杂程度愈来愈高,大家逐步将3V扩展到6V,即增加了Veracity(准确性)、Visualization(可视性)、Validity(合法性)。

但是,在描述大数据的典型特性方面,3V模型还是最具代表意义。

retrieve-churn-user

1. Volume(规模型)

Volume指的是数据巨大的数据量以及其规模的完整性。数据的存储TB扩大到ZB。这与数据存储和网络技术的发展密切相关。数据的加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长。

实质上,在某种程度上来说,数据的数量级的大小并不重要,重要的是数据具有完整性。

数据规模性的应用有如下的体现,比如对每天12 tb的tweets进行分析,了解人们的心理状态,可以用于情感性产品的研究和开发;基于Facebook上成千上万条信息的分析,可以帮助人们处理现实中的朋友圈的利益关系。

2. Velocity(高速性)

Velocity主要表现为数据流和大数据的移动性。现实中则体现在对数据的实时性需求上。随着移动网络的发展,人们对数据的实时应用需求更加普遍,比如通过手持终端设备关注天气、交通、物流等信息。高速性要求具有时间敏感性和决策性的分析——能在第一时间抓住重要事件发生的信息。

比如,当有大量的数据输入时(需要排除一些无用的数据)或者需要马上做出决定的情况。比如:一天之内需要审查500万起潜在的贸易欺诈案件;需要分析5亿条日实时呼叫的详细记录,以预测客户的流失率。

3. Variety(多样性)

Variety指有多种途径来源的关系型和非关系型数据。 这也意味着要在海量、种类繁多的数据间发现其内在关联。

互联网时代,各种设备通过网络连成了一个整体。个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。

这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。

比如,在客户数据库中不仅要关注名称和地址,还包括客户所从事的职业、兴趣爱好、社会关系等。

利用大数据多样性的原理就是:保留一切你需要的对你有用的信息,舍弃那些你不需要的;发现那些有关联的数据,加以收集、分析、加工,使得其变为可用的信息。

大数据实例分析

想知道真正的大数据是什么样吗?一块看看看摸象大数据吧!

摸象大数据垂直于女性消费领域,高度聚焦“剁手女”人群的数据积累。日汇聚50亿条用户上网行为原始数据,以10万条/秒的速度接收数据,并将这些海量庞杂的数据进行清洗、匹配、整合、挖掘,形成用户标签。再通过机器推演算出她的消费基因和消费欲望清单,从而实现她的购物行为轨迹和偏好的准确预测。

目前,摸象数据库内已经汇聚3.5亿可识别标签的用户数据,用户信息包括但不限于:

  1. 终端基本信息:mac、Cookie、手机号码、PC浏览器、手机浏览器……
  2. 个人基本信息:性别、年龄、职业、城市、商圈……
  3. 浏览兴趣偏好:旅游、母婴、汽车、女性、星座……
  4. APP安装偏好:游戏、金融、社交、电商……
  5. 消费偏好:电子产品、女装、母婴、时尚……
  6. 场景偏好:院线、商场、妇幼医院、电脑城、展会……

(转载请注明:摸象大数据)