大数据,指量级巨大的数据,多到人已经无法理解了,需要利用工具来处理,而当前的主流方案是云计算。
大数据的处理方式和小数据完全不同。所谓的量变引起质变。
大数据 4V 的特征
- Volume:数据量大
- Variety:类型种类多
- Velocity:生成速度快
- Veracity:价值密度低(真实信息,大多数信息是没有用处的)
举个例子,微信中所有用户的聊天记录就是大数据。聊天记录量大,种类多,类型多,速度快,而且聊天记录中也会包含一些错误信息。所以聊天记录就符合上述 4V 的特征。
大数据是产品导向的概念
大数据更多是一个适用产品的概念,技术并未占太多部分。如果一个领域有上述 4V 的特征,那么就可以说是一个大数据应用。
大数据产品需要定义好应用的需求,再由技术介入进行分析最后取得结果。根据不同的产品需求,可以利用云计算、云存储技术来解决,当然也可以不用。
例如,如果产品的需求是,在 100 亿条数据里面分析 100W 个用户的用户画像,那么就要利用分布式存储和计算,获得最终的结果。如果产品的需求只是对 100 亿数据求和,那么也许就用不到分布式计算方法,而直接用单机的算力即可完成。
应用领域
符合大数据 4V 特征的,一般是在能源开发,智慧城市,电子商务,医疗和教育领域。以上领域都有一个特征就是,行业体量大,覆盖面广,所以生成数据的体量也就会更大。