你好,欢迎来到电脑编程技巧与维护杂志社! 杂志社简介广告服务读者反馈编程社区  
合订本订阅
 
 
您的位置:技术专栏 / 数据库开发
卢东明:大数据时代的Sybase分析云平台 (1)
 
大数据时代最热的三个关键词为:云、大数据、分析。云计算之热在此不必赘述,因为不管你看微博也好,浏览网站也好,如果三页看不到一个云字的话,那说明你一定不在IT业。

可是,人们往往会看不透云计算,也不知道到底该怎样做、做什么样的事情。云计算如果不用来做分析的话,那么你只能云里来、云里去,永远没办法化云为雨。

赛贝斯软件(中国)有限公司技术总监 卢东明

何为大数据?何以据?

我们先一起看看大数据这个词发展的历史。

60年代的时候,人们提起数据这个词的时候,都只提Data。70年代创建了一个词叫Database,从数据变成了数据库,库这个词就显得很大了。1975年创建了一个词叫VLDB,80年代又创建了一个词叫Data Warehouse,数据仓库比数据库还要大。到了90年代,人们才开始对数据仓库里面的数据做了一些事情,叫做数据挖掘Data Mining。随着90年代末期中期到2000年这个新的世纪里面,互联网行业社交媒体还有云计算等等这些技术不断地发展,人们又觉得这些词都不够了,于是就有了大数据Big Data。现在在国外已经创建了一个叫Extreme Data,也就是说大数据也不够,还有极端数据,为什么呢?

在我看来,大数据不过是人们在三、四十年前对数据的理解,以及对数据管理和运用手段的不断提升,所以不要管这些词的叫法,我们先看看大数据都做了哪些事情。

以中国的某电信运营商短信业务的数据来看,每年7000多亿条短信,5年下来就是3万多亿,其实这些短信里面还是有很多价值可以挖掘的。想要挖掘这个东西难不难?3万多亿行数据,先不说这个表有多宽,先说做一些数学的统计、分析,就已经是一件非常困难的事情。

大数据的4V理论

目前业界对大数据总结出来一些特征,在这里,我用了4V理论来概括。

第一个V,数据量,它决定了大数据的基础架子;

第二个V,速度。既使在大数据的数据量的规模下,企业其实还在要求能不能够很快地把一些分析做出来。

第三个V,就是数据类型。过去我们在金融、电信行业里面经常做一些非常简单的数据集,比如说号码、姓名、年龄、主叫人的号码、被叫号码、主叫时间等很结构化、很整齐的一些数据。现在有大量的数据不是结构化的,是半结构化的,比如一些文字,微博上的信息如何去分析,这就是大数据要解决的问题;

第四个V,变异,就是不管人们怎么去想象这些数据,它随时还都是在变的,变动越快、越大,对我们的处理能力提出的挑战越大。现在大家手上已经不光是微博了,还有微信,已经加上了声音的信号,已经有图象甚至视频。如何通过一个短信或者说彩信的方式发出去,怎么样去处理这些信息,其实都是我们要面临的问题。

  推荐精品文章

·2024年12月目录 
·2024年11月目录 
·2024年10月目录 
·2024年9月目录 
·2024年8月目录 
·2024年7月目录 
·2024年6月目录 
·2024年5月目录 
·2024年4月目录 
·2024年3月目录 
·2024年2月目录 
·2024年1月目录
·2023年12月目录
·2023年11月目录

  联系方式
TEL:010-82561037
Fax: 010-82561614
QQ: 100164630
Mail:gaojian@comprg.com.cn

  友情链接
 
Copyright 2001-2010, www.comprg.com.cn, All Rights Reserved
京ICP备14022230号-1,电话/传真:010-82561037 82561614 ,Mail:gaojian@comprg.com.cn
地址:北京市海淀区远大路20号宝蓝大厦E座704,邮编:100089