信息爆炸时代,带来的不仅仅是我们对信息剧增的无所适从,还有就是数据库技术的飞速发展和琳琅满目的数据库应用。
细数数据库技术从上世纪60年代兴起到如今,已有40余年的历史。从开始的层次数据库、网状数据库,到关系数据库管理系统,再到现在数据库技术与多学科技术有机结合后产生的分布式数据库、并行数据库、演绎数据库、多媒体库、移动数据库等等,它们共同构成的数据库大家族,热闹非凡。
那么,数据库技术在未来的发展上会有哪些明显趋势呢?记者怀揣着这样的问题采访了Sybase中国有限公司售前总监宋一平。在数据库领域有着10多年工作经验,并一直工作在数据库应用最前沿的宋一平,对数据库技术未来的发展方向有着自己独到的见解。
存储方式将向“列存储”靠拢
到底是行存储还是列存储,主要看如何应用数据信息。
以前数据库都是以行的形式存储。理由很简单,用户需要的是对单条数据的读取和存储。而现在,单纯的数据记录已经不足以支撑企业发展了,企业更需要的是数据分析和决策支持。那么,单纯看一条记录也就没有了意义,而是要把所有数据的某项共性统计出来进行分析,这就是“列”的概念。
列存储的出现,实际上就是对数据分析需求的增多。而分析需求则一定是对某一个列的访问。
“以中国移动为例,上亿的用户,每个月都有超过TB级的数据,哪些是VIP用户,该如何根据他们的需求提供专有服务?对于那些动感地带的用户,到底应该制定哪些优惠政策?除了简单看话费,是不是还应该能从中挖掘出他们的消费特点,进行更有针对性的业务推广活动?所有这些需求,就不再是仅仅看一条数据的问题,而需要频繁对列进行操作。因此,我预计,不出半年,各大数据库厂商都会推出以列为存储方式的数据库。”宋一平直言。
记者简单了解到,近半年来确实出现不少认同以“列”存储的理论文章。这个Sybase从1997年就开始“守”了近10年的专利,估计就要难以再守了。
数据库规模将呈“两头”发展
“数据库的规模会向‘两头’发展,即大的越来越大,小的越来越小。”宋一平进一步解释,“所谓大的,主要是指企业级数据库的规模。10年前,数据库存储的数据大都以GB为基准衡量,几十GB就已经非常庞大了。而现在,仅仅广东移动一个公司每个月新增的数据量就已经用TB来衡量,相信不出3年,很多企业要存储的数据就要达到PB级。数据量越来越大,需要更大的数据库来做支撑,这就是数据库的发展方向之一。”
随着计算机的普及,计算机应用点的增多,数据存储量自然也就大了。记得一位网友曾经制作自己某一天的“数字化生活”,把这一天的吃喝拉撒睡全部用摄像头记录下来。这就是他的 “数字化生活”,把生活整个变成数字化的信息数据,这也是未来人们生活一个重要的方面。数据越来越多,数据库技术想要自如应对这样的发展,只有越来越大。
另一方面,数据库又会越来越小。
你知道吗?目前在国外的一款卡西欧手表中就带有Sybase的数据库。手表可以随时记录天气情况、气压以及佩戴者的血压、心跳、步频等数据,佩戴者还可以把这些数据下载到计算机上做简单的分析,这种数据库虽然并不要求数据存储量大,但却要求在低计算量的情况下能快速反应,并能适应外界环境的变化。小数据库主要集中在移动数据库领域,现有技术已经能够提供很好的支持。
“数据仓库”概念渐入人心
很多数据库厂商认为,数据库一个就行,“一专多能”,既能用它进行实时交易,也能用它来进行数据分析。
但事实却并非这样简单。很多用户现在在前台一边需要数据库提供实时交易功能,一边又需要有很快的响应速度,而在后台,则又需要设立一些规则进行数据分析和商务智能分析。Sybase就认为,这两个数据库应该是两种格式,毕竟它们应用的需求不同。因此,从产品设置上,Sybase有交易型数据库和分析型数据库两种。
而数据仓库则是位于后台,存储着可供企业进行深度分析及决策使用的数据。数据仓库中的数据一般按照一定的主题域进行组织,主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的方面,一个主题通常与多个操作型信息系统相关。同时,一般企业会有好几个数据库,这些数据库之间是相互独立,并且往往是异构的。而数据仓库中的数据则是在对原有分散的数据库中的数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。一旦某个数据进入数据仓库以后,一般情况下将被长期保留来反映某一时间段的变化。
非结构化数据结构化存储
“我认为,非结构化数据仍然不能直接纳入数据库中。”宋一平表示,“说到这里,可能大家都认为我在逆潮流而动,现在很多数据库厂商都可以接受图像、视频等非结构化数据的存储,可Sybase怎么还要死守着结构化数据呢?我认为,非结构化数据要想进入数据库,仍然需要结构化,只是这种结构化的方式各厂商不一样,而且相比以前有了很大的进步和提高。”
还记得,以前我们图片的记录方式是记录它的文件名,如果文件名中提到了某个人的名字,那么在整个数据库查询的时候,就可以把这个图片找到。宋一平对记者说:“这样做非常不科学的。”因为很多非结构化数据的文件名起的并不可能完全,如果强行把非结构化数据拉入结构化数据库中,显得不合适,影响操作的便利。
那么,现在大家是如何把非结构化的数据变成结构化的呢?“其实很简单”,宋一平解释,“就是用结构化的数据描述非结构化数据。比如图片,就用点和位置来记录图片中每个像素。一旦需要做查询的时候,可以根据像素的组合记录来比对,把符合比对要求的数据全部筛选出来。这样就把非结构化数据以结构化的方式纳入到数据库中,并能接受查询、检索等操作。”
数据库技术发展几十年来,有些技术风光一时,但终究被淘汰;有些技术则一直沿用至今。所有的预测都只能是方向性的,各数据库厂商彼此的理解也有差异。未来的数据库会如何发展,我们拭目以待,但可以肯定那一定是最满足用户需求的。
1.数据库肯定是有用武之地的,现在是信息时代,信息都要存储、检索等,
而这肯定涉及到数据库,
2.至于应该学什么,没有定论,可以先从简单的基础来学,
有了一定的基础之后,最好是参加实际的项目开发,这样也就可以在实际的项目中感受数据库的具体应用,并且肯定会遇到很多需求变化等问题,
3.有了这些实战经验后,自己工具工作需要以及兴趣特长也就知道应该学什么了。
呵呵,希望能有帮助,^_^
建议先学好数学。尤其是高等代数。
现在数据的存储与提取都已经是很简单的事了。仅仅会使用SQL就像民工会砌砖一样。
但是针对数据仓库的数据清洗,数据挖掘还有一定的技术瓶颈,这些东西都需要你有很强的数学基本功和逻辑思维能力。
要让数据做到完全的智能化。
比如,一个销售汽车的企业,有成千上万的数据,在进行数据的深层挖掘后,企业就可以知道哪些人喜欢买什么车,当一条新的客户数据进来时,计算机就可以根据历史数据自动提示该客户可能需要哪种车型,大概什么价位等等,真正做到商业智能。
我现在从事的是ORACLE数据库的管理工作,比较不错。经验多的oracle DBA月薪都是1万多的。SQL SERVER感觉没前途。
ORACLE mysql sqlserver现在用的最多。