想要知道什么是旅游大数据平台,就得先清楚旅游大数据平台有哪些构成?
旅游是一个行业属性,决定了我们需要去关注哪些指标;
大数据平台是一个技术层面的架构,决定了你能以什么样的速度处理多大的数据,最后以何种方式去呈现。
所以以下我从这两个方面分别来阐述:
大数据平台的整体架构如下图
从底层逐步往上,如图所示表示这么几个环节:
业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。当然你还可以通过一些公开的数据源或者爬虫去获取一些外部数据,来弥补你自身数据不足的现状。
数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。此处的Kettle只是ETL的其中一种。
数据存储:指的就是数据仓库的建设了,此处相对复杂,我不再赘述,大家可以详细看下图中『数据仓库层』这部分。
数据共享层:表示在数据仓库与业务系统间提供数据共享服务。不论是Web Service,还是Web API ,都代表的是一种数据间的连接方式。
数据分析层:分析函数这部分大家都能理解,就是数学上的各种公式,比如聚类分析、回归分析等等。
列存储使得磁盘的每个Page仅仅存储来自单列的值,而不是整行的值。因此,压缩算法会更加高效,因为它们能够作用于同类型的数据。再说的简单点,可以减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。
而分布式计算能够把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。
整体上来说,通过这两种技术,可以大幅度提高数据分析的效率。
而Yonghong MPP应该是目前做列存储和分布式最好的产品。
数据展现:分析的结果通过什么样的形式去呈现,说白了就是数据可视化的工作。这部分推荐用敏捷BI类的产品,区别于传统BI,它能通过简单拖拽的方式就生成报表,比较节省时间,学习成本相对较低。国内的敏捷BI中,个人用户推荐Tableau,企业级需求推荐Yonghong BI 。
数据访问:这个就比较简单了,看你是通过什么样的方式去查看这些数据,图中示例的是因为B/S架构,最终的可视化结果是通过浏览器访问的。当然也有C/S架构,通过客户端去查看。相对来说,B/S架构会比较便捷,更适合现在很多人用手机办公的需求,打开个网页就能看到数据。
我以一个省的旅游数据为例:
可以分析的指标有:
省旅游收入分析(包括收入金额、增长率、与全国收入增长率对比)
省内旅游情况分析(包括星级饭店总数、国内游客数、入境游客数、入境过夜游客、游客消费水平、旅行社数、旅游从业人员等)
入境游客量分析(国外游客数、港澳同胞数、台湾同胞数、及其对应的增长率)
旅游收入分析(商品销售、长途交通、住宿、景点门票、餐饮、邮电通讯)
酒店分析(按客房数的多少可以分析出现阶段适合发展的酒店形式,是连锁酒店还是民宿更合适)
综合以上分析,就可以得出该省下一阶段在旅游方面应该去重点关注的地方,给规划提供判断依据。
所以旅游大数据平台,大数据平台是基础,而具体的指标可以决定应用价值。
旅游行业有行业广、 规模大、 移动性强的特点, 因此更加依赖大数据。 当前, 旅游业也在 “新常态” 下迎来了升级的挑战和变革的机遇, 新常态对于一般的经 济部门是经济速度放慢、人均 GDP 增速减小,很多传统行业在调整结构,但新 常态对旅游行业却是速度加快的。 旅游大数据的解决之道, 在于整合国内多途径 的大数据源, 形成旅游大数据生态, 为国内旅游业提供大数据解决方案, 促进旅 游业的转型升级。
未至科技数据中心解决方案是以组织价值链分析模型为理论指导,结合组织战略规划和面向对象的方法论,对组织信息化战略进行规划重造立足数据,以数据为基础建立组织信息化标准,提供面向数据采集、处理、挖掘、分析、服务为组织提供一整套的基础解决方案
旅游大数据包含很多,票务数据、闸机、wifi探针、还有现在最先进的手机app位置数据、消费数据、互联网评价数据等,现在很多大场景利用外部数据进行游客的价值挖掘,国内主要基于外部数据做旅游大数据的可以了解一下海鳗云。