大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。智能职涯(bigdata-job)总结了大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
与传统的在线联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术,一般而言,机器学习模型的训练过程可以归结为最优化定义于大规模训练数据上的目标函数并且通过一个循环迭代的算法实现。
1、编程语言:Python/R
2、数据库MySQL、MongoDB、Redis等
3、数据分析工具讲解、数值计算包、Pandas与数据库... 等
4、进阶:Matplotlib、时间序列分析/算法、机器学习... 等
本人03年计算机科学与技术毕业,转行到商业数据分析,大学教书7年,从网络到数据库、软件开发;2010年接触数据分析,,一路学习,进入某上市公司做人才测评工作,开始正式入行,从产品竞争情报分析、产品快速测试、用户图谱、数据采集、报表、可视化制作等入手,后来到建模、对比分析、关联分析、聚类等,后来又去阿XXX呆了一年多,然后又和加拿大一帮分析师一起工作,从他们身上学到很多思维方式和分析经验,对如何通过数据去解决企业实践问题的能力提升很多。现在自己和加拿大哥们开公司,专门为中国企业做数据商业咨询服务,业务太多都有点忙不过来了。另外一块业务就是为阿里云提供大数据分析教育内容,比如高校大数据专业的课程体系、实验室产品等,阿里云大数据分析师ACP认证整套体系和认证考试培训研发都是我们公司开发的。还有每年全国各高校大数据专业的师资培训都是我们在做。所以总结我个人的学习路径和方法及认知,给你们提供一条学习路径,希望对你们在大数据商业分析师这条职业道路上有所帮助!
以职业能力结构的学习图谱
目前就业市场第一层在5-8K;第二层年薪15-30万;第三层50万年薪以上
向左转|向右转
向左转|向右转
具体学习路径与方法:
第一层通用技能
向左转|向右转
向左转|向右转
1、 通用技能是作为数据分析师必须具备的分析工具和大数据相关知识;
数据编程:数据编程工具有Python、R、SAS等,目前用的多的是Python,如果有语言基础的小伙伴上手很快,语法、函数、面向对象这些都比较简单,没有基础的小伙伴也可以自学,不是很难,推荐的学习《小象学院》每天学习一节课,听完后可以去阿里云大学官网去做一些Clouder,增加对Python在项目中的使用场景理解,数据清洗、爬虫、数据分析、数据可视化这些是工作中经常用到的。
建议书籍:
向左转|向右转
向左转|向右转
2、 数据存储:主要是数据库、数据建模,分析师对数据仓库需要了解,这些基础课程完全可以自学,推荐优达学城里面有这些课程,老师讲的HIA不错,也可以去九道门做些实验项目,他们有时候搞活动是免费的;如果你觉得还是难,那就采用最基础的学习路径,直接买MYSQL关系型数据库的书看,随便到网上去找个免费的MYSQL课程听;先解决会的问题。
建议书籍:
向左转|向右转
向左转|向右转
另外分布式存储HDOOP需要简单了解就可以了,如果能自己搭建3个节点跑通,个人觉得就OK了,
3、 云计算:做为分析师对云计算的技术作为了解就可以了,可以不做目前的强化学习内容
4、 数据预处理:这个是数据分析师必须时刻记住的事情,从我们这个行业有句行话,叫垃圾进来垃圾出去,如果数据质量控制不好,后面做的再牛逼,也是垃圾;这个课程主要是看大家对数据的理解和质量控制的方法,目前市场上有专门的岗位就叫ETL数据清洗工程师;有专门的数据质量控制或者数据清洗的书。
向左转|向右转
向左转|向右转
5、 数据可视化:数据可视化不是很难,如果不要求特别美工的话,大家先理解图表,再研究研究仪表板,阿里云的Quich BI及DataV,百度的echarts都不错,主要是展示的业务结构需要规划。
6、 大数据技术:这个相对来说有些难度,如果是学数学统计类专业小伙伴就非常有优势了,其他专业的小伙伴也不用担心,毕竟工作后还可以继续学习,在工作中用的比较多的是聚类、关联、决策树、线性回归等,如果你不去做模型和算法工程师那么只需要会用就可以了,实在不行有专业的工具让我们用,比如第四范式的产品和阿里云的机器学习PAN都是可以直接出结果的工具;
推荐书籍:
向左转|向右转
向左转|向右转
7、 分析&AI:这部分先了解数据分析的基本流程和分析手法;上面的如果都学了,可以到阿里云大学上面去做几个数据分析方面的案例,增加对数据分析的流程理解和相关技术应用,但是要注意的是阿里案例都是用阿里的工具来实现的,比较简单,建议大家自己编程实现,也可以到天池大赛上去看一些案例,自己做做训练。
以上的工具学习如果自学的小伙伴觉得很难坚持,那就只能去报培训班了,需要提醒大家的是目前培训机构愚弄混杂,在工具教学上有些机构还算马马虎虎,大部分培训机构的老师根本没做过商业分析项目,很多思维方式可能会误导你。至于那个培训机构好,我也不是很清楚,个人觉得自己坚持以上东西是可以自学的,做好规划一步步往前,时间可能长点,需要恒心,哈哈!
向左转|向右转
第二层商业分析
学完通用技能后你是否能真正入门,到企业能干活就看这一层了,在写这篇学习路径的时候我帮大家简单做了中国培训机构的调查分析,北风网、传智播客、达内、千峰、兄弟连、容大、华信智原等稍微好点的能做第一层,第二层都做不了,主要原因分析真正做大数据商业咨询人才都在名企,专业做数据咨询的公司员工一是没时间,二是价格高,培训机构请不起。
我帮大家总结了,目前中国市场大部分企业招聘大数据分析师主要为四个层面服务;一为产品经理服务,国内产品经理不懂数据分析,而新产品的竞争情报分析、产品敏捷测试等都需要数据分析师帮助完成,后期产品迭代优化还是需要数据分析师采集用户行为、习惯、评价等数据来完成。二是为运营服务,产品运营中的用户流量、促销、顾客关系管理等需要数据分析师帮助完成;三是公司数据制定和标准建设、各部门数据打通,数据化管理等工作需要数据分析师完成,四是数据情报和数据预测为高层服务。
从以上四个方面我们再去看第二层的商业分析能力和业务知识能力就显得尤为重要,这个时候是考验分析师的业务理解能力及通过数据为企业解决实际问题的能力了。比如分析师的分析流程、分析思维、分析技能、展示说服能力。
小伙伴们要想快速进入第二层只有三种方式,一是锁定一个行业,刚开始别嫌工资低,入行1年左右,拼的就是悟性和钻劲,也能进入,如果运气好找个专业做数据咨询的公司那就很快,一个项目下来套路就明白了;二是能遇到一个比较牛的师傅,人家愿意教你,这个也很快,我就是遇到师傅的人,半年时间就完成第二层,不过本人原来做过教师,口才、文案这些软性技能比较强;呵呵。第三种方法推荐去阿里合作伙伴决明科技,这家公司是专门做数据咨询服务的,这家公司有一块业务是做教育的,比如企业培训(阿里的合作企业大数据商业培训都是这家公司在交付),师资培训(这家公司每年做二期高校大数据应用师资培训),去年和前年做了二期大数据商业分析实训,有的被他们公司留下了,其他学员被阿里系的企业一抢而空,听说企业招聘一个人还给这个公司钱;不过他们招人实训要求比较高,首先要本科及以上学历,要会分析工具和数据库相关知识;具体情况小伙伴可以去百度一下九道门就知道了。另外听说很多培训机构租他们的大数据实验平台.
向左转|向右转
向左转|向右转
第三层:上面我说在入行的时候建议大家选择一个行业,不要轻易换行业,大数据商业分析师对行业的要求很高,本身如果你是行业专家有加上懂数据分析,那就是行业大数据商业分析大牛了,这个需要时间和项目沉淀,现在这种行业大牛在国内很少,因为数据分析行业中国才刚刚发展,企业才刚刚接受这个岗位!
向左转|向右转
向左转|向右转
这个行业非常不错的,非常有潜力,偏商科,技术辅助;真正的大牛不是特别看重数据分析技术,而是分析思维,能用数据帮助企业在产品、价格、促销、顾客、流量、财务、广告、流程、工艺等方面进行价值提升。主要是三个方面的分析,一是现状分析、二是原因分析、三是预测分析。
洋洋洒洒写了这么多,希望对您有一些启发和帮助!也希望我们以后在大数据商业分析的江湖上进行切磋相遇!祝您学业有成,尽快入行,加油!
想学习大数据技术,是不是首先要知道大数据技术有哪些呢?也好知道自己未来应该往哪个方向发展,应该重点学习哪些知识?
抽象而言,各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上,形成集群(cluster)。因此不妨说,云计算是大数据的基础。
下面介绍几种当前比较流行的大数据技术:
1.Hadoop
Hadoop无疑是当前很知名的大数据技术了。
2003年到2004年间,Google发布了关于GFS、MapReduce和BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展的重要基石)。当时一位因公司倒闭赋闲在家的程序员Doug Cutting根据前两篇论文,开发出了一个简化的山寨版GFS – HDFS,以及基于其的MapReduce计算框架,这就是Hadoop当初的版本。后来Cutting被Yahoo雇佣,得以依赖Yahoo的资源改进Hadoop,并将其贡献给了Apache开源社区。
简单描述Hadoop原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点的运算结果进行合并归一(Reduce),生成结果。相对于动辄TB级别的数据,计算程序一般在KB – MB的量级,这种移动计算不移动数据的设计节约了大量网络带宽和时间,并使得运算过程可以充分并行化。
在其诞生后的近10年里,Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。
2.Storm
Hadoop虽好,却有其“死穴”.其一:它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此,Twitter推出了他们自己的基于流的运算框架——Storm。不同于Hadoop一次性处理所有数据并得出统一结果的作业(job),Storm对源源导入的数据流进行持续不断的处理,随时得出增量结果。
3.Spark
Hadoop的另一个致命弱点是:它的所有中间结果都需要进行硬盘存储,I/O消耗巨大,这就使得它很不适合多次迭代的运算。而大多数机器学习算法,恰恰要求大量迭代运算。
2010年开始,UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架,由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。
4.NoSQL 数据库
NoSQL数据库可以泛指非关系型数据库,不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上,基于key-value对的数据管理系统。
相对于传统的关系型数据库,NoSQL数据库中存储的数据无需主键和严格定义的schema。于是,大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。
NoSQL并不是没有SQL,而是不仅仅有(not only)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑,有很多在NoSQL数据库上运行SQL的工具涌现出来,典型的例如Hive和Pig,它们将用户的SQL语句转化成MapReduce作业,在Hadoop上运行。
大数据产业已进入发展的“快车道”,急需大量优秀的大数据人才作为后盾。能够在大数据行业崛起的初期进入到这个行业当中来,才有机会成为时代的弄潮儿。