很多都是业务相关的, 接触过就知道,没接触就没法说比如多久一次,很多地方是15分钟或者半小时送一块数据过来, 有些是实时采集,完全是业务决定数据清洗工具也是各家不一样,有些用kettle有些自己代码处理大数据组件这个容易回答:hadoop生态圈很多都可以说,还有spark,storm之类的大数据平台基本上都是hadoop系,除非是运营商这类大数据,会直接使用诸如greenplum等成品你是做培训的话,培训班会给你们做完整项目吧, 把流程穿起来就能回答这些问题了