如果你的软硬件配置较高,当然可以满足这种实时日志分析。如果你要求在很短时间内返回你要的结果,可以采用大量并行Mapreduce计算来实现类似于推荐引擎的在操作。但是你要控制好,对文件在HDFS上的操作。比如几个文件,或者多大的文件为一个处理包。不能每过来一个就处理,一直占用资源。如果对实时要求没有那么高,可以采用离线分析的方法。