Spark和Hadoop是完全两种集群。Spark是分布式计算框架,Hadoop是分布式计算/存储/调度框架。Spark可以无缝访问存在HDFS上的数据。 所以两个集群如何搭建是没有关系的。Spark只关心如何访问HDFS,就是 hdfs://namenode:port/能访问就行。 当然Spark作业提交到YARN那是另外一回事了。