在我看来MR框架处理数据有这三方面的软肋。
①小文件计算,在处理一些数据量较小的文件的时候MR的处理速度明显慢于其他框架。
②实时计算,MR的启动与运行会耗费比较长的时间,所以在进行实时计算与流式处理的过程中很难保证时效性。
③对于一些前后数据存在关联的比较大的数据文件,MR无法将此大文件进行拆分,这种情况也是MR不擅长的,因为MR优势就是并行计算,如果文件不能拆分MR的优势也就不复存在了。
这只是三个方面,欢迎大家进行补充。
分别对Map函数和Reduce函数进行测试,功能正确后,就可以在小规模集群上进行测试,测试成功后就可以在Hadoop集群上进行运行。