【Spark】(十三)Spark数据分析及处理

发布时间:2022-08-19 13:53

用例一:数据清洗

基本步骤:

  • 1、读入日志文件并转化为RDD[Row]类型
    按照Tab切割数据
    过滤掉字段数量少于8个的
  • 2、对数据进行清洗
    按照第一列和第二列对数据进行去重
    过滤掉状态码非200
    过滤掉event_time为空的数据
    将url按照”&”以及”=”切割
  • 3、保存数据
    将数据写入mysql表中

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号