任务4.8.3 利用SparkSQL统计每日新增用户

2026/3/5 6:08:51 来源：https://blog.csdn.net/howard2005/article/details/139769131 浏览: 次关键词：任务4.8.3 利用SparkSQL统计每日新增用户

在这里插入图片描述

实战概述：利用SparkSQL统计每日新增用户

任务背景

在大数据时代，快速准确地统计每日新增用户是数据分析和业务决策的重要部分。本任务旨在使用Apache SparkSQL处理用户访问历史数据，以统计每日新增用户数量。

任务目标

处理用户访问历史数据。
统计并输出每日新增用户数。

数据准备

原始数据格式：每行包含用户访问日期和用户名，以逗号分隔。
示例数据：
```
2024-05-01,mike
2024-05-01,alice
...
```

解决思路

使用倒排索引法，将用户名映射到其访问日期。
确定每个用户的最小访问日期作为新增日期。
统计每个日期的出现次数，得出新增用户数。

实现步骤

交互式实现

启动Spark Shell

spark-shell --master spark://master:7077

读取用户文件，创建单列DataFrame

val df = spark.read.text("hdfs://master:9000/newusers/input/users.txt")

数据转换，将单列DataFrame转换成多列DataFrame

val userDF = df.withColumn("date", split(col("value"), ",")(0)).withColumn("name", split(col("value"), ",")(1)).drop("value")

创建临时视图

userDF.createOrReplaceTempView("t_user")

使用SQL查询统计每日新增用户数

val result = spark.sql("""SELECT date, COUNT(name) AS countFROM (SELECT name, MIN(date) AS dateFROM t_userGROUP BY name)GROUP BY dateORDER BY date
""")

输出结果
```
result.show()
```

Spark项目实现

创建Maven项目，配置Scala和Spark依赖。
添加Scala SDK，准备编写Scala程序。
创建日志配置文件log4j.properties。
创建HDFS配置文件hdfs-site.xml。
编写Scala对象CountNewUsers，实现数据读取、转换、SQL查询和结果输出。
运行程序，查看HDFS上的输出结果。

结果验证

验证输出结果与期望统计结果一致。

示例期望结果：

+----------+-----+
|      date|count|
+----------+-----+
|2024-05-01|    3|
|2024-05-02|    1|
|2024-05-03|    2|
+----------+-----+

总结

本实战概述提供了使用Apache SparkSQL处理用户访问数据并统计每日新增用户数的详细步骤。通过交互式实现和项目化实现两种方式，本概述确保了任务的可操作性和可复现性。通过实战，可以加深对SparkSQL数据处理能力的理解，并掌握实际应用中的操作技巧。