在实际开发中,数据重复是常见问题,例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录,对系统性能和数据准确性至关重要。
本文将探讨如何使用 SQL 的 窗口函数、分组查询 以及 DISTINCT 实现复杂场景下的数据去重与唯一值提取,避免重复数据干扰业务分析。
一、核心 SQL 函数与技术
| 函数/技术 | 说明 | 示例 |
|---|---|---|
| DISTINCT | 去除重复行,返回唯一记录 | SELECT DISTINCT(user_id) FROM logins |
| GROUP BY | 按指定列分组,返回每组的聚合结果 | SELECT user_id, MAX(login_time) FROM logins GROUP BY user_id |
| ROW_NUMBER() | 窗口函数,为每组记录编号,通常用于去重或排名 | ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) |
| RANK() | 类似 ROW_NUMBER(),但排名相同记录具有相同序号 | RANK() OVER (PARTITION BY user_id ORDER BY score DESC) |
| DENSE_RANK() | 连续排名,不跳跃 | DENSE_RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) |
二、实战案例
案例 1:查询每个用户的最新登录记录
需求描述:
系统中存储了用户的多次登录记录,我们需要提取每个用户最近的一次登录记录,去除重复数据。
表结构 logins
| login_id | user_id | login_time |
|---|---|---|
| 101 | 1 | 2024-01-01 08:30:00 |
| 102 | 1 | 2024-01-02 10:00:00 |
| 103 | 2 | 2024-01-01 09:15:00 |
| 104 | 2 | 2024-01-03 14:45:00 |
| 105 | 3 | 2024-01-02 11:00:00 |
方法 1:使用 GROUP BY 结合 MAX()
SELECT user_id, MAX(login_time) AS latest_login
FROM logins
GROUP BY user_id;
查询结果
| user_id | latest_login |
|---|---|
| 1 | 2024-01-02 10:00:00 |
| 2 | 2024-01-03 14:45:00 |
| 3 | 2024-01-02 11:00:00 |
解释:
- 通过
GROUP BY user_id对每个用户分组,MAX(login_time)提取每组中最新的登录时间。 - 该方法高效,适用于简单去重场景,但无法返回完整的记录(如
login_id)。
方法 2:使用窗口函数 ROW_NUMBER()
SELECT login_id, user_id, login_time
FROM ( SELECT login_id, user_id, login_time, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) AS rn FROM logins
) t
WHERE rn = 1;
查询结果
| login_id | user_id | login_time |
|---|---|---|
| 102 | 1 | 2024-01-02 10:00:00 |
| 104 | 2 | 2024-01-03 14:45:00 |
| 105 | 3 | 2024-01-02 11:00:00 |
解释:
ROW_NUMBER()为每个用户的登录记录按时间降序排序,并按用户分区。- 只保留排名为
1的记录,即最新的登录记录。 - 优势:保留了原始记录的完整性(包括
login_id)。
案例 2:提取每个用户的最高订单金额记录
需求描述:
在电商系统中,每个用户可能有多笔订单,我们需要提取每个用户最高的订单记录。
表结构 orders
| order_id | user_id | amount | order_time |
|---|---|---|---|
| 1001 | 1 | 500 | 2024-01-05 09:00:00 |
| 1002 | 1 | 800 | 2024-01-06 14:00:00 |
| 1003 | 2 | 1200 | 2024-01-04 16:30:00 |
| 1004 | 2 | 900 | 2024-01-05 11:00:00 |
| 1005 | 3 | 700 | 2024-01-06 10:00:00 |
方法 1:使用 RANK() 保留最高金额记录
SELECT order_id, user_id, amount, order_time
FROM ( SELECT order_id, user_id, amount, order_time, RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rnk FROM orders
) t
WHERE rnk = 1;
查询结果
| order_id | user_id | amount | order_time |
|---|---|---|---|
| 1002 | 1 | 800 | 2024-01-06 14:00:00 |
| 1003 | 2 | 1200 | 2024-01-04 16:30:00 |
| 1005 | 3 | 700 | 2024-01-06 10:00:00 |
解释:
RANK()允许处理最高金额相同的情况,例如如果两个订单金额相同,则两条记录都将保留。- 区别:
RANK()和DENSE_RANK()不会跳跃记录,而ROW_NUMBER()只保留一条记录。
案例 3:去除重复订单记录,保留最新一笔
需求描述:
订单系统中可能存在重复提交的订单记录,如何保留每个用户最新的一笔订单。
SQL 实现
DELETE t1
FROM orders t1
JOIN orders t2
ON t1.user_id = t2.user_id
AND t1.order_time < t2.order_time;
解释:
- 通过自联结(
JOIN)比较同一用户的订单时间,保留最新的订单记录,删除早期的重复记录。
三、去重与唯一值提取的优化建议
-
使用窗口函数提升性能:
窗口函数如ROW_NUMBER()和RANK()能够在一次查询中完成分组与排序,减少多次查询操作,提高去重效率。 -
索引优化:
在频繁去重或分组查询的场景下,为分组字段(如user_id)和时间字段(如login_time)创建索引,可以显著提升查询性能。
CREATE INDEX idx_user_login ON logins(user_id, login_time DESC);
- 聚合函数慎用:
在只需要统计数据时,可以使用GROUP BY和MAX(),但在保留完整记录时,应选择窗口函数进行精细控制。
四、总结
- 去重策略多样化:根据业务需求选择合适的去重方法,
GROUP BY适用于简单去重,ROW_NUMBER()和RANK()适用于复杂场景。 - 窗口函数灵活高效:
ROW_NUMBER()等函数可以在保留完整记录的同时,精确筛选唯一值,解决复杂去重需求。 - 索引优化:在大数据量环境下,合理使用索引能有效提升去重查询的性能。
