其他

SQLDISTINCT去重：从入门到精通的完整指南

悠悠楠杉

2025-08-23

0 评论

104 阅读

正在检测是否收录...

08/23

SQL DISTINCT去重：从入门到精通的完整指南

1. DISTINCT的基本概念与作用

在数据库查询中，我们经常会遇到需要去除重复数据的情况。SQL中的DISTINCT关键字就是专门为解决这类问题而设计的。DISTINCT用于从SELECT语句的结果集中消除重复行，确保返回的每一行都是唯一的。

想象一下这样的场景：你有一个包含客户订单的数据库表，有些客户可能下了多个订单。如果你只想查看有哪些不同的客户下了订单，而不是每个订单记录都显示一次，这时DISTINCT就派上用场了。

2. DISTINCT的基本语法

DISTINCT的使用非常简单，基本语法如下：

sql SELECT DISTINCT column1, column2, ... FROM table_name [WHERE conditions];

让我们通过一个实际的例子来理解。假设我们有一个名为"employees"的表，包含以下数据：

| id | name | department | salary |
|----|-------|------------|--------|
| 1 | Alice | HR | 5000 |
| 2 | Bob | IT | 6000 |
| 3 | Carol | HR | 5500 |
| 4 | Dave | IT | 6000 |
| 5 | Alice | IT | 7000 |

如果我们想查询所有不同的部门名称：

sql SELECT DISTINCT department FROM employees;

执行结果将是：

department

HR
IT

3. DISTINCT的进阶用法

3.1 多列组合去重

DISTINCT不仅可以应用于单列，还可以应用于多列的组合。在这种情况下，只有当所有指定列的值都相同时，才会被视为重复行。

sql SELECT DISTINCT name, department FROM employees;

执行结果：
name | department ------|----------- Alice | HR Bob | IT Carol | HR Dave | IT Alice | IT

注意这里Alice出现了两次，因为她属于不同部门，被视为不同的记录。

3.2 与ORDER BY结合使用

DISTINCT经常与ORDER BY一起使用，以便对去重后的结果进行排序：

sql SELECT DISTINCT department FROM employees ORDER BY department DESC;

执行结果：

department

IT
HR

3.3 在聚合函数中使用DISTINCT

DISTINCT还可以用在聚合函数中，如COUNT、SUM等：

sql SELECT COUNT(DISTINCT department) AS dept_count FROM employees;

执行结果：

dept_count

这个查询统计了不同部门的数量，而不是所有部门记录的总数。

4. DISTINCT的替代方案

虽然DISTINCT是去重的直接方法，但在某些情况下，其他方法可能更有效：

4.1 使用GROUP BY去重

sql SELECT department FROM employees GROUP BY department;

这个查询与SELECT DISTINCT department FROM employees效果相同，但在某些数据库系统中，GROUP BY的性能可能更好，特别是当与聚合函数一起使用时。

4.2 使用窗口函数去重

对于更复杂的场景，窗口函数可以提供更灵活的去重方式：

sql SELECT * FROM ( SELECT *, ROW_NUMBER() OVER(PARTITION BY department ORDER BY id) AS rn FROM employees ) t WHERE rn = 1;

这个查询会为每个部门返回一条记录（按id排序的第一条）。

5. DISTINCT的性能考虑

虽然DISTINCT非常方便，但使用不当可能会对查询性能产生负面影响：

DISTINCT操作需要排序：大多数数据库引擎在执行DISTINCT操作时需要对数据进行排序，这是一个相对昂贵的操作。
应用于多列时开销更大：DISTINCT应用于的列数越多，所需的比较和排序工作就越多。
与大量数据结合使用时：在大表上使用DISTINCT可能会导致性能问题。

优化建议：
- 只在必要时使用DISTINCT
- 考虑在相关列上创建索引
- 对于复杂查询，先过滤数据再应用DISTINCT
- 在可能的情况下，使用LIMIT减少处理的数据量

6. 实际应用场景

6.1 电商平台中的商品分类

sql SELECT DISTINCT category FROM products WHERE stock_quantity > 0;

这个查询可以获取所有有库存商品的不同分类，用于构建导航菜单。

6.2 用户行为分析

sql SELECT DISTINCT user_id FROM user_logs WHERE action_time > '2023-01-01';

这个查询可以找出2023年以来有过活动的所有不同用户ID。

6.3 报表数据准备

sql SELECT DISTINCT city, region FROM customers ORDER BY region, city;

这个查询可以生成一个按地区排序的不重复城市列表，用于报表制作。

7. 常见问题与误区

DISTINCT与所有SELECT列相关：有些人误以为DISTINCT只应用于紧随其后的列，实际上它作用于所有选择的列。
DISTINCT与DISTINCTROW的区别：在某些数据库系统中存在DISTINCTROW关键字，但在大多数现代系统中，它与DISTINCT功能相同。
NULL值的处理：在去重时，NULL值被视为彼此相等，因此多个NULL值会被合并为一个。
与ORDER BY的列不匹配：在某些数据库中，ORDER BY的列必须包含在SELECT DISTINCT的列中。

8. 高级技巧

8.1 使用DISTINCT ON (PostgreSQL特有)

PostgreSQL提供了DISTINCT ON语法，可以实现更灵活的去重：

sql SELECT DISTINCT ON (department) id, name, department, salary FROM employees ORDER BY department, salary DESC;

这个查询会返回每个部门中薪资最高的员工记录。

8.2 使用子查询去重

对于复杂场景，可以使用子查询先过滤数据：

sql SELECT * FROM ( SELECT name, department, MAX(salary) AS max_salary FROM employees GROUP BY name, department ) t;

这个查询会获取每个员工在每个部门的最高薪资记录。

8.3 使用EXISTS去重

sql SELECT e1.* FROM employees e1 WHERE NOT EXISTS ( SELECT 1 FROM employees e2 WHERE e2.department = e1.department AND e2.id < e1.id );

这个查询会返回每个部门中ID最小的那条记录。

9. 总结

SQL中的DISTINCT关键字是一个强大而实用的工具，能够帮助我们轻松地从查询结果中去除重复数据。通过本指南，你应该已经掌握了：

DISTINCT的基本语法和使用方法
多列组合去重的技巧
与聚合函数和排序的结合使用
性能优化的考虑因素
实际应用场景和常见问题的解决方案
一些高级去重技巧

记住，虽然DISTINCT很方便，但并不是所有去重问题都需要用它解决。根据具体的数据结构和查询需求，有时GROUP BY、窗口函数或其他方法可能更合适。理解各种去重方法的优缺点，才能在实际工作中做出最佳选择。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/36515/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

SQLDISTINCT去重：从入门到精通的完整指南

SQL DISTINCT去重：从入门到精通的完整指南

1. DISTINCT的基本概念与作用

2. DISTINCT的基本语法

department

3. DISTINCT的进阶用法

3.1 多列组合去重

3.2 与ORDER BY结合使用

department

3.3 在聚合函数中使用DISTINCT

dept_count

4. DISTINCT的替代方案

4.1 使用GROUP BY去重

4.2 使用窗口函数去重

5. DISTINCT的性能考虑

6. 实际应用场景

6.1 电商平台中的商品分类

6.2 用户行为分析

6.3 报表数据准备

7. 常见问题与误区

8. 高级技巧

8.1 使用DISTINCT ON (PostgreSQL特有)

8.2 使用子查询去重

8.3 使用EXISTS去重

9. 总结

人生倒计时