Como Encontrar e Remover Duplicatas no SQL

Q: Como deletar duplicatas mas manter apenas 1 registro original?

A técnica mais segura e moderna é usar uma CTE (Common Table Expression) combinada com a Window Function ROW_NUMBER(). Você agrupa os dados pelos campos duplicados (usando PARTITION BY) e atribui um número de linha sequencial para cada um, ordenado pelo ID. Em seguida, você faz um DELETE apenas nos registros onde o número da linha for maior que 1 (row_num > 1), garantindo que o primeiro registro intacto seja preservado.

Q: É seguro rodar um DELETE de duplicatas direto em produção?

Não. Sempre execute a sua query como um SELECT primeiro para garantir que a lógica (especialmente o NOT IN ou o ROW_NUMBER) está marcando as linhas corretas para exclusão. Ao executar o DELETE, envolva a operação em uma Transação (BEGIN TRAN / COMMIT / ROLLBACK), para que você possa reverter caso a exclusão atinja mais registros do que o esperado.

Detectar valores duplicados em tabelas SQL é uma tarefa comum no gerenciamento de banco de dados, mas que pode ser abordada de diversas maneiras, dependendo da complexidade da situação. Este artigo explorará não apenas as abordagens básicas, mas também hacks avançados para lidar com cenários complexos.

1. Conceito de Duplicidade

Duplicidade ocorre quando registros em uma ou mais colunas apresentam valores idênticos. Em SQL, usamos agrupamentos e funções de agregação para identificar esses valores. O exemplo mais básico seria encontrar duplicados em uma tabela com base em uma única coluna.

2. Encontrando Duplicados: O Básico

Vamos começar com uma abordagem simples, assumindo uma tabela users com a seguinte estrutura:

Dica de Leitura: Agora que você está explorando como lidar com duplicatas em SQL, você pode estar se perguntando como automatizar ou melhorar a eficiência em suas tarefas de desenvolvimento. Para isso, uma ferramenta como o OpenAI Codex pode ser revolucionária. Aprenda a usar o OpenAI Codex com mais eficiência para elevar seu jogo em programação!

id	name	email
1	Alice	[email protected]
2	Bob	[email protected]
3	Alice	[email protected]

Para identificar valores duplicados na coluna email:

SELECT email, COUNT(*) AS occurrences
FROM users
GROUP BY email
HAVING COUNT(*) > 1;

Resultado:

email	occurrences
[email protected]	2

Aqui, usamos GROUP BY para agrupar registros pelo campo email e HAVING COUNT(*) > 1 para filtrar os que ocorrem mais de uma vez.

VAI GOSTAR: SQL: Domine Views Virtuais e Materializadas

3. Identificando Registros Duplicados com IDs

Caso queira identificar os IDs dos registros duplicados, você pode usar uma subquery:

SELECT id, email
FROM users
WHERE email IN (
    SELECT email
    FROM users
    GROUP BY email
    HAVING COUNT(*) > 1
);

Resultado:

id	email
1	[email protected]
3	[email protected]

Isso retorna os IDs associados aos valores duplicados.

4. Hacks Avançados

4.1. Lidando com Duplicados em Múltiplas Colunas

Quando a duplicidade precisa ser verificada em várias colunas, você pode usar a concatenação:

SELECT name, email, COUNT(*) AS occurrences
FROM users
GROUP BY name, email
HAVING COUNT(*) > 1;

Se o banco de dados for compatível, você pode usar a função ROW para lidar com múltiplas colunas mais elegantemente:

SELECT name, email, COUNT(*) AS occurrences
FROM users
GROUP BY ROW(name, email)
HAVING COUNT(*) > 1;

4.2. Excluindo Duplicados Manualmente

Depois de identificar os registros duplicados, você pode removê-los usando a cláusula DELETE com uma subquery:

DELETE FROM users
WHERE id NOT IN (
    SELECT MIN(id)
    FROM users
    GROUP BY email
);

Aqui, mantemos apenas o registro com o menor id de cada grupo de duplicados.

4.3. Detectando Duplicados com Janela Analítica

Uma abordagem mais avançada é usar funções de janela para marcar duplicados:

SELECT id, name, email,
       ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS row_num
FROM users;

Resultado:

                
english-interview-debugger.sh

                $ grep -r "senior_dev_communication" ./career
            
                [CRITICAL_ERROR] Código sênior detectado, mas fluência falhou no runtime. 
                
Motivo: Travou na hora de explicar a arquitetura (System Design) em inglês para o gringo.
            
                O mercado internacional não quer um robô de gramática. Quer um dev que saiba defender uma tomada de decisão técnica sob pressão. Destrave sua conversão na Preply com aulas particulares focadas em TI.
            
                  $ ./fix-english.sh --target=remote-job
                
                    Achar Professor Particular ➔

id	name	email	row_num
1	Alice	[email protected]	1
3	Alice	[email protected]	2
2	Bob	[email protected]	1

Isso atribui números de linha para registros dentro de cada grupo de duplicados. Posteriormente, você pode usar row_num > 1 para identificar e remover duplicados:

DELETE FROM users
WHERE id IN (
    SELECT id
    FROM (
        SELECT id, ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS row_num
        FROM users
    ) AS subquery
    WHERE row_num > 1
);

4.4. Agregando Dados Duplicados

Em vez de remover ou listar duplicados, pode ser útil agregá-los. Por exemplo, combinando os nomes associados a emails duplicados:

SELECT email, STRING_AGG(name, ', ') AS names
FROM users
GROUP BY email
HAVING COUNT(*) > 1;

Resultado:

email	names
[email protected]	Alice, Alice

A função STRING_AGG (ou equivalente) facilita a criação de uma lista consolidada de valores.

4.5. Monitorando Duplicados com Triggers

Para evitar duplicados futuros, você pode criar um trigger:

CREATE OR REPLACE FUNCTION prevent_duplicates()
RETURNS TRIGGER AS $$
BEGIN
  IF EXISTS (
    SELECT 1
    FROM users
    WHERE email = NEW.email
  ) THEN
    RAISE EXCEPTION 'Duplicate email detected: %', NEW.email;
  END IF;
  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER prevent_duplicates_trigger
BEFORE INSERT OR UPDATE ON users
FOR EACH ROW
EXECUTE FUNCTION prevent_duplicates();

5. Conclusão

Encontrar e gerenciar duplicados em SQL é uma tarefa essencial para manter a integridade dos dados. Usando abordagens básicas e hacks avançados, como funções de janela e triggers, você pode não apenas identificar duplicados, mas também preveni-los e gerenciá-los de forma eficiente. Experimente essas técnicas no seu banco de dados e adapte-as às suas necessidades específicas.

VAI GOSTAR: Técnicas Avançadas para Otimização de Performance no MySQL

Referências para estudo sobre Detecção e Gerenciamento de Duplicados em SQL

Abaixo, estão algumas referências relevantes que cobrem desde conceitos básicos até estratégias avançadas para lidar com valores duplicados em tabelas SQL:

Documentação Oficial

MySQL Documentation: “GROUP BY Optimization”
Link: MySQL Docs
Explicação detalhada sobre como GROUP BY funciona e como otimizar consultas para identificar duplicados.
Oracle SQL Documentation: “Analytic Functions”
Link: Oracle Docs
Guia oficial sobre funções analíticas no Oracle Database, aplicáveis para encontrar duplicados.
Microsoft SQL Server: “ROW_NUMBER (Transact-SQL)”
Link: SQL Server Docs
Documentação oficial sobre a função ROW_NUMBER, usada amplamente para marcar duplicados.

Livros

“SQL em 10 Minutos por dia , Sams Teach Yourself” – Ben Forta
Livro introdutório que cobre práticas essenciais de SQL, incluindo consultas com GROUP BY e manipulação de registros.

Ferramentas e Utilitários

dbForge Studio for MySQL
Link: dbForge
Ferramenta para desenvolver e testar consultas SQL, incluindo recursos visuais para encontrar e remover duplicados.
DBeaver
Link: DBeaver
Ferramenta gratuita para gerenciamento de bancos de dados com suporte a múltiplos SGBDs, ideal para explorar duplicados.
SQL Fiddle
Link: SQL Fiddle
Ferramenta online para testar rapidamente consultas SQL em diferentes bancos de dados.

Conclusão

Estas referências fornecem uma base sólida para aprender e aplicar técnicas de identificação e manipulação de valores duplicados em SQL. Combine o conhecimento teórico com as ferramentas sugeridas para maximizar sua produtividade e eficiência em bancos de dados.

LEIA TAMBEM:

Perguntas Frequentes (FAQ): Duplicatas no SQL

Qual é o comando mais simples para encontrar duplicatas?

A forma mais universal de encontrar registros duplicados em uma coluna específica é utilizar as cláusulas GROUP BY e HAVING. Por exemplo: SELECT email, COUNT(*) FROM usuarios GROUP BY email HAVING COUNT(*) > 1;. Isso retornará apenas os e-mails que aparecem duas ou mais vezes na tabela.

Como deletar duplicatas mas manter apenas 1 registro original?

A técnica mais segura e moderna é usar uma CTE (Common Table Expression) combinada com a Window Function ROW_NUMBER(). Você agrupa os dados pelos campos duplicados (usando PARTITION BY) e atribui um número de linha sequencial para cada um, ordenado pelo ID. Em seguida, você faz um DELETE apenas nos registros onde o número da linha for maior que 1 (row_num > 1), garantindo que o primeiro registro intacto seja preservado.

Por que registros duplicados aparecem no banco de dados?

O motivo número um para o surgimento de duplicatas é a ausência de Constraints de Unicidade (UNIQUE) ou de uma Chave Primária (Primary Key) composta bem definida no esquema da tabela. Sem essas restrições, falhas no backend (como cliques duplos do usuário na interface, repetição de chamadas de API ou falhas na lógica de inserção/upsert) forçarão o banco de dados a aceitar dados idênticos sem reclamar.

É seguro rodar um DELETE de duplicatas direto em produção?

Não. Sempre execute a sua query como um SELECT primeiro para garantir que a lógica (especialmente o NOT IN ou o ROW_NUMBER) está marcando as linhas corretas para exclusão. Ao executar o DELETE, envolva a operação em uma Transação (BEGIN TRAN / COMMIT / ROLLBACK), para que você possa reverter caso a exclusão atinja mais registros do que o esperado.

Artigo anterior

Livros sobre Inteligência Artificial com Node.js e JavaScript

Próximo artigo

Stored Procedures em Ação: Desbloqueie o Desempenho

Como Encontrar e Remover Duplicatas no SQL

Eleve seu desenvolvimento com o Cursor

1. Conceito de Duplicidade

2. Encontrando Duplicados: O Básico

3. Identificando Registros Duplicados com IDs

4. Hacks Avançados

4.1. Lidando com Duplicados em Múltiplas Colunas

4.2. Excluindo Duplicados Manualmente

4.3. Detectando Duplicados com Janela Analítica

4.4. Agregando Dados Duplicados

4.5. Monitorando Duplicados com Triggers

5. Conclusão

Referências para estudo sobre Detecção e Gerenciamento de Duplicados em SQL

Documentação Oficial

Livros

Ferramentas e Utilitários

Conclusão

Avance na Manipulação de Banco de Dados

Perguntas Frequentes (FAQ): Duplicatas no SQL

Gostou do conteúdo? Que tal programar ganhando em Dólar?

Pesquisa: Como você está usando IA na sua rotina Dev?

Mais recentes

Evolua para Sênior

Mais Lidos

Evolua para Sênior

Recursos da Comunidade

JOB NA GRINGA

Você vai gostarrelacionadosContinue aprendendo

Quer dominar arquitetura e IA?

Você vai gostarrelacionados
Continue aprendendo