O pacote dplyr é uma das ferramentas mais poderosas e populares para manipulação e transformação de dados na linguagem R. Ele faz parte do ecossistema tidyverse e oferece uma sintaxe simples, expressiva e eficiente para trabalhar com data frames (ou tibbles).
Nesta postagem, você vai aprender os principais conceitos e funções do dplyr.
O que é o dplyr?
O dplyr foi criado para simplificar o trabalho com conjuntos de dados tabulares.
Ele permite selecionar, filtrar, ordenar, agrupar e resumir informações de forma clara e performance otimizada.
8. Predicados (para seleção com select() e across())
Função
Descrição
Exemplo
starts_with()
Colunas que começam com...
select(dados, starts_with("dep"))
ends_with()
Colunas que terminam com...
Eselect(dados, ends_with("ade"))
contains()
Colunas que contêm...
select(dados, contains("ario"))
matches("regex")
Colunas com expressão regular
select(dados, matches("e$"))
where(is.numeric)
Colunas numéricas
select(dados, where(is.numeric))
everything()
Todas as colunas
select(dados, departamento, everything())
9. Outras utilidades
Função
Descrição
Exemplo
distinct()
Remove linhas duplicadas
distinct(dados)
slice()
Seleciona linhas por posição
slice(dados, c(1,2,3))
slice_head()
Seleciona linhas no início
slice_head(dados, n = 3)
slice_tail()
Seleciona linhas do fim
slice_tail(dados, n = 3)
slice_sample()
Seleção aleatória
slice_sample(dados, n = 5)
row_number()
Retorna número da linha
mutate(dados, indice = row_number())
lead()
Acessa próxima linha
mutate(dados, proximo_salario = lead(salario))
lag()
Acessa próxima linha
mutate(dados, proximo_salario = lag(salario))
Conclusão
O dplyr é, sem dúvida, uma das ferramentas mais poderosas e indispensáveis do ecossistema tidyverse para quem trabalha com análise e manipulação de dados em R.
Com sua sintaxe intuitiva e expressiva, ele transforma tarefas repetitivas e complexas em operações simples e legíveis, facilitando o fluxo de trabalho de cientistas de dados, analistas e estudantes. Muito obrigado e até a próxima.
O que é a linguagem R? R é uma linguagem de programação e também um ambiente de software voltado para análise estatística, ciência de dados e visualização gráfica . Foi criada em 1993 por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia. É uma evolução da linguagem S, usada em estatística, e hoje é open source, mantida pela R Foundation . Características do R Extensível → possui milhares de pacotes disponíveis no CRAN (Comprehensive R Archive Network) Multiparadigma → suporta programação imperativa, funcional e orientada a objetos Multiplataforma → funciona em Windows, Linux e macOS Excelente para gráficos → gera gráficos simples ou complexos com poucos comandos Interpretada → roda diretamente no interpretador, sem necessidade de compilação Focada em estatística → possui funções nativas para análise de dados, testes estatísticos e modelos matemáticos Onde o R é usado? Academia e pesquisa científica → muito usado em te...
Microtutorial RStudio O RStudio é um ambiente de desenvolvimento integrado (IDE) projetado para a linguagem de programação R. Ele facilita o trabalho de cientistas de dados, estatísticos e analistas, oferecendo ferramentas para escrever, executar e depurar códigos em R, além de recursos para visualização, relatórios e integração com outras linguagens. Definição Existem duas versões principais: RStudio Desktop → roda localmente no computador RStudio Server → acessado pelo navegador, instalado em um servidor Suporta R Markdown, Shiny Apps, pacotes, gráficos interativos e conexão com bancos de dados Organiza o fluxo de trabalho em janelas (script, console, ambiente, gráficos, arquivos, etc.) Fornece uma interface gráfica amigável para trabalhar com R Interface do RStudio Source : área para escrever, salvar e executar scripts da linguagem R. Environment : Environmen → variáveis e outras estruturas do ...
Explorando o ecossistema tidyverse na linguagem R Quando pensamos em ciência de dados com R, um dos nomes que mais aparece é o tidyverse. Mas afinal, o que é esse conjunto de pacotes e por que ele se tornou tão popular entre analistas, cientistas de dados e pesquisadores? O que é o tidyverse? O tidyverse é um ecossistema de pacotes no R criado para facilitar o trabalho com dados. A ideia central é seguir a filosofia do tidy data, onde: cada variável é uma coluna, cada observação é uma linha,, cada valor é uma célula. Essa padronização torna os dados mais fáceis de manipular, analisar e visualizar. O tidyverse cobre todo o fluxo de ciência de dados: Importar dados Organizar dados Transformar dados Visualizar resultadoss Modelar dados Comunicar resultados Modo de utilizar: A instalação deve ser executada no console do RStudio. install.packages("tidyverse") Após a instalação, quando você execut...
Comentários
Postar um comentário