Postagens

Imagem
Coleta de dados e tipos de amostragem em linguagem R A estatística e a ciência de dados têm um ponto de partida em comum: a coleta de dados. Antes de realizar qualquer análise ou visualização, é preciso compreender de onde vêm os dados, como eles são coletados e como selecionar amostras representativas. Nesta postagem, você vai entender, de forma resumida: O que é coleta de dados; O significado de variável; A diferença entre população e amostra; Os principais tipos de amostragem; E como aplicar cada tipo de amostragem na linguagem R. O que é Coleta de Dados? A coleta de dados é a segunda etapa de um estudo estatístico, a primeira é o planejamento. Nela, a coleta de dados, o pesquisador obtém informações sobre uma característica de interesse — seja por observação, entrevistas, questionários ou fontes oficiais (como IBGE, DataSUS, etc.). Tipos de coleta de dados: 1. Coleta de dados direta : dados obtidos diretamente pelo pesquisado...
Imagem
O que é o planejamento de um projeto de análise de dados O planejamento de um projeto de análise de dados consiste em definir objetivos claros, escopo, fontes de dados, métodos analíticos, ferramentas, indicadores de sucesso e cronograma antes da execução técnica. Em outras palavras, é o roteiro estratégico que orienta o processo de coleta, tratamento, exploração, modelagem e comunicação dos resultados, garantindo que o projeto gere insights úteis. Etapas do planejamento da análise de dados O planejamento é a fase estratégica do projeto, onde são definidos os propósitos do projeto: o que será feito, por que, como, e com quais recursos. Serve para garantir que o trabalho de análise seja direcionado, eficiente e gere valor real. 1. Definição do problema (ou questão de pesquisa) Objetivo : compreender claramente o que se quer resolver ou descobrir. o ponto de partida de todo o projeto. Perguntas-chave: Que problema motivou esta anális...
Imagem
Visualização de Dados com ggplot2 em R Se você trabalha com análise de dados em R, certamente já ouviu falar do ggplot2, um dos pacotes mais poderosos e versáteis para criação de gráficos e visualizações de alta qualidade. Nesta postagem, você vai aprender o que é o ggplot2, como ele funciona e verá exemplos práticos de gráficos mais usados no dia a dia de quem analisa dados. O que é o ggplot2? O ggplot2 foi criado por Hadley Wickham e faz parte do Tidyverse, um conjunto de pacotes voltados para manipulação e visualização de dados. O nome vem de Grammar of Graphics (Gramática dos Gráficos), um conceito criado por Leland Wilkinson que propõe que todo gráfico é formado por camadas, como dados, mapeamentos estéticos, geometrias e temas. Essa ideia permite que o usuário monte gráficos de forma declarativa, ou seja, descrevendo o que quer visualizar, e não como desenhar cada parte. Estrutura básica de um gráfico A estrutura básica de um gráfico em ggplot2 segue a...
Imagem
Manipulação de Dados com o Pacote dplyr Repositório de exemplo: https://github.com/jcarlossc/dplyr-functions-r O pacote dplyr é uma das ferramentas mais poderosas e populares para manipulação e transformação de dados na linguagem R. Ele faz parte do ecossistema tidyverse e oferece uma sintaxe simples, expressiva e eficiente para trabalhar com data frames (ou tibbles). Nesta postagem, você vai aprender os principais conceitos e funções do dplyr. O que é o dplyr? O dplyr foi criado para simplificar o trabalho com conjuntos de dados tabulares. Ele permite selecionar, filtrar, ordenar, agrupar e resumir informações de forma clara e performance otimizada. Para começar, basta instalar e carregar o pacote: # Instalar. install.packages("dplyr") # Carregar library(dplyr) 1. As seis funções básicas. Função Descrição Exemplo select() Seleciona colunas select(dados, nome, idade) filter() Filtra lin...
Imagem
Distribuição de Frequência com intevalo de classe em linguagem R A distribuição de frequência é uma das ferramentas mais básicas e importantes da estatística descritiva. Ela organiza os dados de forma resumida, mostrando o número de classes, o ponto médios das classes, quantas vezes cada valor aparece (frequência absoluta), como essa quantidade se acumula ao longo dos dados (frequência absoluta acumulada), e qual a proporção percentual que cada valor representa (frequência relativa e relativa acumulada). Nesta postagem, você vai entender o conceito de cada tipo de frequência e aprender a criar uma distribuição de frequência completa em R, com tabela e gráficos ilustrativos. Tipos de Frequência Classes (K): São intervalos de valores que agrupam os dados. Ponto médio (pm): São os valores que representam o centro do intervalo das classes. Frequência Absoluta (f): Número de vezes ...
Imagem
Explorando o ecossistema tidyverse na linguagem R Quando pensamos em ciência de dados com R, um dos nomes que mais aparece é o tidyverse. Mas afinal, o que é esse conjunto de pacotes e por que ele se tornou tão popular entre analistas, cientistas de dados e pesquisadores? O que é o tidyverse? O tidyverse é um ecossistema de pacotes no R criado para facilitar o trabalho com dados. A ideia central é seguir a filosofia do tidy data, onde: cada variável é uma coluna, cada observação é uma linha,, cada valor é uma célula. Essa padronização torna os dados mais fáceis de manipular, analisar e visualizar. O tidyverse cobre todo o fluxo de ciência de dados: Importar dados Organizar dados Transformar dados Visualizar resultadoss Modelar dados Comunicar resultados Modo de utilizar: A instalação deve ser executada no console do RStudio. install.packages("tidyverse") Após a instalação, quando você execut...
Imagem
Projeto SQLite com a linguagem R. Se você está começando com R e RStudio e quer aprender a trabalhar com bancos de dados locais, o projeto SQLite com R é uma ótima forma de praticar. Neste projeto, você vai criar, inserir, atualizar, remover e consultar dados. O que é SQLite? O SQLite é um banco de dados relacional leve, que não precisa de servidor. Ele salva os dados em arquivos simples (.db) e é perfeito para projetos pequenos ou médios, análises de dados e protótipos de sistemas. Estrutura do projeto: project-sqlite-r/ ├── main.R # Arquivo principal (executa todo o fluxo) ├── source-sqlite/ ├ ├── db_connection.R # Funções de conexão e desconexão ├ ├── db_schema.R # Criação do esquema (tabelas) ├ ├── db_operations.R # Inserção, atualização e exclusão ├ └── db_queries.R # Consultas ao banco ├── exemplo.db # Banco de dados SQLite (gerado automaticamente) ├── .Rprofile ├── .gitignore ├── R...