Coleta de dados e tipos de amostragem em linguagem R
A estatística e a ciência de dados têm um ponto de partida em comum: a coleta de dados. Antes de realizar qualquer análise ou visualização, é preciso compreender de onde vêm os dados, como eles são coletados e como selecionar amostras representativas.
Nesta postagem, você vai entender, de forma resumida:
- O que é coleta de dados;
- O significado de variável;
- A diferença entre população e amostra;
- Os principais tipos de amostragem;
- E como aplicar cada tipo de amostragem na linguagem R.
O que é Coleta de Dados?
A coleta de dados é a segunda etapa de um estudo estatístico, a primeira é o planejamento. Nela, a coleta de dados, o pesquisador obtém informações sobre uma característica de interesse — seja por observação, entrevistas, questionários ou fontes oficiais (como IBGE, DataSUS, etc.).
Tipos de coleta de dados:
- 1. Coleta de dados direta: dados obtidos diretamente pelo pesquisador, especificamente para o estudo.
- Coleta contínua: (Registro) quando feita continuamente, tal como a de nascimentos, óbitos e etc.
- Coleta periódica: quando feito em intervalos constantes de tempo, como os censos (de 10 em 10 anos).
- Coleta ocasional: quando feita extemporaneamente, afim de atender a uma conjuntura ou emergência.
- 2. Coleta de dados indireta: dados que já existem e são reutilizados.
Conjunto de funções para coleta de dados em linguagem R.
# Coleta em aquivo csv
arquivo_csv <- read.csv(file = "arquivo.csv")
# Coleta em arquivo csv via internet
arquivo_internet <- read.csv("https://arquivo.csv")
# Coleta em arquivo tsv
arquivo_tsv <- read.delim("arquivo.tsv")
# Coleta em arquivo Excel
arquivo_excel <- read_excel("arquivo.xlsx")
# Coleta em arquivo json
arquivo_json <- fromJSON("arquivo.json")
# Coleta em arquivo xml
arquivo_xml <- xmlToDataFrame("arquivo.xml")
# Coleta em arquivo html
arquivo_html <- read_html("arquivo.html")
O que são Variáveis?
Variável é o conjunto de resultados possíveis de um fenômeno. Por exemplo: altura, peso, salário, e etc.
- Variáveis quantitativas:
- variáveis contínuas: são variáveis utilizadas para medição: altura, peso, e etc
- variáveis discretas: são variáveis utilizadas para contagem: idade, números de filhos, e etc
- Variáveis qualitativas:
- variáveis nominais: são variáveis categóricas, utilizadas para nomear: nome, sexo, e etc
- variáveis ordinais: são variáveis categóricas, utilizadas para ordenar ou classificar: manhã, tarde, noite, e etc
População e Amostras
Antes de selecionar os dados, é importante entender dois conceitos básicos:
- População: conjunto total de elementos com uma característica em comum. Exemplo: todos os alunos de uma escola.
- Amostra: subconjunto representativo da população. Exemplo: 50 alunos escolhidos aleatoriamente para uma pesquisa.
Por que usar amostras?
Estudar toda a população é caro e demorado. A amostra permite inferir resultados com boa precisão e menor custo.
Amostragem
Amostragem é o processo de selecionar um grupo menor de uma população para ser estudado, com o objetivo de fazer inferências sobre a totalidade do grupo. Esse método é usado quando é inviável coletar dados de todos os membros da população, como em pesquisas de opinião pública com milhões de eleitores.
Em estatística, existem dois grandes grupos de métodos de Amostragens:
- Amostragem Probabilística: cada elemento da população tem chance conhecida e diferente de zero de ser selecionado.
- Amostragem aleatória: Cada elemento tem a mesma probabilidade de ser escolhido.
- Amostragem Sistematica: Seleciona-se o primeiro elemento aleatoriamente e os seguintes em intervalos fixos.
- Amostragem Estratificada: A população é dividida em estratos homogêneos (ex: gênero, faixa etária) e é feita uma amostra dentro de cada estrato.
- Entre outras.
- Amostragem Não Probabilística: A escolha dos elementos não é aleatória, dependendo do julgamento do pesquisador.
- Amostragem por Conveniência: Seleciona-se os elementos mais fáceis de acessar.
- Amostragem Intencional (ou por Julgamento): O pesquisador escolhe elementos que considera mais representativos.
- Amostragem por Cotas: Semelhante à estratificada, mas sem aleatoriedade, mantendo proporções pré-definidas.
- Entre outras.
Exemplos de técnicas de Amostragem em linguagem R
Conjunto de dados para exemplo: dataframe "alunos" com 100 linhas(observações) e 5 colunas(variáveis): nome, idade, sexo, altura e peso.
# Exemplo de coleta de dados com arquivo csv via função read.csv em linguagem R.
alunos <- read.csv(file = "alunos_csv/alunos.csv")
Amostragens Probabilísticas
Amostragem aleatória:
# Escolha aleatória de 20 linhas do conjunto de dados.
amostra_aleatoria <- alunos[sample(nrow(alunos), 20),]
# A função data.frame() cria outro conjunto de dados com as 20 observações.
df_amostra_aleatoria <- data.frame(amostra_aleatoria)
# Imprime as primeiras linhas do data frame.
head(df_amostra_aleatoria)
# Conta a quantidade de linhas(observações).
nrow(df_amostra_aleatoria
Amostragem sistemática:
# Total de linhas da população.
total_linhas <- nrow(alunos)
# Tamanho da amostra.
tamanho_amostra <- 20
# Intervalo.
intervalo <- floor(total_linhas / tamanho_amostra)
# Cria início da contagem.
inicio <- sample(1: intervalo, 1)
# A função seq() cria uma sequência dos índices da amostra sistemática.
amostra_sistematica <- seq(inicio, by = intervalo, length.out = tamanho_amostra)
# A função data.frame() cria outro conjunto de dados com os 20 índices da amostra.
df_amostra_sistematica <- data.frame(amostra_sistematica)
# Imprime os índices da amostra.
df_amostra_sistematica
Amostragem Estratificada:
# Instalação do pacote dplyr
install.packages("dplyr")
# Execução do pacote
library(dplyr)
# A função group_by() agrupa por sexo e slice_sample() separa proporcionalmente as 20 observações(12 "M" e 8 "F")
amostra_estratificada <- alunos %>%
group_by(sexo) %>%
slice_sample(prop = 0.2)
# Imprime o resultado.
amostra_estratificada
Amostragens Não Probabilísticas
Amostragem por Conveniência:
# Selecionando manualmente os 20 primeiros registros.
amostra_conveniencia <- head(alunos, 20)
# Imprime resultados
amostra_conveniencia
Amostragem Intencional (ou por Julgamento):
# O pesquisador escolhe elementos que considera mais representativos.
amostra_intencional <- alunos %>%
filter(idade > 27)
# Imprime resultados.
amostra_intencional
Amostragem por Cotas:
# Semelhante à estratificada, mas sem aleatoriedade, mantendo proporções pré-definidas.
amostra_cotas <- rbind(
head(subset(alunos, sexo == "M"), 10),
head(subset(alunos, sexo == "F"), 10)
)
# Imprime resultados
amostra_cotas
Conclusão
A amostragem é uma das etapas mais importantes de qualquer estudo estatístico ou análise de dados. Usando a linguagem R, é possível aplicar métodos de amostragem de forma simples, reprodutível e automatizada.
Escolher o tipo certo de amostragem garante que suas conclusões sejam representativas e confiáveis. Muito obrigado e até a próximma.
Repositório de exemplo: https://github.com/jcarlossc/collection-sampling-r

Comentários
Postar um comentário