Coleta de dados e tipos de amostragem em linguagem R

A estatística e a ciência de dados têm um ponto de partida em comum: a coleta de dados. Antes de realizar qualquer análise ou visualização, é preciso compreender de onde vêm os dados, como eles são coletados e como selecionar amostras representativas.

Nesta postagem, você vai entender, de forma resumida:

  • O que é coleta de dados;
  • O significado de variável;
  • A diferença entre população e amostra;
  • Os principais tipos de amostragem;
  • E como aplicar cada tipo de amostragem na linguagem R.

O que é Coleta de Dados?

A coleta de dados é a segunda etapa de um estudo estatístico, a primeira é o planejamento. Nela, a coleta de dados, o pesquisador obtém informações sobre uma característica de interesse — seja por observação, entrevistas, questionários ou fontes oficiais (como IBGE, DataSUS, etc.).

Tipos de coleta de dados:

  • 1. Coleta de dados direta: dados obtidos diretamente pelo pesquisador, especificamente para o estudo.
    • Coleta contínua: (Registro) quando feita continuamente, tal como a de nascimentos, óbitos e etc.
    • Coleta periódica: quando feito em intervalos constantes de tempo, como os censos (de 10 em 10 anos).
    • Coleta ocasional: quando feita extemporaneamente, afim de atender a uma conjuntura ou emergência.
  • 2. Coleta de dados indireta: dados que já existem e são reutilizados.

Conjunto de funções para coleta de dados em linguagem R.

 
# Coleta em aquivo csv
arquivo_csv <- read.csv(file = "arquivo.csv") 
# Coleta em arquivo csv via internet
arquivo_internet <- read.csv("https://arquivo.csv")	   	
# Coleta em arquivo tsv
arquivo_tsv <- read.delim("arquivo.tsv")	
# Coleta em arquivo Excel
arquivo_excel <- read_excel("arquivo.xlsx")	
# Coleta em arquivo json
arquivo_json <- fromJSON("arquivo.json")	
# Coleta em arquivo xml
arquivo_xml <- xmlToDataFrame("arquivo.xml")	
# Coleta em arquivo html
arquivo_html <- read_html("arquivo.html")			   


O que são Variáveis?

Variável é o conjunto de resultados possíveis de um fenômeno. Por exemplo: altura, peso, salário, e etc.

  • Variáveis quantitativas:
    • variáveis contínuas: são variáveis utilizadas para medição: altura, peso, e etc
    • variáveis discretas: são variáveis utilizadas para contagem: idade, números de filhos, e etc
  • Variáveis qualitativas:
    • variáveis nominais: são variáveis categóricas, utilizadas para nomear: nome, sexo, e etc
    • variáveis ordinais: são variáveis categóricas, utilizadas para ordenar ou classificar: manhã, tarde, noite, e etc

População e Amostras

Antes de selecionar os dados, é importante entender dois conceitos básicos:

  • População: conjunto total de elementos com uma característica em comum. Exemplo: todos os alunos de uma escola.
  • Amostra: subconjunto representativo da população. Exemplo: 50 alunos escolhidos aleatoriamente para uma pesquisa.

Por que usar amostras?

Estudar toda a população é caro e demorado. A amostra permite inferir resultados com boa precisão e menor custo.


Amostragem

Amostragem é o processo de selecionar um grupo menor de uma população para ser estudado, com o objetivo de fazer inferências sobre a totalidade do grupo. Esse método é usado quando é inviável coletar dados de todos os membros da população, como em pesquisas de opinião pública com milhões de eleitores.

Em estatística, existem dois grandes grupos de métodos de Amostragens:

  • Amostragem Probabilística: cada elemento da população tem chance conhecida e diferente de zero de ser selecionado.
    • Amostragem aleatória: Cada elemento tem a mesma probabilidade de ser escolhido.
    • Amostragem Sistematica: Seleciona-se o primeiro elemento aleatoriamente e os seguintes em intervalos fixos.
    • Amostragem Estratificada: A população é dividida em estratos homogêneos (ex: gênero, faixa etária) e é feita uma amostra dentro de cada estrato.
    • Entre outras.
  • Amostragem Não Probabilística: A escolha dos elementos não é aleatória, dependendo do julgamento do pesquisador.
    • Amostragem por Conveniência: Seleciona-se os elementos mais fáceis de acessar.
    • Amostragem Intencional (ou por Julgamento): O pesquisador escolhe elementos que considera mais representativos.
    • Amostragem por Cotas: Semelhante à estratificada, mas sem aleatoriedade, mantendo proporções pré-definidas.
    • Entre outras.

Exemplos de técnicas de Amostragem em linguagem R

Conjunto de dados para exemplo: dataframe "alunos" com 100 linhas(observações) e 5 colunas(variáveis): nome, idade, sexo, altura e peso.

 
# Exemplo de coleta de dados com arquivo csv via função read.csv em linguagem R.
alunos <- read.csv(file = "alunos_csv/alunos.csv")

Amostragens Probabilísticas

Amostragem aleatória:

 
# Escolha aleatória de 20 linhas do conjunto de dados.
amostra_aleatoria <- alunos[sample(nrow(alunos), 20),]

# A função data.frame() cria outro conjunto de dados com as 20 observações.
df_amostra_aleatoria <- data.frame(amostra_aleatoria)

# Imprime as primeiras linhas do data frame.
head(df_amostra_aleatoria)

# Conta a quantidade de linhas(observações).
nrow(df_amostra_aleatoria		   

Amostragem sistemática:

 
# Total de linhas da população.
total_linhas <- nrow(alunos)

# Tamanho da amostra.
tamanho_amostra <- 20    

# Intervalo.
intervalo <- floor(total_linhas / tamanho_amostra) 

# Cria início da contagem.
inicio <- sample(1: intervalo, 1)

# A função seq() cria uma sequência dos índices da amostra sistemática.
amostra_sistematica <- seq(inicio, by = intervalo, length.out = tamanho_amostra) 

# A função data.frame() cria outro conjunto de dados com os 20 índices da amostra.
df_amostra_sistematica <- data.frame(amostra_sistematica)

# Imprime os índices da amostra.
df_amostra_sistematica		   

Amostragem Estratificada:

 
# Instalação do pacote dplyr
install.packages("dplyr")
# Execução do pacote
library(dplyr)

# A função group_by() agrupa por sexo e slice_sample() separa proporcionalmente as 20 observações(12 "M" e 8 "F")
amostra_estratificada <- alunos %>%
  group_by(sexo) %>%
  slice_sample(prop = 0.2)

# Imprime o resultado.
amostra_estratificada 			   

Amostragens Não Probabilísticas

Amostragem por Conveniência:

 
# Selecionando manualmente os 20 primeiros registros.
amostra_conveniencia <- head(alunos, 20)

# Imprime resultados
amostra_conveniencia		   

Amostragem Intencional (ou por Julgamento):

 
# O pesquisador escolhe elementos que considera mais representativos.
amostra_intencional <- alunos %>%
  filter(idade > 27)

# Imprime resultados.
amostra_intencional	   

Amostragem por Cotas:

 
# Semelhante à estratificada, mas sem aleatoriedade, mantendo proporções pré-definidas.
amostra_cotas <- rbind(
  head(subset(alunos, sexo == "M"), 10),
  head(subset(alunos, sexo == "F"), 10)
)
# Imprime resultados
amostra_cotas   


Conclusão

A amostragem é uma das etapas mais importantes de qualquer estudo estatístico ou análise de dados. Usando a linguagem R, é possível aplicar métodos de amostragem de forma simples, reprodutível e automatizada.

Escolher o tipo certo de amostragem garante que suas conclusões sejam representativas e confiáveis. Muito obrigado e até a próximma.

Repositório de exemplo: https://github.com/jcarlossc/collection-sampling-r

Comentários

Postagens mais visitadas deste blog