1 Modelo Linear Generalizado Misto (GLMM)

O Modelo Linear Generalizado Misto (GLMM) é uma técnica estatística utilizada para analisar a relação entre uma variável de interesse e um conjunto de factores explicativos, quando os dados são observados repetidamente ao longo do tempo sobre as mesmas entidades.

Esta técnica é particularmente útil quando as observações não são independentes, isto é, quando medições realizadas sobre a mesma entidade tendem a estar correlacionadas entre si. Nestes contextos, modelos mais simples podem produzir conclusões enviesadas, ao ignorarem essa dependência natural dos dados.

O GLMM permite responder a questões fundamentais como:

Os factores analisados apresentam um efeito estatisticamente significativo sobre a variável de interesse?
Como evolui esse resultado ao longo do tempo?
Qual é a proporção da variabilidade do resultado analisado que se deve a diferenças entre entidades, em comparação com os efeitos reais dos factores explicativos?

Do ponto de vista prático, o GLMM desempenha um papel central na tomada de decisão estatística, ao combinar num único modelo:

um componente que descreve o efeito médio dos factores analisados; e
um componente que capta eventuais diferenças individuais entre entidades.

Esta combinação torna a análise mais realista e os resultados mais fiáveis.

2 Contexto do problema

Uma empresa farmacêutica fictícia, especializada no desenvolvimento de medicamentos anticancerígenos, realizou um estudo pré-clínico com o objectivo de avaliar a eficácia de diferentes tratamentos no controlo do crescimento tumoral.

Para este efeito, foram utilizados camundongos com crescimento tumoral induzido, que foram acompanhados ao longo de um período de 45 dias. Durante este período, cada camundongo foi submetido a um regime de tratamento específico, incluindo medicamentos activos e um grupo de controlo (placebo). Ao longo do estudo, foram recolhidas medições repetidas do volume tumoral e do número de sítios metastáticos.

A empresa pretende compreender de que forma o crescimento tumoral evolui ao longo do tempo e se essa evolução difere entre os tratamentos administrados. Esta análise é fundamental para apoiar decisões sobre a continuidade, priorização ou exclusão de tratamentos em fases posteriores de desenvolvimento.

Modelo animal utilizado no estudo pré-clínico.

3 Análise Exploratória

Antes de aplicar qualquer modelo estatístico, é fundamental compreender a estrutura dos dados e o comportamento geral das variáveis em análise. Esta etapa permite identificar padrões, tendências temporais e características dos dados que são determinantes para a escolha da abordagem estatística mais adequada.

A análise exploratória deste estudo incide principalmente sobre a evolução do volume tumoral ao longo do tempo, a distribuição das observações por tratamento e a forma como os dados estão organizados.

# Pacotes Utilizados
library(tidyverse); library(janitor);
library(lmerTest); library(performance)

# Leitura do dataset
df <- read_csv("dataset.csv") %>% clean_names()

# Estrutura dos dados
df %>% glimpse()

#> Rows: 500
#> Columns: 8
#> $ id_mouse            <chr> "m000", "m000", "m000", "m000", "m000", "m001", "m…
#> $ medicamento         <chr> "Placebo", "Ramicane", "Ramicane", "Capomulin", "I…
#> $ sexo                <chr> "Masculino", "Masculino", "Feminino", "Feminino", …
#> $ idade_meses         <dbl> 18, 24, 19, 21, 12, 16, 5, 23, 9, 5, 15, 5, 23, 21…
#> $ peso_g              <dbl> 21, 17, 23, 23, 17, 24, 14, 15, 13, 26, 24, 15, 12…
#> $ timepoint           <dbl> 0, 5, 10, 15, 20, 0, 5, 10, 15, 20, 0, 5, 10, 15, …
#> $ tumor_volume_mm3    <dbl> 45.78035, 42.72811, 40.82750, 38.57821, 35.09439, …
#> $ sitios_metastaticos <dbl> 2, 0, 1, 2, 2, 3, 0, 3, 2, 2, 2, 0, 1, 2, 0, 1, 1,…

O conjunto de dados contém 500 observações, correspondentes a medições repetidas realizadas em camundongos ao longo do tempo. Cada observação inclui informação sobre o tratamento administrado, características individuais do camundongo e o volume tumoral registado no respetivo momento, configurando um conjunto de dados longitudinais com medições repetidas por indivíduo.

# Número de observações por tratamento
df %>% count(medicamento)

A distribuição das observações por tratamento é relativamente equilibrada, com um número semelhante de registros em cada grupo, o que permite comparações consistentes entre tratamentos.

# Evolução média do volume tumoral por tratamento
df %>% 
  group_by(medicamento, timepoint) %>% 
  summarise(
    mean_volume = mean(tumor_volume_mm3, na.rm = TRUE),
    .groups = "drop"
  ) %>% 
  ggplot(aes(timepoint, mean_volume, colour = medicamento)) +
  geom_line(size = 1) +
  labs(
    title = "Evolução média do volume tumoral ao longo do tempo",
    x = "Tempo (dias)",
    y = "Volume médio do tumor (mm³)",
    colour = "Tratamento"
  ) +
  theme_bw()

A análise da evolução média do volume tumoral mostra que, em todos os tratamentos, existe uma tendência de redução do volume do tumor ao longo do tempo, com trajetórias médias semelhantes entre os tratamentos.

# Distribuição do volume tumoral por tratamento
df %>% 
  ggplot(aes(medicamento, tumor_volume_mm3, fill = medicamento)) +
  geom_boxplot(alpha = 0.7, show.legend = F) +
  labs(
    title = "Distribuição do volume tumoral por tratamento",
    x = "Tratamento",
    y = "Volume do tumor (mm³)"
  ) +
  theme_bw()

As distribuições do volume tumoral apresentam níveis centrais e dispersões semelhantes entre os tratamentos, não sendo possível identificar diferenças claras apenas com base nesta análise descritiva.

Face a estas evidências e à estrutura longitudinal dos dados, procede-se à aplicação de um modelo linear generalizado misto (GLMM), adequado para modelar a evolução do volume tumoral ao longo do tempo, considerando medições repetidas por camundongo

4 Aplicação do GLMM

# Convertendo 'medicamento' para tipo factor
df$medicamento <- factor(df$medicamento)

# Definindo o grupo de referência
df$medicamento <- relevel(df$medicamento, ref = "Placebo")

# Ajuste do modelo GLMM
glmm_model_test <- lmer(
  tumor_volume_mm3 ~ timepoint * medicamento + (1 | id_mouse),
  data = df
)

# Output do modelo
summary(glmm_model_test)

#> Linear mixed model fit by REML. t-tests use Satterthwaite's method [
#> lmerModLmerTest]
#> Formula: tumor_volume_mm3 ~ timepoint * medicamento + (1 | id_mouse)
#>    Data: df
#> 
#> REML criterion at convergence: 2504.5
#> 
#> Scaled residuals: 
#>      Min       1Q   Median       3Q      Max 
#> -1.86813 -0.87273  0.01925  0.89113  1.86557 
#> 
#> Random effects:
#>  Groups   Name        Variance               Std.Dev.      
#>  id_mouse (Intercept) 0.00000000000000000131 0.000000001145
#>  Residual             8.51948786396550339362 2.918816175090
#> Number of obs: 500, groups:  id_mouse, 100
#> 
#> Fixed effects:
#>                                  Estimate Std. Error         df t value
#> (Intercept)                     45.195484   0.448095 492.000000 100.861
#> timepoint                       -0.495180   0.036206 492.000000 -13.677
#> medicamentoCapomulin            -0.378709   0.644438 492.000000  -0.588
#> medicamentoInfubinol             0.005796   0.657751 492.000000   0.009
#> medicamentoRamicane             -0.896186   0.617956 492.000000  -1.450
#> timepoint:medicamentoCapomulin   0.004835   0.052846 492.000000   0.092
#> timepoint:medicamentoInfubinol  -0.021409   0.051276 492.000000  -0.418
#> timepoint:medicamentoRamicane    0.072492   0.052087 492.000000   1.392
#>                                           Pr(>|t|)    
#> (Intercept)                    <0.0000000000000002 ***
#> timepoint                      <0.0000000000000002 ***
#> medicamentoCapomulin                         0.557    
#> medicamentoInfubinol                         0.993    
#> medicamentoRamicane                          0.148    
#> timepoint:medicamentoCapomulin               0.927    
#> timepoint:medicamentoInfubinol               0.676    
#> timepoint:medicamentoRamicane                0.165    
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Correlation of Fixed Effects:
#>             (Intr) timpnt mdcmnC mdcmnI mdcmnR tmpn:C tmpn:I
#> timepoint   -0.814                                          
#> mdcmntCpmln -0.695  0.566                                   
#> mdcmntInfbn -0.681  0.555  0.474                            
#> medcmntRmcn -0.725  0.591  0.504  0.494                     
#> tmpnt:mdcmC  0.558 -0.685 -0.820 -0.380 -0.405              
#> tmpnt:mdcmI  0.575 -0.706 -0.400 -0.821 -0.417  0.484       
#> tmpnt:mdcmR  0.566 -0.695 -0.394 -0.386 -0.808  0.476  0.491
#> optimizer (nloptwrap) convergence code: 0 (OK)
#> boundary (singular) fit: see help('isSingular')

Neste modelo:

o efeito do tempo (timepoint) representa a tendência média de evolução do volume tumoral ao longo do período de acompanhamento;

o efeito do tratamento (medicamento) representa diferenças médias em relação ao grupo de referência (Placebo);

a interação entre tempo e tratamento (timepoint:medicamento) avalia se a evolução do volume tumoral ao longo do tempo difere entre os tratamentos;

o efeito aleatório do camundongo (id_mouse, intercepto) permite considerar possíveis diferenças individuais entre os camundongos.

Os resultados indicam que o tempo apresenta um efeito estatisticamente significativo, com um coeficiente estimado de aproximadamente −0.50, sugerindo que, em média, o volume tumoral diminui cerca de 0.5 mm³ por unidade de tempo ao longo do período de acompanhamento.

Em contraste, nem os efeitos associados ao tratamento nem as interações entre tempo e tratamento apresentam significância estatística, indicando ausência de evidência de diferenças relevantes entre os regimes terapêuticos analisados.

Adicionalmente, a variância associada ao efeito aleatório dos camundongos é praticamente nula, sugerindo que, após considerar o efeito do tempo, não existe variabilidade relevante entre os camundongos.

Estes resultados indicam que, embora o GLMM seja adequado para acomodar a estrutura longitudinal dos dados e testar simultaneamente efeitos fixos e aleatórios, os termos associados ao tratamento, à interação temporal e à variabilidade individual não contribuem de forma relevante para a explicação da variabilidade do volume tumoral.

Deste modo, optou-se por simplificar o modelo, removendo esses termos e privilegiando uma abordagem mais parcimoniosa, centrada exclusivamente no efeito do tempo.

5 Regressão Linear Simples

Após a simplificação do modelo misto, foi ajustado um modelo de regressão linear simples, no qual o volume tumoral é explicado exclusivamente em função do tempo de acompanhamento. Esta escolha baseia-se nos resultados do GLMM, que indicaram ausência de efeitos estatisticamente relevantes associados ao tratamento, à interação entre tempo e tratamento e à variabilidade individual entre camundongos.

# Ajuste do modelo de regressão linear simples
lm_model_test <- lm(tumor_volume_mm3 ~ timepoint, data = df)

# Output do modelo
summary(lm_model_test)

#> 
#> Call:
#> lm(formula = tumor_volume_mm3 ~ timepoint, data = df)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -5.2200 -2.6715 -0.0615  2.5322  5.0125 
#> 
#> Coefficients:
#>             Estimate Std. Error t value            Pr(>|t|)    
#> (Intercept) 44.86408    0.22574  198.74 <0.0000000000000002 ***
#> timepoint   -0.48183    0.01843  -26.14 <0.0000000000000002 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 2.914 on 498 degrees of freedom
#> Multiple R-squared:  0.5785, Adjusted R-squared:  0.5776 
#> F-statistic: 683.4 on 1 and 498 DF,  p-value: < 0.00000000000000022

No modelo final, o coeficiente associado ao tempo apresenta valor estimado de aproximadamente −0.48, sendo estatisticamente significativo (\(p < 0.001\)). Este resultado indica que, em média, cada unidade adicional de tempo está associada a uma redução de cerca de 0.48 mm³ no volume tumoral, confirmando a tendência de diminuição observada ao longo do período de acompanhamento.

O termo constante, estimado em cerca de 44.9 mm³, representa o volume tumoral médio no momento inicial (timepoint = 0), servindo como ponto de referência para a interpretação da evolução temporal do desfecho.

O coeficiente de determinação ajustado indica que aproximadamente 58% da variabilidade observada no volume tumoral é explicada pelo tempo, evidenciando uma relação forte e consistente entre estas variáveis. A estatística F do modelo é igualmente significativa, reforçando a adequação global do ajuste.

Em conjunto, estes resultados mostram que o modelo final fornece uma representação clara, estável e interpretável da evolução do volume tumoral ao longo do tempo. A adoção desta especificação mais simples não implica perda de informação relevante face ao modelo misto inicial, mas antes reflete uma escolha metodológica orientada pelo princípio da parcimónia.

A utilização do GLMM permitiu testar explicitamente a presença de efeitos de tratamento, interações temporais e variabilidade individual. Uma vez demonstrada a irrelevância estatística destes componentes, a regressão linear simples revelou-se suficiente para descrever a relação dominante entre tempo e volume tumoral, justificando a sua adoção como modelo final.

5.1 Verificação dos pressupostos do modelo

Após o ajuste do modelo final de regressão linear, procedeu-se à verificação dos pressupostos subjacentes a este tipo de modelo, com o objectivo de avaliar se as inferências realizadas são estatisticamente válidas. A verificação foi efectuada com base em diagnósticos gráficos.

5.1.1 Adequação Global do Modelo

Este pressuposto avalia se o modelo ajustado é capaz de reproduzir adequadamente a distribuição dos dados observados, comparando os valores preditos pelo modelo com os valores efetivamente observados.

Hipóteses associadas:

\(H_0\): A distribuição dos valores preditos pelo modelo é semelhante à distribuição dos valores observados.

\(H_1\): A distribuição dos valores preditos difere da distribuição dos valores observados.

check_model(lm_model_test, check = "pp_check")

Observa-se uma forte sobreposição entre a distribuição dos valores observados e dos valores preditos pelo modelo, indicando que o modelo reproduz adequadamente a estrutura global dos dados. Não há evidência de inadequação do ajuste.

5.1.2 Linearidade

O pressuposto da linearidade refere-se à forma da relação entre a variável explicativa e a variável resposta, assumindo que essa relação pode ser representada por uma função linear.

Hipóteses associadas:

\(H_0\): A relação entre o tempo e o volume tumoral é linear.

\(H_1\): A relação entre o tempo e o volume tumoral não é linear.

check_model(lm_model_test, check = "linearity")

Os resíduos distribuem-se aleatoriamente em torno da linha de referência, sem padrões sistemáticos. Este comportamento indica que a relação entre o tempo e o volume tumoral é adequadamente capturada por um modelo linear.

5.1.3 Homogeneidade da variância (homoscedasticidade)

Este pressuposto assume que a variabilidade dos resíduos se mantém constante ao longo dos valores ajustados pelo modelo, não dependendo do nível da variável explicativa.

Hipóteses associadas:

\(H_0\): A variância dos resíduos é constante ao longo dos valores ajustados.

\(H_1\): A variância dos resíduos varia em função dos valores ajustados.

check_model(lm_model_test, check = "homogeneity")

A dispersão dos resíduos mantém-se relativamente constante ao longo dos valores ajustados, não evidenciando padrões de heterocedasticidade. Assim, o pressuposto de homogeneidade da variância é considerado satisfeito.

5.1.4 Normalidade dos resíduos

O pressuposto da normalidade refere-se à distribuição dos resíduos do modelo, sendo particularmente relevante para a validade dos testes de significância associados aos coeficientes estimados.

Hipóteses associadas:

\(H_0\): Os resíduos do modelo seguem aproximadamente uma distribuição normal.

\(H_1\): Os resíduos do modelo não seguem uma distribuição normal.

plot(lm_model_test, which = 2)

No gráfico quantil-quantil, observa-se um alinhamento satisfatório dos resíduos em torno da linha de referência, com pequenos desvios nas extremidades. Estes desvios são considerados aceitáveis, sobretudo tendo em conta a dimensão da amostra.

5.1.5 Ausência de observações influentes

Este pressuposto avalia se existem observações individuais que exerçam influência desproporcionada sobre o ajuste do modelo, podendo distorcer as estimativas obtidas.

Hipóteses associadas:

\(H_0\): Não existem observações com influência excessiva sobre o ajuste do modelo.

\(H_1\): Existem observações com influência excessiva sobre o ajuste do modelo.

plot(
  lm_model_test,  which = 5,
  cook.levels = 0.008,
  cook.col = "orange",
  cook.lty = 2
  )

Apesar da existência de algumas observações próximas ou ligeiramente acima do limiar da distância de Cook (4/n ≈ 0.008), não se observa evidência de influência excessiva com impacto relevante no ajuste do modelo.

Em resumo, a avaliação dos diagnósticos gráficos não revelou violações relevantes dos pressupostos do modelo de regressão linear. Assim, o modelo ajustado é considerado adequado para a inferência realizada, sustentando a robustez das conclusões apresentadas.

6 Conclusões

O objetivo deste estudo foi avaliar a eficácia de diferentes tratamentos no controlo do crescimento tumoral ao longo do tempo, recorrendo a uma abordagem estatística adequada à estrutura longitudinal dos dados.

Os resultados mostram de forma consistente que o tempo de acompanhamento é o principal determinante da evolução do volume tumoral, observando-se uma redução significativa do volume do tumor à medida que o tempo avança. Este efeito manteve-se robusto ao longo de todas as etapas da análise, desde o modelo inicial até ao modelo final.

Em contraste, não foram identificadas diferenças estatisticamente relevantes entre os tratamentos avaliados, nem evidência de que a evolução do volume tumoral ao longo do tempo difira entre tratamentos. Adicionalmente, a análise indicou ausência de variabilidade relevante entre camundongos, sugerindo um comportamento homogéneo da resposta tumoral após considerar o efeito do tempo.

Em conjunto, estes resultados indicam que, no contexto deste estudo, os tratamentos analisados não se distinguem de forma consistente em termos de eficácia, sendo a dinâmica temporal o fator dominante na explicação do desfecho observado.

7 Recomendações

Com base nas conclusões obtidas, recomenda-se que a empresa considere as seguintes orientações:

Não priorizar tratamentos específicos com base exclusivamente nos resultados deste estudo, uma vez que não foram observadas diferenças relevantes de eficácia entre os medicamentos analisados.
Reavaliar o desenho experimental, ponderando:

períodos de acompanhamento mais longos;
diferentes regimes ou dosagens;
inclusão de novos compostos terapêuticos.

Manter a componente temporal como elemento central em estudos futuros, dado o papel dominante do tempo na evolução do volume tumoral.
Adotar a abordagem estatística utilizada neste estudo como referência para análises futuras, garantindo decisões baseadas em evidência robusta e evitando conclusões assentes em comparações pontuais.

Link do dataset utilizado: acesso ao dataset

Quando o tempo domina o efeito do tratamento: uma análise longitudinal com GLMM em R

Avaliação da eficácia de tratamentos ao longo do tempo com modelos mistos

Sansão Tembe · Statistical Analyst | Data Scientist

1 Modelo Linear Generalizado Misto (GLMM)

2 Contexto do problema

3 Análise Exploratória

4 Aplicação do GLMM

5 Regressão Linear Simples

5.1 Verificação dos pressupostos do modelo

5.1.1 Adequação Global do Modelo

5.1.2 Linearidade

5.1.3 Homogeneidade da variância (homoscedasticidade)

5.1.4 Normalidade dos resíduos

5.1.5 Ausência de observações influentes

6 Conclusões

7 Recomendações