Enunciado

Un experimento fue llevado a cabo para comparar tres sistemas de cultivo (A, B y C) con una preparación de suelo tradicional (D) en el rendimiento de materia seca total de la col crespa. El ensayo fue llevado a cabo en cinco bloques. El rendimiento de las parcelas en t/ha y el diseño experimental se presentan a continuación:

Bloque 1	C 5.5	A 5.5	B 6.9	D 7.2
Bloque 1	D 5.8	B 5.3	C 5.6	A 4.1
Bloque 1	D 6.9	A 5.3	B 6.6	C 4.5
Bloque 1	A 5.0	B 7.2	C 6.1	D 7.0
Bloque 1	B 6.2	C 5.7	A 4.8	D 5.8

Para abordar el ejercicio, primero necesitamos realizar un análisis de varianza (ANOVA) para probar la hipótesis nula de que todos los sistemas de cultivo tienen el mismo efecto en el rendimiento de la materia seca total de la col crespa. Luego, si encontramos diferencias significativas entre los sistemas de cultivo, podemos realizar pruebas de comparación múltiple, como la prueba de Tukey, para determinar cuáles sistemas son significativamente diferentes entre sí.

Para llevar a cabo el análisis, necesitaremos calcular la suma de cuadrados entre grupos y la suma de cuadrados dentro de los grupos. A partir de estas sumas de cuadrados, podemos calcular la estadística F y su correspondiente valor p para determinar si existen diferencias significativas entre los sistemas de cultivo.

Después de realizar el análisis de ANOVA, si encontramos diferencias significativas, podemos proceder con pruebas de comparación múltiple para identificar cuáles sistemas de cultivo son significativamente diferentes entre sí en términos de rendimiento de materia seca total de la col crespa.

Una vez que tengamos los resultados del análisis, podremos proporcionar una recomendación sobre qué sistemas de cultivo podrían ser más efectivos en términos de rendimiento de materia seca total de la col crespa, basados en los datos recopilados en el experimento.

Lectura de los datos

Se organizan los datos en un archivo crespa.csv y se almacenan enla variable crespa

library(tidyverse)

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.3     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

crespa <- read.csv("crespa.csv")
crespa

##   Cultivos  B1  B2  B3  B4  B5
## 1        A 5.5 4.1 5.3 5.0 4.8
## 2        B 6.9 5.3 6.6 7.2 6.2
## 3        C 5.5 5.6 4.5 6.1 5.7
## 4        D 7.2 5.8 6.9 7.0 5.8

Usando pivot_longer

Se pasan los datos a una tabla larga

Col <- crespa %>% pivot_longer(cols = B1:B5, names_to = "Bloques",
                                  values_to = "Rendimiento")
Col

## # A tibble: 20 × 3
##    Cultivos Bloques Rendimiento
##    <chr>    <chr>         <dbl>
##  1 A        B1              5.5
##  2 A        B2              4.1
##  3 A        B3              5.3
##  4 A        B4              5  
##  5 A        B5              4.8
##  6 B        B1              6.9
##  7 B        B2              5.3
##  8 B        B3              6.6
##  9 B        B4              7.2
## 10 B        B5              6.2
## 11 C        B1              5.5
## 12 C        B2              5.6
## 13 C        B3              4.5
## 14 C        B4              6.1
## 15 C        B5              5.7
## 16 D        B1              7.2
## 17 D        B2              5.8
## 18 D        B3              6.9
## 19 D        B4              7  
## 20 D        B5              5.8

Análisis exploratorio

Se hace el análisis inicial de los datos, definiendo factores, en éste caso los cultivos y los bloques

Col$Cultivos <- as.factor(Col$Cultivos)
Col$Bloques <- as.factor(Col$Bloques)

# Resumen de los datos
str(Col)

## tibble [20 × 3] (S3: tbl_df/tbl/data.frame)
##  $ Cultivos   : Factor w/ 4 levels "A","B","C","D": 1 1 1 1 1 2 2 2 2 2 ...
##  $ Bloques    : Factor w/ 5 levels "B1","B2","B3",..: 1 2 3 4 5 1 2 3 4 5 ...
##  $ Rendimiento: num [1:20] 5.5 4.1 5.3 5 4.8 6.9 5.3 6.6 7.2 6.2 ...

summary(Col)

##  Cultivos Bloques  Rendimiento   
##  A:5      B1:4    Min.   :4.100  
##  B:5      B2:4    1st Qu.:5.300  
##  C:5      B3:4    Median :5.750  
##  D:5      B4:4    Mean   :5.850  
##           B5:4    3rd Qu.:6.675  
##                   Max.   :7.200

El análisis exploratorio revela que se realizaron mediciones de rendimiento de materia seca total de la col crespa en cuatro sistemas de cultivo (A, B, C y D) distribuidos en cinco bloques. Se observa que el rendimiento medio es de aproximadamente 5.85 toneladas por hectárea, con un rango que va desde 4.1 hasta 7.2 toneladas por hectárea. Además, parece haber variabilidad en los rendimientos entre los diferentes sistemas de cultivo, como se puede observar en los cuartiles y la distribución de los datos en los bloques. Esto sugiere que los diferentes sistemas de cultivo pueden tener efectos distintos en el rendimiento de la materia seca de la col crespa, lo que justifica la necesidad de realizar un análisis de varianza (ANOVA) para investigar más a fondo estas diferencias y determinar si son estadísticamente significativas.

Análisis gráfico

Dentro del análisis exploratorio, hagamos dos gráficos, el correspondiente a los bloques, y el de los cultivos.

Bloques

bxp_bloques <- Col %>% ggplot(aes(x = Bloques, y = Rendimiento, fill = Bloques)) +
  geom_boxplot(position = position_dodge(width = 0.7), size = 1) +
  labs(x = "Bloques", y  = "Rendimiento (t/ha)", title = "Boxplot - Bloques")

bxp_bloques

Los rendimientos del bloque 1 y 4 son comparativamente similares, aunque el bloque 1 exhibe una mayor dispersión de datos. Por otro lado, los bloques 3 y 5 muestran rendimientos intermedios, mientras que el bloque 2 muestra el rendimiento más bajo entre los bloques analizados. De acuerdo con la gráfica, no se aprecia una diferencia estadística significativamente diferente entre los bloques.

Cultivos

bxp_cultivos <- Col %>% ggplot(aes(x = Cultivos, y = Rendimiento, fill = Cultivos)) +
  geom_boxplot(position = position_dodge(width = 0.7), size = 1) +
  labs(x = "Cultivos", y  = "Rendimiento (t/ha)", title = "Boxplot - Cultivos")

bxp_cultivos

Los cultivos B y D muestran rendimientos similares; sin embargo, el cultivo B exhibe datos más concentrados alrededor de su media, mientras que los del cultivo D son más dispersos, aunque su promedio es más alto. Por otro lado, el rendimiento en el cultivo C está más agrupado, pero es inferior al de B y D. Finalmente, el cultivo A muestra el rendimiento más bajo.

Análisis gráfico - Bloques:Cultivos

bxp_bloque_cultivo <- Col %>% ggplot(aes(x = Bloques, y = Rendimiento, col = Cultivos)) +
  facet_wrap(~Cultivos) +
  geom_point() +
  theme(axis.text.x = element_text(angle=0, vjust=1, hjust=1)) +
  labs(x = NULL, y  = "Rendimiento (t/ha)", title = "Boxplot - Bloques:Cultivos")

bxp_bloque_cultivo

Al analizar los cultivos en cada bloque, se observa que el bloque A muestra el rendimiento más bajo por hectárea, como se pudo ver anteriormete. Los cultivos B y D registran los rendimientos más altos, destacándose especialmente éste último. Sin embargo, en términos generales, no se aprecian diferencias significativas entre los datos, lo que coincide con los análisis previos realizados.

Modelo DBCA - ANOVA

modelo1 <- aov(Rendimiento ~ Cultivos + Bloques, data = Col)
summary(modelo1)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Cultivos     3  8.946  2.9820  11.528 0.000756 ***
## Bloques      4  3.520  0.8800   3.402 0.044346 *  
## Residuals   12  3.104  0.2587                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Prueba post - ANOVA (Duncan)

library(agricolae)
compara_Cult <- duncan.test(modelo1, "Cultivos")
compara_Cult$groups %>% rownames_to_column("Cultivos")

##   Cultivos Rendimiento groups
## 1        D        6.54      a
## 2        B        6.44      a
## 3        C        5.48      b
## 4        A        4.94      b

El análisis de varianza (ANOVA) reveló diferencias significativas entre los cultivos y los bloques en cuanto al rendimiento de materia seca total de la col crespa. Los cultivos mostraron una influencia significativa en el rendimiento (F = 11.528, p < 0.001), con los cultivos D y B obteniendo los rendimientos más altos y significativamente diferentes de los cultivos C y A. Asimismo, se observó una influencia significativa de los bloques en el rendimiento (F = 3.402, p = 0.044), aunque su efecto fue menos pronunciado en comparación con los cultivos. En general, estos resultados sugieren que los cultivos D y B son las mejores opciones para obtener un rendimiento óptimo de materia seca total de la col crespa, mientras que los cultivos C y A presentan rendimientos significativamente inferiores.

Comparativamente con los análisis exploratorios, se observa que no se llega a una conclusión muy distinta con el análisis Duncan.