Este repositorio contiene el código R utilizado para reproducir y replicar el análisis de datos del Trabajo Fin de Máster "Validación de modelos predictivos espacio-temporales de la incidencia y mortalidad por cáncer" realizado por Mikel Bergara Martinez (bajo la supervisión de Aritz Adin y Jaione Etxeberria) en el Máster de Modelización e Investigación Matemática, Estadística y Computación de la Universidad Pública de Navarra.
Esta carpeta contiene los ficheros con datos reales de cáncer empleados para llevar a cabo los procedimientos descritos en los Capítulos 3 y 4, es decir, el análisis descriptivo, la modelización espacio-temporal y el desarrollo del método de validación y predicción de la incidencia y mortalidad por cáncer.
Este archivo contiene dos objetos. Por un lado, la cartografía de Inglaterra "carto" (105 clinical commissioning groups) y por otro lado la matriz de adyacencia binaria "W" correspondiente al grafo de vecindad de las 105 regiones de estudio inglesas.
Esta carpeta contiene los archivos shapefile (cartografía inglesa) utilizados en la aplicación SSTCDApp empleada en el aprendizaje teórico de la modelización espacio-temporal.
Este archivo contiene tres objetos. Por un lado, una base de datos de la población inglesa ("Pop") desagregada por año de estudio (2001-2020), región (105 clinical commissioning groups) sexo y edad. Por otro lado, las dos bases de datos correspondientes a la incidencia y mortalidad ("Inci" y "Mort") por cáncer desagregadas tal que cada base cuenta con las siguientes columnas:
- Year: año de estudio (periodo 2001-2020)
- Gender: sexo del individuo
- Age.group: grupo de edad del individuo
- Region: nombre de la región en el sistema inglés
- ICD10_code: identificador del tipo de cáncer
- Cancer_site: nombre del cáncer
- Count: casos registrados
*Fuente de datos: Sistema nacional de salud para Inglaterra (NHS England) y Oficina de Estadística Nacional (ONS).
El código de R correspondiente a los capítulos 3 y 4 del trabajo, se divide en los siguientes scripts:
Este primer script define tres funciones auxiliares ("validation_subsets", "fit_model" y "validate_model") que serán de utilidad en el resto de scripts para ajustar modelos espacio-temporales, además de facilitar la creación un proceso de validación para realizar predicciones a corto plazo.
Este script nos permite crear y simplificar las bases de datos que se utilizarán para ajustar los modelos, partiendo de los conjuntos de datos iniciales presentados anteriormente. Se obtiene también la matriz de estructura espacial partiendo de la matriz de adyacencia binaria.
Este script presenta el análisis descriptivo realizado utilizando diferentes tipos de cáncer, para datos de incidencia y mortalidad. En concreto, el análisis realizado se divide en tres secciones: patrón espacial, patrón temporal y patrón espacio-temporal.
Este script reproduce el ajuste de los 8 modelos espacio-temporales (utilizando los datos de incidencia del cáncer de estómago en hombres) mediante el uso de INLA. Además, se crea una tabla de medidas de validación mediante la cual se seleccionan los dos mejores modelos. Finalmente, se muestran los resultados obtenidos para estos dos últimos modelos (distribuciones a posteriori para el intercepto e hiperparámetros, junto a la representación cartográfica de las tasas estimadas).
Este script simula el proceso de validación y predicción desarrollado en el capítulo 4. Primero, se crean diferentes subconjuntos de validación partiendo del periodo completo 2001-2017, y después se ajustan a cada uno de ellos los 4 modelos BYM definidos en el capítulo 3. Se utilizan diferentes medidas de validación para determinar el mejor de los modelos respecto a su capacidad predictiva, y se realizan predicciones de tasas de incidencia de cáncer de estómago a corto plazo (se predicen los años 2018, 2019 y 2020).
Este script desarrolla el método de reducción de costes (en lo referente al proceso de validación) definido en la sección 4.2 del capítulo 4. Se realizan las comprobaciones necesarias para determinar que la metodología empleada es válida, y se calculan los tiempos de ejecución de todos los modelos ajustados a cada subconjunto de validación.
Este Trabajo Fin de Máster ha sido realizado bajo la financiación de las Ayudas de Iniciación a la Investigación de la Universidad Pública de Navarra en el ámbito de sus institutos de Investigación durante el curso académico 2022-2023 (resolución nº 2359/2022).