TFM_MikelBergara

Este repositorio contiene el código R utilizado para reproducir y replicar el análisis de datos del Trabajo Fin de Máster "Validación de modelos predictivos espacio-temporales de la incidencia y mortalidad por cáncer" realizado por Mikel Bergara Martinez (bajo la supervisión de Aritz Adin y Jaione Etxeberria) en el Máster de Modelización e Investigación Matemática, Estadística y Computación de la Universidad Pública de Navarra.

Datos

Esta carpeta contiene los ficheros con datos reales de cáncer empleados para llevar a cabo los procedimientos descritos en los Capítulos 3 y 4, es decir, el análisis descriptivo, la modelización espacio-temporal y el desarrollo del método de validación y predicción de la incidencia y mortalidad por cáncer.

Carto_England.Rdata

Este archivo contiene dos objetos. Por un lado, la cartografía de Inglaterra "carto" (105 clinical commissioning groups) y por otro lado la matriz de adyacencia binaria "W" correspondiente al grafo de vecindad de las 105 regiones de estudio inglesas.

Carto_England_shapefile

Esta carpeta contiene los archivos shapefile (cartografía inglesa) utilizados en la aplicación SSTCDApp empleada en el aprendizaje teórico de la modelización espacio-temporal.

England_database.Rdata

Este archivo contiene tres objetos. Por un lado, una base de datos de la población inglesa ("Pop") desagregada por año de estudio (2001-2020), región (105 clinical commissioning groups) sexo y edad. Por otro lado, las dos bases de datos correspondientes a la incidencia y mortalidad ("Inci" y "Mort") por cáncer desagregadas tal que cada base cuenta con las siguientes columnas:

Year: año de estudio (periodo 2001-2020)
Gender: sexo del individuo
Age.group: grupo de edad del individuo
Region: nombre de la región en el sistema inglés
ICD10_code: identificador del tipo de cáncer
Cancer_site: nombre del cáncer
Count: casos registrados

*Fuente de datos: Sistema nacional de salud para Inglaterra (NHS England) y Oficina de Estadística Nacional (ONS).

Código R

El código de R correspondiente a los capítulos 3 y 4 del trabajo, se divide en los siguientes scripts:

Auxiliares.R

Este primer script define tres funciones auxiliares ("validation_subsets", "fit_model" y "validate_model") que serán de utilidad en el resto de scripts para ajustar modelos espacio-temporales, además de facilitar la creación un proceso de validación para realizar predicciones a corto plazo.

Bases_modelos.R

Este script nos permite crear y simplificar las bases de datos que se utilizarán para ajustar los modelos, partiendo de los conjuntos de datos iniciales presentados anteriormente. Se obtiene también la matriz de estructura espacial partiendo de la matriz de adyacencia binaria.

Analisis_descriptivo.R

Este script presenta el análisis descriptivo realizado utilizando diferentes tipos de cáncer, para datos de incidencia y mortalidad. En concreto, el análisis realizado se divide en tres secciones: patrón espacial, patrón temporal y patrón espacio-temporal.

Modelos_espaciotemporales.R

Este script reproduce el ajuste de los 8 modelos espacio-temporales (utilizando los datos de incidencia del cáncer de estómago en hombres) mediante el uso de INLA. Además, se crea una tabla de medidas de validación mediante la cual se seleccionan los dos mejores modelos. Finalmente, se muestran los resultados obtenidos para estos dos últimos modelos (distribuciones a posteriori para el intercepto e hiperparámetros, junto a la representación cartográfica de las tasas estimadas).

Proceso_validacion.R

Este script simula el proceso de validación y predicción desarrollado en el capítulo 4. Primero, se crean diferentes subconjuntos de validación partiendo del periodo completo 2001-2017, y después se ajustan a cada uno de ellos los 4 modelos BYM definidos en el capítulo 3. Se utilizan diferentes medidas de validación para determinar el mejor de los modelos respecto a su capacidad predictiva, y se realizan predicciones de tasas de incidencia de cáncer de estómago a corto plazo (se predicen los años 2018, 2019 y 2020).

Mejora_coste_computacional.R

Este script desarrolla el método de reducción de costes (en lo referente al proceso de validación) definido en la sección 4.2 del capítulo 4. Se realizan las comprobaciones necesarias para determinar que la metodología empleada es válida, y se calculan los tiempos de ejecución de todos los modelos ajustados a cada subconjunto de validación.

Agradecimientos

Este Trabajo Fin de Máster ha sido realizado bajo la financiación de las Ayudas de Iniciación a la Investigación de la Universidad Pública de Navarra en el ámbito de sus institutos de Investigación durante el curso académico 2022-2023 (resolución nº 2359/2022).

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
Datos		Datos
R		R
LICENSE		LICENSE
README.md		README.md
TFM_MikelBergara.pdf		TFM_MikelBergara.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TFM_MikelBergara

Índice

Datos

Código R

Agradecimientos

About

Releases

Packages

Contributors 2

Languages

License

spatialstatisticsupna/TFM_MikelBergara

Folders and files

Latest commit

History

Repository files navigation

TFM_MikelBergara

Índice

Datos

Código R

Agradecimientos

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages