Estandarditza els noms dels municipis per meta_cadastre i intro_cadas…

…tre. Divideix topònims de la Roca de l'Albera segons si són o no corregits. Indica a meta_cadastre si el municipi té 2 taules o no.
OSM-Catalan · Nov 28, 2024 · 5bcbd6e · 5bcbd6e
1 parent 21b599a
commit 5bcbd6e
Show file tree

Hide file tree

Showing 7 changed files with 114 additions and 13 deletions.
diff --git a/data-raw/becat_cadastre.R b/data-raw/becat_cadastre.R
@@ -230,9 +230,25 @@ intro_cadastre[names(ed)] <- lapply(intro_cadastre[names(ed)], function(x) {
   x
 })
 
+
+### Canvia noms dels municipis pels del pdf corregits ----
+
+load("data/comarques.rda", verbose = TRUE) # comarques
+
+lapply(comarques[, c("municipi", "municipi_pdf", "nom_fitxer")], function(x) table(names(intro_cadastre) %in% x))
+setdiff(names(intro_cadastre), comarques$nom_fitxer)
+
+noms_corregits <- comarques$municipi[match(gsub("_.+", "", names(intro_cadastre)), comarques$nom_fitxer)]
+tmp <- data.frame(noms_corregits, names(intro_cadastre))
+tmp[tmp[[1]] != tmp[[2]], ]
+
+names(intro_cadastre) <- noms_corregits
+
+
+### Desa intro_cadastre ----
+
 usethis::use_data(intro_cadastre, overwrite = TRUE)
 load("data/intro_cadastre.rda", verbose = TRUE)
-## TODO: sistematitzar el text de les introduccions en una taula.
 
 
 ### Elimina introducció ----
@@ -1362,6 +1378,7 @@ taula <- lapply(taula, function(x) x[-which(x[, 1] == x[, 5]), ])
 
 
 # FET! Punt probablement segur ----
+
 taula2 <- taula
 # save(taula2, file = "data/part/taula2.RData", compress = "xz")
 load("data/part/taula2.RData", verbose = TRUE) # taula2
@@ -1381,7 +1398,6 @@ apply(do.call(rbind, noms_col), 2, unique)
 lapply(noms_col, function(x) x[, 2:3])
 ## CONCLUSIONS: la primera capçalera inclou noms presents als cadastres, la segona conté propostes de canvis
 
-
 taules_compostes <- mapply(function(x, nom) {
   sel <- grep("^TOPÒNIMS", x[, 1])
   out <- x[(sel + 1):nrow(x), ]
@@ -1399,11 +1415,51 @@ data.frame(names(taula), sort(names(taula)))[names(taula) != sort(names(taula)),
 taules_partides <- do.call(c, taules_compostes)
 names(taules_partides) <- sapply(strsplit(names(taules_partides), "\\."), function(x) x[2])
 
-taula <- c(taula[!names(taula) %in% names(taules_compostes)], taules_partides)
+
+table(taula$`la Roca de l’Albera`$tipus)
+## CONCLUSIONS: a la Roca de l'Albera tipus divideix la taula en topònims corregits i no corregits
+taula_partida <- split(taula$`la Roca de l’Albera`, !grepl("NOMS CORREGITS$", taula$`la Roca de l’Albera`$tipus))
+names(taula_partida) <- paste0("la Roca de l’Albera_", c("CORREGIT", "NO CORREGIT"))
+taula_partida$`la Roca de l’Albera_CORREGIT`$tipus <- gsub(
+  " NOMS CORREGITS$", "", taula_partida$`la Roca de l’Albera_CORREGIT`$tipus
+)
+taula_partida$`la Roca de l’Albera_NO CORREGIT`$tipus <- gsub(
+  " NOMS NO CORREGITS$", "", taula_partida$`la Roca de l’Albera_NO CORREGIT`$tipus
+)
+names(taula_partida$`la Roca de l’Albera_NO CORREGIT`)[3] <- "NOM SOBRE EL CADASTRE ACTUAL NO CORREGIT"
+
+
+taules_partides <- c(taules_partides, taula_partida)
+
+
+taula <- c(taula[!names(taula) %in% c(names(taules_compostes), "la Roca de l’Albera")], taules_partides)
 taula <- taula[order(names(taula))]
 
 
+## Unifica noms de columnes ----
+
+lapply(1:5, function(col) {
+  sort(unique(unlist(lapply(taula, function(x) names(x)[col]))))
+})
+sort(unique(unlist(lapply(taula, function(x) names(x)[2:3]))))
+sort(unique(unlist(lapply(taula, function(x) names(x)[c(1, 4)]))))
+unique(lapply(taula, function(x) names(x)[2:4]))
+taula <- lapply(taula, function(x) {
+  names(x)[1] <- "TOPÒNIMS I FULLS CADASTRALS"
+
+  names(x)[2] <- gsub("^NOM SUR LE CADASTRE ACTUEL$", "NOM SOBRE EL CADASTRE ACTUAL", names(x)[2])
+  names(x)[2] <- gsub("^NOM SUR LE CADASTRE ANTÉRIEUR$", "NOM SOBRE EL CADASTRE ANTERIOR", names(x)[2])
+
+  names(x)[3] <- gsub("^NOM À CORRIGER SUR LE CADASTRE$", "NOM A CORREGIR SOBRE EL CADASTRE", names(x)[3])
+  names(x)[3] <- gsub("^NOM SUR LE CADASTRE ACTUEL CORRIGÉ$", "NOM SOBRE EL CADASTRE ACTUAL CORREGIT", names(x)[3])
+
+  names(x)[4] <- "NOM SOBRE GÉOPORTAIL (portal cartogràfic de l’IGN)"
+  x
+})
+
+
 ## Canvia noms de la llista pels del pdf corregits ----
+
 load("data/comarques.rda", verbose = TRUE) # comarques
 
 lapply(comarques[, c("municipi", "municipi_pdf", "nom_fitxer")], function(x) table(names(taula) %in% x))
@@ -1419,6 +1475,7 @@ names(taula) <- noms_corregits
 
 
 # FET! Punt probablement segur ----
+
 taula3 <- taula
 # save(taula3, file = "data/part/taula3.RData", compress = "xz")
 load("data/part/taula3.RData", verbose = TRUE) # taula3

diff --git a/data-raw/metadades_becat_cadastre.R b/data-raw/metadades_becat_cadastre.R
@@ -127,12 +127,11 @@ sort(table(unlist(descartats)))
 #
 ## CONCLUSIONS: Tots els reculls preliminars apareixen al final de les descartades
 # Montferrer amb línia acabada en punt que no acaba la frase -> paste
-# la Roca de l'Albera amb Notes: al final de la introducció.
-## TODO: veure nota i pdf. Els no corregits van fins al final (menor pq "NOM SOBRE EL CADASTRE ACTUAL CORREGIT" és NA en tots els casos) ----
-table(becat_cadastre$`la Roca de l'Albera`$tipus)
+# la Roca de l'Albera amb Notes: al final de la introducció. FET: linies$notes$`la Roca de l'Albera`
+
 
 ## CONCLUSIONS: les línies descartades corresponen als autors, col·laboradors i data de la revisió.
-# en els pdf, formen un mateix paràgram amb linies$corregit
+# en els pdf, formen un mateix paràgraf amb linies$corregit
 
 linies$atribucions <- vector("list", length = length(intro_cadastre))
 names(linies$atribucions) <- names(intro_cadastre)
@@ -144,6 +143,7 @@ linies$atribucions[sapply(linies$atribucions, is.null)] <- lapply(
 
 
 ## Extreu metadades ----
+
 load("data/part/linies_intro_clas.RData", verbose = TRUE) # linies
 
 
@@ -185,7 +185,8 @@ atles_CatNord <- sapply(linies$atles_CatNord, function(x) {
 })
 
 
-## Geoportail ----
+### Geoportail ----
+
 linies$geoportail
 unique(geo_patro <- lapply(linies$geoportail, function(x) {
   gsub("(.+toponímia|toponymie)[ de'’]+.+((sobre el seu|sur son portail).+)\\.", "\\1 XXX \\2", x)
@@ -239,8 +240,45 @@ ign_mapes <- sapply(linies$geoportail, function(x) {
 linies$geoportail[is.na(ign_mapes)]
 
 
+### Taula de metainformació dels fitxers de revisió de cadastres ----
+
 meta_cadastre <- data.frame(
   municipi = names(linies$corregit), corregit, atles_CatNord, ign_geoportail, ign_mapes, catala_pdf, row.names = NULL
 )
 
+
+## Municipis amb dues taules de topònims (corregits i no corregits) ----
+
+municipis_partits_becat_cadastre <- grep("_", names(becat_cadastre), value = TRUE)
+municipis_partits <- unique(gsub("_.+$", "", municipis_partits_becat_cadastre))
+
+
+meta_municipis_partits <- lapply(municipis_partits, function(x) {
+  list(
+    becat_cadastre = grep(paste0("^", x, "_.+$"), names(becat_cadastre), value = TRUE),
+    meta = meta_cadastre[meta_cadastre$municipi == x, ],
+    corregit = linies$corregit[[x]],
+    geoportail = linies$geoportail[[x]]
+  )
+})
+names(meta_municipis_partits) <- municipis_partits
+meta_municipis_partits
+
+meta_cadastre[meta_cadastre$municipi %in% municipis_partits, ]
+municipis_partits_no_corregit <- meta_cadastre$municipi[meta_cadastre$municipi %in% municipis_partits & meta_cadastre$ign_mapes != "corregit"]
+meta_municipis_partits[municipis_partits_no_corregit]
+intro_cadastre[municipis_partits_no_corregit]
+## CONCLUSIONS: els municipis amb dues taules (corregit i proposat) consten com a corregits segons les metadades.
+# IGN mapes i geoportail també corregit segons metadades excepte per Mosset i Orellà
+# Afegeix columna per municipis amb dues taules
+meta_cadastre$dues_taules <- ifelse(meta_cadastre$municipi %in% municipis_partits, TRUE, FALSE)
+sum(meta_cadastre$dues_taules) == length(municipis_partits)
+
+capçaleres_partides <- lapply(becat_cadastre[municipis_partits_becat_cadastre], \(x) names(x)[2:3])
+unique(capçaleres_partides)
+capçaleres_partides[c("la Roca de l'Albera_CORREGIT", "la Roca de l'Albera_NO CORREGIT")]
+
+
+## Desa ----
+
 usethis::use_data(meta_cadastre, overwrite = TRUE)
diff --git a/data/becat_cadastre.rda b/data/becat_cadastre.rda
diff --git a/data/intro_cadastre.rda b/data/intro_cadastre.rda
diff --git a/data/meta_cadastre.rda b/data/meta_cadastre.rda
diff --git a/man/becat_cadastre.Rd b/man/becat_cadastre.Rd
@@ -9,7 +9,7 @@ Inclou els topònims anteriors i els corregits així com el topònim que apareix
 }
 \usage{becat_cadastre}
 \format{
-  El format és una llista de 235 elements, corresponents a la revisió del cadastre de cada municipi. Per cada municipi
+  El format és una llista de 236 elements, corresponents a la revisió del cadastre de cada municipi. Per cada municipi
   hi ha un «data frame» amb tantes observacions com topònims i 5 variables:
   \describe{
     \item{\code{TOPÒNIMS I FULLS CADASTRALS}}{Referència del full cadastral del topònim.}
@@ -25,7 +25,8 @@ Inclou els topònims anteriors i els corregits així com el topònim que apareix
   }
 }
 \details{
-%%  ~~ If necessary, more details than the __description__ above ~~
+Els cadastres d'alguns municipis són parcialment corregits i els topònims són dividits en dues taules segons si estan o
+no corregits (vegeu exemples).
 }
 \source{
 Joan Becat \url{https://joanbecat.cat}. Extracció de les dades a \file{data-raw/becat_cadastre.R}.
@@ -36,6 +37,9 @@ str(becat_cadastre[1])
 # Diversitat de capçaleres
 unique(lapply(becat_cadastre, names))
 
+# Municipis parcialment corregits
+grep("_", names(becat_cadastre), value = TRUE)
+
 # Municipis inclosos
 names(becat_cadastre)
 }

diff --git a/man/meta_cadastre.Rd b/man/meta_cadastre.Rd
@@ -9,18 +9,20 @@ Informació sistematitzada extreta de \code{\link{intro_cadastre}}.
 }
 \usage{meta_cadastre}
 \format{
-  A data frame with 223 observations on the following 6 variables.
+  Un «data frame» amb 223 observacions de les següents 7 variables.
   \describe{
     \item{\code{municipi}}{Nom del municipi.}
     \item{\code{corregit}}{Vector logic que indica si el cadastre ha estat corregit.}
     \item{\code{atles_CatNord}}{Vector logic que indica si els topònims apareixen a l’Atles toponímic de Catalunya Nord, ed. Terra Nostra, Prada, 2015, 2 volums, 970p.}
     \item{\code{ign_geoportail}}{Vector logic que indica si els topònims han estat corregits al GEOPORTAIL de l'IGN.}
-    \item{\code{ign_mapes}}{a character vector}
+    \item{\code{ign_mapes}}{Vector de tipus caràcter indicant si l'IGN a corregit els maps o no, o si només parcialment.}
     \item{\code{catala_pdf}}{Vector logic que indica si el fitxer pdf és en català (\code{TRUE}) o en francès (\code{FALSE}).}
+    \item{\code{dues_taules}}{Vector logic que indica si el municipi està dividit en dues taules.}
   }
 }
 \details{
-%%  ~~ If necessary, more details than the __description__ above ~~
+Els municipis amb \code{dues_taules == TRUE}, tenen dues taules a la llista \code{becat_cadastre} amb el nom del
+municipi seguit de \code{_CADASTRE}, \code{_PROPOSAT}, \code{_CORREGIT} o \code{_NO CORREGIT}.
 }
 \source{
 Joan Becat \url{https://joanbecat.cat}. Extracció de les dades a \file{data-raw/metadades_becat_cadastre.R}.