-
Notifications
You must be signed in to change notification settings - Fork 2
/
ex-sec3.txt
322 lines (160 loc) · 24.8 KB
/
ex-sec3.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
---
title: "Sobre el almacenamiento abierto de datos"
---
```{r echo=FALSE}
knitr::opts_chunk$set(out.width="80%", fig.pos = "!ht", out.extra = "")
```
```{r, echo=FALSE, message=FALSE}
library(haven)
library(dplyr)
library(sjPlot)
library(sjlabelled)
library(readxl)
```
# La calidad de los datos
Hasta ahora nos hemos centrado más en los metadatos, las infraestructuras y los ciclos organizacionales que en los datos mismos. Como también señalan los principio y consensos revisados anteriormente es necesario que los datos cumplan con ciertos estándares relacionados especialmente con la calidad de los datos. Estos estandares facilitan que otros investigadores comprendan sus datos y puedan trabajar con ellos, independiente de las herramientas que utilicen.
Para que los datos logren este objetivo deben poseer ciertas características que se distingue según el tipo de datos. Mientras en los datos cualitativos lo importante es el registro de las interacciones, las tomas de decisiones y los cuadernos de campo, en los datos cuantitativos es importante que se garantice una cantidad suficiente de etiquetas en base a codificaciones que no generen conflicto con algún software de análisis.
En linea con facilitar el uso compartido de los datos es necesario utilizar estandartes comunes del campo de las ciencias sociales, para ello se presentan a continuación aspectos clave de la guia de preparacion y archivamiento de datos propuesto por el Inter-university Consortium for Political and Social Research [@icpsr_Guide_2020], tanto para la preparación de datos cuantitativos como cualitativos. Cabe destacar que se haran acotaciónes en base a lo propuesto por otros autores y documentos.
## Datos cualitativos:
Segun la Guia de ICPSR sobre de datos Cualtiativos, Qualidata (2007), un extinto repositorio ingles, propone 5 posibles usos a los datos cualitativos en linea.
* Investigación comparativa, réplica o re-estudio de la investigación original - comparar con otras fuentes de datos o proporcionar comparación en el tiempo o entre grupos sociales o regiones, etc.
* Reanálisis: hacer nuevas preguntas sobre los datos y realizar interpretaciones diferentes a las que hizo el investigador original. Abordar los datos de formas que no se abordaron originalmente, como el uso de datos para investigar diferentes temas o temas de estudio.
* Diseño de investigación y avance metodológico: diseño de un nuevo estudio o desarrollo de una metodología o herramienta de investigación mediante el estudio de métodos de muestreo, recopilación de datos y estrategias de trabajo de campo.
* Descripción: describe los atributos, actitudes y comportamientos contemporáneos e históricos de individuos, sociedades, grupos y organizaciones.
* Enseñanza y aprendizaje: proporciona materiales únicos para enseñar y aprender métodos de investigación.
Para preparar y ordenar los datos cualitativos se requiere cumplir tanto con aspectos de contenido como de forma.
En términos de contenido es importante archivar toda la documentación relacionada con el proceso de la investigación. Un elemento fundamental es el almacenamiento de las transcripciones de las entrevistas, grupos focales o grupos de discusión. En consideración de que al estar presente en la entrevista se cuenta con una mayor información que solo leyendo su transcripción cualquier anotación que dé cuenta del ambiente anímico de la entrevista o del gesto que acompaña alguna frase es bienvenida. También es importante subir la pauta de la entrevista si es que existe. Asimismo, aquellos investigadores que hacen un análisis mediante codificación tienen registro del proceso por el cual llegaron a los códigos utilizados para la categorización de la información. Además, esto puede ser complementado con la descripción de las discusiones que surgieron entre el equipo de investigación para establecer tales códigos y el esquema de análisis [@kapiszewski_Transparency_2019]. Igualmente, necesario es cambiar el texto lo que sea necesario para que los sujetos de investigación no puedan ser identificados. también es conveniente compartir el cuaderno de campo de la investigación.
Esta información bien almacenada no solo ayudara a las ciencias sociales por su apoyo con información a otros investigadores, sino que conjuntamente es un gran aporte a la formación de los estudiantes sobre como investigar cualitativamente, pues estos materiales permiten una aproximación más concreta al proceso de investigación cualitativo @bishop_Revisiting_2017.
### Confidencialidad en datos cualitativos
Respecto a la confidencialidad de los datos ICPSR recomienda que: antes de enviar datos cualitativos a un archivo, los depositantes de datos deben tener cuidado de eliminar la información que permita identificar a cualquiera de sus sujetos de investigación. Este proceso se puede hacer menos arduo creando un esquema de anonimización antes de la recopilación de datos y anonimizando los datos a medida que se crean los archivos cualitativos para el análisis.
Los siguientes son ejemplos de modificaciones que se pueden hacer a los datos cualitativos para asegurar
confidencialidad del encuestado (Marz y Dunn 2000):
• Reemplazar nombres reales con texto generalizado. Por ejemplo, "John" se puede cambiar a "tío" o "Sra. Briggs ”a“ maestro ”. Se puede incluir más de una persona con la misma relación con el encuestado para representar a cada individuo único, por ejemplo, amigo1, amigo2. La información demográfica también se puede sustituir por los nombres reales de las personas, por ejemplo, "John" se puede cambiar a "M / W / 20" para hombres, blancos, 20 años. Se pueden utilizar seudónimos; sin embargo, es posible que no sean tan informativos para los usuarios futuros como otros métodos de reemplazo de nombres. Tenga en cuenta que los nombres reales también pueden ser nombres de tiendas, nombres de instalaciones para menores, sistemas de transporte, nombres de programas, nombres de vecindarios u otra ubicación geográfica y sus siglas o apodos conocidos y / o de uso frecuente.
• Reemplazar fechas. Las fechas que se refieren a eventos específicos, especialmente fechas de nacimiento o eventos relacionados con el sistema de justicia penal, deben reemplazarse con algún marcador general para la información, por ejemplo, "mes", "mes / año" o "mm / dd / aa".
• Eliminar elementos únicos y / o publicitados. Si el elemento no se puede generalizar usando una de las opciones anteriores, es posible que sea necesario eliminar todo el texto y marcarlo explícitamente como tal, por ejemplo, usando "descripción del evento eliminado" o puntos suspensivos ("...") como un general
indicador.
Dado que los investigadores están más familiarizados con sus datos, se les pide que utilicen su juicio sobre si cierta información cualitativa en combinación con el resto del texto o información cuantitativa relacionada podría permitir la identificación de un individuo.
Los depositantes de datos deben documentar cualquier modificación para enmascarar información confidencial en los datos cualitativos. Esto garantizará que el personal del archivo no realice cambios innecesarios en las modificaciones del investigador cuando realice su revisión de confidencialidad. Tal
Por tanto, la información también se pondrá a disposición de los usuarios secundarios de los datos para ayudarles a utilizarlos.
### Documentación para datos cualitativos
Para que los datos cualitativos se utilicen en el análisis secundario, es extremadamente importante que los datos están bien documentados. Cualquier información que pueda proporcionar contexto y claridad a un Se debe proporcionar un usuario secundario. Específicamente, la documentación para datos cualitativos debeincluir:
• Investigar métodos y prácticas (incluido el proceso de consentimiento informado) que estén completamente documentados
• Copia en blanco del formulario de consentimiento informado con el número de aprobación del IRB
• Detalles sobre el escenario de las entrevistas
• Detalles sobre la selección de los sujetos de la entrevista
• Instrucciones dadas a los entrevistadores
• Instrumentos de recopilación de datos como cuestionarios de entrevistas
• Medidas tomadas para eliminar identificadores directos en los datos (por ejemplo, nombre, dirección, etc.)
• Cualquier problema que surgió durante el proceso de selección y / o entrevista y cómo se manejaron
• Lista de entrevistas
### Formatos para datos cualitativos
En términos de formato es necesario seguir dos principios que en ocasiones pueden ser contrapuestos. En primer lugar, es necesario almacenar la información en formatos que sean ampliamente compartidos y utilizados en el campo de investigación. En segundo lugar, es necesario guardar los datos en formatos libres, que si bien no siempre son utilizados, a diferencia de los formatos propietarios pueden ser abiertos por personas de distintos países y hacen los datos perdurables incluso después de que el formato ampliamente sea desechado. Para cumplir con ambas exigencias se recomienda subir los documentos en distintos formatos.
Formatos para documentos de texto:
* PDF
* .txt
Formatos para grabaciones:
* .mp3
* .ogg
Formatos para imágenes:
* .png
* .jpg
## Datos cuantitativos:
### Bases de datos y curatoria
Una base de datos es un conjunto de información organizada de modo estructural que permite almacenar distintas capas de información. Las bases de datos no son equivalentes a las matrices (Ver ejemplo de matriz en imagen 1) pues poseen más información además de las variables, lo casos y los valores, como la descripción de las variables, las etiquetas de las categorías o el tipo-clase de información contenida. Incluso las bases de datos pueden contener información sobre el formato en el que están (p ej. SPSS). De hecho, al pasar una base de datos a una simple matriz se pierde información.
En este ejemplo de matriz, podemos ver como la información contenida simplemente posee el nombre de los sujetos (a,b,c), las variables (1,2,3) y los valores ("y", "x").
```{r}
a <- c("1","2","3")
b <- c("3","2","1")
c <- c("2","3","1")
matris<-as.matrix(rbind(a,b,c))
matris
```
Ahora veamos la estructura de esta matriz en base al argumento str del sofware R, el cual nos permite visualizar los componentes de un objeto.
```{r}
print(str(rbind(a,b,c)))
```
Como se puede ver la estructura de la matriz es relativamente simple. A continuación, se expone la estructura de una base de datos del centro COES, la base [ELSOC](), esta base fue recortada para solo poseer tres variables como la matriz anterior. Si bien es bastante complejo leer la estructura de la matriz y la base de datos, para este ejercicio basta con darse cuenta de que la base de datos posee una estructura más compleja y mayor información que la matriz.
```{r}
ELSOC <- read_dta("ELSOC_W01_v2.00_Stata14.dta")
ELSOC_3 <- select(ELSOC, t01, r01_01, c01)
print(str(ELSOC_3))
```
Ahora bien, la utilidad de tener una buena base de datos, con etiquetas, variables y categorías bien estructuradas, es que facilita el análisis y el trabajo con la base de dato de modo tal que los gráficos de los programas reconocen esta estructura. Además, tener la base de datos bien estructurada y con información permite identificar las variables de modo correcto, disminuyendo los posibles errores. A continuación, podemos ver la misma base de datos de la cual evaluamos a estructura, a partir de un código que genera un libro de códigos automáticos.
```{r}
sjPlot::view_df(ELSOC_3, show.type = T)
```
Por el contrario, si tenemos una "base de datos" que es creada en excel como en la imagen posterior, sin estructurar el contenido sobre las etiquetas de las variables ni las etiquetas de los valores y utilizamos el mismo código para la creación un libro de códigos, este no será muy informativo. Esto dificultaría el trabajo con esta base de datos, haciendo necesario agregar las etiquetas manualmente facilitando errores de codificación.
```{r echo=FALSE, fig.align='center'}
knitr::include_graphics("EJEMPLOMALABASE.png")
```
```{r}
Mal_ejemplo <- read_excel("EJEMPLOMALABASE.xlsx")
sjPlot::view_df(Mal_ejemplo)
```
Además de que las bases de datos se encuentren bien estructuradas es importante que las etiquetas de las variables y las categorías se encuentren codificadas en "UTF-8" para que las letras puedan ser interpretadas por algunos softwares. Además de tener este tipo de codificación, es necesario que las bases de datos no posean tildes ni signos especiales (p. ej ¿ " , ;), preferentemente solo dígitos alfanuméricos. De lo contrario se generan problemas de codificación que resultan en errores visibles como los que se presentan a continuación.
```{r}
EncuestaCEPjul <- read_sav("EncuestaCEPjul.sav")
Encuesta_CEP <- select(EncuestaCEPjul, SV1, MB_P2, ELE_7_1)
sjPlot::view_df(Encuesta_CEP, encoding = "UTF-8")
```
Junto de la importancia de la estructura de la base de datos, las etiquetas y la codificación es necesario revisar algunos otros puntos sobre una base de datos sociales antes de subirla, como lo pueden ser el tema de la documentación necesaria o el tema de la privacidad, a continuación, haremos una revisión de los distintos temas que son importantes para la publicación de una base de datos.
El proceso de preparación por el cual se llega a una base bien etiquetada, bien codificad y anonima se denomina __curatoria__. Por ello, la curatoria de datos es fundamental antes de compartir una base de datos para que todos los usuarios de ella puedan comprender adecuadamente su contenido y trabajar con la menor cantidad de complicaciones.
### Guía ICPSR sobre calidad de datos.
Para resguardar al calidad de los datos cuantitativos ICPSR propone, entre otros, los siguientes puntos:
#### Errores de codificación
Verifique cuidadosamente la coherencia entre las respuestas del cuestionario y los valores en la base de datos para el primer 5 a 10 por ciento de los registros de datos creados y luego elija registros aleatorios para controles de calidad. Posteriormente, puede realizar analisis descriptivos de distribución para evaluar si existen valores atipicos atribuibles a errores de codificación (p ej. 66 en la variable hijos en ves de 6). El uso de computadores y programas de encuesta y codificación puede ayudar a disminuir estos errores.
##### Recodificación automatica
Deje que la computadora realice codificaciones y rectificaciones complejas si es posible. Por ejemplo, para crear un serie de variables que describen la estructura familiar, escriba un código de computadora para realizar la tarea.
Los códigos de computadora no solo son precisos si las instrucciones son precisas, sino que también pueden
también se puede cambiar fácilmente para corregir un error lógico o de programación. Incluya en la documentación los codigos utilizados para la recodificación.
##### Consistencia
Evalue la coherencia entre las variables, identificando a quienes poseen convinaciones incoherentes. Por ejmplo, si alguien señala que su hijo no asiste a la escuela y luego responde preguntas sobre la escuela.
#### Identificadores individuales y grupales
Proporcione variables identificadoras suficientes. Es fundamental que cada sujeto posea un id, además si la encuesta es longitudinal se puede proporcionar, junto al id de encuestado, un id por cada ocación que contesta la encuesta. Otros identificadores dependen del tema del estudio, por ejemplo, si se trabaja con escuelas, verifique que cada escuela tiene un identificador id-escuela. Si trabaja con encuestados de modo tal que dos o más son de la misma familia y cada encuestado corresponde a un nucleo familiar, indique un id para familia.
#### Nombres de Variables
El nombre de la variable sera con lo que más se trabajara con los datos, por ende deben ser claros y utilizables por disintintos softwares.
Existen distintos estandartes para elegir los nombres de las variables.
1. El primero consiste asignar un numero único anteponiendo una V de modo tal que, siendo n el numero de variables, las variables se nombran como Vn según su posición (p ej. V0001, v0002,...Vn). Se antepone la V por que los software en general no permiten nombres de variables con solo caracteres números.
2. El segundo modo utiliza letras y números para agrupar las variables según escalas o temas (p. ej Q1,Q2a,Q2b), si bien es un sistema que entrega más información, no informa sobre el contenido.
3.El tercero consiste en utilizar abreviaturas nemotecnicas, es decir, nombres cortos de variables que representan el significado sustantivo de las variables facilitando su memorización y comprensión. Por ejemplo _educpadr_ como "Educación del Padre". Este tipo de nombres podrian ayudar a disminuir los errores en los análisis producidos por agregar una variable incorrecta en el código. El problema es que con la limitación de caracteres de los software es difícil generar abreviaturas arbitrarias que sean ampliamente reconocibles por un publico diverso.
4. El cuarto consiste en Abreviaciones compartidas y registradas. Un sistema de raices y sufijos. Por ejemplo, todas las variables que tienen que ver con la educación pueden tener la raíz ED, y podria expresarse "Educación del Padre" como FAED, siendo estas nomesclatura previamente documentada. Esto implica una planificación previa y capacidad de organización para compartir las abreviaturas, así como herramientas para facilitar el encontrar las abreviaturas correctas en la biblioteca o documento de sufijos y prefijos.
En consideración de estas opciones expuestas por ICPSR, se recomienda utilizar la tercera, puesto que cumple con la cualidad de la primera y la segunda de identificar las variables de modo único, a la vez que cumple con el criterio de hacer más comprensible y facil de recordar.
Junto a lo señalado por ICPSR, consideramos que al crear un nombre de la variable este debe ser utilizable por los distintos sofwares comunmente utilizados como SPSS, STATA y R. En vista de lo anterior sugerimos:
+ Dos variables no pueden tener el mismo nombre
+ No utlizar más de 12 caracteres en el nombre
+ Empezar con una letra
+ Deben ser solo alfanuméricos (Numeros y letras, sin símbolos . ; , : “ $ @)
+ En minúscula
+ No utilizar la letra ñ, remplazarlo por gn (agnos, en vez de años)
+ Remplazando espacios por guionbajo. (edad_rec)
##### Etiquetas de variables
las variables deben ser correctamente etiquetadas. Las etiquetas deben partir con el numero del item en el cuestionario para poder asociarlo. Luego debe darse información sobre el contenido de la variable o ingresar directamente la pregunta realizada al encuestado.
Considerando las limitaciones de caracteres de los sofwares, en base a manuales universitarios de SPSS y STATA, se sugiere que las etiquetas de las variables no superen los 120 caracteres.
#### Codificación
+ Variables de identificación. Proporcione campos al comienzo de cada registro para acomodar todas las variables de identificación. Las variables de identificación a menudo incluyen un número de estudio único y un número de encuestado para representar cada caso.
+ Categorías de código. Las categorías de códigos deben ser mutuamente excluyentes, exhaustivas y estar definidas con precisión. Cada respuesta de la entrevista debe encajar en una y solo una categoría. La ambigüedad provocará dificultades de codificación y problemas con la interpretación de los datos.
+ Conservación de la información original. Codifique tantos detalles como sea posible. Registrar datos originales, como edad e ingresos, es más útil que colapsar o poner entre corchetes la información. Con datos originales o detallados, los analistas secundarios pueden determinar otros paréntesis significativos por sí mismos en lugar de limitarse a los elegidos por otros.
+ Preguntas cerradas. Las respuestas a las preguntas de la encuesta que están precodificadas en el cuestionario deben conservar este esquema de codificación en los datos legibles por máquina para evitar errores y confusiones.
+ Preguntas de final abierto. Para los ítems abiertos, los investigadores pueden usar un esquema de codificación predeterminado o revisar las respuestas iniciales de la encuesta para construir un esquema de codificación basado en las categorías principales que surgen. Cualquier esquema de codificación y su derivación deben informarse en la documentación del estudio.
+ Respuestas codificadas por el usuario. Cada vez más, los investigadores envían el texto completo de las respuestas a las preguntas abiertas a los archivos para que los usuarios puedan codificar estas respuestas ellos mismos. Debido a que dichas respuestas pueden contener información confidencial, deben ser revisadas por riesgo de divulgación y, si es necesario, tratadas por archivos antes de su publicación.
+ Comprobar codificación. Es una buena idea verificar o verificar el código de algunos casos durante el proceso de codificación, es decir, repetir el proceso con un codificador independiente. Por ejemplo, si se asigna más de un código a la respuesta de una entrevista, esto resalta problemas o ambigüedades en el esquema de codificación. Esta codificación de verificación proporciona un medio importante de control de calidad en el proceso de codificación.
+ Serie de respuestas. Si una serie de respuestas requiere más de un campo, organizar las respuestas en clasificaciones importantes significativas es útil. Respuestas dentro de cada especialidad categoría se les asigna el mismo primer dígito. Los dígitos secundarios pueden distinguir específicos respuestas dentro de las categorías principales. Tal esquema de codificación permite el análisis de la datos utilizando agrupaciones amplias o categorías más detalladas.
#### Identificar Casos perdidos
ICPSR no establece un modo determinado de identificar los perdidos aunque señala las ventajas y desventajas de distintos tipos de codificación. Igualmente sugiere distintos tipos de perdidos que deben ser identificados. Cabe destacar que como regla general para la preservación, los perdidos se deben codificar del modo más similar a las categorias de las variables, de modo tal que una variable numerica de un digito se indica con (8,9) y una variable categorica con alternativas de texto con ("No sabe", "No responde")
* Rechazo / Sin respuesta. El sujeto se negó explícitamente a responder una pregunta o no la respondió cuando debería haberlo hecho.
* No lo sé. El sujeto no pudo responder una pregunta, ya sea porque no tenía una opinión o porque la información requerida no estaba disponible (por ejemplo, un encuestado no pudo proporcionar los ingresos familiares en dólares del año anterior).
* Error de proceso. Por alguna razón, no hay respuesta a la pregunta, aunque el sujeto proporcionó una. Esto puede resultar de un error del entrevistador, codificación incorrecta, falla de la máquina u otros problemas.
* No aplica. Al sujeto nunca se le hizo una pregunta por alguna razón. A veces, esto se debe a patrones de omisión después de preguntas de filtro, por ejemplo, a los sujetos que no están trabajando no se les pregunta sobre las características del trabajo. Otros ejemplos de inaplicabilidad son los conjuntos de elementos solicitados solo de submuestras aleatorias y los solicitados a un miembro de un hogar pero no a otro.
* Sin coincidencia. Esta situación surge cuando los datos se obtienen de diferentes fuentes (por ejemplo, un cuestionario de encuesta y una base de datos administrativa) y no se puede localizar la información de una fuente.
* Datos no disponibles. La pregunta debería haberse formulado al encuestado, pero por un por otro motivo distinto de los enumerados anteriormente, no se dio ni registró ninguna respuesta.
Considerando las ventajas y desventajas de las distintas formas de codificación se sugiere a titulo personal utilizar valores perdidos con valores altos en negativo de modo tal que sean estandar para todas las variables y no sean confundible con los valores posibles de dichas variables. Se propone utilizar los siguientes valores perdidos, usando numericos o caracteres segÚn corresponda.
| Código de texto | Código numérico |
|-------------------|-----------------|
| No responde | -999 |
| No sabe | -998 |
| Error de Proceso | -997 |
| No aplica | -996 |
| Sin coincidencia | -995 |
| No disponible | -994 |
Para obtener información adicional sobre datos georeferenciados e imputaciones revise directamente la guía ofrecida por ICPSR disponible en este [vinculo](https://www.icpsr.umich.edu/files/deposit/dataprep.pdf)
- Las mismas variables en distintas olas deben tener el mismo nombre. Las variables que ayuden a conectar casos, por ejemplo cuestionarios de padres y apoderados (id-estudiante) en ambas bases. las variables para hacer merge