-
Notifications
You must be signed in to change notification settings - Fork 2
/
02-modulo1.Rmd
449 lines (224 loc) · 37.4 KB
/
02-modulo1.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
---
title: "Sobre el almacenamiento abierto de datos"
---
```{r, echo=FALSE, message=FALSE}
library(haven)
library(dplyr)
library(sjPlot)
library(sjlabelled)
library(readxl)
```
```{r echo=FALSE}
knitr::opts_chunk$set(out.width="80%", fig.pos = "!ht", out.extra = "")
```
# Consejos para la Apertura de Datos de Investigación Social (CADIS)
A continuación, se presenta una sencilla pauta sobre cómo y dónde publicar abiertamente información cualitativa o cuantitativa producida por investigaciones sociales, cumpliendo con estándares internacionales de almacenamiento. Esta pauta ayuda a cumplir con objetivos señalados por el Consejo Internacional para la Ciencia [@icsu_Open_2014], los cuales promueven el acceso oportuno a los registros científicos sin barreras, mejorando su calidad y de modo perdurable en el tiempo. Igualmente, proponemos una guía de almacenamiento que permite cumplir con los principios FAIR (Findable, Accessible, Interoperable, Reusable) promovidos por organizaciones científicas del Estado Chileno, americanas y europeas [@anid_Con_2020;@ramirez_Ciencia_2019;@ec_FAIR_2016]. Los estándares FAIR tienen el objetivo de hacer los datos fáciles de encontrar en la web y que estén en formatos que cualquier investigador pueda utilizar [@gofair_FAIR_2020].
Esta pauta para la publicación de datos fue creada en base a otros materiales de apoyo con objetivos similares, como la guía de preparación de datos creada por el Consorcio interuniversitario para la investigación política y social (ICPSR), el manual de Autoevaluación para el proveedores de repositorios abiertos (RISE) del Digital Curation Center (DDC) [@ddc_Using_2017], los planes europeos de manejo de datos (DMP) y los consejos de distintos investigadores tanto para datos cuantitativos como cualitativos [@ccsds_Recommendation_2012; @@kapiszewski_Transparency_2019].
Para publicar los datos de investigación proponemos tres momentos Los tres momentos son:
* __Preparar__
> ¿Qué debo hacer con mis datos antes de publicarlos abiertamente?
Se indican las labores para hacer los datos utilizables por cualquier investigador sin la necesidad de contactar a los productores de los datos. Ello implica transformar los documentos a ciertos formatos, entregar información oportuna para comprender los datos, procurar la confidencialidad, preparar bases de datos para ser usadas por distintos softwares y las entrevistas para que se comprenda el contexto y los detalles de su realización. Cumpliendo con los requisitos de esta sección el investigador tendrá datos listos para ser publicados, que serán fácilmente utilizables por cualquier investigador con conocimiento básico.
* __Documentar__
> ¿Qué información y documentos debo subir junto a los datos?
Esta subsección señala los documentos necesarios que deben ser adjuntados. Por ello implica recolectar, planificar y/o producir toda la información para comprender el contenido y las características de los datos almacenados. El investigador frente a esta sección debería generar una carpeta digital que contenga los datos y la documentación requerida ordenada de un modo estándar. Cumpliendo con los puntos señalados en este apartado el investigador contara con una carpeta que almacena todo lo importante para que otros investigadores puedan trabajar con sus datos tomando las decisiones correctas considerando las características de los mismos.
* __Publicar__
> ¿Dónde y cómo subo mis datos para abrirlos?
Esta subsección presenta una comparación sobre distintas plataformas para publicar datos entregando razones de por qué utilizar Open Science Framework (OSF) y expone un ejemplo de cómo hacerlo. Con datos preparados y documentados, después de seguir los pasos de esta sección el investigador concluirá la publicación de sus datos almacenándolos en una plataforma que ofrece identificadores persistentes (DOI) garantiza la perdurabilidad de los datos y es de libre acceso.
## __Preparar__
### Datos cualitativos:
En consideración de que al estar presente en la entrevista se cuenta con una mayor información que solo leyendo su transcripción cualquier anotación que dé cuenta del ambiente anímico de la entrevista o del gesto que acompaña alguna frase es bienvenida. También es importante subir la pauta de la entrevista si es que existe. Asimismo, aquellos investigadores que hacen un análisis mediante codificación tienen registro del proceso por el cual llegaron a los códigos utilizados para la categorización de la información. Además, esto puede ser complementado con la descripción de las discusiones que surgieron entre el equipo de investigación para establecer tales códigos y el esquema de análisis [@kapiszewski_Transparency_2019].
Igualmente, necesario es cambiar en el texto y/o audio lo que sea necesario para que los sujetos de investigación no puedan ser identificados, de ser necesario. También es conveniente compartir el cuaderno de campo de la investigación.
Esta información bien almacenada no solo ayudara a las ciencias sociales por su apoyo con información a otros investigadores, sino que conjuntamente es un gran aporte a la formación de los estudiantes sobre como investigar cualitativamente, pues estos materiales permiten una aproximación más concreta al proceso de investigación cualitativo @bishop_Revisiting_2017.
#### Confidencialidad en datos cualitativos
Respecto a la confidencialidad de los datos ICPSR recomienda que: antes de enviar datos cualitativos a un archivo, los depositantes de datos deben tener cuidado de eliminar la información que permita identificar a cualquiera de sus sujetos de investigación. Este proceso se puede hacer menos arduo creando un esquema para anonimizar antes de la recopilación de datos y anonimizando los datos a medida que se crean los archivos cualitativos para el análisis.
Los siguientes son ejemplos de modificaciones que se pueden hacer a los datos cualitativos para asegurar
confidencialidad del encuestado (Marz y Dunn 2000):
• Reemplazar nombres reales con texto generalizado. Por ejemplo, "John" se puede cambiar a "tío" o "Sra. Briggs ”a“ maestro ”. Se puede incluir más de una persona con la misma relación con el encuestado para representar a cada individuo único, por ejemplo, amigo1, amigo2. La información demográfica también se puede sustituir por los nombres reales de las personas, por ejemplo, "John" se puede cambiar a "M / W / 20" para hombres, blancos, 20 años. Se pueden utilizar seudónimos; sin embargo, es posible que no sean tan informativos para los usuarios futuros como otros métodos de reemplazo de nombres. Tenga en cuenta que los nombres reales también pueden ser nombres de tiendas, nombres de instalaciones para menores, sistemas de transporte, nombres de programas, nombres de vecindarios u otra ubicación geográfica y sus siglas o apodos conocidos y / o de uso frecuente.
• Reemplazar fechas. Las fechas que se refieren a eventos específicos, especialmente fechas de nacimiento o eventos relacionados con el sistema de justicia penal, deben reemplazarse con algún marcador general para la información, por ejemplo, "mes", "mes / año" o "mm / dd / aa".
• Eliminar elementos únicos y / o publicitados. Si el elemento no se puede generalizar usando una de las opciones anteriores, es posible que sea necesario eliminar todo el texto y marcarlo explícitamente como tal, por ejemplo, usando "descripción del evento eliminado" o puntos suspensivos ("...") como un general
indicador.
Dado que los investigadores están más familiarizados con sus datos, se les pide que utilicen su juicio sobre si cierta información cualitativa en combinación con el resto del texto o información cuantitativa relacionada podría permitir la identificación de un individuo.
Los depositantes de datos deben documentar cualquier modificación para enmascarar información confidencial en los datos cualitativos. Esto garantizará que el personal del archivo no realice cambios innecesarios en las modificaciones del investigador cuando realice su revisión de confidencialidad. Tal
Por tanto, la información también se pondrá a disposición de los usuarios secundarios de los datos para ayudarles a utilizarlos.
#### Formatos para datos cualitativos
En términos de formato es necesario seguir dos principios que en ocasiones pueden ser contrapuestos. En primer lugar, es necesario almacenar la información en formatos que sean ampliamente compartidos y utilizados en el campo de investigación. En segundo lugar, es necesario guardar los datos en formatos libres, que, si bien no siempre son utilizados, a diferencia de los formatos propietarios pueden ser abiertos por personas de distintos países y hacen los datos perdurables incluso después de que el formato ampliamente sea desechado. Para cumplir con ambas exigencias se recomienda subir los documentos en distintos formatos. Para crear los documentos .txt se puede utilizar Blog de Notas.
Formatos para documentos de texto:
* Portable Document Format (.pdf)
* Archivo de Texto (.txt)
Formatos para grabaciones:
* Moving Picture experts group audio layer 3 (.mp3)
* Oh Great Garbage (.ogg)
Formatos para imágenes:
* Portable Network Graphics (.png)
* Joint Photographic Experts Group (.jpg)
### Datos cuantitativos:
Para resguardar a la calidad de los datos cuantitativos ICPSR propone, entre otros, los siguientes puntos:
##### Errores de codificación
Verifique cuidadosamente la coherencia entre las respuestas del cuestionario y los valores en la base de datos para el primer 5 a 10 por ciento de los registros de datos creados y luego elija registros aleatorios para controles de calidad. Posteriormente, puede realizar análisis descriptivos de distribución para evaluar si existen valores atípicos atribuibles a errores de codificación (p ej. 66 en la variable hijos en vez de 6). El uso de computadores y programas de encuesta y codificación puede ayudar a disminuir estos errores.
###### Recodificación automática
Deje que la computadora realice codificaciones y rectificaciones complejas si es posible. Por ejemplo, para crear una serie de variables que describen la estructura familiar, escriba un código de computadora para realizar la tarea.
Los códigos de computadora no solo son precisos si las instrucciones son precisas, sino que también pueden
también se puede cambiar fácilmente para corregir un error lógico o de programación. Incluya en la documentación los códigos utilizados para la recodificación.
###### Consistencia
Evalué la coherencia entre las variables, identificando a quienes poseen combinaciones incoherentes. Por ejemplo, si alguien señala que su hijo no asiste a la escuela y luego responde preguntas sobre la escuela.
##### Identificadores individuales y grupales
Proporcione variables identificadoras suficientes. Es fundamental que cada sujeto posea un id, además si la encuesta es longitudinal se puede proporcionar, junto al id de encuestado, un id por cada ocasión que contesta la encuesta. Otros identificadores dependen del tema del estudio, por ejemplo, si se trabaja con escuelas, verifique que cada escuela tiene un identificador id-escuela. Si trabaja con encuestados de modo tal que dos o más son de la misma familia y cada encuestado corresponde a un núcleo familiar, indique un id para familia.
##### Nombres de Variables
El nombre de la variable será con lo que más se trabajara con los datos, por ende, deben ser claros y utilizables por distintitos softwares.
Existen distintos estandartes para elegir los nombres de las variables.
1. El primero consiste asignar un numero único anteponiendo una V de modo tal que, siendo n el número de variables, las variables se nombran como Vn según su posición (p ej. V0001, v0002,...Vn). Se antepone la V por que los softwares en general no permiten nombres de variables con solo caracteres números.
2. El segundo modo utiliza letras y números para agrupar las variables según escalas o temas (p. ej. Q1,Q2a,Q2b), si bien es un sistema que entrega más información, no informa sobre el contenido.
3.El tercero consiste en utilizar abreviaturas nemotécnicas, es decir, nombres cortos de variables que representan el significado sustantivo de las variables facilitando su memorización y comprensión. Por ejemplo _educpadr_ como "Educación del Padre". Este tipo de nombres podrían ayudar a disminuir los errores en los análisis producidos por agregar una variable incorrecta en el código. El problema es que con la limitación de caracteres de los softwares es difícil generar abreviaturas arbitrarias que sean ampliamente reconocibles por un público diverso.
4. El cuarto consiste en Abreviaciones compartidas y registradas. Un sistema de raíces y sufijos. Por ejemplo, todas las variables que tienen que ver con la educación pueden tener la raíz ED, y podría expresarse "Educación del Padre" como FAED, siendo esta nomenclatura previamente documentada. Esto implica una planificación previa y capacidad de organización para compartir las abreviaturas, así como herramientas para facilitar el encontrar las abreviaturas correctas en la biblioteca o documento de sufijos y prefijos.
En consideración de estas opciones expuestas por ICPSR, se recomienda utilizar la tercera, puesto que cumple con la cualidad de la primera y la segunda de identificar las variables de modo único, a la vez que cumple con el criterio de hacer más comprensible y fácil de recordar.
Junto a lo señalado por ICPSR, consideramos que al crear un nombre de la variable este debe ser utilizable por los distintos softwares comúnmente utilizados como SPSS, STATA y R. En vista de lo anterior sugerimos:
+ Dos variables no pueden tener el mismo nombre
+ No utilizar más de 12 caracteres en el nombre
+ Empezar con una letra
+ Deben ser solo alfanuméricos (Números y letras, sin símbolos . ; , : “ $ @)
+ En minúscula
+ No utilizar la letra ñ, remplazarlo por gn (agnos, en vez de años)
+ Remplazando espacios por guion bajo. (edad_rec)
###### Etiquetas de variables
las variables deben ser correctamente etiquetadas. Las etiquetas deben partir con el número del ítem en el cuestionario para poder asociarlo. Luego debe darse información sobre el contenido de la variable o ingresar directamente la pregunta realizada al encuestado.
Considerando las limitaciones de caracteres de los softwares, en base a manuales universitarios de SPSS y STATA, se sugiere que las etiquetas de las variables no superen los 120 caracteres.
##### Codificación
+ Variables de identificación. Proporcione campos al comienzo de cada registro para acomodar todas las variables de identificación. Las variables de identificación a menudo incluyen un número de estudio único y un número de encuestado para representar cada caso.
+ Categorías de código. Las categorías de códigos deben ser mutuamente excluyentes, exhaustivas y estar definidas con precisión. Cada respuesta de la entrevista debe encajar en una y solo una categoría. La ambigüedad provocará dificultades de codificación y problemas con la interpretación de los datos.
+ Conservación de la información original. Codifique tantos detalles como sea posible. Registrar datos originales, como edad e ingresos, es más útil que colapsar o poner entre corchetes la información. Con datos originales o detallados, los analistas secundarios pueden determinar otros paréntesis significativos por sí mismos en lugar de limitarse a los elegidos por otros.
+ Preguntas cerradas. Las respuestas a las preguntas de la encuesta que están precodificadas en el cuestionario deben conservar este esquema de codificación en los datos legibles por máquina para evitar errores y confusiones.
+ Preguntas de final abierto. Para los ítems abiertos, los investigadores pueden usar un esquema de codificación predeterminado o revisar las respuestas iniciales de la encuesta para construir un esquema de codificación basado en las categorías principales que surgen. Cualquier esquema de codificación y su derivación deben informarse en la documentación del estudio.
+ Respuestas codificadas por el usuario. Cada vez más, los investigadores envían el texto completo de las respuestas a las preguntas abiertas a los archivos para que los usuarios puedan codificar estas respuestas ellos mismos. Debido a que dichas respuestas pueden contener información confidencial, deben ser revisadas por riesgo de divulgación y, si es necesario, tratadas por archivos antes de su publicación.
+ Comprobar codificación. Es una buena idea verificar o verificar el código de algunos casos durante el proceso de codificación, es decir, repetir el proceso con un codificador independiente. Por ejemplo, si se asigna más de un código a la respuesta de una entrevista, esto resalta problemas o ambigüedades en el esquema de codificación. Esta codificación de verificación proporciona un medio importante de control de calidad en el proceso de codificación.
+ Serie de respuestas. Si una serie de respuestas requiere más de un campo, organizar las respuestas en clasificaciones importantes significativas es útil. Respuestas dentro de cada especialidad categoría se les asigna el mismo primer dígito. Los dígitos secundarios pueden distinguir específicos respuestas dentro de las categorías principales. Tal esquema de codificación permite el análisis de los datos utilizando agrupaciones amplias o categorías más detalladas.
##### Identificar Casos perdidos
ICPSR no establece un modo determinado de identificar los perdidos, aunque señala las ventajas y desventajas de distintos tipos de codificación. Igualmente sugiere distintos tipos de perdidos que deben ser identificados. Cabe destacar que, como regla general para la preservación, los perdidos se deben codificar del modo más similar a las categorías de las variables, de modo tal que una variable numérica de un digito se indica con (8,9) y una variable categórica con alternativas de texto con ("No sabe", "No responde")
* Rechazo / Sin respuesta. El sujeto se negó explícitamente a responder una pregunta o no la respondió cuando debería haberlo hecho.
* No lo sé. El sujeto no pudo responder una pregunta, ya sea porque no tenía una opinión o porque la información requerida no estaba disponible (por ejemplo, un encuestado no pudo proporcionar los ingresos familiares en dólares del año anterior).
* Error de proceso. Por alguna razón, no hay respuesta a la pregunta, aunque el sujeto proporcionó una. Esto puede resultar de un error del entrevistador, codificación incorrecta, falla de la máquina u otros problemas.
* No aplica. Al sujeto nunca se le hizo una pregunta por alguna razón. A veces, esto se debe a patrones de omisión después de preguntas de filtro, por ejemplo, a los sujetos que no están trabajando no se les pregunta sobre las características del trabajo. Otros ejemplos de inaplicabilidad son los conjuntos de elementos solicitados solo de submuestras aleatorias y los solicitados a un miembro de un hogar, pero no a otro.
* Sin coincidencia. Esta situación surge cuando los datos se obtienen de diferentes fuentes (por ejemplo, un cuestionario de encuesta y una base de datos administrativa) y no se puede localizar la información de una fuente.
* Datos no disponibles. La pregunta debería haberse formulado al encuestado, pero por un por otro motivo distinto de los enumerados anteriormente, no se dio ni registró ninguna respuesta.
Considerando las ventajas y desventajas de las distintas formas de codificación se sugiere a título personal utilizar valores perdidos con valores altos en negativo de modo tal que sean estándar para todas las variables y no sean confundible con los valores posibles de dichas variables. Se propone utilizar los siguientes valores perdidos, usando numéricos o caracteres según corresponda.
| Código de texto | Código numérico |
|-------------------|-----------------|
| No responde | -999 |
| No sabe | -998 |
| Error de Proceso | -997 |
| No aplica | -996 |
| Sin coincidencia | -995 |
| No disponible | -994 |
Para obtener información adicional sobre datos georreferenciados e imputaciones revise directamente la guía ofrecida por ICPSR disponible en este [vinculo](https://www.icpsr.umich.edu/files/deposit/dataprep.pdf)
## __Documentar__
Existen distintos estándares sobre qué información incorporar junto con los datos destacando la importancia de que estos materiales sean legibles por humanos y por inteligencia artificial [@gofair_FAIR_2020]. A continuación, se presenta un mínimo de los documentos necesarios para publicar los datos basado en la propuesta de Marwick [@dandrea_Meetup_2020].
```{r echo=FALSE, fig.align='center',out.width="50%"}
knitr::include_graphics("images/small_rc.png")
```
Además de estos documentos, como se muestra en la imagen siguiente se recomienda incorporar metadatos para que los datos sean utilizables por inteligencia artificial (Cumpliendo con criterios FAIR) y libros de códigos (Nombre de las Variables) para que investigadores se familiaricen con el contenido [@tierney_Realistic_2020]. Incorporar los metadatos y el libro de códigos es fundamental para cumplir con los principios FAIR, ya que permite que los datos sean fáciles de encontrar para herramientas de búsqueda mediante conceptos clave y facilita la posibilidad de reutilización de los datos mediante una buena documentación que facilite su uso.
```{r echo=FALSE, fig.align='center',out.width="50%"}
knitr::include_graphics("images/esquemadedatos.png")
```
Como puede notarse estos estándares tienen mayor afinidad para los datos cuantitativos, no obstante, la descripción del proyecto, el readme con la información que contienen los datos, la licencia y un libros de preguntas, podrían ser de mucha utilidad para un investigador que se aproxima por primera vez a un conjunto de entrevistas, del mismo modo incorporar los análisis realizados por el equipo de investigación seria de utilidad para un nuevo equipo de investigación que pretenda trabajar con estos datos cualitativos.
En consideración de lo anterior es necesario hacer algunos cambios a estos esquemas. A continuación, se propone un conjunto de documentos comunes que deben estar incluidos, junto con una guía de como escribirlos en formato abiertos para cumplir con las recomendaciones del libro Managing and sharing research data: a guide to good practice [@corti_Managing_2019]. Cabe destacar que los formatos abiertos se contraponen a los formatos propietarios para los cuales se requieren legalmente licencias pagadas como Word.docx.
#### Readme
El readme es un documento que debe responder las siguientes preguntas sobre la producción de la información [@tierney_Realistic_2020].
- Quién produjo la información
- Cual es el contenido de los datos
- Cuando fue producida la información
- Dónde fue recolectada
- Por qué se recopiló
- Cómo se recopiló
Para crear este documento se suele utilizar el formato y lenguaje Markdowm de extensión .md, este formato posee la ventaja de no ser un formato propietario que permite incluir de modo sencillo distintos elementos útiles como los links las imágenes y las tablas. Le recomendamos realizar la escritura en este formato, para ello se puede escribir el documento en R Studio señalando como extensión .md o para quienes no manejen el software, pueden crear el documento en la página [Dillinger](https://dillinger.io/). A continuación, presentamos los pasos mínimos para crear el documento.
En primer lugar, al acceder a la página Dillinger, encontrara una entrada de texto señalada como sector A y una salida con imágenes, enlaces y otros recursos posibles de Markdowm. Este tipo de lenguaje busca ser la forma más simple para los usuarios de dar formato a sencillas páginas web. Para generar un texto mínimo simplemente debe borrar el contenido en el sector y escribir un breve documento que responda las preguntas señaladas por [@tierney_Realistic_2020]. Para borrar fácilmente el contenido sugiero apretar el botón para ampliar el sector A y seleccionar todo el texto con el cursor (o con ctrl + a, habiendo hecho click en el texto).
Si desea agregar títulos, imágenes o enlaces puede utilizar los ejemplos de la página o aprender lo basico en la página de [Markdowm](https://markdown.es/sintaxis-markdown/), la cual contiene un breve vídeo y una sucinta guía.
Además, es fundamental incorporar en el README un esquema de los documentos presentes en la carpeta, incluyendo cada archivo en su respectiva carpeta.
```{r echo=FALSE, fig.align='center',out.width="100%"}
knitr::include_graphics("images/Sin título.png")
```
### Licencia
La licencia se puede crear fácilmente al publicar los datos en OSF. En la siguiente sección se señala como hacerlo.
### Metadatos
La creación de los metadatos requiere previamente que se cree el identificador y la página web en OSF que almacenara los datos. Por ello la creación de los metadatos será posterior a la publicación. Cabe desacatar que el modo de crear metadatos difiere según si el tipo de material es una transcripción de entrevista en PDF o una base de datos en formato sav, stat o rda.
###### Documentos especiales según tipo de metodología
Para publicar datos cuantitativos se recomienda recopilar y producir los siguientes materiales con el objetivo de que los usuarios de la base de datos cuenten con información suficiente para utilizarla correctamente. Los siguientes documentos deben ser subidos en PDF y Blog de notas.txt con codificación utf8.
* Cuestionario
* Consentimiento informado
* Libro de códigos
* Ficha técnica
* Manual de usuario
* Descriptivos (Optativo)
* Publicaciones asociadas a los datos (Optativo)
* Descripción e información detallada para metadatos.
Para publicar datos cualitativos se sugiere documentar la siguiente información.
* Transcripciones
* registros audiovisuales (De ser necesario)
* Investigar métodos y prácticas que estén completamente documentados
* Copia en blanco del formulario de consentimiento informado con el número de aprobación del IRB
* Detalles sobre el escenario de las entrevistas
* Detalles sobre la selección de los sujetos de la entrevista
* Instrucciones dadas a los entrevistadores
* Instrumentos de recopilación de datos como cuestionarios de entrevistas
* Medidas tomadas para eliminar identificadores directos en los datos (por ejemplo, nombre, dirección, etc.)
* Cualquier problema que surgió durante el proceso de selección y / o entrevista y cómo se manejaron
* Lista de entrevistas
## __Publicar__
### OSF y plataformas para publicar datos
La plataforma web Open Science Framework (OSF) ofrece gratuitamente servicios de infraestructura digital que permite un espacio de registro para las distintas etapas de un proyecto de investigación. Actualmente existen otras plataformas con objetivos similares como Zenovo, Dataverse, GitHub, Mendeley, Figshare, Dryad o ICPSR, y si bien todas son buenas herramientas, se remienda utilizar OSF por diversos motivos señalados por @kryvokhyzha_best_2019 y un documento informativo de la Librería de Universidades de la Universidad de OKLAHOMA @bibliotecasuniversitarias_Make_2020. En primer lugar, a diferencia de Dryad, OSF es una plataforma gratuita, con mejor estructura de repositorios y con posibilidades de corregir errores. En segundo lugar, Figshare la capacidad de estructurar los repositorios en distintos componentes, no está optimizado para descargar muchos archivos a la vez y, además es una empresa con fines de lucro. Por su parte OSF, permite estructurar de diversos modos los repositorios, esta optimizado para descargas y es una organización sin fines de lucro que es financiada por el Centro para la Ciencia Abierta [cos](https://www.cos.io/) con recursos para 50 años más. En tercer lugar, a diferencia de Zenovo y GitHub OSF si cuentan con estadísticas de descarga que nos permiten evaluar la visibilidad de los datos. En último lugar, GitHub si bien es una alternativa que ha sido utilizada para este fin, en realidad más que una plataforma para subir datos es una plataforma para crear códigos de forma colaborativa, usualmente de aplicaciones, además no nos permite crear de modo automático un DOI, lo cual es fundamental para cumplir con los principios FAIR.
No obstante, si el equipo investigador lo considera conveniente podría subir sus datos a múltiples plataformas. En esta línea, además de OSF, recomendamos almacenar los datos paralelamente en [OpenICPSR](https://www.openicpsr.org/openicpsr/workspace?path=openICPSR) puesto que esto permitirá conectar nuestros datos con el buscador de ICPSR, el cual tiene amplia visibilidad dentro del campo de las ciencias sociales a nivel internacional.
Un usuario de esta página puede crear repositorio denominado proyecto, el cual puede contener a su vez componentes que pueden ser investigaciones o datos específicos dentro del proyecto. Se pueden crear más componentes de estos tipos dentro de los componentes del proyecto. Esta estructura permite almacenar conjuntamente trabajos relacionados.
La página promueve que se registren productos de la investigación de las distintas etapas del proceso. En primer lugar, posee un espacio para los "pre-registros" que son un documento en el cual se expone brevemente el diseño de la investigación, las hipótesis y la metodología, lo cual aumenta la rigurosidad de las investigaciones.
Ambas evaluaciones de OSF señalan que un problema es el límite de almacenamiento de solo 5gb por archivo. Este límite ha sido modificado el 5 de noviembre del 2020, agregando un límite de 5gb a los proyectos que estén privados y 50 a los públicos. No obstante, el problema del espacio se puede resolver conectando OSF con otros servicios de almacenamiento con mayor capacidad.
#### Pasos para publicar
0. Crear una cuenta en OSF.
Para crear una cuenta en OSF diríjase a este [link](https://osf.io/register?campaign=&next=https%3A%2F%2Fosf.io%2F&view_only=)
1. Crear un repositorio de los datos
Para que los datos puedan contar con un identificador y ser fáciles de encontrar , se deben subir en un repositorio, para ello se debe crear uno seleccionando dicha opción en la página de OSF como se señala en la imagen. Indique el nombre del proyecto y establezca la localización (Esta no debe ser necesariamente el lugar donde usted se encuentra)
```{r echo=FALSE, fig.align='center',out.width="80%"}
knitr::include_graphics("images/crearrepo.png")
```
2.Indicar contenido
Si solo se subirán los datos cambie el cateo gira desde proyecto a datos, como se indica en la siguiente imagen.
```{r echo=FALSE, fig.align='center',out.width="80%"}
knitr::include_graphics("images/cambiaradatos.png")
```
3. Subir datos y documentos.
Suba los documentos creados en "Documentar". Para ello debe seleccionar la localización (paso 1) y luego seleccionar "subir" (paso 2). Con ello aparecerán los documentos de su ordenador, y deberá seleccionar y subir los archivos necesarios. También puede crear carpetas para ordenar los documentos.
```{r echo=FALSE, fig.align='center',out.width="80%"}
knitr::include_graphics("images/subirdatos.png")
```
4. Agregar información.
OSF ofrece varios modos para dar más información sobre sus datos. Le sugerimos rellenar las palabras claves del proyecto, haciendo alusión al contenido de las preguntas, el área temática, los sujetos de estudio y lo que considere necesario.
Describa el contenido y la estructura de los documentos en "Wiki".
También una descripción más breve en descripción.
5. Crear licencia.
En base a las recomendaciones revisadas recomendamos utilizar una licencia CCO, como se indica en la imagen. Seleccione add license y se abrirá una lista de opciones. Seleccione la sugerida o la que considere pertinente.
6. Crear DOI
Para poder crear un doi es necesario que los datos se encuentren en modo "publico". Para ello seleccione “Make Public" en la esquina superior derecha. Solo cuando los datos sean públicos OSF ofrecerá la opción de agregar un identificador, para ello solo seleccione "add doi".
7. Almacenar local.
Deje la carpeta con la documentación y los datos en ordenadores que sean de la organización a la que participa. También, puede consultar a la biblioteca de su universidad si es posible que almacenen sus datos para tener una copia de seguridad. Con ello se fomenta que los datos sean perdurables cumpliendo con los criterios de ICSU y con las recomendaciones de la tubería de datos de ICPSR.
#### Crear Metadatos para datos cualitativos o cuantitativos.
__Paso 1__
Para crear los metadatos de forma muy sencilla se puede utilizar un archivo csv, que se puede editar con el programa Excel o cualquier Hoja de cálculo. A continuación, entregamos un link para descargar un csv con los campos para rellenar los metados, cumpliendo con los campos utilizados por Dataverse Harvard y los "Social Science and Humanities Metadata" de ICPSR.
Para crear los metadatos usted solo debe escribir en las casillas de abajo de las categorías, la respuesta para cada uno de los campos, señalando el identificador, el Titulo de los datos, los autores, entre otros. Es necesario que rellene los campos en inglés. Con una traducción simple de [Google Traductor](https://translate.google.com/) o [Deepl](https://www.deepl.com/es/translator) es suficiente.
Para descargar el archivo csv editable en Excel seleccione [Descargar Metadata.cvs](https://raw.githubusercontent.com/franciscomeneses/CADIS/master/metadata.csv). Si no le ofrece directamente abrirlo con Excel, puede apretar click derecho sobre el archivo, seleccionar "Abrir con", luego Excel, si no aparece seleccionamos "Elegir otra aplicación", "Más aplicaciones" y luego Excel.
A continuación, le presentamos una tabla con cada uno de los campos que debe llenar y con que debe rellenarlos. Después de agregar la información a los metadatos solo guarde el documento desde Excel, y este se guardará automáticamente en csv delimitado por Semi-coma (;) en codificación UTF-8 (Que permite incorporar comas a los metadatos)
Cabe destacar que para el primer campo correspondiente al Identificador antes del código entregado por OSF, debe estar escrito https://doi.org/ como se muestra en el documento descargado. Esto es para cumplir con los estándares FAIR.
__Paso 2__
Después de haber creado el documento csv con nuestra información solo debemos seleccionar al siguiente link e ir al sitio web: [csvjson.com](https://csvjson.com/csv2json). En este sitio tenemos que apretar Select a file... y buscar el documento csv creado. Posteriormente, se debe señalar output: "Array" y "Minify", como se señala en la imagen. Con estas opciones apretamos el botón morado >Convert bajo el cuadrado que posee nuestro documento CSV. Cuando esté listo apretamos el botón Download, como se señala en la Imagen. El documento se descargará con el nombre csvjson, debe cambiarlo a metadata.
```{r echo=FALSE, fig.align='center',out.width="80%"}
knitr::include_graphics("images/csvtosjon.png")
```
__Paso 3__
Finalmente debemos agregar los archivos csv y json al repositorio, recuerde cambiar el nombre del documento a metadata.
##### Mejorar metadatos del Libro de códigos (Para datos cuantitativos)
Para el libro de códigos recomendamos utilizar [Codebook Generator](https://opencpu.psych.bio.uni-goettingen.de/ocpu/library/codebook/www/). En esta plataforma basta con seleccionar una base de datos, apretar generate codebook y descargar para tener un libro de códigos. Sugerimos, además, para seguir los estándares FAIR cambiar la línea de código 51 por las líneas de código señaladas más adelante, antes de generar el libro de códigos. En estos códigos usted debe agregar la información de los metadatos entre las "" usted puede agregar el nombre de su base de datos, el doi, los autores y las palabras clave. Recuerde que el DOI se creara después de publicada la base por ello recomendamos hacer el libro de códigos después de crear el repositorio en OSF, además antes del DOI hay que anteponer https://doi.org/ para que funcione como un link a nuestro proyecto.
Para obtener como citar su documento busque en su repositorio de OSF "citation" y despliegue la ventana, le aparecerán citas en distintos formatos.
```{r eval=FALSE}
metadata(codebook_data)$name <- "Nombre de su base de datos"
metadata(codebook_data)$doi <- "https://doi.org/10.17605/OSF.IO/VC8YU"
metadata(codebook_data)$keywords <- c("Palabra clave 1", "Palabra clave 2","Palabra clave 3","Palabra clave 4" )
metadata(codebook_data)$authors <- c("Autor 1", "Autor 2","Autor 3")
metadata(codebook_data)$cite <- "Meneses, F. J. (2020, December 2). Bases. https://doi.org/10.17605/OSF.IO/VC8YU"
```
##### Mejorar metadatos para documentos PDF de transcripción (Para datos Cualitativos)
Para mejorar los metadatos podemos incrustar más metadatos en los documentos PDF, en las transcripciones, por ejemplo, de modo muy sencillo. Para ello debemos ir a la página [Sejda.com](https://www.sejda.com/edit-pdf-metadata). En esta página basta con apretar Upload PDF file, para que nos entregue un conjunto de casillas para rellenar con información sobre la fecha de producción y los autores del documento. Lamentablemente no ofrece un espacio para incorporar el DOI creado en OSF, no obstante, aconsejo incorporar el DOI ya sea en autor, creador o productor. Al pegar el DOI en la casilla debe anteponer https://doi.org/ para que el DOI funcione como un enlace a nuestro proyecto en OSF. Después de descargar el documento con los metadatos modificados, se puede volver a repetir el proceso para cerciorarse de que los metadatos han cambiado.