-
Notifications
You must be signed in to change notification settings - Fork 2
/
CADIS.tex
1931 lines (1395 loc) · 140 KB
/
CADIS.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% Options for packages loaded elsewhere
\PassOptionsToPackage{unicode}{hyperref}
\PassOptionsToPackage{hyphens}{url}
%
\documentclass[
14pt,
]{book}
\usepackage{lmodern}
\usepackage{amssymb,amsmath}
\usepackage{ifxetex,ifluatex}
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{textcomp} % provide euro and other symbols
\else % if luatex or xetex
\usepackage{unicode-math}
\defaultfontfeatures{Scale=MatchLowercase}
\defaultfontfeatures[\rmfamily]{Ligatures=TeX,Scale=1}
\setmainfont[]{Palatino}
\setmonofont[Scale=0.8]{Source Code Pro}
\fi
% Use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\IfFileExists{microtype.sty}{% use microtype if available
\usepackage[]{microtype}
\UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\makeatletter
\@ifundefined{KOMAClassName}{% if non-KOMA class
\IfFileExists{parskip.sty}{%
\usepackage{parskip}
}{% else
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}}
}{% if KOMA class
\KOMAoptions{parskip=half}}
\makeatother
\usepackage{xcolor}
\IfFileExists{xurl.sty}{\usepackage{xurl}}{} % add URL line breaks if available
\IfFileExists{bookmark.sty}{\usepackage{bookmark}}{\usepackage{hyperref}}
\hypersetup{
pdftitle={Sobre el almacenamiento abierto de datos},
hidelinks,
pdfcreator={LaTeX via pandoc}}
\urlstyle{same} % disable monospaced font for URLs
\usepackage{color}
\usepackage{fancyvrb}
\newcommand{\VerbBar}{|}
\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
% Add ',fontsize=\small' for more characters per line
\usepackage{framed}
\definecolor{shadecolor}{RGB}{248,248,248}
\newenvironment{Shaded}{\begin{snugshade}}{\end{snugshade}}
\newcommand{\AlertTok}[1]{\textcolor[rgb]{0.94,0.16,0.16}{#1}}
\newcommand{\AnnotationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\AttributeTok}[1]{\textcolor[rgb]{0.77,0.63,0.00}{#1}}
\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\BuiltInTok}[1]{#1}
\newcommand{\CharTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\CommentVarTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ConstantTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ControlFlowTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{#1}}
\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\DocumentationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ErrorTok}[1]{\textcolor[rgb]{0.64,0.00,0.00}{\textbf{#1}}}
\newcommand{\ExtensionTok}[1]{#1}
\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ImportTok}[1]{#1}
\newcommand{\InformationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\NormalTok}[1]{#1}
\newcommand{\OperatorTok}[1]{\textcolor[rgb]{0.81,0.36,0.00}{\textbf{#1}}}
\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{#1}}
\newcommand{\PreprocessorTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\RegionMarkerTok}[1]{#1}
\newcommand{\SpecialCharTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\SpecialStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\StringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\VariableTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\VerbatimStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\WarningTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\usepackage{longtable,booktabs}
% Correct order of tables after \paragraph or \subparagraph
\usepackage{etoolbox}
\makeatletter
\patchcmd\longtable{\par}{\if@noskipsec\mbox{}\fi\par}{}{}
\makeatother
% Allow footnotes in longtable head/foot
\IfFileExists{footnotehyper.sty}{\usepackage{footnotehyper}}{\usepackage{footnote}}
\makesavenoteenv{longtable}
\usepackage{graphicx,grffile}
\makeatletter
\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth\else\Gin@nat@width\fi}
\def\maxheight{\ifdim\Gin@nat@height>\textheight\textheight\else\Gin@nat@height\fi}
\makeatother
% Scale images if necessary, so that they will not overflow the page
% margins by default, and it is still possible to overwrite the defaults
% using explicit options in \includegraphics[width, height, ...]{}
\setkeys{Gin}{width=\maxwidth,height=\maxheight,keepaspectratio}
% Set default figure placement to htbp
\makeatletter
\def\fps@figure{htbp}
\makeatother
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
\setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
\setcounter{secnumdepth}{5}
\usepackage{booktabs}
\usepackage{float}
\let\origfigure\figure
\let\endorigfigure\endfigure
\renewenvironment{figure}[1][2] {
\expandafter\origfigure\expandafter[H]
} {
\endorigfigure
}
\usepackage[]{natbib}
\bibliographystyle{apalike}
\title{Sobre el almacenamiento abierto de datos}
\usepackage{etoolbox}
\makeatletter
\providecommand{\subtitle}[1]{% add subtitle to \maketitle
\apptocmd{\@title}{\par {\large #1 \par}}{}{}
}
\makeatother
\subtitle{Propuesta para la apertura de datos de investigación social}
\author{}
\date{\vspace{-2.5em}2021-01-31}
\begin{document}
\maketitle
{
\setcounter{tocdepth}{1}
\tableofcontents
}
\hypertarget{resumen}{%
\chapter{Resumen}\label{resumen}}
La ciencia abierta es un movimiento que busca promover practicas científicas más transparentes y democráticas. El objetivo es que los análisis, la información producida y las publicaciones sean de acceso gratuito para toda la comunidad científica y no científica. Organizaciones como la OCDE o la UNESCO han fomentado estas practicas y en varios países como Chile se ha legislado para que toda investigación financiada públicamente se ajuste a la ciencia abierta y la apertura de datos. No obstante, existe poca práctica por parte de los investigadores, por lo cual el presente documento busca ser una orientación sobre como publicar abiertamente los datos, mejorando previamente su calidad para que sean más accesibles y cumplan con estándares internacionales. Para ello este documento presenta algunos estándares internacionales sobre el almacenamiento de datos, algunos ejemplos de repositorios de donde se pueden extraer datos y una guía sobre cómo/donde subir los datos producidos por los propios equipos de investigación.
\begin{longtable}[]{@{}l@{}}
\toprule
\endhead
tle: ``¿Por qué es importante la apertura de datos?''\tabularnewline
\bottomrule
\end{longtable}
\hypertarget{razones-para-compartir-nuestros-datos}{%
\chapter{Razones para compartir nuestros datos}\label{razones-para-compartir-nuestros-datos}}
¿Has intentado alguna vez conseguir datos de una investigación social producidos por otros profesionales? Si alguna vez lo has intentado, probablemente sabes cuan difícil es. Si no lo has intentado, es algo como Micky Mouse intentando pasar a la siguiente habitación, puesto que nos enfrentaremos consecutivamente a una tras otra barrera.
Imagine que el investigador responsable de un Fondecyt, Dr.Gonzales, desea estudiar la calidad de vida de los inmigrantes. En su revisión bibliográfica encuentra una investigación con datos que podrían ayudar al desarrollo del proyecto. Logra conseguir el contacto de la investigadora responsable y esta pese a su voluntad de compartir los datos le advierte que tardara unas semanas en ello, puesto que esta muy ocupada y no sabe la ubicación actual de los mismos. Pese a perder valioso tiempo de su proyecto, el Dr.~Gonzales logra acceder a la base de datos, no obstante esta se encuentra dispersa en distintas hojas de calculo. Al abrirlos e intentar conectarlos, se da cuenta de que no comprende el significado de cada variable, por lo cual requiere un libro de códigos de los datos.Vuelve a contactar a la investigadora, le solicita el cuestionario y el significado de cada variable. Lamentablemente, el equipo que creo la base de datos señala que no posee documentación sobre el significado de cada variable. Sin más, al no poder utilizar debidamente los datos producidos por la investigación anterior, el doctor Gonzales se resigna, y decide volver a invertir recursos en una encuesta, la cual probablemente tampoco quede a disposición de futuros investigadores.
En suma, al intentar conseguir datos de otras investigaciones nos enfrentamos a diversas barreras como pueden ser la posibilidad de contactar al equipo, la voluntad del equipo de compartir sus datos, la calidad de la documentación de los datos, los formatos que pueden estar en versiones pagadas, entre otras.
¿Que podemos hacer los investigadores sociales para evitar estas situaciones? Para ello, el movimiento de la ciencia abierta incentiva a los investigadores a publicar sus datos de investigación (Open Data). Más aun, se señala la importancia de publicarlos cumpliendo estándares internacionales sobre los datos y la documentación, de modo tal que cualquier investigador sea capas de reutilizar los datos sin la necesidad de contactarse con el equipo que los produjo y con la información suficiente para reconocier o citar el aporte del equipo productor de los datos.
Esta propuesta no solo es respaldada por los investigadores que adhieren a la ciencia abierta, sino por un conjunto de instituciones internacionales y nacionales. La Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO, 2019) señala que para enfrentar los problemas que afectan al planeta en distintos ámbitos se requiere evidencia innovadora, de calidad y a libre disposición de todas las personas. Para garantizar que todos se beneficien lo mejor posible de la ciencia es necesario que esta sea abierta, en el sentido de que la forma como produce la información, la información que produce y las publicaciones que sistematizan los resultados se encuentren a libre disposición de la comunidad. El movimiento de la ciencia abierta fomenta este tipo de prácticas en todas las etapas de la investigación con el objetivo de mejorar la calidad de la ciencia, hacerla más democrática y más accesible. Para fomentar este movimiento se han generado múltiples instituciones, leyes y herramientas para que los investigadores puedan compartir adecuadamente los productos de su investigación, siendo por ello un movimiento exitoso y creciente.
En este contexto las ciencias sociales de algunos países también han buscado adaptarse a estas nuevas practicas de ciencia abierta. Así por ejemplo, se han creado algunos repositorios para almacenar información producida, como entrevistas y bases de datos. También algunas personas han empezado a utilizar plataformas que permiten trasparentar los análisis y primeras versiones de los textos a publicar.
De este modo podemos decir que a nivel internacional existe una amplia preocupación por democratizar el conocimiento. En esta linea, la Organización para la Cooperación y el desarrollo Económicos \citep{ocde_Open_2020}, ha incluido dentro de las condiciones para mantenerse en la organización la obligación de que cada país incluya políticas de ciencia abierta, transparentando los procesos y resultados, para todas las investigaciones financiadas públicamente. A nivel nacional tanto el Instituto Nacional de Estadistas (INE), dependiente del Ministerio de Economía, como la Agencia Nacional de Investigación y Desarrollo \citep{anid_Con_2020} dependiente del Ministerio de Ciencia, han incorporado políticas y practicas propias de la ciencia abierta.
En vista de estos cambios realizados por las instituciones Chilenas de investigación, resulta evidente que aprender practicas de ciencia abierta sobre como compartir los análisis y los datos producidos, se vuelve una necesidad para los investigadores Chilenos que trabajan en instituciones estatales o financiadas con fondos públicos. En vista de esta necesidad el objetivo de este documento es facilitar los conocimientos necesarios para abrir la información producida por las investigaciones. Antes de adentrarnos en dichos conocimientos, presentamos algunas de las ventajas de compartir la información producida por las investigaciones.
\emph{Ventajas de la apertura de datos de investigación social}
\begin{itemize}
\item
Ética:
\begin{itemize}
\item
Es justo que el publico general tenga acceso a los datos producidos especialmente cuando estos son producidos con fondos públicos \citep{bueno_What_2017}. Cabe destacar que Chile gasta aproximadamente \$668.551 MM de pesos, lo cual equivale a un 0,35\% del producto interno bruto.
\item
La apertura de los datos fomenta la ética investigativa y la confiabilidad, reduce el fraude y aumenta el valor de la sociología para los políticos y el público \citep{breznau_Future_2019}.
\end{itemize}
\item
Calidad y eficiencia científica:
\begin{itemize}
\item
Dejar la base de datos a libre disposición permite hacer evaluaciones sobre la rigurosidad de los resultados mediante la reproducibilidad, mejorando la calidad y la confianza en la ciencia \citep{unesco_Que_2020}.
\item
Fomenta que más investigadores utilicen los datos y produzcan información (Whyte y Pryor, 2011), aumentando la colaboración y con ello la innovación científica según señala el Foro Abierto de Ciencias Latinoamerica y el Caribe CILIAC \citep{ramirez_Ciencia_2019}.
\item
Considerando que los recursos públicos asignados a investigación son escasos, la apertura de las bases de datos permite su reutilización y por ello ahorra recursos en la construcción de bases de datos, fomentando la eficiencia fiscal \citep{gomez_Datos_2016}.
\item
Facilita la preservación de información para estudios históricos que recopilen evidencia de larga data. Almacenar los datos permite resguardar el conocimiento producido a generaciones futuras.
\item
Poder acceder a los productos, procesos y discusiones propias de la investigación cualitativa, puede ayudar pedagógicamente a la formación universitaria, dando una idea más clara de lo que implica una investigación\citep{bishop_Revisiting_2017}.
\end{itemize}
\item
Incentivos personales:
\begin{itemize}
\item
Publicar los datos de la investigación, fomenta un mayor impacto y visibilidad, como señala la evidencia producida \citet{piwowar_Data_2013} una investigación que comparte sus datos puede ser citada en un 30\% más
\item
Compartir el diseño de investigación, las hipótesis y los datos puede fomentar comentarios constructivos respecto a la dirección de la investigación, ayudando a mejorar la calidad del material \citep{sharan_Ten_2020}.
\end{itemize}
\end{itemize}
Pese a las ventajas otorgadas por la apertura de la información producida, los investigadores poseen reticencias a la hora de publicar abiertamente ``sus'' datos \citep{ferguson_How_2014}. Estas reticencias de los investigadores, segun \citet{sharan_Ten_2020} pueden ser consideradas más bien mitos, los cuales se sustentan en prenociones que no corresponden a la realidad. A continuación se destacan algunos de estos mitos y las razones de por que podemos considerarlos como tal.
\begin{quote}
``Preocupación a las consecuencias negativas'' (mal uso, consecuencias legales o comerciales).
\end{quote}
En parte este problema se soluciona mediante el uso adecuado de licencias las cuales pueden restringuir el uso para ciertos fines. Además para disminuir el posible mal uso la preparación de datos incluye la anonimización de los mismos. Respecto a las consecuencias legales, hay que considerar que en general estas investigaciones son financiadas con fondos públicos o por instituciones humanitarias, los cuales en el contexto actual fomentan en general la apertura de los datos.
\begin{quote}
Temor a la falta del reconocimiento debido de su trabajo.
\end{quote}
Como señalamos anteriormente, lejos de quitarle merito a su trabajo y disminuir su reconocimiento, el preparar y publicar los datos de modo adecuado puede ayudar a difundir la investigación y aumentar el numero de citas. Además usted tambíen puede nutrirse de las investigaciones sobre sus datos.
\begin{quote}
Disgusto frente a la carga de trabajo que implica preparar los datos para su publicación.
\end{quote}
Sin duda esta es una aprención comprensible, no obstante cada vez más existen herramientas que facilitan la labor de la preparación de datos cualitativos y cuantitativos. Por ejemplo este documento le ayudara a disminuir dicha carga. Además hay que considerar que si bien aumenta la carga de trabajo actual disminuye la futura en tanto la buena documentación de los datos tambien le permitiran a usted volver a trabajar con ellos en el futuro o con datos de otra ivestigación.
\begin{quote}
Desconocimiento de cómo y dónde compartir los datos.
\end{quote}
Esta razon, igual de comprensible, es parte de una cultura academica poco acostumbrada al trabajo colaborativo. Por ello, debemos aprender sobre plataformas que faciliten compartir nuestros datos de investigación. Para ello, este trabajo ofrece una guía para preparar los datos y sobre como subirlos a la plataforma de ciencia abierta Open Science Framework.
En miras de las dudas más comprensibles de los investigadores señaladas \citep{ferguson_How_2014, sharan_Ten_2020} y de la necesidad tanto ética como legales de avanzar hacia la apertura de datos el contexto Chileno, el presente documento busca facilitar la introducción al almacenamiento y publicación abierta de datos. Se busca entregar información para resolver los cuatro puntos señalados, dando cuenta de lo que debe hacerse para disminuir los riesgos, fomentar el reconocimiento del trabajo propio, facilitar el mejoramiento de la calidad de los datos y entregar información sobre dónde y cómo compartir los datos.
Para ello, este documento ofrece una propuesta de pasos a seguir para mejorar la calidad de los materiales de investigación producidos antes de publicarla en la web. Esta propuesta busca conciliar los estándares considerados óptimos en materia de almacenamiento y preservación de datos, con la realidad de las capacidades y herramientas de los investigadores chilenos en ciencias sociales. Dicho de otro modo, proponemos una lista de tareas a realizar para cumplir con los \emph{mínimos} necesarios para mejorar la calidad de los datos a publicar.
El documento de Consejos para la Apertura de Datos de Investigación Social (CADIS) se ordena en tres apartados, relativos a como preparar los datos, como documentarlos y donde publicarlos. Además existen apartados anexos que presentan una recopilación de estándares y experiencias sobre el almacenamiento de datos.
\hypertarget{consejos-para-la-apertura-de-datos-de-investigaciuxf3n-social-cadis}{%
\chapter{Consejos para la Apertura de Datos de Investigación Social (CADIS)}\label{consejos-para-la-apertura-de-datos-de-investigaciuxf3n-social-cadis}}
A continuación se presenta una sencilla pauta sobre cómo y dónde publicar abiertamente información cualitativa o cuantitativa producida por investigaciones sociales, cumpliendo con estándares internacionales de almacenamiento. Esta pauta ayuda a cumplir con objetivos señalados por el Consejo Internacional para la Ciencia \citep{icsu_Open_2014}, los cuales promueven el acceso oportuno a los registros científicos sin barreras, mejorando su calidad y de modo perdurable en el tiempo. Igualmente, proponemos una guía de almacenamiento que permite cumplir con los principios FAIR (Findable, Accessible, Interoperable, Reusable) promovidos por organizaciones científicas del Estado Chileno, Americanas y Europeas \citep{anid_Con_2020, ramirez_Ciencia_2019, ec_FAIR_2016}. Los estándares FAIR tienen el objetivo de hacer los datos faciles de encontrar en la web y que estén en formatos que cualquier investigador pueda utilizar \citep{gofair_FAIR_2020}.
Esta pauta para la publicación de datos fue creada en base a otros materiales de apoyo con objetivos similares, como la guía de preparación de datos creada por el Consorscio interuniversitario para la investigación política y social (ICPSR), el manual de Autoevaluación para el proveedores de repositorios abiertos (RISE) del Digital Curation Center (DDC) \citep{ddc_Using_2017}, los planes europeos de manejo de datos (DMP) y los consejos de distintos investigadores tanto para datos cuantitativos como cualitativos \citetext{\citealp{ccsds_Recommendation_2012}; \citealp[@][]{kapiszewski_Transparency_2019}}.
Para publicar los datos de investigación proponemos tres momentos, los cuales serán abordados cada uno en las sub-secciones siguientes. Cada sección cuenta con un documento PDF para descargar y utilizar como un check-list para publicar los datos. Los tres momentos son:
\begin{itemize}
\tightlist
\item
\textbf{Preparar}
\end{itemize}
\begin{quote}
¿Qué debo hacer con mis datos antes de publicarlos abiertamente?
\end{quote}
Se indican las labores para hacer los datos utilizables por cualquier investigador sin la necesidad de contactar a los productores de los datos. Ello implica transformar los documentos a ciertos formatos, entregar información oportuna para comprender los datos, procurar la confidencialidad, preparar bases de datos para ser usadas por distintos software y las entrevistas para que se comprenda el contexto y los detalles de su realización. Cumpliendo con el Check-list de esta sección el investigador tendrá datos listos para ser publicados, que serán fácilmente utilizables por cualquier investigador con conocimiento básico.
\begin{itemize}
\tightlist
\item
\textbf{Documentar}
\end{itemize}
\begin{quote}
¿Qué información y documentos debo subir junto a los datos?
\end{quote}
Esta sub-sección señala los documentos necesarios que deben ser adjuntados. Por ello implica recolectar, planificar y/o producir toda la información para comprender el contenido y las características de los datos almacenados. El investigador frente a esta sección debería generar una carpeta digital que contenga los datos y la documentación requerida ordenada de un modo estándar. Cumpliendo con los puntos señalados en este apartado el investigador contara con una carpeta que almacena todo lo importante para que otros investigadores puedan trabajar con sus datos tomando las desiciones correctas considerando las características de los mismos.
\begin{itemize}
\tightlist
\item
\textbf{Publicar}
\end{itemize}
\begin{quote}
¿Dónde y cómo subo mis datos para abrirlos?
\end{quote}
Esta sub-sección presenta una comparación sobre distintas plataformas para publicar datos entregando razones de por que utilizar Open Science Framework (OSF) y expone un ejemplo de cómo hacerlo. Con datos preparados y documentados, despues de seguir los pasos de esta sección el investigador concluirá la publicación de sus datos almacenandolos en una plataforma que ofrece identificadores persistentes (DOI) garantiza la perduarabilidad de los datos y es de libre acceso.
A incorporar: \url{https://arxiv.org/pdf/2002.11626.pdf} ; \url{https://cran.r-project.org/web/packages/dataspice/dataspice.pdf} ¿Como incorporar metadatos para ciencias sociales?
\url{https://paquete-apertura-datos.readthedocs.io/es/0.1.0/guia_abiertos.html\#introduccion}
\url{https://rubenarslan.ocpu.io/codebook/www/}
\hypertarget{preparar}{%
\section{\texorpdfstring{\textbf{Preparar:}}{Preparar:}}\label{preparar}}
\hypertarget{datos-cualitativos}{%
\subsection{Datos cualitativos:}\label{datos-cualitativos}}
En consideración de que al estar presente en la entrevista se cuenta con una mayor información que solo leyendo su transcripción cualquier anotación que dé cuenta del ambiente anímico de la entrevista o del gesto que acompaña alguna frase es bienvenida. También es importante subir la pauta de la entrevista si es que existe. Asimismo, aquellos investigadores que hacen un análisis mediante codificación tienen registro del proceso por el cual llegaron a los códigos utilizados para la categorización de la información. Además, esto puede ser complementado con la descripción de las discusiones que surgieron entre el equipo de investigación para establecer tales códigos y el esquema de análisis \citep{kapiszewski_Transparency_2019}.
Igualmente, necesario es cambiar en el texto y/o audio lo que sea necesario para que los sujetos de investigación no puedan ser identificados, de ser necesario. También es conveniente compartir el cuaderno de campo de la investigación.
Esta información bien almacenada no solo ayudara a las ciencias sociales por su apoyo con información a otros investigadores, sino que conjuntamente es un gran aporte a la formación de los estudiantes sobre como investigar cualitativamente, pues estos materiales permiten una aproximación más concreta al proceso de investigación cualitativo \citet{bishop_Revisiting_2017}.
\hypertarget{confidencialidad-en-datos-cualitativos}{%
\subsubsection{Confidencialidad en datos cualitativos}\label{confidencialidad-en-datos-cualitativos}}
Respecto a la confidencialidad de los datos ICPSR recomienda que: antes de enviar datos cualitativos a un archivo, los depositantes de datos deben tener cuidado de eliminar la información que permita identificar a cualquiera de sus sujetos de investigación. Este proceso se puede hacer menos arduo creando un esquema de anonimización antes de la recopilación de datos y anonimizando los datos a medida que se crean los archivos cualitativos para el análisis.
Los siguientes son ejemplos de modificaciones que se pueden hacer a los datos cualitativos para asegurar
confidencialidad del encuestado (Marz y Dunn 2000):
• Reemplazar nombres reales con texto generalizado. Por ejemplo, ``John'' se puede cambiar a ``tío'' o ``Sra. Briggs''a`` maestro ''. Se puede incluir más de una persona con la misma relación con el encuestado para representar a cada individuo único, por ejemplo, amigo1, amigo2. La información demográfica también se puede sustituir por los nombres reales de las personas, por ejemplo, ``John'' se puede cambiar a ``M / W / 20'' para hombres, blancos, 20 años. Se pueden utilizar seudónimos; sin embargo, es posible que no sean tan informativos para los usuarios futuros como otros métodos de reemplazo de nombres. Tenga en cuenta que los nombres reales también pueden ser nombres de tiendas, nombres de instalaciones para menores, sistemas de transporte, nombres de programas, nombres de vecindarios u otra ubicación geográfica y sus siglas o apodos conocidos y / o de uso frecuente.
• Reemplazar fechas. Las fechas que se refieren a eventos específicos, especialmente fechas de nacimiento o eventos relacionados con el sistema de justicia penal, deben reemplazarse con algún marcador general para la información, por ejemplo, ``mes'', ``mes / año'' o ``mm / dd / aa''.
• Eliminar elementos únicos y / o publicitados. Si el elemento no se puede generalizar usando una de las opciones anteriores, es posible que sea necesario eliminar todo el texto y marcarlo explícitamente como tal, por ejemplo, usando ``descripción del evento eliminado'' o puntos suspensivos (``\ldots{}'') como un general
indicador.
Dado que los investigadores están más familiarizados con sus datos, se les pide que utilicen su juicio sobre si cierta información cualitativa en combinación con el resto del texto o información cuantitativa relacionada podría permitir la identificación de un individuo.
Los depositantes de datos deben documentar cualquier modificación para enmascarar información confidencial en los datos cualitativos. Esto garantizará que el personal del archivo no realice cambios innecesarios en las modificaciones del investigador cuando realice su revisión de confidencialidad. Tal
Por tanto, la información también se pondrá a disposición de los usuarios secundarios de los datos para ayudarles a utilizarlos.
\hypertarget{formatos-para-datos-cualitativos}{%
\subsubsection{Formatos para datos cualitativos}\label{formatos-para-datos-cualitativos}}
En términos de formato es necesario seguir dos principios que en ocasiones pueden ser contrapuestos. En primer lugar, es necesario almacenar la información en formatos que sean ampliamente compartidos y utilizados en el campo de investigación. En segundo lugar, es necesario guardar los datos en formatos libres, que si bien no siempre son utilizados, a diferencia de los formatos propietarios pueden ser abiertos por personas de distintos países y hacen los datos perdurables incluso después de que el formato ampliamente sea desechado. Para cumplir con ambas exigencias se recomienda subir los documentos en distintos formatos.
Formatos para documentos de texto:
\begin{itemize}
\item
PDF
\item
.txt
\end{itemize}
Formatos para grabaciones:
\begin{itemize}
\item
.mp3
\item
.ogg
\end{itemize}
Formatos para imágenes:
\begin{itemize}
\item
.png
\item
.jpg
\end{itemize}
\hypertarget{datos-cuantitativos}{%
\subsection{Datos cuantitativos:}\label{datos-cuantitativos}}
\hypertarget{bases-de-datos-y-curatoria}{%
\subsubsection{Bases de datos y curatoria}\label{bases-de-datos-y-curatoria}}
Una base de datos es un conjunto de información organizada de modo estructural que permite almacenar distintas capas de información. Las bases de datos no son equivalentes a las matrices (Ver ejemplo de matriz en imagen 1) pues poseen más información además de las variables, lo casos y los valores, como la descripción de las variables, las etiquetas de las categorías o el tipo-clase de información contenida. Incluso las bases de datos pueden contener información sobre el formato en el que están (p ej. SPSS). De hecho, al pasar una base de datos a una simple matriz se pierde información.
En este ejemplo de matriz, podemos ver como la información contenida simplemente posee el nombre de los sujetos (a,b,c), las variables (1,2,3) y los valores (``y'', ``x'').
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{a <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"1"}\NormalTok{,}\StringTok{"2"}\NormalTok{,}\StringTok{"3"}\NormalTok{)}
\NormalTok{b <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"3"}\NormalTok{,}\StringTok{"2"}\NormalTok{,}\StringTok{"1"}\NormalTok{)}
\NormalTok{c <-}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{"2"}\NormalTok{,}\StringTok{"3"}\NormalTok{,}\StringTok{"1"}\NormalTok{)}
\NormalTok{matris<-}\KeywordTok{as.matrix}\NormalTok{(}\KeywordTok{rbind}\NormalTok{(a,b,c))}
\NormalTok{matris}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [,1] [,2] [,3]
## a "1" "2" "3"
## b "3" "2" "1"
## c "2" "3" "1"
\end{verbatim}
Ahora veamos la estructura de esta matriz en base al argumento str del sofware R, el cual nos permite visualizar los componentes de un objeto.
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{print}\NormalTok{(}\KeywordTok{str}\NormalTok{(}\KeywordTok{rbind}\NormalTok{(a,b,c)))}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## chr [1:3, 1:3] "1" "3" "2" "2" "2" "3" "3" "1" "1"
## - attr(*, "dimnames")=List of 2
## ..$ : chr [1:3] "a" "b" "c"
## ..$ : NULL
## NULL
\end{verbatim}
Como se puede ver la estructura de la matriz es relativamente simple. A continuación, se expone la estructura de una base de datos del centro COES, la base \href{}{ELSOC}, esta base fue recortada para solo poseer tres variables como la matriz anterior. Si bien es bastante complejo leer la estructura de la matriz y la base de datos, para este ejercicio basta con darse cuenta de que la base de datos posee una estructura más compleja y mayor información que la matriz.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{ELSOC <-}\StringTok{ }\KeywordTok{read_dta}\NormalTok{(}\StringTok{"ELSOC_W01_v2.00_Stata14.dta"}\NormalTok{)}
\NormalTok{ELSOC_}\DecValTok{3}\NormalTok{ <-}\StringTok{ }\KeywordTok{select}\NormalTok{(ELSOC, t01, r01_}\DecValTok{01}\NormalTok{, c01)}
\KeywordTok{print}\NormalTok{(}\KeywordTok{str}\NormalTok{(ELSOC_}\DecValTok{3}\NormalTok{))}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## tibble [2,983 x 3] (S3: tbl_df/tbl/data.frame)
## $ t01 : dbl+lbl [1:2983] 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 3, 2, 3, 3, 4, 3, 2, 2,...
## ..@ label : chr "Cuanto confia usted en sus vecinos"
## ..@ format.stata: chr "%12.0g"
## ..@ labels : Named num [1:7] -999 -888 1 2 3 4 5
## .. ..- attr(*, "names")= chr [1:7] "No Responde (no leer)" "No Sabe (no leer)" "Muy poco" "Poco" ...
## $ r01_01: dbl+lbl [1:2983] 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 2, 2,...
## ..@ label : chr "Num. Conocidos: Gerente o director de gran empresa"
## ..@ format.stata: chr "%12.0g"
## ..@ labels : Named num [1:9] -999 -888 1 2 3 4 5 6 7
## .. ..- attr(*, "names")= chr [1:9] "No Responde (no leer)" "No Sabe (no leer)" "Ninguno" "Uno" ...
## $ c01 : dbl+lbl [1:2983] 1, 1, 1, 1, 2, 1, 3, 3, 3, 1, 4, 3, 1, 1, 1, 2, 3, 3,...
## ..@ label : chr "Satisfaccion con la democracia en Chile"
## ..@ format.stata: chr "%12.0g"
## ..@ labels : Named num [1:7] -999 -888 1 2 3 4 5
## .. ..- attr(*, "names")= chr [1:7] "No Responde (no leer)" "No Sabe (no leer)" "Nada satisfecho" "Poco satisfecho" ...
## NULL
\end{verbatim}
Ahora bien, la utilidad de tener una buena base de datos, con etiquetas, variables y categorías bien estructuradas, es que facilita el análisis y el trabajo con la base de dato de modo tal que los gráficos de los programas reconocen esta estructura. Además, tener la base de datos bien estructurada y con información permite identificar las variables de modo correcto, disminuyendo los posibles errores. A continuación, podemos ver la misma base de datos de la cual evaluamos a estructura, a partir de un código que genera un libro de códigos automáticos.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{sjPlot}\OperatorTok{::}\KeywordTok{view_df}\NormalTok{(ELSOC_}\DecValTok{3}\NormalTok{, }\DataTypeTok{show.type =}\NormalTok{ T)}
\end{Highlighting}
\end{Shaded}
Data frame: ELSOC\_3
ID
Name
Type
Label
Values
Value Labels
1
t01
numeric
Cuanto confia usted en sus vecinos
-999-88812345
No Responde (no leer)No Sabe (no leer)Muy pocoPocoAlgoBastanteMucho
2
r01\_01
numeric
Num. Conocidos: Gerente o director de gran empresa
-999-8881234567
No Responde (no leer)No Sabe (no leer)NingunoUnoEntre 2 y 4Entre 5 y 7Entre 8 y 10Entre 11 y 1516 o mas
3
c01
numeric
Satisfaccion con la democracia en Chile
-999-88812345
No Responde (no leer)No Sabe (no leer)Nada satisfechoPoco satisfechoAlgo satisfechoBastante satisfechoMuy satisfecho
Por el contrario, si tenemos una ``base de datos'' que es creada en excel como en la imagen posterior, sin estructurar el contenido sobre las etiquetas de las variables ni las etiquetas de los valores y utilizamos el mismo código para la creación un libro de códigos, este no será muy informativo. Esto dificultaría el trabajo con esta base de datos, haciendo necesario agregar las etiquetas manualmente facilitando errores de codificación.
\begin{center}\includegraphics[width=0.8\linewidth,]{EJEMPLOMALABASE} \end{center}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{Mal_ejemplo <-}\StringTok{ }\KeywordTok{read_excel}\NormalTok{(}\StringTok{"EJEMPLOMALABASE.xlsx"}\NormalTok{)}
\NormalTok{sjPlot}\OperatorTok{::}\KeywordTok{view_df}\NormalTok{(Mal_ejemplo)}
\end{Highlighting}
\end{Shaded}
Data frame: Mal\_ejemplo
ID
Name
Label
Values
Value Labels
1
NOMBRE
\textless output omitted\textgreater{}
2
EDAD
range: 26-52
3
SEXO
range: 1-2
4
REGION
range: 3-13
Además de que las bases de datos se encuentren bien estructuradas es importante que las etiquetas de las variables y las categorías se encuentren codificadas en ``UTF-8'' para que las letras puedan ser interpretadas por algunos softwares. Además de tener este tipo de codificación, es necesario que las bases de datos no posean tildes ni signos especiales (p.~ej ¿ " , ;), preferentemente solo dígitos alfanuméricos. De lo contrario se generan problemas de codificación que resultan en errores visibles como los que se presentan a continuación.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{EncuestaCEPjul <-}\StringTok{ }\KeywordTok{read_sav}\NormalTok{(}\StringTok{"EncuestaCEPjul.sav"}\NormalTok{)}
\NormalTok{Encuesta_CEP <-}\StringTok{ }\KeywordTok{select}\NormalTok{(EncuestaCEPjul, SV1, MB_P2, ELE_}\DecValTok{7}\NormalTok{_}\DecValTok{1}\NormalTok{)}
\NormalTok{sjPlot}\OperatorTok{::}\KeywordTok{view_df}\NormalTok{(Encuesta_CEP, }\DataTypeTok{encoding =} \StringTok{"UTF-8"}\NormalTok{)}
\end{Highlighting}
\end{Shaded}
Data frame: Encuesta\_CEP
ID
Name
Label
Values
Value Labels
1
SV1
Considerando todas las cosas, ¿cuán satisfechoestá usted con su vida en este momento?
1108899
Totalmente insatisfechoTotalmente satisfechoNo sabeNo contesta
2
MB\_P2
¿Cómo calificarÃa Ud. la actual situacióneconómica del paÃs?
1234589
Muy malaMalaNi buena ni malaBuenaMuy buenaNo sabeNo contesta
3
ELE\_7\_1
Para cada actividad que le nombraré indique si Ud.la realiza frecuentemente, a veces, o nunca. Miraprogramas polÃticos en televisión
12389
FrecuentementeA vecesNuncaNo sabeNo contesta
Junto de la importancia de la estructura de la base de datos, las etiquetas y la codificación es necesario revisar algunos otros puntos sobre una base de datos sociales antes de subirla, como lo pueden ser el tema de la documentación necesaria o el tema de la privacidad, a continuación, haremos una revisión de los distintos temas que son importantes para la publicación de una base de datos.
El proceso de preparación por el cual se llega a una base bien etiquetada, bien codificad y anonima se denomina \textbf{curatoria}. Por ello, la curatoria de datos es fundamental antes de compartir una base de datos para que todos los usuarios de ella puedan comprender adecuadamente su contenido y trabajar con la menor cantidad de complicaciones.
\hypertarget{guuxeda-icpsr-sobre-calidad-de-datos.}{%
\subsubsection{Guía ICPSR sobre calidad de datos.}\label{guuxeda-icpsr-sobre-calidad-de-datos.}}
Para resguardar al calidad de los datos cuantitativos ICPSR propone, entre otros, los siguientes puntos:
\hypertarget{errores-de-codificaciuxf3n}{%
\paragraph{Errores de codificación}\label{errores-de-codificaciuxf3n}}
Verifique cuidadosamente la coherencia entre las respuestas del cuestionario y los valores en la base de datos para el primer 5 a 10 por ciento de los registros de datos creados y luego elija registros aleatorios para controles de calidad. Posteriormente, puede realizar analisis descriptivos de distribución para evaluar si existen valores atipicos atribuibles a errores de codificación (p ej. 66 en la variable hijos en ves de 6). El uso de computadores y programas de encuesta y codificación puede ayudar a disminuir estos errores.
\hypertarget{recodificaciuxf3n-automatica}{%
\subparagraph{Recodificación automatica}\label{recodificaciuxf3n-automatica}}
Deje que la computadora realice codificaciones y rectificaciones complejas si es posible. Por ejemplo, para crear un serie de variables que describen la estructura familiar, escriba un código de computadora para realizar la tarea.
Los códigos de computadora no solo son precisos si las instrucciones son precisas, sino que también pueden
también se puede cambiar fácilmente para corregir un error lógico o de programación. Incluya en la documentación los codigos utilizados para la recodificación.
\hypertarget{consistencia}{%
\subparagraph{Consistencia}\label{consistencia}}
Evalue la coherencia entre las variables, identificando a quienes poseen convinaciones incoherentes. Por ejmplo, si alguien señala que su hijo no asiste a la escuela y luego responde preguntas sobre la escuela.
\hypertarget{identificadores-individuales-y-grupales}{%
\paragraph{Identificadores individuales y grupales}\label{identificadores-individuales-y-grupales}}
Proporcione variables identificadoras suficientes. Es fundamental que cada sujeto posea un id, además si la encuesta es longitudinal se puede proporcionar, junto al id de encuestado, un id por cada ocación que contesta la encuesta. Otros identificadores dependen del tema del estudio, por ejemplo, si se trabaja con escuelas, verifique que cada escuela tiene un identificador id-escuela. Si trabaja con encuestados de modo tal que dos o más son de la misma familia y cada encuestado corresponde a un nucleo familiar, indique un id para familia.
\hypertarget{nombres-de-variables}{%
\paragraph{Nombres de Variables}\label{nombres-de-variables}}
El nombre de la variable sera con lo que más se trabajara con los datos, por ende deben ser claros y utilizables por disintintos softwares.
Existen distintos estandartes para elegir los nombres de las variables.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\item
El primero consiste asignar un numero único anteponiendo una V de modo tal que, siendo n el numero de variables, las variables se nombran como Vn según su posición (p ej. V0001, v0002,\ldots Vn). Se antepone la V por que los software en general no permiten nombres de variables con solo caracteres números.
\item
El segundo modo utiliza letras y números para agrupar las variables según escalas o temas (p.~ej Q1,Q2a,Q2b), si bien es un sistema que entrega más información, no informa sobre el contenido.
\end{enumerate}
3.El tercero consiste en utilizar abreviaturas nemotecnicas, es decir, nombres cortos de variables que representan el significado sustantivo de las variables facilitando su memorización y comprensión. Por ejemplo \emph{educpadr} como ``Educación del Padre''. Este tipo de nombres podrian ayudar a disminuir los errores en los análisis producidos por agregar una variable incorrecta en el código. El problema es que con la limitación de caracteres de los software es difícil generar abreviaturas arbitrarias que sean ampliamente reconocibles por un publico diverso.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{3}
\tightlist
\item
El cuarto consiste en Abreviaciones compartidas y registradas. Un sistema de raices y sufijos. Por ejemplo, todas las variables que tienen que ver con la educación pueden tener la raíz ED, y podria expresarse ``Educación del Padre'' como FAED, siendo estas nomesclatura previamente documentada. Esto implica una planificación previa y capacidad de organización para compartir las abreviaturas, así como herramientas para facilitar el encontrar las abreviaturas correctas en la biblioteca o documento de sufijos y prefijos.
\end{enumerate}
En consideración de estas opciones expuestas por ICPSR, se recomienda utilizar la tercera, puesto que cumple con la cualidad de la primera y la segunda de identificar las variables de modo único, a la vez que cumple con el criterio de hacer más comprensible y facil de recordar.
Junto a lo señalado por ICPSR, consideramos que al crear un nombre de la variable este debe ser utilizable por los distintos sofwares comunmente utilizados como SPSS, STATA y R. En vista de lo anterior sugerimos:
\begin{itemize}
\item
Dos variables no pueden tener el mismo nombre
\item
No utlizar más de 12 caracteres en el nombre
\item
Empezar con una letra
\item
Deben ser solo alfanuméricos (Numeros y letras, sin símbolos . ; , : `` \$ @)
\item
En minúscula
\item
No utilizar la letra ñ, remplazarlo por gn (agnos, en vez de años)
\item
Remplazando espacios por guionbajo. (edad\_rec)
\end{itemize}
\hypertarget{etiquetas-de-variables}{%
\subparagraph{Etiquetas de variables}\label{etiquetas-de-variables}}
las variables deben ser correctamente etiquetadas. Las etiquetas deben partir con el numero del item en el cuestionario para poder asociarlo. Luego debe darse información sobre el contenido de la variable o ingresar directamente la pregunta realizada al encuestado.
Considerando las limitaciones de caracteres de los sofwares, en base a manuales universitarios de SPSS y STATA, se sugiere que las etiquetas de las variables no superen los 120 caracteres.
\hypertarget{codificaciuxf3n}{%
\paragraph{Codificación}\label{codificaciuxf3n}}
\begin{itemize}
\item
Variables de identificación. Proporcione campos al comienzo de cada registro para acomodar todas las variables de identificación. Las variables de identificación a menudo incluyen un número de estudio único y un número de encuestado para representar cada caso.
\item
Categorías de código. Las categorías de códigos deben ser mutuamente excluyentes, exhaustivas y estar definidas con precisión. Cada respuesta de la entrevista debe encajar en una y solo una categoría. La ambigüedad provocará dificultades de codificación y problemas con la interpretación de los datos.
\item
Conservación de la información original. Codifique tantos detalles como sea posible. Registrar datos originales, como edad e ingresos, es más útil que colapsar o poner entre corchetes la información. Con datos originales o detallados, los analistas secundarios pueden determinar otros paréntesis significativos por sí mismos en lugar de limitarse a los elegidos por otros.
\item
Preguntas cerradas. Las respuestas a las preguntas de la encuesta que están precodificadas en el cuestionario deben conservar este esquema de codificación en los datos legibles por máquina para evitar errores y confusiones.
\item
Preguntas de final abierto. Para los ítems abiertos, los investigadores pueden usar un esquema de codificación predeterminado o revisar las respuestas iniciales de la encuesta para construir un esquema de codificación basado en las categorías principales que surgen. Cualquier esquema de codificación y su derivación deben informarse en la documentación del estudio.
\item
Respuestas codificadas por el usuario. Cada vez más, los investigadores envían el texto completo de las respuestas a las preguntas abiertas a los archivos para que los usuarios puedan codificar estas respuestas ellos mismos. Debido a que dichas respuestas pueden contener información confidencial, deben ser revisadas por riesgo de divulgación y, si es necesario, tratadas por archivos antes de su publicación.
\item
Comprobar codificación. Es una buena idea verificar o verificar el código de algunos casos durante el proceso de codificación, es decir, repetir el proceso con un codificador independiente. Por ejemplo, si se asigna más de un código a la respuesta de una entrevista, esto resalta problemas o ambigüedades en el esquema de codificación. Esta codificación de verificación proporciona un medio importante de control de calidad en el proceso de codificación.
\item
Serie de respuestas. Si una serie de respuestas requiere más de un campo, organizar las respuestas en clasificaciones importantes significativas es útil. Respuestas dentro de cada especialidad categoría se les asigna el mismo primer dígito. Los dígitos secundarios pueden distinguir específicos respuestas dentro de las categorías principales. Tal esquema de codificación permite el análisis de la datos utilizando agrupaciones amplias o categorías más detalladas.
\end{itemize}
\hypertarget{identificar-casos-perdidos}{%
\paragraph{Identificar Casos perdidos}\label{identificar-casos-perdidos}}
ICPSR no establece un modo determinado de identificar los perdidos aunque señala las ventajas y desventajas de distintos tipos de codificación. Igualmente sugiere distintos tipos de perdidos que deben ser identificados. Cabe destacar que como regla general para la preservación, los perdidos se deben codificar del modo más similar a las categorias de las variables, de modo tal que una variable numerica de un digito se indica con (8,9) y una variable categorica con alternativas de texto con (``No sabe'', ``No responde'')
\begin{itemize}
\item
Rechazo / Sin respuesta. El sujeto se negó explícitamente a responder una pregunta o no la respondió cuando debería haberlo hecho.
\item
No lo sé. El sujeto no pudo responder una pregunta, ya sea porque no tenía una opinión o porque la información requerida no estaba disponible (por ejemplo, un encuestado no pudo proporcionar los ingresos familiares en dólares del año anterior).
\item
Error de proceso. Por alguna razón, no hay respuesta a la pregunta, aunque el sujeto proporcionó una. Esto puede resultar de un error del entrevistador, codificación incorrecta, falla de la máquina u otros problemas.
\item
No aplica. Al sujeto nunca se le hizo una pregunta por alguna razón. A veces, esto se debe a patrones de omisión después de preguntas de filtro, por ejemplo, a los sujetos que no están trabajando no se les pregunta sobre las características del trabajo. Otros ejemplos de inaplicabilidad son los conjuntos de elementos solicitados solo de submuestras aleatorias y los solicitados a un miembro de un hogar pero no a otro.
\item
Sin coincidencia. Esta situación surge cuando los datos se obtienen de diferentes fuentes (por ejemplo, un cuestionario de encuesta y una base de datos administrativa) y no se puede localizar la información de una fuente.
\item
Datos no disponibles. La pregunta debería haberse formulado al encuestado, pero por un por otro motivo distinto de los enumerados anteriormente, no se dio ni registró ninguna respuesta.
\end{itemize}
Considerando las ventajas y desventajas de las distintas formas de codificación se sugiere a titulo personal utilizar valores perdidos con valores altos en negativo de modo tal que sean estandar para todas las variables y no sean confundible con los valores posibles de dichas variables. Se propone utilizar los siguientes valores perdidos, usando numericos o caracteres segÚn corresponda.
\begin{longtable}[]{@{}ll@{}}
\toprule
Código de texto & Código numérico\tabularnewline
\midrule
\endhead
No responde & -999\tabularnewline
No sabe & -998\tabularnewline
Error de Proceso & -997\tabularnewline
No aplica & -996\tabularnewline
Sin coincidencia & -995\tabularnewline
No disponible & -994\tabularnewline
\bottomrule
\end{longtable}
Para obtener información adicional sobre datos georeferenciados e imputaciones revise directamente la guía ofrecida por ICPSR disponible en este \href{https://www.icpsr.umich.edu/files/deposit/dataprep.pdf}{vinculo}
\hypertarget{documentar}{%
\section{\texorpdfstring{\textbf{Documentar:}}{Documentar:}}\label{documentar}}
Existen distintos estándares sobre que información incorporar junto con los datos destacando la importancia de que estos materiales sean legibles por humanos y por inteligencia artificial \citep{go_fair}. A continuación se presenta un mínimo de los documentos necesarios para publicar los datos basado en la propuesta de Marwick \citep{dandrea_Meetup_2020}.
\begin{center}\includegraphics[width=0.5\linewidth,]{images/small_rc} \end{center}
Además de estos documentos, como se muestra en la imagen siguiente se recomienda incorporar metadatos para que los datos sean utilizables por inteligencia artificial (Cumpliendo con criterios FAIR) y libros de códigos (Nombre de las Variables) para que investigadores se familiaricen con el contenido \citep{tierney_Realistic_2020}. Incorporar los metadatos y el libro de códigos es fundamental para cumplir con los principios FAIR, ya que permite que los datos sean faciles de encontrar para herramientas de búsqueda mediante conceptos clave y facilita la posibilidad de reutilización de los datos mediante una buena documentación que facilite su uso.
\begin{center}\includegraphics[width=0.5\linewidth,]{images/esquemadedatos} \end{center}
Como puede notarse estos estándares tienen mayor afinidad para los datos cuantitativos, no obstante, la descripción del proyecto, el readme con la información que contienen los datos, la licencia y un libros de preguntas, podrían ser de mucha utilidad para un investigador que se aproxima por primera vez a un conjunto de entrevistas, del mismo modo incorporar los análisis realizados por el equipo de investigación seria de utilidad para un nuevo equipo de investigación que pretenda trabajar con estos datos cualitativos.
En consideración de lo anterior es necesario hacer algunos cambios a estos esquemas. A continuación se propone un conjunto de documentos comunes que deben estar incluidos, junto con una guía de como escribirlos en formato abiertos para cumplir con las recomendaciones del libro Managing and sharing research data: a guide to good practice \citep{corti_Managing_2019}. Cabe destacar que los formatos abiertos se contraponen a los formatos propietarios para los cuales se requieren legalmente licencias pagadas como Word.docx.
\hypertarget{readme}{%
\subsubsection{Readme}\label{readme}}
El readme es un documento que debe responder las siguientes preguntas sobre la producción de la información \citep{tierney_Realistic_2020}.
\begin{itemize}
\item
Quién produjo la información
\item
Cual es el contenido de los datos
\item
Cuando fue producida la información
\item
Dónde fue recolectada
\item
Por qué se recopiló
\item
Cómo se recopiló
\end{itemize}
Para crear este documento se suele utilizar el formato y lenguaje Markdowm de extencion .md, este formato posee la ventaja de no ser un formato propietario que permite incluir de modo sensillo distintos elementos ultiles como los links las imagenes y las tablas. Le recomendamos realizar la escritura en este formato, para ello se puede escribir el documento en R Studio señalando como extensión .md o para quienes no manejen el softweare, pueden crear el documento en la pagina \href{https://dillinger.io/}{Dillinger}. A continuación presentamos los pasos mínimos para crear el documento.
En primer lugar al acceder a la pagina Dillinger, encontrara una entrada de texto señalada como sector A y una salida con imágenes, enlaces y otros recursos posibles de Markdowm. Este tipo de lenguaje busca ser la forma más simple para los usuarios de dar formato a sencillas paginas web. Para generar un texto mínimo simplemente debe borrar el contenido en el sector y escribir un breve documento que responda las preguntas señaladas por \citep{tierney_Realistic_2020}. Para borrar fácilmente el contenido sugiero apretar el botón para ampliar el sector A y seleccionar todo el texto con el cursor (o con ctrl + a, habiendo hecho click en el texto).
Si desea agregar títulos, imágenes o enlaces puede utilizar los ejemplos de la pagina o aprender lo basico en la pagina de \href{https://markdown.es/sintaxis-markdown/}{Markdowm}, la cual contiene un breve vídeo y una sucinta guía.
Además es fundamental incorporar en el README un esquema de los documentos presentes en la carpeta, incluyendo cada archivo en su respectiva carpeta.
\begin{center}\includegraphics[width=1\linewidth,]{images/Sin título} \end{center}
\hypertarget{licencia}{%
\subsection{Licencia}\label{licencia}}
La licencia se puede crear fácilmente al publicar los datos en OSF. En la siguiente sección se señala como hacerlo.
\hypertarget{metadatos}{%
\subsection{Metadatos}\label{metadatos}}
La creación de los metadatos requiere previamente que se cree el identificador y la pagina web en osf que almacenara los datos. Por ello la creación de los metadatos sera posterior a la publicación. Cabe destacatar que el modo de creear metadatos difiere segun si el tipo de material es una transcripción de entrevista en PDF o una base de datos en formata sav, stat o rda.
\url{https://www.sejda.com/es/edit-pdf-metadata}
\hypertarget{documentos-especiales-seguxfan-tipo-de-metodologuxeda}{%
\subparagraph{Documentos especiales según tipo de metodología}\label{documentos-especiales-seguxfan-tipo-de-metodologuxeda}}
Para publicar datos cuantitativos se recomienda recopilar y producir los siguientes materiales con el objetivo de que los usuarios de la base de datos cuenten con información suficiente para utilizarla correctamente. Los siguientes documentos deben ser subidos en PDF y Blog de notas.txt con codificación utf8.
\begin{itemize}
\tightlist
\item
Cuestionario
\item
Consentimiento informado
\item
Libro de códigos
\item
Ficha técnica
\item
Manual de usuario
\item
Descriptivos (Optativo)
\item
Publicaciones asociadas a los datos (Optativo)
\item
Descripción e información detallada para metadatos.
\end{itemize}
Para publicar datos cualitativos se sugiere documentar la siguiente información.
• Transcripciones
• registros audiovisuales (De ser necesario)
• Investigar métodos y prácticas que estén completamente documentados
• Copia en blanco del formulario de consentimiento informado con el número de aprobación del IRB
• Detalles sobre el escenario de las entrevistas
• Detalles sobre la selección de los sujetos de la entrevista
• Instrucciones dadas a los entrevistadores
• Instrumentos de recopilación de datos como cuestionarios de entrevistas
• Medidas tomadas para eliminar identificadores directos en los datos (por ejemplo, nombre, dirección, etc.)
• Cualquier problema que surgió durante el proceso de selección y / o entrevista y cómo se manejaron
• Lista de entrevistas
\hypertarget{publicar}{%
\section{\texorpdfstring{\textbf{Publicar}}{Publicar}}\label{publicar}}
\hypertarget{osf-y-plataformas-para-publicar-datos}{%
\subsection{OSF y plataformas para publicar datos}\label{osf-y-plataformas-para-publicar-datos}}
La plataforma web Open Science Framework (OSF) ofrece gratuitamente servicios de infraestructura digital que permite un espacio de registro para las distintas etapas de un proyecto de investigación. Actualmente existen otras plataformas con objetivos similares como Zenovo, Mendeey, Figshare, Dryad o icpsr, y si bien todas son buenas herramientas, se remienda utilizar OSF por diversos motivos señalados por \citet{kryvokhyzha_best_2019} y un documento informativo de la Librería de Universidades de la Universidad de OKLAHOMA \citet{bibliotecasuniversitarias_Make_2020}. En primer lugar, a diferencia de Dryad, OSF es una plataforma gratuita, con mejor estructura de repositorios y con posibilidades de corregir errores. En segundo lugar, figshare la capacidad de estructurar los repositorios en distintos componentes, no esta optimizado para descargar muchos archivos a la vez y, además es una empresa con fines de lucro. Por su parte OSF, permite estructurar de diversos modos los repositorios, esta optimizado para descargas y es una organizaicon sin fines de lucro que es financiada por el Centro para la Ciencia Abierta \href{https://www.cos.io/}{cos} con recursos para 50 años más. En tercer lugar, a diferencia de Zenovo OSF si cuentan con estadisticas de descarga que nos permiten evaluar la visibilidad de los datos. No obstante, si el equipo investigador lo considera conveniente podria subir sus datos a multiples plataformas. En esta linea, además de osf, recomendamos almacenar los datos paralelamente en \href{https://www.openicpsr.org/openicpsr/workspace?path=openICPSR}{OpenICPSR} puesto que esto permitira conectar nuestros datos con el buscador de ICPSR, el cual tiene amplia visibilidad dentro del campo de las ciencias sociales a nivel internaciónal.
Un usuario de esta página puede crear repositorio denominado proyecto, el cual puede contener a su vez componentes que pueden ser investigaciones o datos específicos dentro del proyecto. Se pueden crear más componentes de estos tipos dentro de los componentes del proyecto. Esta estructura permite almacenar conjuntamente trabajos relacionados.
La página promueve que se registren productos de la investigación de las distintas etapas del proceso. En primer lugar posee un espacio para los ``pre-registros'' que son un documento en el cual se expone brevemente el diseño de la investigación, las hipótesis y la metodología, lo cual aumenta la rigurosidad de las investigación.
Ambas evaluaciones de osf señalan que un problema es el limite de almacenamiento de oslo 5gb por archivo. Este limite ha sido miodificado el 5 de novimiebbre del 2020, agregando un limite de 5gb a los proyectos que esten privados y 50 a los publicos. No obstante, el problema del espacio se puede resolver conectando osf con otros servicios de almacenamiento con mayor capacidad.
\hypertarget{pasos-para-publiar}{%
\subsubsection{Pasos para publiar}\label{pasos-para-publiar}}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{-1}
\tightlist
\item
Crear una cuenta en OSF.
\end{enumerate}
Para crear una cuenta en OSF diríjase a este \href{https://osf.io/register?campaign=\&next=https\%3A\%2F\%2Fosf.io\%2F\&view_only=}{link}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\tightlist
\item
Crear un repositorio de los datos
\end{enumerate}
Para que los datos puedan contar con un identificador y ser faciles de encontrar , se deben sebir en un repositorio, para ello se debe crear uno seleccionando dicha opción en la pagina de OSF como se señala en la imagen. Indique el nombre del proyecto y establezca la localización (Esta no debe ser necesariamente el lugar donde usted se encuentra)
\begin{center}\includegraphics[width=0.5\linewidth,]{images/crearrepo} \end{center}
2.Indicar contenido
Si solo se subirán los datos cambie la cateogira desde proyecto a datos, como se indica en la siguiente imagen.
\begin{center}\includegraphics[width=0.5\linewidth,]{images/cambiaradatos} \end{center}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{2}
\tightlist
\item
Subir datos y documentos.
\end{enumerate}
Suba los documentos creados en ``Documantar''. Para ello debe seleccionar la localización (paso 1) y luego seleccionar ``subir'' (paso 2). Con ello apareceran los documentos de su ordenador, y debera seleccionar y subir los archivos necesarios. Tambien puede crear carpetas para ordenar los documentos.
\begin{center}\includegraphics[width=0.5\linewidth,]{images/subirdatos} \end{center}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{3}
\tightlist
\item
Agregar información.
\end{enumerate}
OSF ofrece varios modos para dar más información sobre sus datos. Le suguerimos rellenar las palabras claves del proyecto, haciendo alusión al contenido de las preguntas, el área temática, los sujetos de estudio y lo que considere necesario.
Describa el contenido y la estructura de los documentos en ``Wiki''.
Tambíen una descripción más breve en descripción.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{4}
\tightlist
\item
Crear licencia.
\end{enumerate}
En base a las recomendaciones revisadas recomendamos utilizar una licencia CCO, como se indica en la imagen. Seleccione add license y se abrirá una lista de opciones. Seleccione la sugerida o la que considere pertinente.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{5}
\tightlist
\item
Crear DOI
\end{enumerate}
Para poder crear un doi es necesario que los datos se encuentren en modo ``publico''. Para ello seleccione ``Make Public'' en la esquina superior derecha. Solo cuando los datos sean públicos OSF ofrecerá la opción de agregar un identificador, para ello solo seleccione ``add doi''.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{6}
\tightlist
\item
Almacenar local.
\end{enumerate}
Deje la carpeta con la documentación y los datos en ordenadores que sean de la organización a la que participa. Tambien, puede consultar a la biblioteca de su universidad si es posible que almacenen sus datos para tener una copia de seguridad. Con ello se fomenta que los datos sean perdurables cumpliendo con los criterios de ICSU y con las recomendaciones de la tuberia de datos de ICPSR.
\hypertarget{crear-metadatos-para-datos-cualitativos-o-cuantitativos.}{%
\paragraph{Crear Metadatos para datos cualitativos o cuantitativos.}\label{crear-metadatos-para-datos-cualitativos-o-cuantitativos.}}
\textbf{Paso 1}
Para crear los metadatos de forma muy sencilla se puede utilizar un archivo csv, que se puede editar con el programa Excel o cualquier Hoja de calculo. A continuación entregamos un link para descargar un csv con los campos para rellenar los metados, cumpliendo con los campos utilizados por Dataverse Harvar y los ``Social Science and Humanities Metadata'' de ICPSR.
Para crear los metadatos usted solo debe escribir en las casillas de abajo de las categorias, la respuesta para cada uno de los campos, señalando el identificador, el Titulo de los datos, los autores, entre otros. Es necesario que rellene los campos en ingles. Con una traducción simple de \href{https://translate.google.com/}{Google Traductor} o \href{https://www.deepl.com/es/translator}{Deepl} es suficiente.
Para descargar el archivo csv editable en Excel seleccione \href{https://raw.githubusercontent.com/franciscomeneses/CADIS/master/metadata.csv}{Descargar Metadata.cvs}. Si no le ofrece directamente abrirlo con Excel, puede apretar click derecho sobre el archivo, seleccionar ``Abrir con'', luego Excel, si no aparece seleccionamos ``Elegir otra aplicación'', ``Más aplicaciones'' y luego Excel.
A continuación le presentamos una tabla con cada uno de los campos que debe llenar y con que debe rellenarlos. Despues de agregar la información a los metadatos solo guarde el documento desde excel, y este se guardara automaticamente en csv delimitado por Semi-coma (;) en codificación UTF-8 (Que permite incorporar comas a los metadatos)
Cabe destacar que para el primer campo correspondiente al Identificador antes del codigo entregado por OSF, debe estar escrito \url{https://doi.org/} como se muestra en el documento descargado. Esto es para cumplir con los estandares FAIR.
\textbf{Paso 2}
Despúes de haber creado el documento csv con nuestra información solo debemos seleccionar al siguiente link e ir al sitio web: \href{https://csvjson.com/csv2json}{csvjson.com}. En este citio tenemos que apretar Select a file\ldots{} y buscar el documento csv creado. Posteriormente, se debe señalar output: ``Array'' y ``Minify'', como se señala en la imagen. Con estas opciónes apretamos el boton morado \textgreater Convert bajo el cuadrado que posee nuestro documento CSV. Cuando este listo apretamos el botón Download, como se señala en la Imagen. El documento se descargara con el nombre csvjson, debe cambiarlo a metadata.
\begin{center}\includegraphics[width=0.5\linewidth,]{images/crearrepo} \end{center}
\textbf{Paso 3}
Finalmente debemos agregar los archivos csv y json al repositorio, recuerde cambiar el nombre del documento a metadata.
\hypertarget{mejorar-metadatos-del-libro-de-codigos-para-datos-cuantitativos}{%
\paragraph{Mejorar metadatos del Libro de codigos (Para datos cuantitativos)}\label{mejorar-metadatos-del-libro-de-codigos-para-datos-cuantitativos}}
Para el libro de códigos recomendamos utilizar \href{https://opencpu.psych.bio.uni-goettingen.de/ocpu/library/codebook/www/}{Codebook Generator}. En esta plataforma basta con seleccionar una base de datos, apretar generate codebook y descargar para tener un libro de códigos. Sugerimos además, para seguir los estandares FAIR cambiar la linea de codigo 51 por las lineas de código señaladas más adelante, antes de generar el libro de codigos. En estos codigos usted debe agregar la información de los matadatos entre las "" usted puede agregar el nombre de su base de datos, el doi, los autores y las palabras clave. Recuerde que el DOI se creara despues de publicada la base por ello recomendamos hacer el libro de codigos despues de crear el repositorio en osf, además antes del DOI hay que anteponer \url{https://doi.org/} para que funcione como un link a nuestro proyecto.
Para obtener como citar su documento busque en su repositorio de OSF ``citation'' y despliege la ventana, le aparecerán citas en distintos formatos.
metadata(codebook\_data)\(name <- "Nombre de su base de datos" metadata(codebook_data)\)doi \textless- ``\url{https://doi.org/10.17605/OSF.IO/VC8YU}''
metadata(codebook\_data)\(keywords <- c("Palabra clave 1", "Palabra clave 2","Palabra clave 3","Palabra clave 4" ) metadata(codebook_data)\)authors \textless- c(``Autor 1'', ``Autor 2'',``Autor 3'')
metadata(codebook\_data)\$cite \textless- ``Meneses, F. J. (2020, December 2). Bases. \url{https://doi.org/10.17605/OSF.IO/VC8YU}''
\hypertarget{mejorar-metadatos-para-documentos-pdf-de-transcripcion-para-datos-cualitativos}{%
\paragraph{Mejorar metadatos para documentos PDF de transcripcion (Para datos Cualitativos)}\label{mejorar-metadatos-para-documentos-pdf-de-transcripcion-para-datos-cualitativos}}
Para mejorar los metadatos podemos incrustar más metadatos en los documentos PDF, en las transcripciones por ejemplo, de modo muy sencillo. Para ello debemos ir a la pagina \href{https://www.sejda.com/edit-pdf-metadata}{Sejda.com}. En esta pagina basta con apretar Upload PDF file, para que nos entregue un conjunto de casillas para rellenar con información sobre la fecha de producción y los autores del documento. Lamentablemente no ofrece un espacio para incorporar el DOI creado en OSF, no obstante, aconsejo incorporar el DOI ya sea en autor, creador o productor. Al pegar el DOI en la casilla debe anteponer \url{https://doi.org/} para que el DOI funcione como un link a nuestro proyecto.
\hypertarget{almacenamiento-y-curatoria}{%
\chapter{Almacenamiento y Curatoria}\label{almacenamiento-y-curatoria}}
\begin{quote}
¿Qué es la Curatoría y como se relaciona con la accesibilidad de los productos de investigación?
\end{quote}
El objetivo final de esto es que usted en el futuro, investigadores, estudiantes o público en general, puedan buscar en un repositorio un tema de interés como ``Socialización escolar'' y con ello acceder fácilmente a distintas bases de datos, transcripciones de entrevistas y experiencias de investigaciones sobre la temática, haciendo más eficiente e informadas las investigaciones. Esto permitirá unas ciencias sociales más rigurosas, más colaborativas y con una preservación capas de acumular evidencia para futuros estudios históricos.
Para poder garantizar un proceso adecuado del almacenamiento de productos de investigación, es necesario alcanzar una buena curatoría, la cual depende de un conjunto de factores. Entre estos factores destacan:
\begin{itemize}
\item
\textbf{Buenos ``datos''}. Aunque el concepto se asocia con lo cuantitativo, en este documento nos referimos con dicho termino al conjunto de materiales que son producidos por los proyectos de investigación mediante técnicas de recolección/producción de información que sirven posteriormente para el análisis cualitativo y/o cuantitativo (p.~ej. entrevistas, encuestas, transcripciones, recopilaciones). De hecho, los dos repositorios cualitativos más famosos de transcripciones de entrevistas y focus groups (QualiData y QDR) utilizan el termino datos para referirse a esta información producida por investigaciones. Abrir buenos datos al público, significa que estos materiales pueden ser utilizados, comprendidos y trabajados por distintos tipos de investigadores. Esto sin duda implica un esfuerzo por parte de los investigadores a la hora de producir información para asegurar que quede registrada de modo tal que sea accesible y fácil de encontrar para quien la quiera.
\item
\textbf{Metadatos precisos}. Los metadatos son información de los datos que permiten comprender cuál es su contenido y su posible utilidad. Por ejemplo, nombre del material, tipo de material, como fue producida esa información, cual fue la institución e investigadores encargados de su producción, entre otros. Junto con esta descripción de distintos aspectos, se consideran dentro de las ciencias sociales como documentación relevante los manuales de usuario, pautas de entrevistas, bitácoras o cualquier documento que ayudo a la producción de la información o ayuda a ser comprendida.
\item
\textbf{Infraestructura Digital}. Refiere a las páginas web, y las herramientas digitales que puedan ayudar a organizar, localizar y distribuir los datos de las investigaciones. Por ejemplo, es necesario contar con buscadores en los repositorios de materiales de investigación, estos deberían permitir encontrar todas las bases de datos de encuestas y todas las transcripciones de entrevistas que estén asociados a un término de búsqueda como ``desigualdad de género'' y sus sinónimos. Una herramienta de este tipo de fácil uso, puede ser un gran aporte a las investigaciones de las ciencias sociales.
\item
\textbf{Organización y practicas abiertas}: Para que un servicio de almacenamiento de datos funcione adecuadamente debe existir actitudes, conocimientos y practicas colectivas por parte de los investigadores en torno a cómo y por qué almacenar sus datos abiertamente. Del mismo modo, son necesarios algunas personas dedicadas a la administración de los repositorios en línea y a la formación de los investigadores para adecuase al contexto digital.
\end{itemize}