forked from rdmorganiser/rdmo-catalog
-
Notifications
You must be signed in to change notification settings - Fork 4
/
textcorpus_dfg_5.xml
4287 lines (4071 loc) · 289 KB
/
textcorpus_dfg_5.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<?xml version="1.0" encoding="UTF-8"?>
<rdmo created="2022-02-28T14:35:20.096619+01:00" xmlns:dc="http://purl.org/dc/elements/1.1/">
<catalog dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>textcorpus_dfg_5</key>
<dc:comment>covers catalog "DFG v5" and <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>the recommendations of the “Linguistics” Review Board on data standards and tools in the collection of language corpora</a> (2019) and the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_review_board_linguistics_corpora.pdf" target=_blank>Guidelines for Building Language Corpora Under German Law</a> (2017)
umfasst Fragenkatalog "DFG v5" und deckt zusätzlich die <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a> (2019) und die <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf" target=_blank>Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora</a> (2013) des DFG-Fachkollegiums "Sprachwissenschaften" zu mündlichen Korpora ab</dc:comment>
<order>150104</order>
<title lang="en">DFG 104 Text corpus v5</title>
<help lang="en"/>
<title lang="de">DFG 104 Textkorpus v5</title>
<help lang="de"/>
</catalog>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>description</key>
<path>textcorpus_dfg_5/description</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5"/>
<order>1</order>
<title lang="en">Data description</title>
<title lang="de">Datenbeschreibung</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/creation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creation</key>
<path>textcorpus_dfg_5/description/creation</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">How does your project generate new data?</title>
<help lang="en">In the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_research_data.pdf" target=_blank>DFG guidelines for handling research data</a> (2015), the following examples of research data are given: "Research data might include measurement data, laboratory values, audiovisual information, texts, survey data, objects from collections, or samples that were created, developed or evaluated during scientific work. Methodical forms of testing such as questionnaires, software and simulations may also produce important results for scientific research and should therefore also be categorised as research data."
Because managing digital research data is very different from managing physical objects, this form treats both separately. Physical objects are discussed in the last section. All other sections refer to digital research data.
We start with digital research data. Usually, digital research data are divided into "datasets". The first questions therefore collect information on the datasets that are produced or used in the project. The definition of what a dataset is in each case is an important conceptual decision that has to be made individually for each plan or project. For example, a data set can consist of more data files of different types (numeric, image, text...) grouped together, which collect exhaustedly all results coming from an investigation series on a given research object.
The "datasets" that are described here in the data management plan can be delimited in the same way as those that are later stored in the repository as datasets, provided there are not too many and the readability of the data management plan does not suffer due to the large number. If, for example, large amounts of data all have the same history, but then have to be split up so that the data can be uploaded and downloaded via the web in a reasonable time, planning should better be summarized here. Research data that require uniform or at least similar data management could be summarized here as a "dataset".
It is of course possible to define only one data record on the whole. This can also be done if it is not yet clear in the initial phase of the project how the research data will be divided up. You can add more datasets later if necessary. Existing datasets can be renamed by clicking on the pencil symbol.</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Auf welche Weise entstehen in Ihrem Projekt neue Daten?</title>
<help lang="de">Die Deutsche Forschungsgemeinschaft nennt in ihren <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/leitlinien_forschungsdaten.pdf" target=_blank>Leitlinien zum Umgang mit Forschungsdaten</a> (2015) die folgenden Beispiele für Forschungsdaten: "Zu Forschungsdaten zählen u.a. Messdaten, Laborwerte, audiovisuelle Informationen, Texte, Surveydaten, Objekte aus Sammlungen oder Proben, die in der wissenschaftlichen Arbeit entstehen, entwickelt oder ausgewertet werden. Methodische Testverfahren, wie Fragebögen, Software und Simulationen können ebenfalls zentrale Ergebnisse wissenschaftlicher Forschung darstellen und sollten daher ebenfalls unter den Begriff Forschungsdaten gefasst werden."
Da sich das Management digitaler Forschungsdaten vom Management physischer Objekte deutlich unterscheidet, behandelt dieses Formular beide getrennt. Physische Objekte werden im letzten Abschnitt behandelt. Alle übrigen Abschnitte beziehen sich auf digitale Forschungsdaten.
Begonnen werden soll also mit den digitalen Forschungsdaten. Üblicherweise werden digitale Forschungsdaten in „Datensätze“ eingeteilt. Die ersten Fragen dienen deshalb der Beschreibung der Datensätze, die im Projekt erzeugt und/oder verwendet werden. Die Definition dessen, was jeweils ein Datensatz ist, ist eine wichtige konzeptionelle Entscheidung, die für jedes Vorhaben bzw. Projekt individuell getroffen werden muss. Ein Datensatz kann beispielweise aus mehreren zusammen gruppierten Dateien verschiedener Arten (numerisch, bild- oder textbasiert...) bestehen, die alle aus einer Versuchsreihe auf einem definierten Versuchsobjekt entstandenen Ergebnisse enthalten.
Die "Datensätze", die hier im Datenmanagementplan beschrieben werden, können genauso abgegrenzt sein wie die, die später im Repositorium als Datensätze gespeichert werden, sofern es nicht zu viele sind und die Lesbarkeit des Datenmanagementplans nicht durch die Vielzahl leidet. Wenn beispielsweise große Datenmengen alle die gleiche Entstehungsgeschichte haben, dann aber aufgeteilt werden müssen, damit die Daten in vernünftiger Zeit über das Web hoch- und heruntergeladen werden können, sollte hier besser zusammengefasst geplant werden. Als "Datensatz" könnten solche Forschungsdaten hier zusammengefasst werden, die ein einheitliches oder zumindest ähnliches Datenmanagement benötigen.
Selbstverständlich ist es möglich, nur einen Datensatz zu definieren. So kann auch vorgegangen werden, wenn in der Anfangsphase des Projekts noch nicht klar ist, wie die Forschungsdaten einmal eingeteilt sein werden. Später können Sie bei Bedarf weitere Datensätze hinzufügen. Bereits vorhandene Datensätze können durch Klicken auf das Bleistiftsymbol umbenannt werden.</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/creation/dataset">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>dataset</key>
<path>textcorpus_dfg_5/description/creation/dataset</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/description"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/creation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">Please briefly describe the data type and / or the method used to create or collect the data. From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of language corpora </a> (2019) (in German):
Three types of primary data are conceivable for written corpora:
1.) The sources of printed or handwritten texts (learner's texts, letters, etc., as digital images or in the original), which are used as the basis for text digitization for the respective corpus;
2.) digital text data, which results from an earlier full text of printed or handwritten sources;
3.) Genuinely digital text data ('born digital'), as they are usually available for contemporary language texts.
Re 1.) Before image digitization, it must be checked whether sufficient image digitalisates are already available for the intended sources.
From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_review_board_linguistics_corpora.pdf" target=_blank>Guidelines for Building Language Corpora Under German Law</a> (2017):
<i>Problems with derivative works</i> may be avoided in some cases, for example when annotations are published as an independent work from which the original work can not be reconstructed.</help>
<text lang="en">What kind of dataset is it?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Bitte beschreiben Sie hier kurz, um welchen Datentyp es sich handelt und mit welcher Methode die Daten erhoben oder erstellt wurden. Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a> (2019):
Für schriftsprachliche Korpora sind drei Arten von Primärdaten denkbar:
1.) Die Quellen gedruckter oder handschriftlicher Texte (Lernertexte, Briefe u.ä., als Bilddigitalisate oder im Original), die der Textdigitalisierung für das jeweilige Korpus zugrunde gelegt werden;
2.) digitale Textdaten, die aus einer früheren Vervolltextung gedruckter oder handschriftlicher Quellen hervorgehen;
3.) genuin digitale Textdaten (,born digital’), wie sie in der Regel für gegenwartssprachliche Texte vorliegen.
Zu 1.) Vor der Bilddigitalisierung ist zu prüfen, ob für die vorgesehenen Quellen bereits Bilddigitalisate in ausreichender Qualität zur Verfügung stehen.
Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf" target=_blank>Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora</a> (2013):
<i>Probleme mit abgeleiteten Werken</i> können in manchen Fällen vermieden werden, indem z.B. Annotationen „stand-off“ als eigenständiges Werk veröffentlich werden, aus denen sich das ursprüngliche Werk nicht rekonstruieren lässt.</help>
<text lang="de">Um was für einen Datensatz handelt es sich?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/creation/creation_methods">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creation_methods</key>
<path>textcorpus_dfg_5/description/creation/creation_methods</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/creation_methods"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/creation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank> Recommendations on data technology standards and tools for the collection of language corpora </a> (in German):
<i> Text entry </i>
The central step in the creation of (historical) corpora (after the bibliographical recording of the text selection and, if necessary, the acquisition or creation of suitable digital images) is the <i> full text recording </i>. There are basically two methods here: (single, double or multiple) <i> manual transcription </i> by project staff or a service provider and automatic text entry via <i> Optical Character Recognition (OCR) </i>. Both methods differ greatly in terms of the costs involved and the expected text accuracy depending on the text template. It is recommended to include the text structuring characteristics (paragraphs, headings, chapter boundaries, etc.) in addition to the rendering of the characters from the template during the transcription. Both methods can also be combined with more or less time-consuming and therefore cost-intensive preparatory and post-processing measures to increase or ensure the quality of the text entry. The costs incurred and the desired quality of the transcription must therefore be weighed up in advance with a view to the project goals. The decision for the method chosen for the text entry must be disclosed and justified. In general: Firstly, the highest possible text accuracy should be sought in order to make the research results achieved on the corpus understandable. Therefore, secondly, manual or semi-automatic checking and, if necessary, correction should always be carried out when entering text using automatic methods (OCR). The reason for not doing such a review / correction is to be justified. Thirdly, the procedures used for the text entry, the transcription rules, if necessary the OCR software used, the steps of the preparation or post-processing of the texts as well as the resulting entry accuracy must be documented in detail.
A <i> complete text entry </i> usually ensures, among other things, greater flexibility for subsequent use in other areas, i.e. also for research questions other than those envisaged when creating the carcase. If a complete text entry is not possible, depending on the research question, recourse to a <i> partial text entry </i> may be sufficient.
<i> Annotation </i>
The annotation of the corpus texts should include the distinction of structural features (headings, paragraphs, comments, quotations etc.), linguistic properties (lemmatization, tokenization, morphological annotation / part-of-speech tagging etc.) as well as linguistic specifics (dialectal / regional assignment , media- or text-type-specific features). In accordance with the project objectives, the appropriate scope and depth of the respective annotation must be weighed up and documented in a justified manner. The annotation can be done manually, automatically or semi-automatically.
* Please refer to the overview in Chapter 7 “Linguistic tools” in Part II of the <a href="https://www.clarin-d.net/en/language-resources-and-services/user-guide" target=_blank>CLARIN user manual</a> for an orientation about the multitude of available linguistic annotation tools for the most diverse tasks, analysis levels and languages. We only mention the <a href="http://www.cis.uni-muenchen.de/%7Eschmid/tools/TreeTagger/" target=_blank> TreeTagger </a> as a widely used tool for tokenization, lemmatization and POS tagging of German texts according to STTS, and <i> WebLicht </i> for automatic linguistic annotation in user-defined process chains via web services in the cloud (data moves to the tool) or DKPro Core for process chains via local data (tool moves to the data). The individual tools that are integrated in WebLicht are also listed in the CLARIN user manual.
* Tools for manual linguistic annotation (various functionalities) are recommended: <a href="http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.html" target=_blank> annotate </a> (syntactic annotation), <a href="https://webanno.github.io/webanno/" target=_blank> WebAnno </a>, <a href="http://ufal.mff.cuni.cz/tred/" target=_blank> TrED </a> (with reservation, because very complex) or <a href="http://mmax2.sourceforge.net/" target=_blank> MMAX2 </a>. In recent years, <a href="http://corpora.clarin-d.uni-saarland.de/cqpweb/" target=_blank>CQPWeb</a>, the <a href="http://cwb.sourceforge.net/cwb4.php" target=_blank>Ziggurat data model from Evert and Hardie</a> and <a href="http://textometrie.ens-lyon.fr/?lang=fr" target=_blank>TXM</a> have also developed dynamically. The CLARIN user manual (Part II, Section 5.1) also provides information on tools for manual linguistic annotation.
* The extensive text processing architectures <a href="http://gate.ac.uk/" target=_blank> GATE </a>, <ahref="http://www.nltk.org/"> NLTK </a>, <a href="http://opennlp.apache.org/" target=_blank> Open NLP </a> and <a href="https://uima.apache.org/" target=_blank> UIMA </a> are also suitable for adding linguistic annotations. GATE is, for example, a framework that allows manual annotation of text areas with their own categories, but also the integration and configuration of external tags, such as the TreeTagger.
* State-of-the-art tools for corpus query, analysis and visualization are <a href="http://corpus-tools.org/annis/" target=_blank> ANNIS </a> (especially for multi-level annotations), <a href="http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/icarus.en.html" target=_blank> ICARUS </a> (for dependency tree banks) , TIGERSearch (for tree banks) and <a href="http://cwb.sourceforge.net/" target=_blank> CWB / CQP </a>.
* Implementations are also available to evaluate the quality of automatic annotations or to determine the inter-annotator correspondence, e.g. from the context of relevant shared tasks or in anti-spotting tools or frameworks or programming libraries (e.g. <a href="https://github.com/dkpro" target=_blank> DKPro </a> Statistics or <a href="http://gate.ac.uk/" target=_blank> GATE </a> IAA Plugin)
* There is a fundamental risk that tools will no longer be maintained, for example java-based tools such as MMAX2 can become incompatible with newer Java versions. It is therefore recommended to prefer tools that are known to be maintained or even further developed. If there is a choice, open-source and permissive-licensed tools should be preferred to proprietary tools, since the first can be maintained as needed, even if the original developers are no longer available. Here too, it is helpful to orientate yourself to which tools have been included in the CLARIN infrastructure.</help>
<text lang="en">Which tools, software, technologies or processes are used to generate or collect the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank>Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>:
<i>Texterfassung</i>
Der zentrale Schritt bei der Erstellung (historischer) Korpora ist (nach der bibliographischen Erfassung der Textauswahl und ggf. der Akquise bzw. Erstellung geeigneter Bilddigitalisate) die <i>Volltexterfassung</i>. Hierbei gibt es grundsätzlich zwei Verfahren: die (einfache, doppelte oder mehrfache) <i>manuelle Transkription</i> durch Projektmitarbeiter oder einen Dienstleister und die automatische Texterfassung per <i>Optical Character Recognition (OCR)</i>. Beide Verfahren unterscheiden sich hinsichtlich der entstehenden Kosten und der erwartbaren Textgenauigkeit je nach Textvorlage stark. Es wird empfohlen, schon bei der Transkription neben der Wiedergabe der Zeichen aus der Vorlage auch die den Text strukturierenden Merkmale mit zu erfassen (Absätze, Überschriften, Kapitelgrenzen etc.). Beide Verfahren können zudem mit jeweils mehr oder weniger zeit- und damit kostenintensiven Maßnahmen der Vor- und Nachbereitung kombiniert werden, um die Qualität der Texterfassung zu erhöhen bzw. sicherzustellen. Es müssen daher die anfallenden Kosten und die angestrebte Qualität der Transkription mit Blick auf die Projektziele im Vorfeld gegeneinander abgewogen werden. Die Entscheidung für das jeweils für die Texterfassung gewählte Verfahren ist offenzulegen und zu begründen. Generell gilt: Es sollte erstens eine möglichst hohe Textgenauigkeit angestrebt werden, um am Korpus erzielte Forschungsergebnisse nachvollziehbar zu machen. Daher sollte zweitens bei der Texterfassung mit automatischen Methoden (OCR) immer eine manuelle oder halbautomatische Überprüfung und ggf. Nachkorrektur vorgenommen werden. Der Verzicht auf eine solche Überprüfung/Nachkorrektur ist grundsätzlich zu begründen. Drittens sind die für die Texterfassung angewandten Verfahren, die Transkriptionsregeln, ggf. die eingesetzte OCR-Software, die erfolgten Schritte der Vor- bzw. Nachbereitung der Texte sowie die resultierende Erfassungsgenauigkeit ausführlich zu dokumentieren.
Eine <i>vollständige Texterfassung</i> gewährleistet unter anderem in der Regel eine größere Flexibilität der Nachnutzung in anderen Bereichen, d.h. auch für andere als die bei Korpuserstellung angedachten Forschungsfragen. Ist eine vollständige Texterfassung nicht realisierbar, kann je nach Forschungsfrage auch der Rückgriff auf eine <i>auszugsweise Texterfassung</i> hinreichend sein.
<i>Annotation</i>
Die Annotation der Korpustexte sollte sowohl die Auszeichnung struktureller Merkmale (Überschriften, Paragraphen, Anmerkungen, Zitate etc.), linguistischer Eigenschaften (Lemmatisierung, Tokenisierung, morphologische Annotation/Part-of-Speech-Tagging etc.) sowie sprachlicher Spezifika (dialektale/regionale Zuordnung, medien- oder textsortenbezogene Besonderheiten) berücksichtigen. Entsprechend den Projektzielen ist der geeignete Skopus und die geeignete Tiefe der jeweiligen Annotation abzuwägen und begründet zu dokumentieren. Die Annotation kann manuell, automatisch oder halbautomatisch erfolgen.
* Für eine Orientierung über die Vielzahl an verfügbaren linguistischen Annotationstools für die verschiedensten Aufgaben, Analyseebenen und Sprachen wird auf den Überblick in Kapitel 7 „Linguistic tools“ im Teil II des <a href="https://www.clarin-d.net/en/language-resources-and-services/user-guide" target=_blank>CLARIN-Nutzerhandbuchs</a> verwiesen. Es sei hier nur der <i>TreeTagger</i> als weit verbreitetes Tool für Tokenisierung, Lemmatisierung und POS-Tagging deutscher Texte nach STTS genannt sowie <i>WebLicht</i> für die automatische linguistische Annotation in nutzerdefinierten Prozessketten über Webservices in der Cloud (Daten bewegen sich zum Tool) oder DKPro Core für Prozessketten über lokale Daten (Tool bewegt sich zu den Daten). Die einzelnen Tools, die in WebLicht eingebunden sind, sind ebenfalls im CLARIN-Nutzerhandbuch aufgelistet.
* An Tools für die manuelle linguistische Annotation (verschiedene Funktionalitäten) werden empfohlen: <a href="http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/annotate.html" target=_blank>annotate</a> (syntaktische Annotation), <a href="https://webanno.github.io/webanno/" target=_blank>WebAnno</a>, <a href="http://ufal.mff.cuni.cz/tred/" target=_blank>TrED</a> (mit Vorbehalt, da sehr komplex) oder <a href="http://mmax2.sourceforge.net/" target=_blank>MMAX2</a>. In den letzten Jahren haben sich auch <a href="http://corpora.clarin-d.uni-saarland.de/cqpweb/" target=_blank>CQPWeb</a>, das <a href="http://cwb.sourceforge.net/cwb4.php" target=_blank>Ziggurat Datenmodel Evert und Hardie</a> und <a href="http://textometrie.ens-lyon.fr/?lang=fr" target=_blank>TXM</a> dynamisch entwickelt. Das CLARIN-Nutzerhandbuch (Teil II, Abschnitt 5.1) macht ebenfalls Angaben zu Tools für die manuelle linguistische Annotation.
* Für die Hinzufügung von linguistischen Annotationen eignen sich auch die umfassenden Textprozessierungsarchitekturen <a href="http://gate.ac.uk/" target=_blank>GATE</a>, <a href="http://www.nltk.org/" target=_blank>NLTK</a>, <a href="http://opennlp.apache.org/" target=_blank>Open NLP</a> und <a href="https://uima.apache.org/" target=_blank>UIMA</a>. GATE ist beispielsweise ein Framework, welches die manuelle Annotation von Textbereichen mit eigenen Kategorien erlaubt, aber auch die Einbindung und Konfiguration externer Tagger wie den <a href="http://www.cis.uni-muenchen.de/%7Eschmid/tools/TreeTagger/" target=_blank>TreeTagger</a>.
* State-of-the art Tools für die Korpusabfrage, -analyse und -visualisierung sind <a href="http://corpus-tools.org/annis/" target=_blank>ANNIS</a> (insbesondere für Mehr-Ebenen-Annotationen), <a href="http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/icarus.en.html" target=_blank>ICARUS</a> (für Dependenz-Baumbanken), TIGERSearch (für Baumbanken) und <a href="http://cwb.sourceforge.net/" target=_blank>CWB/CQP</a>.
* Zur Evaluation der Qualität automatischer Annotationen bzw. zur Bestimmung der Inter-Annotatoren-Übereinstimmung stehen auch Implementierungen zur Verfügung, z.B. aus dem Kontext einschlägiger Shared Tasks oder in Anntotationstools oder -frameworks bzw. Programmierbibliotheken (z.B. <a href="https://github.com/dkpro" target=_blank>DKPro</a> Statistics oder <a href="http://gate.ac.uk/" target=_blank>GATE</a> IAA Plugin)
* Bei Tools besteht grundsätzlich die Gefahr, dass sie nicht mehr weiter gepflegt werden, beispielsweise können java-basierte Tools wie MMAX2 inkompatibel mit neueren Java-Versionen werden. Es wird daher empfohlen, Tools zu bevorzugen, von denen bekannt ist, dass sie noch gepflegt oder sogar weiter entwickelt werden. Wenn die Wahl besteht, sollten quelloffene und permissiv-lizensierte Tools gegenüber proprietären Tools vorgezogen werden, da erste nach Bedarf weiter gepflegt werden können, selbst wenn die ursprünglichen Entwickler nicht mehr verfügbar sein sollten. Auch hier ist eine Orientierung daran, welche Tools in die CLARIN-Infrastruktur aufgenommen wurden, hilfreich.</help>
<text lang="de">Welche Instrumente, Software, Technologien oder Verfahren werden zur Erzeugung oder Erfassung der Daten genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>existing</key>
<path>textcorpus_dfg_5/description/existing</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Is existing data reused?</title>
<help lang="en">Before data is newly created, it is advisable to check if there is existing data that could be re-used. This way, redundant collection or creation of research data is prevented.</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Werden existierende Daten wiederverwendet?</title>
<help lang="de">Vor der Erzeugung von Daten empfiehlt es sich zu prüfen, ob bereits vorhandene Daten nachgenutzt werden können. Die Vermeidung doppelter Erhebungen spart Aufwand und Kosten.</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing/origin">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>origin</key>
<path>textcorpus_dfg_5/description/existing/origin</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/origin"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Is the dataset being created or re-used?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wird der Datensatz selbst erzeugt oder nachgenutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>radio</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/dataset_origin_options"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing/creator_name">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>creator_name</key>
<path>textcorpus_dfg_5/description/existing/creator_name</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/creator/name"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en"/>
<text lang="en">If re-used, who created the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wenn nachgenutzt, wer hat den Datensatz erzeugt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing/uri">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>uri</key>
<path>textcorpus_dfg_5/description/existing/uri</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/uri"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/existing"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>3</order>
<help lang="en"/>
<text lang="en">If re-used, under which address, PID or URL can the dataset be found?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wenn nachgenutzt, unter welcher Adresse, PID oder URL ist der Datensatz verfügbar?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>text</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/data-formats">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-formats</key>
<path>textcorpus_dfg_5/description/data-formats</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>3</order>
<title lang="en">Data types and processing</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "Which data types (in terms of data formats like image data, text data or measurement data) arise in your project and in what way are they further processed?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Datentypen und -verarbeitung</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Welche Datentypen, im Sinne von Datenformaten (z. B. Bilddaten, Textdaten oder Messdaten) entstehen in Ihrem Projekt und auf welche Weise werden sie weiterverarbeitet?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/data-formats/format">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>format</key>
<path>textcorpus_dfg_5/description/data-formats/format</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/format"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/data-formats"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>-5</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank> Recommendations on data technology standards and tools for the collection of language corpora </a> (in German):
With regard to text labeling and analysis, it is recommended to use existing standards as a guide. A distinction must be made between the distinction of textual characteristics (structural annotation) and the distinction of language characteristics (linguistic annotation). In principle, standardized formats (e.g. <i>XML</i>) and encodings (e.g. Unicode) are preferable to proprietary formats, since these enable sustainable data storage and archiving. For the annotation of research and processing data, the use of an XML format as the primary markup format is particularly recommended. In addition to formal markups, XML also enables content / semantic categorization of text units. In addition, XML enables further processing of the data based on standards (using <i> XML technologies </i> such as XSLT, XPath, XQuery). XML data can also be easily converted into other (secondary) formats (e.g. representation formats such as HTML). The other way around, pure presentation formats such as HTML or proprietary word processing formats such as DOCX generally do not provide for a semantic categorization of text units and, moreover, are not specially adapted for long-term archiving. For the long-term <i> interpretability </i> of the XML text markup, the definition and disclosure of an explicit <i> data model </i> or an explicit <i> document grammar (schema) </i> is finally necessary. These simplify the interpretation and, if necessary, the conversion and integration of the data and thus also facilitate their further processing and reusability in the long term.
<i> Recommendations for structural annotation </i>
The P5 guidelines of the <a href="https://tei-c.org/guidelines/" target=_blank> Text Encoding Initiative (TEI) </a> have established themselves as the de facto standard for the <i> structural labeling </i> of text passages. Since the <i> TEI P5 </i> rule set is very comprehensive so that it can be used for a wide variety of editorial needs, a restricted format that is adapted to specific project needs should be removed from the overall rule set. Such restrictions are possible using the <i> ODD </i> formalism provided by the TEI. The decision against all existing TEI formats and for the creation of a new, project-specific format must be justified in particular. The decision for a specific TEI format should also be motivated.
<i> Recommendations for linguistic annotation </i>
For the further, linguistic annotation of font data, a large number of specialized software tools have been developed in the past twenty years, which serve both to make the workflow more effective and to improve the archivability and reusability of the resulting data. In contrast to an oral corpora, writing corpora are often very large quantities of text, so that complete linguistic annotation is often only possible (semi) automatically. On the other hand, manual annotations of (parts of) corpora may also be necessary in corpus projects, for example, if there are no tools for a certain linguistic description level yet, if a gold standard is to be produced, if an annotation accuracy that is not achievable with automatic methods or if automatically generated annotations are to be corrected. For the production of manual linguistic annotations, specialized annotation tools are generally preferable to the use of general word processing software, since only the former store primary data and annotations in a consistently structured form that can be automatically processed and evaluated.
If many different annotation layers are added to a corpus, it is usually advisable to design them as <i> multi-level annotations </i>, in which the different annotation layers are initially kept separate. They remain related to each other since they all refer to the same text base using the <i> standoff </i> technique. As a rule, this basis is the tokenization level for the writing corpora, more rarely the level of the character bytes. Standoff annotations also enable the representation of competing analyzes on the same annotation level and are therefore suitable for the representation of alternative tokenizations (if the tokens are not themselves the standoff basis).
<i> Annotation tools and formats </i>
When choosing suitable tools for linguistic annotation, care must be taken that they can interpret and output standardized formats. If the output format of a chosen tool is not standardized, the output should be converted into a standard format for the purpose of reusability, which should be as simple as possible and as complex as necessary. Text-based <i> column formats </i>, as read and output by many taggers and which are required in some shared task competitions, can be a quasi-standard.
Often it is necessary to make corrections to other annotation levels (up to the tokenization level) while editing an annotation level and then to be able to keep records of such corrections, i.e. entering comments, notes or certain metadata (such as "Label automatically added” vs. “corrected”) to individual annotation items. The annotation tool and the representation format should then be selected according to these requirements. If adjustments have to be made to a tool or a tag set used for the specific requirements of a project, the planned modifications should be set out.
The annotations added to a corpus should be documented with regard to the annotation categories (including tokenization and segmentation principles, reference to the tag set used and annotation format). For automatically added annotations, the procedures and tools used, i.e. if necessary also preprocessing steps as well as the annotation quality e.g. be documented on the basis of the results of an evaluation that is as representative as possible. The <i> annotation quality </i> and the procedures for securing should also be documented for a manual annotation process. This includes the documentation of the annotation guidelines, which list all the tags used and their definitions with sample cases, and the annotator compliance.
For the investigation of little-researched topics, it may be appropriate to develop your own tools in the project. Then these tools should also be implemented, documented and made available for subsequent use in accordance with the standards described here. This can be achieved in particular by publishing the source code under a permissive license, which expressly permits the disclosure and further development by third parties. A script-like, non-sustainable implementation can also be justified if tool development is not a focus of the project.
<i> Analysis tools </i>
Tools are available not only for the annotation process, but also for many types of <i> Querying and Analysis (Querying) </i> of annotated corpora. When selecting tools, attention should be paid to standardized output formats (e.g. CSV, JSON). Linguistic corpus analysis tools are usually based on a database system in which the corpora and annotations are stored in a structured and quickly accessible manner. In cooperation with a data center, there is usually the option of using the corpus database systems belonging to the center infrastructure with their query and analysis tools during or after the project period. For the sustainable utilization and presentation (e.g. via web interfaces) of certain corpus data, especially in the area of digital humanities, where text data are commonly linked to other data types, database systems are also used directly, i.e. without a special linguistic layer. The various data modeling, query and analysis options offered by the available database paradigms (relational databases, document databases, XML databases or graph databases) have a direct influence on the class of questions that can be answered with them. Questions of this kind should be discussed in an interdisciplinary (computer science and humanities) context.
<i> Specific recommendations for structural annotation </i>
* To increase the <i> interoperability </i> of the project's own text data with corpus data from existing project contexts, the use of an existing TEI format should be considered, e.g. the TEI-based formats <i> DTA basic format </i> and <i> I5 </i> recommended by the CLARIN-D joint project for the award of printed texts
* Structural information from OCR can initially be in the <i> hOCR </i>, <i> ALTO </i> or <i> ABBYY XML </i> formats. In any case, these intermediate formats should be converted into a final TEI format. The reference to the original OCR formats should be retained.
* Within the TEI, the activities of linguistically oriented groups such as the <a href="https://tei-c.org/activities/sig/tei-for-linguists/" target=_blank>TEI Ling SIG („TEI for Linguists“)</a> or the <a href="https://tei-c.org/activities/sig/cmc/" target=_blank>TEI CMC SIG (Computer-Mediated Communication Special Interest Group)</a> should be closely monitored.
<i> Specific recommendations for linguistic annotation </i>
There are specialized tools and formats for setting, storing, editing and querying linguistic (multi-level) annotations. The following specific recommendations for the linguistic annotation of corpora can be given:
* The following XML-based formats can be recommended as exchange formats for multi-level annotations realized as standoff: <i> PAULA </i> (exchange format for ANNIS), <i> LAF / GrAF </i> (LAF is ISO- Standard, GrAF its graph-based XML serialization, also supports feature structures), <i> ISO-TIGER </i> and the <i> TextCorpus Format (TCF) </i> recommended by CLARIN-D.
* The <i> Stuttgart-Tübingen-Tagset (STTS) </i> has been established as a quasi-standard as a tag set for POS tagging of German-language texts.</help>
<text lang="en">Which file formats are used?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>:
Hinsichtlich der Textauszeichnung und -analyse wird die Orientierung an bestehenden Standards empfohlen. Dabei ist grundsätzlich zwischen der Auszeichnung textueller Merkmale (strukturelle Annotation) und der Auszeichnung sprachlicher Merkmale (linguistische Annotation) zu unterscheiden. Grundsätzlich sind standardisierte/genormte Formate (z.B. <i>XML</i>) und Kodierungen (z.B. Unicode) proprietären Formaten vorzuziehen, da diese eine nachhaltige Datenhaltung und Archivierung ermöglichen. Für die Annotation der Forschungs- und Verarbeitungsdaten ist insbesondere die Verwendung eines XML-Formats als primäres Auszeichnungsformat zu empfehlen. Mit XML ist neben formalen Auszeichnungen auch eine inhaltliche/semantische Kategorisierung von Texteinheiten möglich. Darüber hinaus ermöglicht XML eine auf Standards basierte Weiterverarbeitung der Daten (mittels <i>XML-Technologien</i> wie XSLT, XPath, XQuery). Weiterhin lassen sich XML-Daten problemlos in andere (sekundäre) Formate (z.B. Repräsentationsformate wie HTML) konvertieren. Anders herum sehen reine Präsentationsformate wie HTML oder proprietäre Textverarbeitungsformate wie DOCX eine semantische Kategorisierung von Texteinheiten in der Regel nicht vor und sind darüber hinaus nicht speziell für die Langzeitarchivierung angepasst. Für die langfristige <i>Interpretierbarkeit</i> der XML-Textauszeichnung ist schließlich die Festlegung und Offenlegung eines expliziten <i>Datenmodells</i> bzw. einer expliziten <i>Dokumentgrammatik (Schema)</i> vonnöten. Diese vereinfachen die Interpretation sowie ggf. die Konvertierung und Integration der Daten und erleichtern damit auch langfristig deren Weiterverarbeitung und Nachnutzbarkeit.
<i>Empfehlungen für die strukturelle Annotation</i>
Als de facto-Standard für die <i>strukturelle Auszeichnung</i> von Textpassagen haben sich die P5-Richtlinien der <a href="https://tei-c.org/guidelines/" target=_blank>Text Encoding Initiative (TEI)</a> etabliert. Da der <i>TEI P5</i>-Regelsatz sehr umfassend ist, um für die verschiedensten editorischen Bedürfnisse verwendbar zu sein, sollte aus dem Gesamtregelsatz ein eingeschränktes Format, welches an die spezifischen Projektbedürfnisse angepasst ist, herausgelöst werden. Derlei Einschränkungen sind mithilfe des <i>ODD</i>-Formalismus, welchen die TEI bereitstellt, möglich. Die Entscheidung gegen alle existierenden TEI-Formate und für die Schaffung eines neuen, projekteigenen Formats ist besonders zu begründen. Ebenso sollte die Entscheidung für ein spezifisches TEI-Format motiviert werden.
<i>Empfehlungen für die linguistische Annotation</i>
Für die weitere, linguistische Annotation von Schriftdaten ist in den letzten zwanzig Jahren eine Vielzahl spezialisierter Software-Tools entwickelt worden, die sowohl einer Effektivierung des Arbeitsablaufs als auch einer Verbesserung der Archivierbarkeit und Nachnutzbarkeit der entstehenden Daten dienen. Anders als bei mündlichen Korpora handelt es sich bei Schriftkorpora oftmals um sehr große Textmengen, so dass eine vollständige linguistische Annotation oft nur (semi)-automatisch möglich ist. Andererseits können in Korpusprojekten auch manuelle Annotationen von (Teilen von) Korpora notwendig sein, beispielsweise, wenn noch keine Tools für eine bestimmte linguistische Beschreibungsebene vorliegen, wenn ein Goldstandard hergestellt werden soll, wenn grundsätzlich eine Annotationsgenauigkeit angestrebt wird, die mit automatischen Methoden nicht zu erreichen ist, oder wenn automatisch hergestellte Annotationen korrigiert werden sollen. Auch für die Herstellung manueller linguistischer Annotationen sind spezialisierte Annotationstools grundsätzlich der Verwendung allgemeiner Textverarbeitungssoftware vorzuziehen, da nur erstere Primärdaten und Annotationen in einer konsistent strukturierten Form, die automatisch weiterverarbeitet und ausgewertet werden kann, speichern.
Werden einem Korpus viele verschiedene Annotationsschichten hinzugefügt, so empfiehlt sich meist eine Konzipierung als <i>Mehr-Ebenen-Annotationen</i>, in der die verschiedenen Annotationsschichten zunächst getrennt vorgehalten werden. Sie bleiben dabei aufeinander beziehbar, da sie per <i>Standoff</i>-Technik sämtlich auf dieselbe Textbasis referieren. In der Regel ist diese Basis bei Schriftkorpora die Tokenisierungsebene, seltener die Ebene der Character-Bytes. Standoff-Annotationen ermöglichen auch die Repräsentation konkurrierender Analysen auf derselben Annotationsebene und bieten sich damit beispielsweise für die Repräsentation alternativer Tokenisierungen an (wenn die Tokens nicht selbst die Standoff-Basis darstellen).
<i>Annotationstools und Formate</i>
Bei der Wahl geeigneter Tools zur linguistischen Annotation ist darauf zu achten, dass diese standardisierte/genormte Formate interpretieren und ausgeben können. Falls das Ausgabeformat eines gewählten Tools kein standardisiertes ist, sollte die Ausgabe zum Zwecke der Nachnutzbarkeit in ein Standardformat überführt werden, welches so einfach wie möglich und so komplex wie nötig sein sollte. Textbasierte <i>Spaltenformate</i>, wie sie von vielen Taggern gelesen und ausgegeben werden und in einigen Shared Task-Wettbewerben vorausgesetzt werden, können einen Quasi-Standard darstellen.
Oftmals ist es erforderlich, dass während der Bearbeitung einer Annotationsebene Korrekturen an anderen Annotationsebenen (bis hin zur Tokenisierungsebene) vorgenommen werden müssen und dann auch eine Buchführung über derlei Korrekturen möglich sein soll, also die Eingabe von Kommentaren, Notizen oder bestimmten Metadaten (wie „Label automatisch hinzugefügt“ vs. „korrigiert“) zu einzelnen Annotations-Items. Das Annotationstool und das Repräsentationsformat sollten dann entsprechend diesen Anforderungen ausgewählt werden. Sollte für die spezifischen Anforderungen eines Projekts Anpassungen an einem Tool oder an einem verwendeten Tag-Set vorgenommen werden müssen, so sollten die geplanten Modifikationen dargelegt werden.
Die einem Korpus hinzugefügten Annotationen sollten dokumentiert werden hinsichtlich der Annotationskategorien (inklusive Tokenisierungs- und Segmentierungsprinzipien, Verweis auf das verwendete Tag-Set und Annotationsformat). Für automatisch hinzugefügte Annotationen sollten die eingesetzten Verfahren und Tools, d.h. ggf. auch Vorverarbeitungsschritte sowie auch die Annotationsqualität z.B. anhand der Angabe von Ergebnissen einer möglichst repräsentativen Evaluation dokumentiert werden. Auch für einen manuellen Annotationsprozess sollten die <i>Annotationsqualität</i> und die Verfahren ihrer Absicherung dokumentiert werden. Dazu gehört die Dokumentation der Annotationsrichtlinien, die alle verwendeten Tags und ihre Definitionen mit Beispielfällen aufführen, und der Annotatorenübereinstimmung.
Für die Untersuchung wenig beforschter Themen kann es angebracht sein, im Projekt eigene Tools zu entwickeln, dann sollten auch diese Tools entsprechend den hier beschriebenen Standards implementiert, dokumentiert und für eine Nachnutzung verfügbar gemacht werden. Erreicht werden kann dies insbesondere durch die Veröffentlichung des Quellcodes unter einer permissiven Lizenz, welche die Weitergabe und Weiterentwicklung durch Dritte ausdrücklich gestattet. Eine skriptartige, nicht auf Nachhaltigkeit abzielende Implementierung kann auch ihre Berechtigung haben, wenn die Toolentwicklung kein Schwerpunkt des Projekts ist.
<i>Analysetools</i>
Nicht nur für den Annotationsprozess, sondern auch für viele Arten der <i>Abfrage und Analyse (Querying)</i> von annotierten Korpora stehen Tools zur Verfügung. Bei der Auswahl von Tools sollte auf standardisierte Ausgabeformate geachtet werden (z. B. CSV, JSON). Linguistische Korpusanalysetools basieren in der Regel auf einem Datenbanksystem, in dem Korpora und Annotationen strukturiert und schnell zugreifbar gespeichert werden. Bei einer Kooperation mit einem Datenzentrum besteht meist die Möglichkeit, während oder nach der Projektlaufzeit die zur Zentrumsinfrastruktur gehörigen Korpusdatenbanksysteme mit ihren Abfrage- und Analysetools zu verwenden. Für die nachhaltige Nutzbarmachung und Präsentation (z.B. über Web-Schnittstellen) bestimmter Korpusdaten, insbesondere im Bereich der Digital Humanities, wo Textdaten gemeinhin mit weiteren Datentypen verknüpft sind, werden Datenbanksysteme auch direkt, d.h. ohne eine spezielle Linguistik-Schicht, eingesetzt. Die verschiedenen Datenmodellierungs-, Anfrage- und Analysemöglichkeiten, die die verfügbaren Datenbankparadigmen (relationale Datenbanken, Dokumentdatenbanken, XML-Datenbanken oder Graphen-Datenbanken) bieten, haben einen unmittelbaren Einfluss auf die Klasse der Fragestellungen, die mit ihnen beantwortet werden können. Fragen dieser Art sollten im Projektzusammenhang möglichst interdisziplinär (Informatik und Geisteswissenschaften) erörtert werden.
<i>Konkrete Empfehlungen für die strukturelle Annotation</i>
* Zur Erhöhung der <i>Interoperabilität</i> der projekteigenen Textdaten mit Korpusdaten aus bestehenden Projektkontexten ist die Nutzung eines bereits bestehenden TEI-Formats zu erwägen, z.B. der durch das Verbundprojekt CLARIN-D für die Auszeichnung gedruckter Texte empfohlenen TEI-basierten Formate <i>DTA-Basisformat</i> und <i>I5</i>
* Strukturelle Informationen aus OCR können zunächst in den Formaten <i>hOCR</i>, <i>ALTO</i> oder <i>ABBYY XML</i> vorliegen. Diese Zwischenformate sollten in jedem Fall in ein finales TEI-Format überführt werden. Der Bezug zu den ursprünglichen OCR-Formaten sollte dabei erhalten bleiben.
* Innerhalb der TEI sollten die Aktivitäten sprachwissenschaftlich orientierter Gruppen wie der <a href="https://tei-c.org/activities/sig/tei-for-linguists/" target=_blank>TEI Ling SIG („TEI for Linguists“)</a> oder der <a href="https://tei-c.org/activities/sig/cmc/" target=_blank>TEI CMC SIG (Computer-Mediated Communication Special Interest Group)</a> aufmerksam verfolgt werden.
<i>Konkrete Empfehlungen für die linguistische Annotation</i>
Für die Setzung, Speicherung, Bearbeitung und Abfrage linguistischer (Mehr-Ebenen-) Annotationen existieren spezialisierte Tools und Formate. Folgende konkrete Empfehlungen für die linguistische Annotation von Korpora können gegeben werden:
* Folgende XML-basierten Formate können als Austauschformate für als Standoff realisierte Mehr-Ebenen-Annotationen empfohlen werden: <i>PAULA</i> (Austauschformat für ANNIS), <i>LAF/GrAF</i> (LAF ist ISO-Standard, GrAF seine graph-basierte XML-Serialisierung, unterstützt auch Merkmalsstrukturen), <i>ISO-TIGER</i> und das von CLARIN-D empfohlene <i>TextCorpus Format (TCF)</i>.
* Als Tagset für das POS-Tagging deutschsprachiger Texte ist das <i>Stuttgart-Tübingen-Tagset (STTS)</i> als Quasi-Standard etabliert.</help>
<text lang="de">In welchen Formaten liegen die Daten vor?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/data-formats/description">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>description</key>
<path>textcorpus_dfg_5/description/data-formats/description</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/usage_description"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/data-formats"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en"/>
<text lang="en">How / for what purpose will this dataset be used during the project?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wozu / wie wird dieser Datensatz während des Projektes genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/size">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>size</key>
<path>textcorpus_dfg_5/description/size</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description"/>
<questionset/>
<is_collection>True</is_collection>
<order>4</order>
<title lang="en">Data volume</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "To what extent do these arise or what is the anticipated data volume?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Volumen</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "In welchem Umfang fallen diese an bzw. welches Datenvolumen ist zu erwarten?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/size/volume">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>volume</key>
<path>textcorpus_dfg_5/description/size/volume</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/size/volume"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/size"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">What is the actual or expected size of the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Was ist die tatsächliche oder erwartete Größe des Datensatzes?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>radio</widget_type>
<value_type>float</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/dataset_size_options"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/size/rate">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>rate</key>
<path>textcorpus_dfg_5/description/size/rate</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/rate"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/description/size"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en">Optional. This is only of concern if the data production rate reaches TB scale.</help>
<text lang="en">How much data is produced per year?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Optional. Dies ist nur relevant, wenn das Wachstum die TB-Größenordnung erreicht.</help>
<text lang="de">Wie hoch ist die erwartete Erzeugungsrate der Daten pro Jahr?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>text</widget_type>
<value_type>integer</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>docu</key>
<path>textcorpus_dfg_5/docu</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5"/>
<order>2</order>
<title lang="en">Documentation and data quality</title>
<title lang="de">Dokumentation und Datenqualität</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/documentation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>documentation</key>
<path>textcorpus_dfg_5/docu/documentation</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">Documentation</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "What approaches are being taken to describe the data in a comprehensible manner (such as the use of available metadata, documentation standards or ontologies)?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Dokumentation</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Welche Ansätze werden verfolgt, um die Daten nachvollziehbar zu beschreiben (z. B. Nutzung vorhandener Metadaten- bzw. Dokumentationsstandards oder Ontologien)?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/documentation/standards">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>standards</key>
<path>textcorpus_dfg_5/docu/documentation/standards</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/metadata/standards"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/documentation"/>
<is_collection>True</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of language corpora </a> (in German):
For each document in a body of text, metadata must be collected, which is structured in a homogeneous and standard-compliant manner and is comprehensible across projects. The metadata should contain as detailed information as possible on the following aspects:
* Information on the text source (title, author, editor, place of publication, date of publication or creation, publisher, information on the series for dependent publications, storage location and signature or for genuinely digital sources, location of availability, ...);
* Information about the digital edition (title, subtitle, author, date of publication, publisher / editor / responsible person or organization);
* Information on the project background and, if necessary, contact options;
* Information on the scope, depth of annotation, guidelines for transcription or text compilation / annotation;
* content: language; Classification (text type, genre, ...); Information on terms of use, the legal and technical availability, etc. of the corpora;
* Notes on correct citation.
Not only in the digitization of (historical) works, but also in the transfer of existing texts, e.g. by integrating existing texts / corpora or by (web) crawling (according to defined and explicit criteria), the information on the text source is essential for the traceability of the research results. Not only should the original source and the time of the transfer be given, but also the subsequent processing steps (e.g. curation and enrichment of data) and possible responsibilities should be made transparent.
The process of text entry and transcription should also be noted in the metadata for each individual text resource.
As early as possible in the course of the project, but in any case at the time of publication of the individual digitized resources, this metadata should be used for <i> harvesting </i> via a suitable interface (e.g. the Open Archive Initiative Protocol for Metadata Harvesting (OAI-PMH)) and <i> feed into suitable directories </i>.
<i> Specific recommendations </i>
A widespread, standardized format is to be selected as the primary format for the collection of metadata, which allows the structured collection of semantically differentiated metadata to the extent described (e.g. TEI header, METS / MODS, CMDI, EAD). Other widespread metadata formats (as lossless as possible) should be generated and made available from the selected format. CMDI is specifically designed for the writing corpora.</help>
<text lang="en">Which standards, ontologies, classifications etc. are used to describe the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>:
Für jedes Dokument in einem Textkorpus sind Metadaten zu erheben, welche in homogener und standardkonformer Weise strukturiert und projektübergreifend nachvollziehbar sind. Die Metadaten sollten dabei möglichst ausführliche Informationen zu folgenden Aspekten enthalten:
* Angaben zur Textquelle (Titel, Autor, Herausgeber/Bearbeiter, Erscheinungsort, Erscheinungs- bzw. Entstehungsdatum, Verlag, Angabe zur Reihe bei unselbständigen Publikationen, Aufbewahrungsort und Signatur bzw. bei genuin digitalen Quellen Ort der Verfügbarkeit, ...);
* Angaben zur digitalen Ausgabe (Titel, Untertitel, Autor, Erscheinungsdatum, Herausgeber/Bearbeiter/verantwortliche Personen bzw. Organisationen);
* Angaben zum Projekthintergrund und ggf. Kontaktmöglichkeiten;
* Angaben zum Umfang, zur Annotationstiefe, zu den Richtlinien der Transkription bzw. Textzusammenstellung/Annotation;
* inhaltliche Angaben: Sprache; Klassifikation (Textsorte, Genre, ...); Angaben zu Nutzungsbedingungen, der rechtlichen und technischen Verfügbarkeit etc. der Korpora;
* Hinweise zur korrekten Zitierweise.
Nicht allein bei der Digitalisierung von (historischen) Werken, sondern auch bei der Übernahme bestehender Texte, z.B. durch Integration bestehender Texte/Korpora oder durch (Web)Crawling (nach definierten und explizierten Kriterien) sind die Angaben zur Textquelle unerlässlich für die Nachvollziehbarkeit der Forschungsergebnisse. Dabei sollten nicht nur die ursprüngliche Quelle und der Zeitpunkt der Übernahme angegeben, sondern auch die ggf. nachfolgenden Bearbeitungsschritte (z. B. Kuration und Anreicherung von Daten) sowie mögliche Verantwortlichkeiten transparent gemacht werden.
Das Verfahren der Texterfassung und Hinweise zu Transkription sollten auch in den Metadaten zu jeder einzelnen Textressource vermerkt werden.
Möglichst früh im Projektverlauf, in jedem Fall jedoch zum Zeitpunkt der Veröffentlichung der einzelnen digitalisierten Ressourcen, sollten diese Metadaten über eine geeignete Schnittstelle (z.B. das Open Archive Initiative Protocol for Metadata Harvesting (OAI-PMH)) zum <i>Harvesting</i> und <i>Einspeisen in geeignete Verzeichnisse</i> bereitgestellt werden.
<i>Konkrete Empfehlungen</i>
Als Primärformat für die Erfassung von Metadaten ist ein verbreitetes, standardisiertes Format zu wählen, welches die strukturierte Erfassung semantisch differenzierter Metadaten in dem beschriebenen Umfang erlaubt (z.B. TEI-Header, METS/MODS, CMDI, EAD). Aus dem gewählten Format sollten andere verbreitete Metadatenformate (möglichst verlustfrei) erzeugt und bereitgestellt werden. CMDI ist spezifisch für Schriftkorpora ausgearbeitet.</help>
<text lang="de">Welche Standards, Ontologien, Klassifikationen etc. werden zur Beschreibung der Daten genutzt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>checkbox</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets>
<optionset dc:uri="https://rdmorganiser.github.io/terms/options/metadata_standards"/>
</optionsets>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/documentation/documentation">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>documentation</key>
<path>textcorpus_dfg_5/docu/documentation/documentation</path>
<dc:comment>Eine Dokumentation wird vom Fachkollegium „Erziehungswissenschaft“ der DFG für solche Forschungsdaten gefordert, die bereitgestellt werden sollen, 'Bereitstellung und Nutzung quantitativer Forschungsdaten in der Bildungsforschung: Memorandum des Fachkollegiums „Erziehungswissenschaft“ der DFG', https://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/richtlinien_forschungsdaten_bildungsforschung.pdf. Das Fachkollegium „Wirtschaftswissenschaften“ fordert sogar „die Bereitstellung der verwendeten Programme und eine aussagekräftige Beschreibung“ aller Forschungsdaten, die Grundlage einer Publikation sind, siehe 'Management von Forschungsdaten: Was erwartet das Fachkollegium 112 „Wirtschaftswissenschaften“ von Antragstellenden? (Stand November 2018)', https://www.dfg.de/download/pdf/foerderung/antragstellung/forschungsdaten/fachkollegium112_forschungsdatenmanagement_1811.pdf. Frage und Attribut wurden deshalb aufgenommen.</dc:comment>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/documentation"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/documentation"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>4</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of language corpora </a> (2019) (in German):
<i> Text entry </i>
The <i> guidelines for transcription </i> should always be included. Above all, deviations from the template should be justified and thus made as comprehensible as possible. This includes <i> information on the 'degree of diplomacy' </i> of the transcription, which documents the extent to which the reproduction of the original language level and the graph is guaranteed.
<i>Annotation</i>
In all cases, the selected tag set must be documented and the annotation of all corpus texts created according to this tag set (and, if applicable, the other documented guidelines for annotation). To ensure interoperability, existing annotation standards should be used as far as possible. With a view to the comprehensibility of decisions made and the reusability of the data, the following parameters must also be disclosed in the context of detailed project documentation:
* the tag set used in each case;
* the structuring depth;
* in the case of automatic annotation, the procedures and tools used; ideally with information on sources of knowledge, versions and development status
* the expected accuracy of annotation.
For annotations or annotated corpus versions, it is also recommended to prove their processing history as process metadata or provenance information. A recommended place for the documentation of the administrative history of process metadata for corpora is the encoding description of the TEI header.
From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/guidelines_review_board_linguistics_corpora.pdf" target=_blank>Guidelines for Building Language Corpora Under German Law</a> (2017):
In cases where it is not possible to obtain sufficient rights to make available a text corpus to the scientific community permanently, but the reasons to build the corpus were nevertheless strong enough, the reasons should be documented and compromise strategies should be found on how a sustainable availability may be achieved at least rudimentarily. One possible model is e.g. to comprehensibly document how they may obtain the necessary rights themselves for subsequent users.</help>
<text lang="en">Which components of the data documentation are available together with the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>:
<i>Texterfassung</i>
Die <i>Richtlinien zur Transkription</i> sollten immer mit angegeben werden. Vor allem Abweichungen von der Vorlage sollten begründet und somit möglichst nachvollziehbar gemacht werden. Dies beinhaltet <i>Angaben zum ,Diplomatizitätsgrad’</i> der Transkription, die dokumentieren, inwieweit die Wiedergabe des originalen Sprachstandes und der Graphie gewährleistet ist.
<i>Annotation</i>
In allen Fällen ist das gewählte Tagset zu dokumentieren und die Annotation sämtlicher Korpustexte einheitlich nach diesem Tagset (und ggf. den weiteren dokumentierten Richtlinien zur Annotation) zu erstellen. Zur Sicherung der Interoperabilität sollten möglichst bestehende Annotationsstandards zugrunde gelegt werden. Mit Blick auf die Nachvollziehbarkeit getroffener Entscheidungen und der Nachnutzbarkeit der Daten sind darüber hinaus grundsätzlich die folgenden Parameter im Rahmen einer ausführlichen Projektdokumentation offenzulegen:
* das jeweils verwendete Tagset;
* die Strukturierungstiefe;
* im Falle der automatischen Annotation die eingesetzten Verfahren und Tools; idealerweise mit Angaben zu Wissensquellen, Versionen und Entwicklungsständen
* die erwartbare Annotationsgenauigkeit.
Für Annotationen bzw. annotierte Korpusversionen wird außerdem empfohlen, ihre Verarbeitungshistorie als Prozessmetadaten bzw. provenance information nachzuweisen. Ein empfohlener Ort für die Dokumentation der Verwaltungshistorie von Prozessmetadaten für Korpora ist die Encoding Description des TEI-Headers.
Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf" target=_blank>Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora</a>:
In Fällen, in denen ist nicht möglich ist, ausreichend Rechte einzuholen, um ein Textkorpus dauerhaft der wissenschaftlichen Gemeinschaft verfügbar zu machen, die Gründe das Korpus trotzdem aufzubauen aber überwiegen, sollten die Gründe dokumentiert werden und von vorn herein Kompromissstrategien gesucht werden, wie eine nachhaltige Verfügbarkeit zumindest ansatzweise erreicht werden kann. Ein mögliches Modell ist z.B. für Nachnutzer nachvollziehbar zu dokumentieren, wie sie die notwendigen Rechte selbst erhalten können.</help>
<text lang="de">Welche Komponenten der Datendokumentation stehen zusammen mit dem Datensatz zur Verfügung?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/quality">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>quality</key>
<path>textcorpus_dfg_5/docu/quality</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Data quality</title>
<help lang="en"/>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Datenqualität</title>
<help lang="de"/>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/quality/measures">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>measures</key>
<path>textcorpus_dfg_5/docu/quality/measures</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/quality_assurance"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/quality"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>7</order>
<help lang="en">From the <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank"> Recommendations on data technology standards and tools for the collection of language corpora </a> (in German):
The reliability and correctness of the corpus data is of central importance for comprehensible, genuine and complete research results. Therefore, great importance must be attached to quality assurance in advance and after data collection / digitization. Quality assurance should include the following:
* Text quality so that the search space for body searches is clear (i.e. maximum reduction of false positives / negatives);
* Quality of structural annotation;
* Quality of linguistic annotation;
* Quality of the metadata.
The measures taken should also be documented here. Reliable accuracy measurements and the improvement of the detection rate through semi-automatic or manual correction as well as through optimization of the processes and tools used are required.
For the construction of a corpus based on existing physical text sources, the creation of digital images of these sources is recommended, on the one hand to enable location-independent processing and on the other hand to ensure the uncomplicated verifiability of the correctness of the entry. The underlying digital images must be of sufficient quality (minimum requirement: uncompressed TIFF files or JPEG2000 in its lossless form as a format as image master, at least 300 dpi, color scans). Lesser image qualities are to be justified.
If the intended sources are already available as digital text data, research and provision of the associated underlying image files is recommended in order to make the quality of the transcription and its proximity to the source verifiable. Deviations from this recommendation (e.g. due to legal restrictions on the subsequent use of the image files) must be justified. In addition, special care must be taken in this case with regard to the reliability of the transcription compared to the (historical) template. The compilation of digital images without the addition of sufficiently reliable transcriptions is not sufficient for the construction of a corpus.
When using "born digital" texts, the changeability of the source data should be taken into account. A special case is web resources, which should be compiled as a corpus. Quality assurance and the replicability of results should be the focus here. This is possible by compiling corpora from web texts, i.e. the necessary language data can be obtained from the web according to previously defined and extensively documented criteria and this material can then be accessed as a corpus. Web texts can also be compiled using crawling methods. A detailed documentation of the underlying crawling methods and algorithms should be created here, in the best case the crawler used itself should also be made available in a reusable manner, especially if the web body itself may not be passed on for legal reasons.</help>
<text lang="en">What measures are being adopted to ensure high data quality? Are quality controls in place and if so, how do they operate?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Aus den <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_sprachkorpora.pdf" target=_blank">Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora</a>:
Für nachvollziehbare, unverfälschte und vollständige Rechercheergebnisse ist die Verlässlichkeit und Korrektheit der Korpusdaten von zentraler Bedeutung. Daher ist großer Wert auf dieQualitätssicherung im Vorhinein sowie im Anschluss an die Datenerfassung/Digitalisierung zu legen. Die Qualitätssicherung sollte die folgenden Aspekte umfassen:
* Textqualität, damit der Suchraum für Korpusrecherchen eindeutig ist (d. h. maximale Reduktion der false positives/negatives);
* Qualität der strukturellen Annotation;
* Qualität der linguistischen Annotation;
* Qualität der Metadaten.
Auch hier sollten die getroffenen Maßnahmen dokumentiert werden. Dabei sind verlässliche Genauigkeitsmessungen sowie die Verbesserung der Erkennungsrate durch halbautomatische oder manuelle Nachkorrektur sowie durch Optimierung der eingesetzten Verfahren und Tools vonnöten.
Für den Aufbau eines Korpus auf Grundlage bestehender physischer Textquellen wird die Anfertigung von Bilddigitalisaten dieser Quellen empfohlen, um zum einen eine standortunabhängige Bearbeitung zu ermöglichen und zum anderen die unkomplizierte Überprüfbarkeit der Korrektheit der Erfassung zu gewährleisten. Die zugrundeliegenden Bilddigitalisate müssen in ausreichender Qualität (Mindestanforderung: unkomprimierte TIFF-Dateien oder JPEG2000 in seiner verlustfreien Form als Format als Bildmaster, mind. 300 dpi, Farbscans) vorliegen. Abstriche bei der Bildqualität sind nachvollziehbar zu begründen.
Liegen die vorgesehenen Quellen bereits als digitale Textdaten vor, so wird die Recherche und Bereitstellung der zugehörigen zugrundeliegenden Bilddateien empfohlen, um die Qualität der Transkription und deren Quellennähe überprüfbar zu machen. Abweichungen von dieser Empfehlung (z.B. aufgrund rechtlicher Beschränkungen für die Nachnutzung der Bilddateien) sind zu begründen. Darüber hinaus gilt in diesem Fall besondere Sorgfalt bzgl. der Zuverlässigkeit der Transkription gegenüber der (historischen) Vorlage. Die Zusammenstellung von Bilddigitalisaten ohne Zugabe ausreichend verlässlicher Transkriptionen genügt nicht für den Aufbau eines Korpus.
Bei der Nachnutzung von ,born digital’ Texten sollte die Änderbarkeit der Quelldaten einkalkuliert werden. Einen Spezialfall stellen hier Webressourcen dar, die als Korpus kompiliert werden sollen. Hier sollten eine Qualitätssicherung sowie die Replizierbarkeit von Ergebnissen im Vordergrund stehen. Die ist möglich, indem Korpora von Webtexten kompiliert werden, d.h. die notwendigen Sprachdaten aus dem Web nach vorher definierten und ausführlich dokumentierten Kriterien gewonnen werden und dieses Material sodann als Korpus erschlossen wird. Webtexte können auch mittels Crawling-Methoden kompiliert werden. Hier sollte eine ausführliche Dokumentation der zugrundeliegenden Crawling-Methoden und Algorithmen erstellt werden, im besten Fall der verwendete Crawler selbst auch nachnutzbar zur Verfügung gestellt werden, insbesondere wenn das Webkorpus selbst aus rechtlichen Gründen nicht weitergegeben werden darf.</help>
<text lang="de">Welche Maßnahmen werden getroffen, um eine hohe Qualität der Daten zu gewährleisten? Sind Qualitätskontrollen vorgesehen und wenn ja, auf welche Weise?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/data-tools">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-tools</key>
<path>textcorpus_dfg_5/docu/data-tools</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu"/>
<questionset/>
<is_collection>True</is_collection>
<order>3</order>
<title lang="en">Tools</title>
<help lang="en"/>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Werkzeuge</title>
<help lang="de"/>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/data-tools/usage_technology">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>usage_technology</key>
<path>textcorpus_dfg_5/docu/data-tools/usage_technology</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/usage_technology"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/docu/data-tools"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en">To be able to re-use data (e.g. to replicate studies, for meta analysis or to solve new research questions), along with the data the software, equipment and knowledge about special methods to use the data are required. Just as with the formats, the recommendation is: the more standardised, open and established, the better for re-use.</help>
<text lang="en">Which digital methods and tools (e.g. software) are required to use the data?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Um Daten nachnutzen zu können, bspw. für die Replikation von Studien, Metaanalysen oder die Beantwortung neuer Forschungsfragen, werden neben den Daten selbst auch die Software, Geräte etc. und das Wissen über spezielle Verfahren zur Nutzung benötigt. Ebenso wie bei den Formaten gilt hier: je standardisierter, offener und etablierter diese sind, desto einfacher ist i.d.R. eine Nachnutzung möglich.</help>
<text lang="de">Welche digitalen Methoden und Werkzeuge (z. B. Software) sind zur Nutzung der Daten erforderlich?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>saving</key>
<path>textcorpus_dfg_5/saving</path>
<dc:comment/>
<catalog dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5"/>
<order>3</order>
<title lang="en">Storage and technical archiving the project</title>
<title lang="de">Speicherung und technische Sicherung während des Projektverlaufs</title>
</section>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/storage">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>storage</key>
<path>textcorpus_dfg_5/saving/storage</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving"/>
<questionset/>
<is_collection>True</is_collection>
<order>1</order>
<title lang="en">Storage</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "How is the data to be stored and archived throughout the project duration"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Speicherung</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Auf welche Weise werden die Daten während der Projektlaufzeit gespeichert und gesichert?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/storage/type">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>type</key>
<path>textcorpus_dfg_5/saving/storage/type</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/storage/type"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/storage"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Where is the dataset stored during the project?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wo wird der Datensatz während der Projektlaufzeit gespeichert?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/storage/backups">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>backups</key>
<path>textcorpus_dfg_5/saving/storage/backups</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/data_security/backups"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/storage"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>2</order>
<help lang="en">This question refers to backups while the data is being worked with. Questions of long-term preservation will be adressed in the respective section.</help>
<text lang="en">How and how often will backups of the data be created?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de">Die Frage bezieht sich auf Backups während der Zeit, in denen mit den Daten gearbeitet wird. Fragen der Langzeitarchivierung werden gesondert im entsprechenden Abschnitt behandelt.</help>
<text lang="de">Wie und wie oft werden Backups der Daten erstellt?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>
<width/>
<optionsets/>
<conditions/>
</question>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/data-security">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>data-security</key>
<path>textcorpus_dfg_5/saving/data-security</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/id"/>
<section dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving"/>
<questionset/>
<is_collection>True</is_collection>
<order>2</order>
<title lang="en">Security</title>
<help lang="en">Original question from the DFG <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_en.pdf" target=_blank>Checklist Regarding the Handling of Research Data</a>: "What is in place to secure sensitive data throughout the project duration (access and usage rights)?"</help>
<verbose_name lang="en">dataset</verbose_name>
<verbose_name_plural lang="en">datasets</verbose_name_plural>
<title lang="de">Sicherheit</title>
<help lang="de">Originalfrage aus der <a href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/forschungsdaten/forschungsdaten_checkliste_de.pdf" target=_blank>Checkliste zum Umgang mit Forschungsdaten</a> der DFG: "Wie wird die Sicherheit sensibler Daten während der Projektlaufzeit gewährleistet (Zugriffs- und Nutzungsverwaltung)?"</help>
<verbose_name lang="de">Datensatz</verbose_name>
<verbose_name_plural lang="de">Datensätze</verbose_name_plural>
<conditions/>
</questionset>
<question dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/data-security/access_permissions">
<uri_prefix>https://rdmo.fodako.nrw</uri_prefix>
<key>access_permissions</key>
<path>textcorpus_dfg_5/saving/data-security/access_permissions</path>
<dc:comment/>
<attribute dc:uri="https://rdmorganiser.github.io/terms/domain/project/dataset/data_security/access_permissions"/>
<questionset dc:uri="https://rdmo.fodako.nrw/questions/textcorpus_dfg_5/saving/data-security"/>
<is_collection>False</is_collection>
<is_optional>False</is_optional>
<order>1</order>
<help lang="en"/>
<text lang="en">Who is allowed to access the dataset?</text>
<default_text lang="en"/>
<verbose_name lang="en"/>
<verbose_name_plural lang="en"/>
<help lang="de"/>
<text lang="de">Wer darf auf den Datensatz zugreifen?</text>
<default_text lang="de"/>
<verbose_name lang="de"/>
<verbose_name_plural lang="de"/>
<default_option/>
<default_external_id/>
<widget_type>textarea</widget_type>
<value_type>text</value_type>
<maximum/>
<minimum/>
<step/>
<unit/>