MNBVC 平行语料

欢迎来到 MNBVC 平行语料小组 的总仓库。本仓库主要用于：

存放零散代码
分配小组成员任务
公示统一的平行语料文件格式

注意： 对于独立性强、文件数量多、组织结构复杂的任务，我们建议自己建立独立仓库来维护代码。

平行语料是什么？

招募成员

字幕语料任务

需求（任一即可）：
- 有在至少包含中英双语的字幕组工作的经验
- 拥有相关人脉，能够与字幕数据持有者沟通
详情：字幕语料任务

歌词语料任务

需求（任一即可）：
- 曾在任意平台收集过含中英双语的歌词，手头有相关数据
- 了解歌词版权相关问题
详情：歌词语料任务

游戏语料任务

需求（任一即可）：
- 热爱游戏，拥有丰富的游戏库，愿意提供大型游戏包体或者账号
- 有时间研究游戏解包，提取本地化数据
详情：游戏语料任务

探索其它平行语料

需求：
- 有充足的时间进行网上冲浪
- 能够理解平行语料是什么
- 习惯于 markdown 语法，能够为其它成员调研、收集可以下手的网站链接

有其它任务的idea？欢迎来issues区提问开坑！

加入方式

先去 MNBVC 总仓库了解一下项目总体情况
发送申请邮件至: [email protected] 内容简要写写自己愿意做哪块工作即可
通过后会拉微信小群，有后续问题直接在小群提问即可。在小群内讨论工作内容，每周六 16:00 同步一下进度

常用链接

平行语料小组 wiki

语料格式检查工具 DataCheck_MNBVC

临时文件微云共享站, 加入微信小组群方可获得加入共享组链接

组织规范

每周六 16:00 组织例会同步进度
以 Issues 来管理进度、分配任务
对于每个独立的任务如果需要传至本仓库，请建一个能够用小写英文+数字+下划线的，能够说明任务内容的文件夹，然后提起 pull request，并且在该文件夹下建立一个 README 来介绍上传内容
微信群内发出来的文件，如果是重要的需要在未来下载的，应该在共享站内也传一份

语料文件格式

语料文件是多行 jsonl 格式，这是其中一行的样例（实际上一行即为一个json，不需要缩进打印）：

{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,
    "是否重复文件": false,
    "段落数": 17944,
    "去重段落数": 0,
    "低质量段落数": 0,
    "行号": 1,
    "是否重复": false,
    "是否跨文件重复": false,
    "it_text": "",
    "zh_text": "正在生成海洋沙",
    "en_text": "Generating ocean sand",
    "ar_text": "",
    "nl_text": "",
    "de_text": "",
    "eo_text": "",
    "fr_text": "Génération du sable de l'océan",
    "he_text": "",
    "ja_text": "",
    "pt_text": "Gerando areia do oceano",
    "ru_text": "Создание песка в океане",
    "es_text": "",
    "sv_text": "",
    "ko_text": "",
    "th_text": "",
    "id_text":"",
    "cht_text":"",
    "vi_text":"",
    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
    "时间": "20240316",
    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
}

为了防止迷惑，这里给出一份实际上已收录的 底特律：变人 的语料的前三行样例：

{"ar_text": "", "cht_text": "我不認為我們還能找到比這裡更好的……", "de_text": "Wir werden nichts Besseres finden ...", "en_text": "I don't think we'll find anything better…", "eo_text": "", "es_text": "No encontraremos nada mejor.", "fr_text": "Je doute qu'on trouve mieux que ça.", "he_text": "", "id_text": "", "it_text": "Sarà difficile trovare di meglio...", "ja_text": "ここが一番マシそうね", "ko_text": "여기보다 나은 곳은 없는 것 같아...", "nl_text": "Ik denk niet dat we iets beters zullen vinden.", "pt_text": "Não vamos encontrar melhor do que isto...", "ru_text": "Вряд ли мы найдем что-то лучше.", "sv_text": "Jag tror inte att vi kommer hitta något bättre än så här.", "th_text": "", "vi_text": "", "zh_text": "我不认为我们还能找到比这里更好的……", "zh_text_md5": "dfa2ca6972a916ec64680d8f1453f85c", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Myslím, že nic lepšího nenajdeme.\", \"da\": \"Vi finder nok ikke noget bedre.\", \"el\": \"Δεν νομίζω ότι θα βρούμε κάτι καλύτερο από αυτό...\", \"es_MX\": \"No creo que encontremos algo mejor...\", \"fi\": \"En usko, että löydämme mitään parempaakaan...\", \"hu\": \"Nem hiszem, hogy találunk ennél jobbat.\", \"nb\": \"Jeg tror ikke vi finner noe bedre enn dette.\", \"pl\": \"Nic lepszego raczej nie znajdziemy...\", \"pt_BR\": \"Não vamos encontrar um lugar melhor...\", \"sl\": \"\", \"tr\": \"Daha iyisini bulacağımızdan şüpheliyim...\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 1}
{"ar_text": "", "cht_text": "就在這裡過夜吧。", "de_text": "Machen wir‘s uns gemütlich.", "en_text": "Let's settle in for the night.", "eo_text": "", "es_text": "Nos quedaremos hoy aquí.", "fr_text": "Installons-nous pour la nuit.", "he_text": "", "id_text": "", "it_text": "Passeremo la notte qui.", "ja_text": "ここで寝ましょう", "ko_text": "오늘 밤은 여기서 보내자.", "nl_text": "Laten we hier vannacht blijven.", "pt_text": "Vamos instalar-nos para a noite.", "ru_text": "Будем ночевать здесь.", "sv_text": "Vi får slå oss ned för natten.", "th_text": "", "vi_text": "", "zh_text": "就在这里过夜吧。", "zh_text_md5": "59bbf0b5cef5cd943cd0ba59acd1e7c4", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Tak se na noc utáboříme tady.\", \"da\": \"Lad os sove her.\", \"el\": \"Ας μείνουμε εδώ τη νύχτα.\", \"es_MX\": \"Instalémonos por hoy.\", \"fi\": \"Asetutaan tänne yöksi.\", \"hu\": \"Húzódjunk be éjszakára.\", \"nb\": \"Vi slår oss ned her for natten.\", \"pl\": \"Spróbujmy się rozgościć.\", \"pt_BR\": \"Vamos ficar aqui.\", \"sl\": \"\", \"tr\": \"Bu gecelik yerleşelim.\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 2}
{"ar_text": "", "cht_text": "我來生火。", "de_text": "Ich mache ein Feuer an.", "en_text": "I'll get a fire going.", "eo_text": "", "es_text": "Encenderé un fuego.", "fr_text": "Je vais faire du feu.", "he_text": "", "id_text": "", "it_text": "Accendo un fuoco.", "ja_text": "火をおこすよ", "ko_text": "내가 불 피울게.", "nl_text": "Ik zal vuur maken.", "pt_text": "Vou fazer uma fogueira.", "ru_text": "Я разведу огонь.", "sv_text": "Jag tänder en brasa.", "th_text": "", "vi_text": "", "zh_text": "我来生火。", "zh_text_md5": "552f113da3617f26fa2c6ca9dfa21836", "低质量段落数": 0, "去重段落数": 2102, "扩展字段": "{\"other_texts\": {\"cs\": \"Rozdělám oheň.\", \"da\": \"Jeg tænder et bål.\", \"el\": \"Θα ανάψω φωτιά.\", \"es_MX\": \"Yo prenderé una fogata.\", \"fi\": \"Minä sytytän tulen.\", \"hu\": \"Gyújtok tüzet.\", \"nb\": \"Jeg tenner opp.\", \"pl\": \"Zajmę się ogniskiem.\", \"pt_BR\": \"Vou acender o fogo.\", \"sl\": \"\", \"tr\": \"Ben ateşle uğraşayım.\"}}", "文件名": "DetroitBecomeHuman-parallel_corpus.jsonl", "时间": "20241001", "是否待查文件": false, "是否跨文件重复": false, "是否重复": false, "是否重复文件": false, "段落数": 12407, "行号": 3}

注意： 所有语种字段的双字母缩写优先参考 ISO 639-1 的定义，并且优先填写如 ar_text 的主要字段中，如果没有，则根据 iso 双字母简写填入扩展字段中。如果所收录语言并不在 iso 639-1 双字母简写表中，请自己起一个不与其他双字母简写有冲突的key名写到扩展字段中，并将其 key 名和对应的语种作为注释写到文件级扩展字段中。

实际语料样例：

字段定义

文件名: 建议和输出的 jsonl 文件名保持一致。对于每份独立的语料，以文件名为唯一依据。每份文件独立计算的 时间, 是否待查文件, 是否跨文件重复, 是否重复, 是否重复文件, 段落数, 低质量段落数, 去重段落数 会随文件名冗余多份，保证文件名相等的情况下这几个字段结果相等。所以建议取一个能够精确描述这份语料来源的文件名。

是否待查文件: 如果是 True 就是不怎么靠谱，告诉大家尽量别用，平行语料小组收录的语料的此字段若无特殊情况将全部给 False

是否重复文件: 留给其它小组的进行去重工作的字段，平行语料小组收录的语料的此字段将全部给 False

段落数: 等于整份文件中jsonl的行数

去重段落数: 以 zh_text 为依据，“重复了的段落”的个数，注意不是去重后不同的段落个数

低质量段落数: zh_text 或者 en_text 有缺（为空字符串）的段落数量

行号: 段落下标，是一个取值范围在 [1, 段落数] 之间的整数

是否重复: 由 zh_text 是否重复来决定，每个非重复段落第一次出现时是 False, 此后再次出现发现已重复时是 True

是否跨文件重复: 留给其它小组的进行去重工作的字段，平行语料小组收录的语料的此字段将全部给 False

时间: yyyymmdd 格式的日期字符串，表示这份语料被转换为本文所定义的标准平行语料格式的时间。可以参考样例

关于扩展字段

扩展字段应该是 json 序列化后的字符串，如在 python3 中，应该是某个 json.dumps(obj, ensure_ascii=False) 的产物。

目前的扩展字段约定如下：

{
    other_texts: { # 填写主字段中没有的，但源数据中存在的其它语言
        {lang1_iso}: "",
        {lang2_iso}: ""
    },
    k: "_SCENE1_TEXT_TITLE" # 可选，如果有必要的话，可以用于填写源数据中的 key，即对齐依据
    ...
}

注意： 扩展字段内容的定义可能会频繁更新，但至少需要是一个有效的 json 字符串。即使没有东西填写，也应该保留一个 {}。

添加新的语料数据集的规范

复制以下模板，你的脚本或者你的方法应该尽可能填写其中未标明 【不用手填】 的所有字段。如果某个主字段中的语言没有出现，则应该填写 "" 。

{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,      【不用手填】
    "是否重复文件": false,      【不用手填】
    "段落数": 17944,            【不用手填】
    "去重段落数": 0,            【不用手填】
    "低质量段落数": 0,          【不用手填】
    "行号": 1,                  【不用手填】
    "是否重复": false,          【不用手填】
    "是否跨文件重复": false,    【不用手填】
    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2",   【不用手填】
    "it_text": "",
    "zh_text": "正在生成海洋沙",
    "en_text": "Generating ocean sand",
    "ar_text": "",
    "nl_text": "",
    "de_text": "",
    "eo_text": "",
    "fr_text": "Génération du sable de l'océan",
    "he_text": "",
    "ja_text": "",
    "pt_text": "Gerando areia do oceano",
    "ru_text": "Создание песка в океане",
    "es_text": "",
    "sv_text": "",
    "ko_text": "",
    "th_text": "",
    "id_text":"",
    "cht_text":"",
    "vi_text":"",
    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
    "时间": "20240316"
}

注意： 出于小组工作性质，我们应该收录的是至少包含 简体中文或繁体中文 且包含对应的英文的语料。

将得到的语料通过本仓库下的 jsonl_chk.py 的后处理，以完成简单去重和 【不用手填】 字段的自动填写，用法为 python jsonl_chk.py out.jsonl 或者用 python jsonl_chk.py -d outdir/ 的方式处理整个目录下的 jsonl 文件。在其 jsonl_rework 文件夹下会得到后处理完毕的 jsonl 文件。
将得到的语料通过语料格式检查工具 DataCheck_MNBVC 的检测，python check_data.py --dataset your_folder_path，其中 your_folder_path 为待检测语料数据所在的文件夹。

datachecker执行完毕后，如果日志文件 \logs\check_log.txt 显示：
checking dataset: your_file_path
the type of dataset your_file_name is 平行语料格式
check dataset your_file_name finished, right line 1 / total check line 1
则表示格式检测通过

带着第 3 步通过的截图在小组群内发布你的 jsonl 语料，并且在中转站中传一份避免日后丢失。

【旧版语料，已废弃】

{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,
    "是否重复文件": false,
    "段落数": 17944,
    "去重段落数": 0,
    "低质量段落数": 0,
    "段落": [
        {
            "行号": 1,
            "是否重复": false,
            "是否跨文件重复": false,
            "it_text": "",
            "zh_text": "正在生成海洋沙",
            "en_text": "Generating ocean sand",
            "ar_text": "",
            "nl_text": "",
            "de_text": "",
            "eo_text": "",
            "fr_text": "Génération du sable de l'océan",
            "he_text": "",
            "ja_text": "",
            "pt_text": "Gerando areia do oceano",
            "ru_text": "Создание песка в океане",
            "es_text": "",
            "sv_text": "",
            "ko_text": "",
            "th_text": "",
            "other1_text": "",
            "other2_text": "",
            "id_text":"",
            "cht_text":"",
            "vi_text":"",
            "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
            "时间": "20240316",
            "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
        }
    ],
    "扩展字段": "{\"other_texts_iso_map\": {\"cs\": \"捷克语\", \"pl\": \"波兰语\", \"hu\": \"匈牙利语\", \"uk\": \"乌克兰语\", \"tr\": \"土耳其语\"}}",
    "时间": "20240316"
}

Name		Name	Last commit message	Last commit date
Latest commit History 286 Commits
alignment		alignment
convert_data		convert_data
corpus_sample		corpus_sample
download_data		download_data
download_data_us_embassy		download_data_us_embassy
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.json		config.json
jsonl_chk.py		jsonl_chk.py
openssl.cnf		openssl.cnf
pipeline_poc.py		pipeline_poc.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MNBVC 平行语料

平行语料是什么？

招募成员

字幕语料任务

歌词语料任务

游戏语料任务

探索其它平行语料

加入方式

常用链接

组织规范

语料文件格式

字段定义

关于扩展字段

添加新的语料数据集的规范

About

Releases

Packages

Contributors 9

Languages

License

mnbvc-parallel-corpus-team/parallel_corpus_mnbvc

Folders and files

Latest commit

History

Repository files navigation

MNBVC 平行语料

平行语料是什么？

招募成员

字幕语料任务

歌词语料任务

游戏语料任务

探索其它平行语料

加入方式

常用链接

组织规范

语料文件格式

字段定义

关于扩展字段

添加新的语料数据集的规范

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 9

Languages

Packages