diff --git a/README.md b/README.md
index 990f21e..9b608b4 100644
--- a/README.md
+++ b/README.md
@@ -28,7 +28,9 @@
> ![兀](https://user-images.githubusercontent.com/32130780/175266740-caad17d0-39c8-4d5d-a02a-ec04a16ddab5.png)
- 私用码段字符(PUA)
- 非汉、又非ASCII的不常用字符(对中文&编程用户)
-
+
+
+
## 截图预览
![Screenshot](https://repository-images.githubusercontent.com/395479775/5b0eff04-c615-4b80-bc87-091443360351)
@@ -59,6 +61,8 @@ UI对字符类型的示意:
- 浅红色: 是日本新字体(即,仅日文使用的简化字)
- 蓝色: 是组合字符(无宽度无间距,用于给前一字符加声调等)
+
+
## 用字和编码问题的背景知识链接
@@ -106,6 +110,7 @@ UI对字符类型的示意:
+
## 进阶用户
web支持GET参数:`https://garywill.github.io/cc-visualize/?s=%s`
@@ -114,19 +119,8 @@ CLI用法为`node cli.js`(不需要再安装其他npm包)。可自行简单
在web中,每次检查完成后,在web控制台也会输出与cli类似的检查结果统计
-
-其他(一般不用看)
-文件名以`pre`开头的为预处理脚本。用于将原始数据生成`.js`包装的数据文件(文件内容类似`xxxx.xxx = { ..很多行... }`),以便于web使用。预处理应按以下顺序运行:
-1. unicode (陆表、港表数据也是取自于此)
-1. cns (台表数据取自于此)
-1. edu
-1. opencc (需要edu数据)
-1. summary (总数据,最后处理)
-我把整合了汉字关联、汉字属性的数据文件以“map”命名。具体一点,`map`仅繁简关联,`map2`是供正常使用的,`map3`是把“不必要的关联”也关联进来了的
-
-
## 字符编码数据来源及处理说明
@@ -139,7 +133,7 @@ CLI用法为`node cli.js`(不需要再安装其他npm包)。可自行简单
展开详细数据来源及处理说明
-### Unicode Character Database (UCD)
+### 数据来源 之 Unicode Character Database (UCD)
当前UCD版本:15.1
@@ -196,7 +190,7 @@ UCD提供txt(文件数量多)和[xml](https://www.unicode.org/Public/15.1.0/
13 2020年3月 14 2021年9月 15 2022年9月 15.1 2023年9月
```
-### 中华地区官方中文教育制定的常用字表(地区代号:CN+HK+TW)
+### 数据来源 之 中华地区官方中文教育制定的常用字表(地区代号:CN+HK+TW)
参看[汉字规范#現代規範 - wikipedia](https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97%E8%A7%84%E8%8C%83#%E7%8F%BE%E4%BB%A3%E8%A6%8F%E7%AF%84)
@@ -242,21 +236,21 @@ UCD提供txt(文件数量多)和[xml](https://www.unicode.org/Public/15.1.0/
"牀":{"rel":["床"],"isEdu_HK":true},
```
-### CNS 11643 的字源数据
+### 数据来源 之 CNS 11643 的字源数据
来自台湾的编码「中文標準交換碼」 (CNS 11643) 的[官方网站](https://www.cns11643.gov.tw/pageView.jsp?ID=59)上,可链接到[对应的数据下载页面](https://data.gov.tw/dataset/5961)(目前约10万字)。数据中包含有以上甲~丙表、以及其他教育汉字字表的字符编码信息,以及它们由CNS 11643到Unicode的转换表
《國中小教科書常用字》 来自下载数据包内,有500多字(此名称在其他地方找不到说明)。它 + CNS11643数据包内的《次常用國字標準字體表》 ≈ 真正的《次常用國字標準字體表》
-### CCCII (尚未)
+### 数据来源 之 CCCII (尚未)
来自台湾的编码[「中文資訊交換碼」(CCCII,以前又叫EACC)](https://en.wikipedia.org/wiki/Chinese_Character_Code_for_Information_Interchange)将正、简、异、日几种字形的汉字字符分开区域编排,且收录异体数量多。并且,在这种编码下,只要在编码上平移特定的量,就能找到所关联的汉字,不一定要专门的关联表(也因此同一字有时需要多个编码,因为繁简关系不只有一个对应)
据说1987年版本收录5.3万字符。1989的稿收录7.5万字符(4.4万独立字和3.1万变体),这种编码采用的系统少,资料少
-### OpenCC
+### 数据来源 之 OpenCC
OpenCC含有中文繁简关系、日本用字与中文汉字关系
@@ -291,8 +285,23 @@ OpenCC含有中文繁简关系、日本用字与中文汉字关系
> - 已在\[港表 ∪ 台表甲\]中,且不在\[陆表一 ∪ 陆表二\]中的字,若有简体属性,取消此属性
> - 已在\[陆表一 ∪ 陆表二\]中,且不在\[港表 ∪ 台表甲 ∪ 台表乙\]中的字,若有繁体属性,取消此属性
+#### 数据预处理的方法
+
+文件名以`pre`开头的为预处理脚本(要先cd进入`pre_xxxx`所在目录再运行)。用于将原始数据生成`.js`包装的数据文件(文件内容类似`xxxx.xxx = { ..很多行... }`),以便于web使用。预处理应按以下顺序运行,且只要其中一个更新过,其排序之后的也必须更新:
+1. unicode (陆表、港表数据也是取自于此)(每年需要人工下载跟进)
+1. cns (台表数据取自于此)(每年需要人工下载跟进)
+1. edu
+1. opencc (需要edu数据)
+1. summary (总数据,最终应使用的)
+
+我把整合了汉字关联、汉字属性的数据文件以“xxxx-data-map”命名。具体一点,`map`仅繁简关联,`map2`是供正常使用的,`map3`是把“不必要的关联”也关联进来了的
+
+
+
+
+
## 方向及限制
1. 因不同地区、文化圈、系统,不同的历史流行输入法、字体,机构所沿用的信息系统的原因,所谓汉字“规范”、“通行”、“正常”字符到底该依照哪个(统一字、部首字符、兼容字,还是暂用私用码,甚至不用万国码而用另一套编码?),本项目(至少目前)无法收录和处理完整的这类信息。