Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Tok] Tokenizer không chính xác cho "name" #1

Open
trietnm2 opened this issue Dec 8, 2020 · 1 comment
Open

[Tok] Tokenizer không chính xác cho "name" #1

trietnm2 opened this issue Dec 8, 2020 · 1 comment

Comments

@trietnm2
Copy link

trietnm2 commented Dec 8, 2020

Trong file vlp.tok.Tokenizer dòng 32:

Brick("name", raw"""\b(\p{Lu}\p{Ll})([\s+_&-]?(\p{Lu}\p{Ll}))+\b""".r, 2),

Regex không cover nhiều trường hợp còn thiếu như:

  • iPhone
  • iPhone_12
  • iPhone_12_Pro_Max
  • iPhone_12_Pro_Max_128_GB
  • Honda_CBR150R
  • TP.HCM
  • ...

Đề xuất:

Brick("name", raw"""\b(\p{Ll}?\p{Lu}\p{Ll})([\s+_&-.]?((\p{Lu}\p{Ll})|((\p{Lu}\p{Ll})?\d+(\p{Lu}\p{Ll})?)))+\b""".r, 2),

@phuonglh
Copy link
Owner

Hi trietnm2. Các rules này hoàn toàn có thể được update để xử lý các trường hợp mong muốn như bạn viết. Tuỳ ứng dụng mà "iPhone 12 Pro Max" có thể được ghép hay tách.

Tinh thần của open-source là như vậy, chỉnh sửa thoải mái theo ý mình thích, phù hợp với công việc và nhu cầu của mỗi người.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants