Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

한글 형태소 분석 문제건 #21

Open
HyeM207 opened this issue May 4, 2023 · 1 comment
Open

한글 형태소 분석 문제건 #21

HyeM207 opened this issue May 4, 2023 · 1 comment

Comments

@HyeM207
Copy link
Member

HyeM207 commented May 4, 2023

스크랩한 기사들을 가져와 konlpy로 명사단위로 단어를 추출하던 중 모든 단어들이 저장이 안 되는 것을 발견했습니다.
분석한 결과 원인은 다음과 같습니다.

1. konlpy는 한글만 지원하여 영어 단어는 인식을 하지 못합니다.
- 특수문자, 영어는 안 되며 오직 한글만 input으로 넣어야합니다.

2. konlpy의 성능이 좋지 않습니다.
- '펜타닐' 단어의 경우 명사분석기를 돌리면 '펜타'를 반환합니다.

이를 해결하기 위해 기사 내용을 특수문자/영어/한글 등을 전처리 후,
영어 단어는 따로 word 모델에 저장하고,
한글의 경우 다른 형태소 분석기를 사용해보거나, 마약이름 리스트를 이용해 따로 분류하는 과정 등이 필요해보입니다.
이는 수정하여 push하도록 하겠습니다.

혹시 관련하여 해결방법을 아시는 분은 답변 부탁드립니다

@gracia10
Copy link
Member

gracia10 commented May 4, 2023

두 문제 모두 크리티컬하지만, 라이브러리에 의존하고 있던 터라 추가 개발은 시간이 부족할 것 같습니다
당장은 전처리에 약간의 리스크가 있다는 것을 인지하고 넘어가야 할 것 같네요
이슈는 살려둬야겠습니다

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants