We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
스크랩한 기사들을 가져와 konlpy로 명사단위로 단어를 추출하던 중 모든 단어들이 저장이 안 되는 것을 발견했습니다. 분석한 결과 원인은 다음과 같습니다.
1. konlpy는 한글만 지원하여 영어 단어는 인식을 하지 못합니다. - 특수문자, 영어는 안 되며 오직 한글만 input으로 넣어야합니다.
2. konlpy의 성능이 좋지 않습니다. - '펜타닐' 단어의 경우 명사분석기를 돌리면 '펜타'를 반환합니다.
이를 해결하기 위해 기사 내용을 특수문자/영어/한글 등을 전처리 후, 영어 단어는 따로 word 모델에 저장하고, 한글의 경우 다른 형태소 분석기를 사용해보거나, 마약이름 리스트를 이용해 따로 분류하는 과정 등이 필요해보입니다. 이는 수정하여 push하도록 하겠습니다.
혹시 관련하여 해결방법을 아시는 분은 답변 부탁드립니다
The text was updated successfully, but these errors were encountered:
두 문제 모두 크리티컬하지만, 라이브러리에 의존하고 있던 터라 추가 개발은 시간이 부족할 것 같습니다 당장은 전처리에 약간의 리스크가 있다는 것을 인지하고 넘어가야 할 것 같네요 이슈는 살려둬야겠습니다
Sorry, something went wrong.
No branches or pull requests
스크랩한 기사들을 가져와 konlpy로 명사단위로 단어를 추출하던 중 모든 단어들이 저장이 안 되는 것을 발견했습니다.
분석한 결과 원인은 다음과 같습니다.
1. konlpy는 한글만 지원하여 영어 단어는 인식을 하지 못합니다.
- 특수문자, 영어는 안 되며 오직 한글만 input으로 넣어야합니다.
2. konlpy의 성능이 좋지 않습니다.
- '펜타닐' 단어의 경우 명사분석기를 돌리면 '펜타'를 반환합니다.
이를 해결하기 위해 기사 내용을 특수문자/영어/한글 등을 전처리 후,
영어 단어는 따로 word 모델에 저장하고,
한글의 경우 다른 형태소 분석기를 사용해보거나, 마약이름 리스트를 이용해 따로 분류하는 과정 등이 필요해보입니다.
이는 수정하여 push하도록 하겠습니다.
혹시 관련하여 해결방법을 아시는 분은 답변 부탁드립니다
The text was updated successfully, but these errors were encountered: