-
Notifications
You must be signed in to change notification settings - Fork 22
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
array 형태의 텍스트 입력시 나오는 토큰의 오프셋 질문 드립니다. #15
Comments
이슈 남겨주셔서 감사합니다. 혹시 테스트 케이스를 작성해서 PR로 올려주시면 더 확인하기 쉽겠지만, 번거로우시다면 감사합니다. |
analyzer가 어떤 식으로 array 형태의 입력을 받는지는 몰라 확인 후 테스트 케이스 작성해서 리퀘스트 올리도록 하겠습니다. 우선 문제부분과 기대결과를 말씀드리면, 기본 분석기를 사용하는 필드와 openkoreantext-analyzer를 사용하는 필드 생성후 기대 결과는 문자열이 array 형태로 들어가게 되는 경우에도 정상적으로 데이터가 추가 되는것입니다. 아래에 인덱스 생성, 도큐먼트 생성 & 확인 가능한 curl 예시입니다.
|
일단, ES에서 analyzer로 데이터를 보낼 때, array 타입이라고 해서 다른 포멧으로 보내지는 않는걸로 알고 있습니다. 그냥 각 인덱스의 아이템별로 수행할거에요. 현재 ES 5.5.2 버젼에서 테스트해봤는데, 작성해주신 케이스는 정상 입력됩니다. |
첫번째 작성해주신 예에서는, array의 두번째 인덱스 "마르고"의 start offset이 0이 아닌 1로 표시되는 것이 이슈인거 같은데 맞나요? |
헛 저도 금방 5.2.2로 받아서 해보니 정상이네요 ES 내장 분석기의 토큰결과와 비교해볼때는 버전별로 동작이 다른 이유를 먼저 알아봐야 할 것 같네요. 우선 에러 로그 아래에 전달 드립니다.
|
저도 비슷한 문제를 경험하고 있습니다. 제 경우는 틈나면 좀 살펴보려고 하고 있습니다. 혹시라도 여기 진전이 있기 전에 진행이 되면 공유하겠습니다. |
@GardeningYoon @dynaxis 전체적으로 array 타입으로 데이터가 들어가면 제대로 된 오프셋이 설정되지 않고, 6.1.x 버젼에서는 확실히 에러가 발생하는군요. 해당 문제에 대해 확인해보도록 하겠습니다. |
저도 비슷한 문제가 발생하네요.. array 형태의 object 에서 발생합니다.. |
I have the similar issue |
Is there any suggestion to fix it. |
안녕하세요, open-korean-text를 사용하여 ES에 데이터 인덱싱을 하려고하는데,
array 형태의 데이터 입력시 offset 문제로 인덱싱이 되지 않아 질문 드립니다.
인덱싱 할 텍스트가
["동해물과 백두산이", "마르고 닳도록"]
위와 같은 형태일 경우
open-korean-text 사용시 생기는 토큰의 오프셋은 인덱스가 바뀔 때 마다 초기화가 되고,
ES에서 제공하는 기본 analyzer 사용시에는 array내의 모든 string이 순서대로 오프셋이 정해지는데요,
ES에 데이터를 인덱싱 할 경우 한 필드 내에서는 offest이 다시 뒤로가는 경우가 생기면 인덱싱이 되지 않으며 warning이 발생합니다.
이 이슈 수정 요청 드려도 될까요?
분석결과는 아래 참고 부탁드립니다.
open-korean-text 사용시
ES에서 제공하는 기본 analyzer 사용시
The text was updated successfully, but these errors were encountered: