Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Textová analýza neoznačuje pojmy, které končí tečkou #238

Open
ovitovec opened this issue Feb 24, 2022 · 6 comments
Open

Textová analýza neoznačuje pojmy, které končí tečkou #238

ovitovec opened this issue Feb 24, 2022 · 6 comments
Labels
bug Something isn't working text analysis Ticket se projevuje v termitu, ale týká se textové analýzy

Comments

@ovitovec
Copy link

Asi tím, který působí největší problémy je to, že pokud je slovo ukončeno tečkou - například ve věte: "..... was found missing." - i pokud je "missing." přidáno jako vyhledávací text, tak ho textová analýza neodhalí. Platí pro veškeré pojmy, za kterými je bez mezery tečka. - je to docela častý výskyt, vzhledem ke slovosledu v AJ.
Ten samý problém má analýza i se slovy s pomlčkou.
https://kbss.felk.cvut.cz/termit-csat/#/
Slovník komponent a závad

  1. je to vážný problém - neodhaluje to pojmy
@ovitovec ovitovec added the bug Something isn't working label Feb 24, 2022
@ovitovec
Copy link
Author

ovitovec commented Feb 25, 2022

TERMIT také neoznačí pojem, který není oddělen z obou stran mezerou - tedy, pokud je překlep, pomlčka, tečka, slovo bez mezery apod., tak to z pravidla pojem neoznačí. Např.: "worklight assy-the parts was found missing"
"worklight assy" je ve vyhledávacích pojmech, ale nebylo označeno.

@ovitovec
Copy link
Author

Pojí se s předchozím bodem, kdy jde slova s pomlčkou uvnitř - např. cover-end, retainer-clip, spring-assy - i pokud jsou tato slova> přiřazena jako vyhledávací text, tak ho analýza neodhalí

@MichalMed MichalMed added the text analysis Ticket se projevuje v termitu, ale týká se textové analýzy label Mar 15, 2022
@ahmadjana
Copy link

@blcham
analyzing the problem (technical perspective): it is a Morphodita issue.
it takes the chunk, and tokenizes it. the token could be word+dot. so, it considers this as one token.

@blcham
Copy link

blcham commented Jun 10, 2022

@ahmadjana So what do you suggest ?

@ahmadjana
Copy link

ahmadjana commented Jun 13, 2022

@blcham
Because it is a morphodita issue, it is possible to report the issue to the morphodia people.
Or: maybe, we can take the tokens and check if it ends with a dot or not.
if yes , remove the dots from the token.

@blcham
Copy link

blcham commented Jun 17, 2022

It seems to me, that it is quite standard problem in NLP so i would think there is a solution for that in Morphodita (maybe some configuration?)

Or: maybe, we can take the tokens and check if it ends with a dot or not. if yes , remove the dots from the token.

I guess it depends in which part of NLP process this can be applied. Maybe we can apply this while trying to find out if the token is in our vocabulary ?!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working text analysis Ticket se projevuje v termitu, ale týká se textové analýzy
Projects
None yet
Development

No branches or pull requests

4 participants