-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Textová analýza neoznačuje pojmy, které končí tečkou #238
Comments
TERMIT také neoznačí pojem, který není oddělen z obou stran mezerou - tedy, pokud je překlep, pomlčka, tečka, slovo bez mezery apod., tak to z pravidla pojem neoznačí. Např.: "worklight assy-the parts was found missing" |
Pojí se s předchozím bodem, kdy jde slova s pomlčkou uvnitř - např. cover-end, retainer-clip, spring-assy - i pokud jsou tato slova> přiřazena jako vyhledávací text, tak ho analýza neodhalí |
@blcham |
@ahmadjana So what do you suggest ? |
@blcham |
It seems to me, that it is quite standard problem in NLP so i would think there is a solution for that in Morphodita (maybe some configuration?)
I guess it depends in which part of NLP process this can be applied. Maybe we can apply this while trying to find out if the token is in our vocabulary ?! |
Asi tím, který působí největší problémy je to, že pokud je slovo ukončeno tečkou - například ve věte: "..... was found missing." - i pokud je "missing." přidáno jako vyhledávací text, tak ho textová analýza neodhalí. Platí pro veškeré pojmy, za kterými je bez mezery tečka. - je to docela častý výskyt, vzhledem ke slovosledu v AJ.
Ten samý problém má analýza i se slovy s pomlčkou.
https://kbss.felk.cvut.cz/termit-csat/#/
Slovník komponent a závad
The text was updated successfully, but these errors were encountered: