Skip to content

Linguistic Processing Steps Not Included in the AGPL version of LIMA

Gael de Chalendar edited this page Jul 7, 2017 · 4 revisions

Table of Contents generated with DocToc

DOCUMENT INITIALLY IN FRENCH. TRANSLATION ONGOING.

Linguistic processing modules not included in the AGPL version of LIMA

Desagglutination (allemand)

Not available in the AGPL version of LIMA.

Ressources utilisées:

  • desagglutination categories : liste des correspondances de catégories pour la désagglutination
  • desagglutination delimiters : liste des délimiteurs possibles entres les agglutinations

Description de la tâche: Ce traitement consiste à chercher si un token est une agglutination de plusieurs tokens, éventuellement séparés par un délimiteur. Les tokens sont cherchés dans le dictionnaire de langue, les délimiteurs possibles sont spécifiés dans une ressource. Les mots agglutinés sont des mots pleins [1]. Concrètement, le mot global prend les catégories possibles du dernier composant agglutiné. Ces catégories sont exploitées par le désambiguiseur, puis un second traitement (DesagglutionExpander) permet de séparer les composant afin d'extraire les parties.

ex : Vorlesungsbetrieb => Vorlesung + (s) + betrieb

'Vorlesung' et 'betrieb' sont 2 mots pleins du dictionnaire. 'betrieb' peut être V ou NC, le mot agglutiné prend les catégories possible du dernier composant, donc V ou NC.

HyperwordStemmer (arabe)

Not available in the AGPL version of LIMA.

Ressources utilisées: Dictionnaires de proclitiques, d'enclitiques et de radicaux (dictionnaire de langue).

Description de la tâche: Ce traitement est utilisé pour décomposer les mots formés avec un proclitique, un enclitique et un radical. Les proclitiques et enclitiques sont extraits de dictionnaires spécifiques.

ChineseSegmenter (chinois)

Not available in the AGPL version of LIMA.

Ressources utilisées: Dictionnaire de langue

Description de la tâche: Ce traitement est utilisé pour proposer des découpages des phrases en chinois. Le principe est de découper la phrase au fur et à mesure avec des mots trouvés dans le dictionnaire. On ne retient que les découpages contenant un nombre minimal de mots, avec une tolérance paramétrable (par exemple pour une tolérance de 1 si le chemin minimal contient 5 mots, on retient les chemins de longueur 5 et 6). Les segmentations extraites sont ensuite filtrées par la désambiguïsation. Une variante est utilisée pour le japonais.