Alix

     

Alix est une librairie logiciel libre pour la fouille lexicale, activement développée en ce moment par Frédéric Glorieux et Marianne Reboul dans le contexte  du LABEX OBVIL et de l’ANR Chapitres. Cette démonstration en ligne est pour l’instant destinée à la mise au point des fonctionnalités avec les chercheurs intéressés. Le cœur est un lemmatiseur pour le français, programmé dans le langage Java, sans dépendances. Il existe d’autres lemmatiseurs, mais ils n’ont pas été développé en contexte littéraire, si bien que ceux que nous avons testé ne se comportent pas correctement avec les vers de la poésie ou du théâtre. Par ailleurs, ce moteur s’accommode très bien du XML, il est par exemple utilisé pour du pré-balisage de noms propres. La précision n’empêche pas la rapidité (~4 s. pour 10 millions de mots, 42 romans de Dumas), obtenue par des structures de données optimisées pour le traitement de la langue (fenêtre glissante de mots, dictionnaires arborescents, vecteurs de mots…). Cette base solide permet de développer des vues nouvelles pour l’exploration des textes, la liste ci-dessous est destinée à s”étendre.

Cette installation propose différents corpus littéraire de test, dans l’objectif d’étalonner les chiffres sur des auteurs connus, ou des genres rapidement identifiables. Les textes ne sont pas téléchargeables depuis cette installation. En effet, certaines questions linguistiques demandent des états de langue actuels, et donc des textes sous droits. Nous sommes au service de la langue et des auteurs, leurs droits nous sont sacrés. C’est d’ailleurs pour mieux les aimer que ces instruments fouillent l’intimité de leur syntaxe.