Textometre

Il s'agit d'une maquette de logiciel illustrant le principe de distinction des concepts de "trame" et de "cadre" pour l'exploration textométrique de ressources textuelles. Cette maquette implémente déjà quelques fonctions utilisables et peut-être utiles. Cette maquette illustre aussi les possibilités offertes par les nouveaux standards tels que XML ou Unicode pour la textometrie.

Le logiciel dans son état d'avancement permet de lire en entrée un fichier texte, en déclarant l'encodage des caractères utilisé, ou le contenu textuel d'un fichier XML, ODT, RTF ou HTML (version 3.2).

Une fois un texte ouvert, le logiciel présente dans une fenêtre d'édition "trame/cadre" sa trame textuelle et un cadre de navigation. Le cadre est construit, pour un fichier XML, en utilisant le balisage présent dans le fichier. Pour un fichier texte, il est construit en utilisant une liste de séparateurs passée en paramètre.

Le logiciel découpe ensuite les éléments textuels en unités (lexicales?). Les algoritmes implémentés utilisables sont:

L'écran présente deux fenêtres:
Il est possible de faire un 'drag and drop' d'une ou de plusieurs unités du "lexique" vers les "concordances" pour obtenir des concordances de ces unités. Ou bien de faire la même chose à partir d'une sélection dans la trame textuelle.
Il est possible aussi de faire un 'drag and drop' d'une ou de plusieurs unités du "lexique" vers la "trame" pour colorer toutes les occurences de ces unités. Ou bien de faire la même chose à partir d'une sélection de texte des "concordances".
En cliquant avec le bouton droit de la souris sur un ou plusieurs mots de la concordance on fait une nouvelle concordance pour le mot ou la suite de mot sélectionnée.
En cliquant avec le bouton droit de la souris sur un ou plusieurs mots de la trame textuelle on peut sélectionner dans le cadre le noeud de l'arborescence qui couvre cette sélection.
Un bouton sur chaque ligne de la concordance permet de retrouver celle-ci dans la trame textuelle.

L'éditeur "trame/cadre" possède une fonction de recherche de chaînes de caractères qui utilise ou non le langage des expressions régulières.

Les tris dans le lexique et dans les concordances sont paramétrables par le choix de la langue correspondante, sinon c'est le tri Unicode qui est utilisé.

Images écran du logiciel