Télécharger
    Installer
    Présentation
    Configuration
    Indexation
    Recherche
      +Modèle <-
       Types
       Résultats
       Autres fonctions
       Thesaurus
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances


SDX

Le modèle de recherche de SDX

La notion de champs

La notion de champs est au centre du modèle de recherche de SDX. Ainsi, on peut définir ce modèle par les critères suivants :

  • Une unité documentaire est représentée par une collection de champs ;

  • L'ordre des champs n'a pas de sens ;

  • Les recherches s'effectuent toujours dans un ou des champs ;

  • Il y a une différence fondamentale entre la recherche par mots et la recherche par champ ;

  • Le modèle de recherche y est habituellement le booléen :

    • Champ et valeur ;

    • Opérateurs et, ou, sauf ;

    • Emploi du parenthèsage.

  • La troncature y est presque toujours (*, ?) à gauche, au centre, à droite ;

  • Le tri de pertinence est habituel, voire nécessaire ;

  • D'autres modèles (ou méthodes) de recherche y sont associés :

    • Fuzzy (logique flou) ;

    • Soundex (approximation) ;

    • Query expansion ;

    • Intervalle (sur les dates le plus souvent).

Les types de champs

Il existe plusieurs méthodes d'indexation de l'information. Cela signifie qu'il existe plusieurs types de champs :

  • Champ field ;

  • Champ word ;

  • Champ date.

Champ de type field

Un champ field considèrera l'ensemble des caractères d'un élément comme une valeur. C'est-à-dire que pour l'élément titre suivant :

<titre>
La construction navale au 19e siècle dans le nord de la France
</titre>

On peut construire un champ d'indexation correspondant :

<sdx:field type="field" name="titref">
La construction navale au 19e siècle dans le nord de la France
</sdx:field>

Il y a un seul champ titref pour contenir le titre du document. Il ne s'est opéré aucune transformation sur le titre contrairement à ce qui se serait passé avec un champ de type word.

Champ de type word

Un champ de type word considérera chaque mot d'un élément comme une valeur à indexer. Pour reprendre l'élément titre précédent, on peut construire un champ word correspondant :

<sdx:field type="word" name="titrew">
construction
</sdx:field>

<sdx:field type="word" name="titrew">
navale
</sdx:field>

<sdx:field type="word" name="titrew">
19e
</sdx:field>

<sdx:field type="word" name="titrew">
siècle
</sdx:field>

<sdx:field type="word" name="titrew">
nord
</sdx:field>

<sdx:field type="word" name="titrew">
france
</sdx:field>

Il y a plusieurs champs titrew. En fait, il y en autant que de mots, à ceci prêt que certains termes ne sont pas traités (on parlera de « mots vides »). Ceci est dû à l'analyseur de mots. On notera ainsi que le mot France a été transformé en france.

Champ de type date

Un champ de type date n'a pas vraiment besoin d'être explicité. Il contient une information de datation. Toutefois, SDX apporte une valeur ajoutée non négligeable pour ce type d'index. Chaque datation soumises à SDX sera transformé dans un même format. Cela permet donc de créer une forme commune pour l'ensemble des dates gérées. Ainsi, il est possible de retrouver tous les documents du 28 avril 1975 que l'on ait <date>19750428</date> ou <date>28041975</date> dans le document original.

Recherche par mot et recherche par champ

L'un des critères décrivant le modèle de recherche indique une différence essentielle entre la recherche par mot et la recherche par champ. Nous allons faire tout de suite la lumière sur ce concept central du modèle de recherche.

Nous avons vu qu'il existe trois types de champs utilisable pour l'indexation des documents. Ce sont les deux premièrs qui nous intéressent ici :

Ces deux sortent de champs soutendent deux manières d'indexer les documents, et au-delà, deux manières de retrouver l'information.



Auteur : Malo Pichot (AJLSM) - 2003-06-04