1 - Présentation

Le logiciel, construit à partir du langage XML, et que nous présentons ci-dessous est téléchargeable et utilisable gratuitement aux seules conditions suivantes :
- au cas où vous l’utilisez pour des travaux donnant lieu à publication, chacun se sentira tenu de mentionner les auteurs (Nicole Salzard et Philippe Schepens), le lieu de conception et de mise à disposition : (Laboratoire de Sémio-Linguistique, Informatique, Didactique – LASELDI, université de Franche-Comté, http://laseldi.univ-fcomte.fr ) et la date de conception (mars 2006).
- Les codes étant mis à disposition, certains pourraient avoir l’idée de l’améliorer ou de le transformer : nous serions heureux de recevoir la nouvelle version ainsi produite :

CONTACTS :
Nicole Salzard,
Ingénieur d’étude :
nicole.salzard@univ-fcomte.fr

Philippe Schepens,
maître de conférences en sciences du langage :
philippe.schepens@univ-fcomte.fr

Initialement, cette interface a été pensée et réalisée dans le cadre d’études en sciences du langage et plus techniquement en vue d’exercer cette discipline qu’on nomme l’analyse du discours. Pour l’occasion, il s’agissait de revenir sur la campagne de presse qui a accompagné les présidentielles de 2002, année politiquement pénible qui a vu le leader d’un parti d’extrême droite arriver en seconde position éligible au premier tour des élections le 21 avril 2002. Ce n’est un secret pour personne : la campagne s’est presque toute entière réalisée autour d’un thème : celui de « l’insécurité ».

Nous avons donc réuni un corpus d’articles de presse qui court du 1er janvier au 15 mai 2002, chaque article contenant au moins une occurrence du signifiant insécurité, émanant de 5 titres de presse : Libération, Le Figaro, Le Monde, La Croix et l’Humanité.

Pour ce faire, nous avons extrait ces articles qui se présentent sous une forme numérique dans la base LexisNexis. Rassembler ce corpus permettait d’envisager et de commencer à comprendre qui avait soutenu quelle position dans quels énoncés, et selon quelles formulations pendant ce laps de temps. Cependant chacun peut se rendre compte à l’évidence qu’il s’agit d’un corpus extrêmement volumineux, et s’il est aisé de télécharger ces fichiers numériques, il est malaisé d’y « entrer », de les compulser, d’y prendre des repères, d’y tracer des lignes d’intelligibilité.

Les gestes initiaux de l’analyse sont toujours les mêmes : il s’agit toujours de repérer qui écrit quoi où, quand et en mobilisant tel ou tel moyens verbaux, telle ou telle argumentation, telle ou telle idéologie. Dans le fond il s’agit toujours de comparer, de hiérarchiser, de contraster. Cette interface a été conçue pour permettre aisément ces gestes.

Ce qui est possible avec un corpus d’articles de presse l’est également avec d’autres corpus :
- voudrait-on comparer les différentes réécritures des fables d’Esope,
- examiner contrastivement les appareils de notes qui accompagnent les éditions successives d’un grand texte philosophique,
- étudier les variantes d’écriture d’un texte littéraire,
- comparer les réponses à des tests psychologiques
- ou des sondages sociologiques, etc.,
Chaque fois ces procédures impliquent les mêmes gestes préalables et cette interface les autorise.

Voici quelques illustrations simples. Ensuite nous expliquerons comment télécharger ce logiciel, comment préparer les corpus de travail, puis nous décrirons ces fonctions.

Quelques illustrations simples :

Voici comment, initialement, se présente la fenêtre du logiciel. (Afficher)
- En haut à gauche la colonne « Sources » regroupe les 5 sous-corpus d’où nous souhaitons extraire nos informations : Libération, Le Monde, L’Humanité, Le Figaro, La Croix.
- Si nous cliquons sur Figaro puis à droite sur le bouton « Rechercher », nous obtiendrons la totalité des informations le concernant
- la date de parution des articles, les noms des auteurs de ces articles, les rubriques dans lesquelles ces articles sont parus, les titres de chacun de ces articles. (Afficher)

- Nous souhaitons dans cette totalité, ne garder que les articles de commentaire : sur la période du 1er au 31 janvier 2002. Nous choisissons donc les dates et les rubriques que nous souhaitons et nous cliquons sur Rechercher. Le moteur de recherche sélectionne les documents concernés et les affiche sous une forme qui est à nouveau hiérarchisable dans la partie du bas, soit par date, soit par auteur, soit par titre : (Afficher)

- Ainsi on repère d’abord que Brezet Alexis écrit un article de débat qui est présenté en Une le 28 janvier 2002, on repère également les signatures de gens qui ne sont pas journalistes de profession : Philippe DeVilliers, par exemple. On voit également que certains auteurs reviennent deux fois dans le mois occuper cette rubrique : Ivan Rioufol.

En double-cliquant, cette fois-ci sur « Auteurs », on obtient une liste alphabétique qui permet de mieux apercevoir les insistances éditoriales que Le Figaro met en place. Etc.

On peut ensuite ouvrir et lire chaque article de la sélection, et si on a pris soin de demander dans la phase initiale le soulignement d’un mot-clef (en haut à droite, la fenêtre « texte », on pourra extraire tout ou partie de l’article que nous voulons étudier autour du pivot choisi, y compris l’exporter dans un fichier texte ou/et en faire un fichier séparé qu’on étudiera plus tard.

La figure page suivante montre un des textes ouvert. (Afficher)

Ce qu’on peut faire sur un titre de presse, on peut le faire en choisissant deux, trois ou la totalité des titres de presse, on peut choisir telle ou/et telle rubrique, tel ou/et tel auteur, etc.

Le bouton « FICHIER RTF » permet d’ouvrir directement le fichier initial de format rtf (ce qui permet de conserver la mise en forme initiale, notamment les italiques, les soulignements, etc...)

Rien de révolutionnaire là-dedans, mais cet outil au fonctionnement très simple permet de rendre intelligible des corpus de données numériques très importants.

Interface de Consultation de Textes Numériques en vue de l'Analyse