Une nouvelle conception du DEAF

Pourquoi?

De 1974 à 2009 les lettres G à K du DEAF ont été publiés sous la forme classique d’un dictionnaire imprimé, avec leurs Index et la Bibliographie régulièrement élargie.
Dans sa séance du 5 mai 2001, la Classe historico-philosophique de l’Académie a voté pour la proposition, faite par la Commission scientifique du DEAF, de fixer l’échéance du projet en 2025. En 2010, la Commission Scientifique de l’Union des Académies a fixé l’échéance en 2017.

En vue de cette date, la rédaction se trouvait dans l’obligation de développer un nouveau plan qui rendait possible de traiter, jusqu'à 2017, l'alphabet complet. Le plan pour l’avenir du dictionnaire comprend une conception rédactionnelle partiellement modifiée ainsi qu’un nouveau soutien électronique au travail de la rédaction.

Le nouveau plan: DEAFpré + DEAFplus = DEAFél

DEAFplus

Ce plan comporte deux volets : d’une part, la rédaction poursuit le traitement habituel du lexique et en particulier la partie du lexique qui, en raison de l’histoire de la lexicographie du français et notamment du FEW, constitue un ‘trou noir’, à savoir les lettres D, E et F (avec accent sur la lettre F). Les articles rédigés seront publiés sur papier, c’est la suite du DEAF connu. Ils seront ensuite publiés en ligne, après un sursis défini par la maison d’édition qui poursuit la publication des articles sous forme de fascicules. La version en ligne sera augmentée par des fonctions techniques et des matériaux supplémentaires qui ne figurent pas dans la version imprimée. Ceci lui vaut le nom de « DEAFplus ».

DEAFpré

D’autre part, sous le nom de « DEAFpré » sont rassemblés les articles relatifs aux autres lettres, c’est-à-dire L à Z et A à C, les lettres G à K étant déjà publiées sous forme imprimée. Le DEAFpré rend accessibles les matériaux de ces parties de l’alphabet, préstructurés sous forme d’articles préliminaires (lire l'Avertissement à l'entrée de DEAFél). DEAFplus et DEAFpré forment un ensemble constituant le « DEAF électronique »: DEAFél.

La transformation informatique du dictionnaire

Pour transformer notre dictionnaire en « DEAF électronique », il fallait établir une coopération étroite entre la lexicographie et l’informatique.
Le dictionnaire à transformer est un dictionnaire avec une conception scientifique établie depuis des décennies et continuellement peaufinée dont la valeur scientifique est incontestable.
La transformation comprenait l’établissement d’une nouvelle architecture informatique du dictionnaire qui combinait les aspects traditionnels de la rédaction et les élements techniques nouveaux. La complexité des articles et les multiples façons d’arranger, de condenser, d’abréger ou de supprimer des informations ont rendu cette transformation délicate. Conserver ce nombre de possibilités – attitude peu stricte à première vue pour l’informaticien – s’est avéré un aspect constitutif de l’architecture croissante pour garantir la liberté et la flexibilité exigées par les démarches scientifiques. Le processus de la transformation du DEAF a montré très nettement l’importance que revêt une direction de la coopération lexico-informatique qui assume une vue d’ensemble du projet et qui préserve le contenu du dictionnaire.

Sur l’initiative du Prof. Dr. Gerhard Krüger, membre de la Commission informatique de l’Académie des Sciences de Heidelberg, la Gunther Schroff Stiftung fit un don de 10.000 euros permettant le début d’une collaboration fructueuse avec l’Institut für Programmstrukturen und Datenorganisation IPD, Karlsruher Institut für Technologie KIT, à Karlsruhe, sous la direction du Prof. Dr. Peter C. Lockemann. Des fonds supplémentaires mis à la disposition par l’Académie garantissaient la poursuite du projet. Ainsi ont pu être engagés successivement MM. Dr. René Witte, Thomas Kappler, Philip Stöver et Conny Kühne comme informaticiens de l’institut de Karlsruhe. MM. Dr. Hagen Höpfner (anciennement Université de Weimar, antérieurement Bruchsal), et Marcus Husar, auxiliaire estudiantin au DEAF, complétaient l’équipe qui est instruite et dirigée du côté de la rédaction par Dr. Sabine Tittel.

Une des questions décisives posées lors de la création du système de rédaction consistait en la possibilité de trouver un consensus entre les exigences informatiques, elles-mêmes rigides de par leur nature, avec la liberté nécessaire au lexicographe. Pour satisfaire cette conditio sine qua non l’équipe développa les atouts de deux éléments qui n’étaient contraires que sur un plan superficiel: primo, les bénéfices du soutien électronique aux procédés de la rédaction caractérisé par des structures fixes et par la gestion des données automatisée et, secundo, les avantages d’une saisie de texte libre et sans structures fixes, appuyée toutefois par un outil de balisage sémantique (v. fig. 3-7 ci-dessous).

Le système de rédaction électronique

Le nouveau système de rédaction a été exclusivement réalisé pour les rédacteurs du DEAF. Il permet une rédaction accélérée par le soutien de la technique. Le système n’utilise que des outils « open source » et il serait ajustable aux exigences d’autres projets comparables.

Deux conditions préalables pour la mise en place d’un tel système ont été remplies :

  • la saisie électronique des fiches (1.5 millions) qui servent de point de départ pour la rédaction des articles (v. fig. 8 ci-dessous),
  • la programmation d’un outil qui permet la lemmatisation des fiches numérisées : le « Lemming ».

Ce lemmatiseur « Lemming » se base sur 120 règles phonétiques qui tiennent compte du développement de l’ancien français à partir du latin et des variations diatopiques et graphiques du lexique ancien français. Les résultats de la lemmatisation informatique sont ensuite croisés avec la liste des lemmes du Tobler-Lommatzsch (v. fig. 1 ci-dessous).

 

Le système de rédaction a été conçu et développé en coopération avec les informaticiens nommés et notamment par Conny Kühne de l’Institut für Programmstrukturen und Datenorganisation, v. ci-dessus.
La solution technique implique

  • une banque de données MySQL,
  • WicketFrameWork comme interface utilisateur,
  • Hybernate,
  • Databinder,
  • et une integration des structures XML.

 

Le système combine

  • la gestion de l’information qui concerne les données des articles, des fiches et celles des entrées de la bibliographie DEAFBiblEl,
  • la gestion des processus qui contrôle l’automatisation des procédés de la rédaction,
  • l’appui sémantique dépendant du contexte, des fonctions de recherche et du triage, des fonctions d’export des données, de l’administration, etc. (v. graph. 2-6 ci-dessous).

Le système automatise plusieurs étapes de la rédaction. Par exemple, il enrichit – par le biais des sigles du DEAF – les données provenant des fiches saisies des informations de la bibliographie du DEAF concernant la datation, la localisation et le type du texte (source primaire, secondaire, tertiaire; v. graph. 3). En partant des datations des textes, le système trie les attestations par ordre chronologique et accepte des ajustements manuels. Et cetera.

 

Dans les articles du DEAFpré, le pourcentage des actions effectuées automatiquement par le système s’élève à environ 70%, dans les articles du DEAFplus, qui demandent un travail intellectuel beaucoup plus profond, il s’élève à environ 15%.

La publication en ligne: DEAFél

L’année 2010 a vu la mise en œuvre de la nouvelle version en ligne DEAFél. DEAFél inclut la publication des articles du DEAFpré et ceux du DEAFpplus. Pour le moment, les articles des tomes déjà publiés (G, H, I, J et K) font partie du DEAFél sous la forme de fichiers images. La maison d’édition De Gruyter est en train d'effectuer un examen financier de la publication numérique des lettres G à K qui remplacera, espérons-nous, d’ici peu la publication actuelle sous la forme de fichiers images. Aussi la publication en ligne de la lettre F fait partie de cet examen, ensemble avec une recherche avancée, v. ci-dessous.

Moteur de recherche

DEAFél inclut un moteur de recherche, qui se constitue de deux parties:

  1. Une recherche simple rend accessibles les lemmes, les dérivés et les différentes graphies des mots traités. Cette recherche simple rend accessible aussi les lemmes et les dérivés des articles de G – K et les relie avec les fichiers images, pendant qu’une version numérique des lettres G – K n’est pas encore publiée.
  2. Une recherche avancée avec une vingtaine de demandes de recherche combinables fournit maintes informations supplémentaires. Elle permet, par exemple, une recherche des mots dans des locutions, des collocations, des proverbes ou des figures de style. Une recherche onomasiologique basée sur les définitions permet la recherche des sens en général ou précisés par l’emploi du mot correspondant comme terme technique ou dans une figure de style.

Cette recherche avancée a déjà été conceptualisée par l'équipe du DEAF, pour un aperçu, v. graph. 9 ci-dessous. Le développement de cette recherche fait actuellement partie de l'examen financier de la numérisation des lettres G à K effectué par De Gruyter.

 

Dû au fait que les articles du DEAFplus sont, bien entendu, d’une structure sémantique plus élaborée et d’une qualité très différente de celle des articles du DEAFpré, il va de soi que la recherche avancée mènera à plus de résultats provenant du DEAFplus que provenant du DEAFpré, une fois les articles du DEAFplus seront mis en ligne.

Des liens hypertextes multiples constituent les fils d’un réseau toujours croissant : la bibliographie du DEAF avec ses vingt demandes de recherche est intégrée dans le DEAFél grâce à ces liens hypertextes qui rattachent les sigles cités dans les articles du DEAFpré et DEAFplus aux entrées bibliographiques correspondantes. Les renvois entre les articles sont également réalisés comme des liens hypertextes. Des liens hypertextes à l’Anglo Norman Dictionary AND, au Dictionnaire du Moyen Français DMF et aux autres dictionnaires publiés en ligne serrent au fur et à mesure les mailles d’un réseau lexicographique.

Graphiques

Der Lemmatisierer des DEAF
Lemmatiseur « Lemming »

Fig. 1 – Le « Lemming ».


Masque de saisie « Zettelüberprüfung »
Masque de saisie « Zettelüberprüfung »

Fig. 2 – Le masque de saisie « Zettelüberprüfung » permet de noter les résultats du travail ad fontes pour chaque attestation.


Masque de saisie « Bearbeitung Beleg »
Masque de saisie « Bearbeitung Beleg »

Fig. 3 – Le masque de saisie « Bearbeitung Beleg » organise toutes les informations concernant une attestation : sigle, mot, datation du texte (date en version périphrasée originale et en version numérique), type de source, renvois, commentaire facultatif concernant le sens de l’attestation, commentaire facultatif concernant la graphie de l’attestation, commentaire facultatif pour l’usage interne, contexte facultatif et lien hypertexte facultatif.


Masque de saisie des « variantes graphiques »
Masque de saisie des « variantes graphiques »

Fig. 4 – Le masque de saisie des « variantes graphiques » permet d’enregistrer des graphies (la liste en haut à droite), d’enregistrer toute note ou tout commentaire qui concerne une graphie, de ranger les attestations sous les graphies correspondantes (le tableau à gauche montre les attestations qui sont encore à ranger, celui à droite montre les attestations déjà rangées; la fonction qui permet de les ranger se trouve sous le mode « glisser-déposer »; la table à droite offre plusieurs possibilités de trier les attestations) et il permet de sauvegarder la datation de la graphie tirée du texte le plus ancien.


Masque de saisie de la partie sémantique"
Masque de saisie de la partie sémantique

Fig. 5 – Le masque de saisie de la partie sémantique permet d’enregistrer, commenter et trier les sens et les sous-sens, de saisir la datation (cp. graph. 6) et de ranger les attestations sous les sens correspondants (cp. graph. 4).


L’outil « Zeiträume »"
L’outil « Zeiträume »

Fig. 6 – L’outil « Zeiträume » offre toutes les possibilités d’enregistrer les datations d’un sens fussent-elles très complexes. Voici les données qui résultent en « 1eq.12es.; 1190 – 13es.; dep. 1611 ». L'outil offre aussi la possibilité d'ajouter des notes.


Discussion étymologique du DEAF
Discussion étymologique

Fig. 7 – Pour saisir la discussion étymologique le système met à la disposition des rédacteurs un large champ de saisie, appuyé par un outil de balisage sémantique; à droite, les données validées sont transformées en texte corrigé du balisage.


Fiche digitalisée du DEAF
Fiche digitalisée

Fig. 8 – Fiche numérisée qui figure dans l’article fesse.


Recherche avancée du DEAF
Recherche avancée

Fig. 9 – La recherche avancée comme conceptualisée par le DEAF.