defi, un outil d’aide à la compréhension


Archibald Michiels, Département de langue et linguistique anglaises, Université de Liège, 3, Place Cockerill, B-4000 Liège, Belgique

amichiels@ulg.ac.be


 

defi est un outil d’aide à la compréhension de textes anglais destiné aux  lecteurs francophones. Il établit un filtre sur le dictionnaire bilingue anglais-français pour ne retenir que les acceptions pertinentes au contexte et en donner les équivalents français, en plaçant les plus pertinents en premier lieu.

 

Bien que defi fournisse des traductions, il ne s’agit pas d’un outil d’aide à la traduction, dans la mesure où la traduction est un processus extrêmement complexe qui demande une appréhension plus globale du contexte, et des possibilités de reformulation qui dépassent le cadre phraséologique du dictionnaire bilingue.

 

 La place manque pour présenter un exposé détaillé et approfondi des mécanismes d’appariement texte-dictionnaire mis en œuvre par defi. Pour pallier ce manque on se permettra de référer aux documents accessibles au départ de la page consacrée à defi sur le Web, à savoir The English-to-French DEFI Home Page.

 

Principes directeurs dans le développement de defi

defi est un prototype. On s’est concentré sur les problèmes fondamentaux que présente l’appariement texte-dictionnaire pour le génie linguistique, et on a négligé le développement de l’interface utilisateur. Celle-ci devrait s’intégrer dans un traitement de texte et/ou un navigateur Web. Lorsque l’utilisateur clique sur l’item qu’il ne comprend pas, l’interface transmet au programme d’appariement l’item cliqué et l’unité textuelle dans laquelle il s’insère (phrase ou partie de phrase ; on peut imaginer d’utiliser la ponctuation lourde (. ;:?! ())  pour fixer les frontières de l’unité textuelle en question). Pour l’heure, une telle interface n’existe pas. defi travaille sur base de fichiers qui comportent un ensemble de lignes, chaque ligne se composant de l’item cliqué et de son contexte. On trouvera un exemple de fichier d’entrée à An extract from a DEFI input text file.

 

Par contre, on n’a nullement négligé la question du coût computationnel de l’appariement texte-dictionnaire. Les accès aux dictionnaires et bases de données ont été optimisés et l’algorithme d’appariement a été affiné pour offrir un compromis raisonnable entre coût computationnel et qualité de l’appariement. Le banc d’essai de base de defi, un ensemble de 1000 phrases extraites de la base de données d’exemples de cobuild, fait apparaître un temps de traitement de deux secondes et demi par phrase (la phase de pré-traitement, incluant l’analyse par le parseur engcg de Lingsoft, prend 15 millièmes de seconde par phrase). Ces résultats sont obtenus sur un PC travaillant à 733 Mhz sous Windows 98.

 

Hypothèse fondamentale

 

Il n’y a pas lieu de se prononcer ici sur la réalité linguistique des acceptions. Elles sont le résultat de la pratique lexicographique monolingue, comme les traductions  sont le résultat de la pratique lexicographique bilingue. On sait qu’il n’y a pas nécessairement de parallélisme entre acceptions et traductions, puisque la découpe sémantique effectuée par les deux langues est parfois pratiquement identique (cell/cellule) mais parfois largement divergente (dent/bosse#entaille). La base pour l’établissement d’une nouvelle paire item-traduction est elle toute pragmatique : si je dis que x se traduit par y, et qu’on me présente un x en contexte dont la traduction la plus naturelle est z, je créerai une nouvelle paire x-z, et  je tenterai de spécifier en quoi les contextes où x se traduit par z diffèrent des contextes où x se traduit par y. Pour ce faire, le lexicographe dispose d’un ensemble de champs destinés à recevoir de l’information métalinguistique : collocats correspondant aux diverses positions syntaxiques ouvertes par l’item, spécification d’un domaine du discours, spécification de l’environnement syntaxique, etc.

Les seules tâches de defi sont les suivantes :


1) associer l’item cliqué avec une unité phraséologique répertoriée dans le dictionnaire, s’il échet ;
2) élaguer l’arbre des traductions et présenter les traductions retenues dans un ordre de pertinence décroissante.

Le dictionnaire monolingue donne des acceptions qui sont des pôles d’interprétation de l’item en contexte, pas des interprétations toutes faites qu’il suffirait de déplacer du dictionnaire vers le texte par une opération intellectuelle équivalente au copier/coller. De même, le dictionnaire bilingue donne des traductions qu’il convient également d’adapter au contexte. En conséquence, lorsqu’on consulte le dictionnaire, on n’est pas toujours le mieux servi si on n’obtient que l’acception la plus appropriée ou la meilleure traduction en contexte. Les autres acceptions/traductions peuvent également contribuer à l’opération d’interprétation de l’item en contexte ; elles ne peuvent être rejetées que si leur distance du contexte utilisateur est nettement plus grande.  Il y a là un seuil à fixer heuristiquement. Dans le cas de la reconnaissance d’une unité phraséologique, la décision est souvent plus facile à prendre, l’élément le plus approprié se détachant plus nettement du lot. On ne s’en étonnera pas si on considère que le dictionnaire, qui décrit les conditions d’appariement d’un lexème simple ou d’une lexie complexe à une acception ou une traduction donnée, ne peut le faire que par le biais d’informations que l’utilisateur doit être capable d’observer ou de déduire du contexte dans lequel l’item apparaît hors dictionnaire. Dans le cas du lexème réduit à un seul mot, il s’agit de propriétés morphosyntaxiques de l’item (possibilité de pluriel, de formes conjuguées, de degrés de comparaison) et de spécifications de son environnement, spécifications qui ne vont pas jusqu’au mot, mais s’arrêtent à la classe thésaurique (collocats) ou  restent au niveau de la construction morphosyntaxique. L’unité phraséologique, même si elle doit tenir compte de la variabilité, est en fait un ensemble de spécifications qui vont jusqu’au niveau du mot, et permet donc, pour chacun de ses constituants de base, un ancrage plus aisé à repérer hors dictionnaire.

 

Pour autant que l’item cliqué ou le lemme qui lui correspond figure au dictionnaire, soit comme item indépendant soit comme point d’ancrage d’une unité phraséologique, defi produira une ou plusieurs traductions. Toutes les propriétés computables associées au couple item-traduction par le dictionnaire lui serviront à mesurer la pertinence de ce couple pour le contexte utilisateur. Chacune donnera lieu au calcul d’un poids qui reflète le degré de qualité avec lequel la propriété peut être associée au contexte utilisateur. Même une propriété comme la partie du discours ne conduira pas à l’échec de la prise en compte du couple item-traduction si elle n’est pas respectée. Cette attitude prudente est dictée par le fait que les propriétés, même celles qui paraissent le mieux computables et semblent le plus clairement relever d’un choix binaire (la propriété est ou n’est pas présente), ne sont pas computables avec un degré de certitude suffisant pour qu’elles puissent faire barrage. La partie du discours est souvent calculée de manière erronée ou insuffisante (pas de décision univoque, comme dans le cas des formes en ing et ed, qui sont attribuables à la fois au verbe et au nom, ou au verbe et à l’adjectif) par le parseur de surface utilisé par defi, à savoir engcg de Lingsoft.

Le traitement de la phraséologie

defi tâche de prendre en compte le rôle capital joué par la phraséologie, c’est-à-dire par tous les éléments plus ou moins figés dont la taille en mots est supérieure à un. Cette définition peu orthodoxe est volontairement très large : defi applique le même traitement aux unités phraséologiques reconnues comme telles par la lexicographie monolingue et bilingue (phrasal verbs, idioms, etc.) et aux exemples donnés par le dictionnaire pour illustrer les acceptions qu’il répertorie. En effet, si on peut établir avec plus ou moins de justification linguistique la frontière entre les expressions semi-figées et les exemples qui tentent de replacer l’item dans son contexte le plus typique, il est à noter que le dictionnaire bilingue ne le fait pas. Une expression sera présentée dans le contexte plus large de la phrase si la traduction en est ainsi facilitée – le lexicographe ne vise pas à donner les squelettes les plus dépouillés, qui seraient souvent difficiles à traduire sinon maladroitement. I’ll miss you est beaucoup plus facile à traduire que to miss someone.

 

defi pousse le parallélisme plus loin. Le traitement qu’il applique à toute la phraséologie du dictionnaire, il l’applique également à la phrase qui contient l’item qui pose un problème de compréhension à l’utilisateur. De cette façon, il est à même de mesurer avec un plus grand degré de précision la distance qui sépare le texte utilisateur de l’unité phraséologique candidate à l’appariement.

 

De quel traitement s’agit-il ? defi soumet l’unité textuelle (phrase utilisateur, lexie complexe, exemple illustratif) au parseur de surface engcg développé par Lingsoft ; ensuite le programme tagtxt (une application awk) construit sur les résultats du parseur pour tenter d’approfondir l’analyse très en surface que fournit engcg. Il tente notamment d’établir une liste de groupes nominaux (en spécifiant également les constituants têtes) qui permettront un appariement phraséologie-texte dans le cas de fillers lexicographiques tels que something ou somebody. Il débusque aussi les relations syntaxiques auxquelles peuvent participer les collocats : sujet, objet direct, complément du nom, etc. pour rendre possible une mesure de la distance qui sépare le collocat prévu dans l’unité lexicographique et l’élément qui remplit le rôle syntaxique voulu dans le texte de l’utilisateur. Ces relations syntaxiques doivent tenir compte des ‘transformations’ de l’ordre canonique des éléments telles que la passivisation. Finalement, defi émet une hypothèse structurelle sur l’unité phraséologique tout entière : s’agit-il d’une phrase, d’un groupe verbal, nominal, prépositionnel ? Il faut en outre calculer la polarité (affirmatif v. non-affirmatif) pour pouvoir traiter adéquatement les unités phraséologiques qui ont une négation inhérente (not give a damn / ne pas faire dans la dentelle). En effet, cette négation peut prendre une forme différente de celle spécifiée dans l’unité phraséologique, ou encore avoir migré vers une proposition supérieure dans la hiérarchie syntaxique (I doubt whether he would give a damn / il n’a jamais donné l’impression de faire dans la dentelle).

 

Tagtxt a aussi pour mission de donner un poids à tous les traits morphosyntaxiques attribués par le parseur aux constituants du texte. Le programme d’appariement texte-dictionnaire aura soin de collecter les traits qui se correspondent dans le texte de l’utilisateur et l’unité phraséologique candidate à l’appariement et l’accumulation du poids de ces traits jouera un rôle dans la mesure de la qualité de l’appariement.

 

On trouvera un exemple d’analyse de engcg, et son enrichissement par tagtxt, dans An engcg parse and its enhanced version.

 

L’approche préconisée par defi s’oppose assez nettement à la spécification de grammaires locales qui détermineraient avec précision le degré et la nature de la variabilité acceptable pour une unité phraséologique donnée, et les divers points d’insertion pour des éléments étrangers à l’unité elle-même. On se référera à The treatment of mwu's in the defi matcher. L’argument de base est que, en anglais surtout, les expressions figées sont fréquemment dégelées dans un processus allusif ; la condition suffisante est que l’expression de base soit perceptible sous ses modifications. Il ne semble pas possible de rendre compte de ces modifications par le biais de grammaires locales, qui devraient alors être trop ‘relâchées’ pour être encore utiles. defi se contente de mesurer la distance qui sépare l’expression répertoriée dans le dictionnaire de son avatar textuel, sans poser de conditions du type tout ou rien.  

Ressources lexicales

En ce qui concerne les ressources lexicales mises en oeuvre, defi a fondu en un seul dictionnaire bilingue ses deux bilingues sources, à savoir rc et oh, qui sont à mes yeux les deux fleurons de la lexicographie bilingue anglais-français français-anglais. Seule la direction anglaisà français est exploitée. La fusion s’est faite d’une manière très conservatrice, sans éviter toute redondance mais en assurant qu’aucune information ne se perde (se référer à Nicolas Dufour - Merging two dictionaries). Elle a considérablement accru le pouvoir discriminateur de certains champs, en particulier le champ des collocats. Les entrées ont été réorganisées en couples lemme-traduction, avec répartition de l’information métalinguistique dans différents champs. Ce dictionnaire a deux formes directement consultables par le développeur defi: sous sa forme defidic (cf. DEFIDIC, a lexical data base for computerized translation selection), il se présente comme une série d’enregistrements awk, directement accessibles via awk ou un éditeur. Sous la forme de Prolog terms, il est consultable au moyen du logiciel lkp, une application Prolog développée dans le cadre du projet defi (cf. Extract from the bilingual dictionary under LKP). 

 

Le programme d’appariement texte-dictionnaire qui est au centre de defi utilise lui deux dictionnaires résultant d’une transformation de defidic. Le dictionnaire dic  contient toutes les unités phraséologiques du dictionnaire de départ (au sens très large exposé ci-dessus) ; sdic est  le dictionnaire des unités lexicographiques qui ne dépassent pas la frontière du mot. Toutes les unités phraséologiques ont été soumises au parseur engcg et ensuite à tagdic, une application awk tout à fait similaire et parallèle à tagtxt. On trouvera un extrait de dic à Example of a dic-clause (defi mwu dictionary), et de sdic à An extract from sdic, the single lexeme dictionary.

 

defi utilise trois dictionnaires monolingues de l’anglais, tous trois s’inscrivant dans une perspective pédagogique, ce qui garantit le caractère relativement explicite des informations qu’ils fournissent pour distinguer les diverses acceptions, et la simplicité de leur vocabulaire définitoire ainsi que la typicité de leurs exemples, qu’il s’agisse d’exemples forgés (ldoce) ou extraits d’un corpus (cobuild, cide) et présentés tels quels ou retravaillés pour augmenter leur généralité. L’appel aux monolingues se fait dans le cadre du traitement du champ Indicateur, un champ du dictionnaire bilingue où le lexicographe donne au lecteur des pointeurs qui lui permettent de reconnaître la pertinence de la traduction proposée pour le contexte utilisateur, pointeurs qu’il ne peut formaliser dans le cadre des autres champs qui servent également  à cerner les traits pertinents du contexte, comme par exemple les collocats ou les étiquettes matière. On trouvera des extraits des dictionnaires monolingues sous la forme de Prolog terms directement utilisables par defi dans Extracts from the monolingual defi dictionary.

 

De plus, defi fait appel à deux bases de données qu’on peut qualifier de thésauriques, Roget et Wordnet. Roget est plus nettement littéraire, et sa base est souvent la simple association d’idées plutôt que de strictes relations thésauriques telles que l’hyponymie, la synonymie et l’antonymie, qui sont des relations de base pour Wordnet.

 

Enfin, defi se sert d’une base de données extraite du dictionnaire bilingue fusionné. Cette base de données rend compte des relations de cooccurrence entre collocats, et est appelée dans le calcul de la distance qui sépare l’item donné par le texte utilisateur par rapport au collocat spécifié par le dictionnaire (hypothèse de Montemagni et al.).

 

Utilisation des champs du dictionnaire bilingue

Tous les champs du dictionnaire contribuent à déterminer si un couple item-traduction est pertinent dans le contexte utilisateur. Mais au départ ils sont tous destinés au lecteur humain et non à l’ordinateur. Ce n’est pas parce qu’un champ est formalisé qu’il est utilisable systématiquement et sans risque d’erreur par un programme d’appariement tel que celui qui est au cœur de defi. Il suffit de penser au champ étiquette matière (field label). Il n’est calculable avec fiabilité que sur un contexte beaucoup plus large que la phrase (l’unité de travail de defi, pour des raisons évidentes de coût computationnel). De plus, il est difficile d’éviter les pièges tendus par les ruptures d’isotopie et les métaphores, qui glissent d’un domaine à un autre.

 

De plus, l’utilisation de tous les champs d’information présuppose que l’on a affaire à un texte interprété, pas seulement analysé en structures de surface. Il est indéniable que le parseur rend un grand service en transformant une liste de mots en un ensemble de couples variante morphologique – forme lemmatisée, et qu’il procure à tagtxt et tagdic des éléments d’analyse sur lesquels ces derniers peuvent envisager de construire les relations syntaxiques dont le traitement des collocats a besoin. Mais le risque d’erreur est présent partout.

 

En conséquence, le poids que defi attribuera à chaque champ dépendra non seulement du pouvoir discriminateur du champ, mais aussi du degré de fiabilité avec lequel la propriété décrite par le champ peut être mesurée. Par exemple, les collocats (sujets et objets typiques) ont un très grand pouvoir discriminateur (l’utilisateur humain en fait grand cas) mais leur nature en rend le traitement assez délicat. Il ne s’agit pas de variantes morphosyntaxiques ou encore de lemmes, mais bien de têtes thésauriques, qu’on ne pourra exploiter qu’en faisant appel à une organisation thésaurique du lexique (Roget, Wordnet) et aux liens tissés par la cooccurrence à l’intérieur même du domaine (hypothèse de Montemagni et al.).

 

Quant au champ Indicateur, le fourre-tout pour toutes les propriétés discriminatoires qui ne trouvent pas place ailleurs dans l’entrée de dictionnaire, il est hautement intéressant, mais le traitement, de par la diversité des indications et le caractère peu structuré de leur présentation, est extrêmement difficile. On se référera au document qui est consacré à ce champ, à savoir The treatment of the Indic field in the DEFI matcher.

 

defi permet au développeur de spécifier les poids attribués aux différentes propriétés dans son programme d’appariement. Cette souplesse est bienvenue dans la perspective de la mise au point du programme, mais il faut se garder d’apporter des modifications aux heuristiques de poids sur base de l’une ou l’autre phrase pour lesquelles defi performe médiocrement. A chaque modification, il convient de réappliquer les programmes à une série de phrases tests qui reprennent un assez grand nombre de cas d’appariement. Il faut aussi se garder de tenter de ‘corriger’ des erreurs du parseur par des modifications de ce type. defi est dépendant d’un traitement en amont – il faut s’y résigner.

 

Dans une perspective à plus long terme, on peut envisager d’introduire des techniques d’apprentissage automatique. On peut indiquer à defi quelles sont les traductions à privilégier, et lui laisser le soin de découvrir la pondération qui y conduit. Ici encore, un tel apprentissage n’a de chance de succès que s’il prend pour base un univers suffisant, vraisemblablement plusieurs dizaines de milliers de phrases tests. Se pose alors le problème de la détermination des traductions à privilégier – pour servir de benchmark, celle-ci doit bien sûr être indépendante des résultats fournis par defi.

Evaluation

L’évaluation d’un outil tel que defi est très ardue. Tout d’abord car le domaine d’application est infini : defi se propose de donner une traduction pour tout item (à l’exception des mots outils les plus fréquents) appartenant à un texte rédigé en anglais. Quel que soit l’échantillon d’évaluation, il sera toujours infime par rapport à l’univers qu’il veut refléter. En second lieu, la pertinence des choix proposés par defi ne peut être mesurée que par un utilisateur humain, ce qui réduit à nouveau la taille des échantillons que l’on peut raisonnablement traiter et introduit un important facteur de subjectivité. Il est en effet difficile de se mettre d’accord sur un classement des traductions proposées, même s’il est assez aisé de débusquer les erreurs grossières (mais le sont-elles toujours vraiment ? une erreur sur la partie du discours peut s’avérer moins grave qu’un léger glissement dans l’évaluation des collocats, pour autant que le sémantisme de base soit préservé et l’interprétation aisément dérivable d’une partie de discours vers une autre).

 

On peut envisager trois types de fichiers tests pour defi :

 

1) Une suite de phrases tests utilisée par le développeur. Elle peut comprendre des phrases inventées destinées à tester telle ou telle fonction du programme d’appariement. On aura soin de soumettre à nouveau cet ensemble à chaque modification apportée au programme, pour s’assurer que les gains engrangés dans le traitement de x ne soient pas reperdus dans le traitement de y.

 

2) Des tests basés sur les besoins réels d’utilisateurs réels. Un seul test de ce type a été réalisé, avec des étudiants en anglais de première et de dernière année à l’Université de Liège. On trouvera le fichier test dans Defi - a quick look at some results.

 

3) Un banc d’essai ‘privilégié’. Il s’agit de phrases servant d’exemples illustratifs dans les dictionnaires monolingues. Ce banc d’essai est privilégié dans la mesure où les exemples de dictionnaire sont censés présenter les contextes d’utilisation les plus typiques, ceux qui exercent le plus grand pouvoir d’attraction vers une acception donnée. defi devrait offrir ici de meilleures performances que sur du texte brut, et les résultats devraient conduire plus rapidement à des améliorations du programme d’appariement. Un tel banc d’essai est constitué par un millier de phrases d’exemples extraites de cobuild – j’y ai déjà fait référence dans l’indication des performances de defi. On trouvera le fichier complet, avec indication de la traduction sélectionnée par un utilisateur humain (l’auteur de cette communication), dans The Cobuild-derived DEFI test bed.

Bibliographie 

Dictionnaires et thésaurus

cide = Paul Procter, Rédacteur en chef, Cambridge International Dictionary of English, CUP, 1995 (première édition)
cobuild = John Sinclair, Rédacteur en chef, Collins Cobuild English Dictionary, Collins, 1987 (première édition)
ldoce = Paul Procter, Rédacteur en chef, The Longman Dictionary of Contemporary English, 1979 (première édition)
oh = M.H. Corréard and V. Grundy: The Oxford-Hachette French Dictionary (Oxford: OUP 1994)
rc = Beryl T. Atkins et al. : Collins-Robert French/English English/French Dictionary (4ème édition, Glasgow: HarperCollins 1995).
WordNet = WordNet Prolog Package, téléchargeable du site Web de Princeton University. Voir aussi Miller 1990. 

Roget = Roget’s Thesaurus, version du domaine public téléchargeable de plusieurs sites Web

Outils

Le parseur de surface ENGCG a été mis au point au département de linguistique générale de l’Université d’Helsinki. Il est commercialisé par Lingsoft Inc. (http://www.lingsoft.fi).
Awk: implantations pour Windows de MKS et Thompson; voir également Aho et al. 1988
Prolog: Arity Prolog pour Windows : Arity Corporation, Damonmill Square, Concord, Mass. 

Autres références

Aho, A.V., Kernighan, B.W. et Weinberger, P.J.  The AWK Programming Language, Addison-Wesley, Reading, Mass., 1988 
Miller, G. A., (ed) ‘WordNet: An On-Line Lexical Database’, International Journal of Lexicography, Volume 3, Number 4, 1990.
Montemagni, S., Federici, S. et Pirrelli,V. 1996. Example-based Word Sense Disambiguation: a Paradigm-driven Approach, Euralex’96 Proceedings, Göteborg University, 151-160.