UDPipe
Language Resource Switchboard (LRS)
Service proposé par CLARIN Contact : switchboard@clarin.eu Lien vers l'outil : https://switchboard.clarin.eu/
Synopsis
- Description UDPipe est un outil utilisé pour la tokenisation, l'annotation en parties du discours (POS), la lemmatisation et l'annotation des dépendances. Le format utilisé est le format CoNLL-U d'Universal Dependencies.
- Langues UDPipe permet l'analyse de nombreuses langues, certaines d'entre elles se voient même proposer plusieurs modèles. UDPipe est utilisable pour n'importe laquelle des langues supportées par Switchboard.
- Format d'entrée text/plain (TXT, texte brut)
Interface Web
Modèles
Modèles UD 2.6
Plusieurs modèles sont disponibles pour le français. Le modèle french-gsd-ud-2.6-200830 est le modèle sélectionné par défaut, mais il est possible d'en sélectionner un autre dans la liste déroulante :
Modèle EvaLatin20
Il est également possible de sélectionner le modèle EvaLatin20 en cliquant sur le cercle à gauche de EvaLatin20.
Actions
Par défaut, les actions "Tag and Lemmatize" (= étiquetage morpho-syntaxique ou en parties du discours et lemmatisation) et "Parse" (= analyse syntaxique) sont toutes les deux sélectionnées. Exemple d'une annotation avec toutes les options cochées, et avec le modèle français par défaut Si vous décochez "Tag and Lemmatize", les étiquettes liées à l'annotation en parties du discours et aux lemmes (colonnes 3, 4, 5, 6 : Lemma, UPosTag, XPosTag, Feats), ne seront pas affichées dans le fichier final. Si vous décochez "Parse", les étiquettes liées à l'annotation des dépendances (colonnes 7, 8, 9 : Head, DepRel, Deps) ne seront pas affichées dans le fichier final. Si vous décochez aussi bien "Tag and Lemmatize" que "Parse", aucune des étiquettes liées à l'une ou l'autre des options ne sera affichée et vous obtiendrez donc le fichier suivant avec simplement les colonnes 1, 2 et 10 (Id, Form, Misc) :
Si vous avez choisi de modifier certaines valeurs par défaut, cliquez sur la longue barre bleue (lancer l'analyse) pour que UDPipe prenne en compte vos modifications dans le nouveau fichier de sortie. Si vous n'avez effectué aucun changement, votre texte est déjà annoté en bas de l'écran.
Pour plus d'information sur le format CoNLL-U, vous pouvez consulter la documentation d'Universal Dependencies sur ce format.
Options avancées
Pour les utilisateurs plus expérimentés, il est possible de modifier d'autres informations. Par exemple, il est possible d'utiliser une version antérieure de UDPipe. Sélectionner UDPipe 1, vous permettra de choisir des versions plus anciennes des modèles de langues : Vous retrouverez une explication détaillée dans la documentation de UDPipe pour les options :
- Input : https://ufal.mff.cuni.cz/udpipe/1/users-manual#run_udpipe_input
- Tokenizer : https://ufal.mff.cuni.cz/udpipe/1/users-manual#run_udpipe_tokenizer
Le texte d'entrée
Vous retrouverez le texte que vous aviez importé dans Switchboard et que Switchboard a ensuite importé dans UDPipe dans l'espace dédié à cet effet. Il est tout à fait possible de supprimer ou modifier le texte, d'en écrire un nouveau ou de copier-coller un autre texte si vous souhaitez le modifier.
Dans cette même idée, il est également possible de cliquer sur (= fichier d'entrée) si vous souhaitez importer un nouveau fichier depuis votre ordinateur. Il vous suffira donc de cliquer sur (= télécharger un fichier) et de sélectionner votre nouveau document à partir de votre ordinateur.
Si vous avez choisi de modifier votre texte d'entrée, cliquez sur la longue barre bleue (lancer l'analyse) pour que UDPipe prenne en compte votre changement. Si vous n'avez effectué aucun changement, votre texte est déjà annoté en bas de l'écran.
Les sorties UDPipe
UDPipe vous propose trois représentations différentes du texte de sortie avec Output Text (= texte de sortie) comme sortie affichée par défaut. Vous retrouvez également "Show Table" (= afficher le tableau) et "Show Trees" (= afficher les arbres [syntaxiques])
Output Text
Cette sortie vous propose le texte directement sous la forme standard des sorties d'Universal Dependencies, le format CoNLL-U : cliquez sur ce lien pour obtenir plus d'informations sur le format. En résumé, il s'agit d'un format composé de 10 colonnes séparées entre elles par une tabulation. La composition des colonnes est la suivante : Id, Form, Lemma, UposTag, XposTag, Feats, Head, DepRel, Deps, Misc (id du token ; token ; lemme ; étiquette morpho-syntaxique ; étiquette morpho-syntaxique spécifique au modèle ou à la langue ; informations morphologiques ; id de la 'tête' ou du mot duquel dépend le token actif ; relation de dépendance qui lie le token à la 'tête' ; dépendances additionnelles ; autres annotations). Les annotations présentes dans chaque colonne dépendent du modèle de langue choisi. Certains modèles ne proposent pas toutes les annotations. Par exemple dans le cas suivant (modèle par défaut pour le français : gsd-ud-2.6-200830), les colonnes "XposTag" et "Deps" sont vides. L'élément qui sert à indiquer que l'annotation n'est pas disponible est un underscore ou tiret du bas ("_"). Pour télécharger le fichier de sortie annoté au format CoNLL-U, cliquez sur la barre verte "Save Output File" (= sauvegarder le fichier de sortie):
Show Table
Il s'agit d'un format plus lisible de la sortie précédente, car les informations, au lieu d'être séparées par des tabulations, sont placées dans un tableau de plusieurs colonnes, permettant ainsi de mieux distinguer les différentes données. Chaque colonne porte le nom (en gras) de l'annotation qui y figure. Pour télécharger le fichier de sortie annoté au format CoNLL-U, cliquez sur la barre verte "Save Output File" :
Show Trees
La dernière sortie représente les données sous la forme d'un arbre qui permet de mieux distinguer les relations entre les divers tokens. Les informations sont présentées phrase par phrase. Si votre texte fait plus d'une phrase, passez d'une phrase à une autre en cliquant sur Previous (phrase précédente) ou Next (phrase suivante) ou en cliquant directement sur les numéros de phrases grâce à l'élément suivant qui figure juste au dessus de la représentation schématique de votre phrase : Pour télécharger le fichier de sortie sous forme d'arbre syntaxique, cliquez sur la barre verte "Save Tree as SVG" (= sauvegarder l'arbre au format SVG) :