WebLicht POSTags Lemmas FR

Language Resource Switchboard (LRS)

Service proposé par CLARIN Contact : switchboard@clarin.eu Lien vers l'outil : https://switchboard.clarin.eu/

Synopsis

  • Description WebLicht POSTags Lemmas FR est utilisé pour effectuer une lemmatisation et une annotation en parties du discours.
  • Langues Français
  • Format d'entrée text/plain (texte brut, TXT) | text/rtf | application/pdf (PDF) | application/msword (DOC) | application/vnd.openxmlformats-officedocument.wordprocessingml.document (DOCX)
  • Authentification obligatoire Comme indiqué par la clé orange , il est nécessaire de s'authentifier sur WebLicht grâce à un compte fourni par une université ou institution.

Authentification

L'authentification est obligatoire. Si vous ne parvenez pas directement à trouver votre université ou institution : Vous pouvez directement taper son nom dans la case : (= rechercher votre organisation) Vous pouvez également faire une recherche par pays, grâce à la liste déroulante : Vous pourrez ensuite entrer votre identifiant et votre mot de passe comme lorsque vous vous connectez directement à votre université ou institution.

Si vous ne parvenez pas à vous connecter ou si votre institution ou université ne figure pas dans la liste, vous pouvez créer un compte à partir de cette page. Pour plus d'informations, vous pouvez consulter la FAQ de WebLicht : How do I log in to WebLicht.

Interface Web

Chaînes disponibles

A gauche de l'écran, dans la case qui suit, vous verrez apparaître les différentes chaînes de traitement par défaut disponibles pour la langue sélectionnée : Dans ce cas précis, pour le français, une seule chaîne de traitement par défaut est disponible. Il s'agit de la chaîne POS Tags/Lemmas proposée par Switchboard. Cette chaîne permet donc une annotation morpho-syntaxique (ou en parties du discours) et une lemmatisation. Comme Switchboard s'est occupé de vous rediriger vers la chaîne par défaut de WebLicht, vous n'avez plus besoin de sélectionner la chaîne, car celle-ci a déjà été sélectionnée par Switchboard.

Texte d'entrée et chaîne sélectionnée

En bas de l'écran, dans la case qui suit, vous verrez apparaître le texte que vous aviez donné en entrée à Switchboard, ainsi que la chaîne sélectionnée à l'étape précédente : Dans le cas de la chaîne par défaut pour le français qui permet l'annotation en parties du discours et la lemmatisation, elle se compose des outils suivants :

  • SfS : To TCF Converter Permet d'effectuer la conversion de votre texte d'entrée vers le format XML+TCF utilisé par WebLicht.
  • IMS : Tokenizer Effectue une tokenisation.
  • IMS : TreeTagger Effectue une lemmatisation et une annotation en parties du discours (= morpho-syntaxique) avec l'outil TreeTagger.

Si vous souhaitez plus d'informations sur l'un de ces outils qui composent la chaîne de traitement, cliquez sur l'icône située en dessous de n'importe quel outil de la chaîne de traitement.

Si vous souhaitez changer de texte d'entrée, cliquez sur l'icône située en dessous de la case de votre texte d'entrée.

Visualisation

La case centrale, permettra une visualisation des vos résultats. Ils s'afficheront automatiquement à l'écran lorsque vous aurez lancé votre chaîne de traitement.

Lancer l'analyse

Pour lancer votre lemmatisation et votre annotation en parties du discours, cliquez sur le bouton (lancer l'exécution de la chaîne) situé à droite dans la case de la chaîne de traitement.

Résultats

La visualisation des résultats s'affiche automatiquement à l'écran de visualisation lorsque la chaîne a terminé de traiter votre demande. Il n'est possible de visualiser et de télécharger qu'une partie des résultats. L'écran de visualisation se divise en trois parties.

Visualisation

Description

Cette vue permet d'afficher vos résultats sous forme schématique. Cette vue est particulièrement utile pour certaines annotations telles que l'annotation des dépendances, car la forme schématique de type arbre syntaxique permet de mieux visualiser et de comprendre plus facilement ce type d'annotations. Dans le cas d'une simple lemmatisation et annotation en parties du discours, cette visualisation est moins nécessaire.

Dans le cas de la lemmatisation et annotation en parties du discours, cette vue représente chaque token de la phrase avec, en dessous du token, son étiquette POS. Survoler le token, permet d'afficher son lemme et son ID (position du mot dans la phrase).

Sauvegarder les résultats de la vue

Il est possible de sauvegarder les résultats de cette vue au format de votre choix (SVG, PDF, PNG, JPEG) proposé dans la liste déroulante située en haut à droite de cette vue :

Tableau

Description

Cette vue permet d'afficher les résultats sous la forme d'un tableau : La première colonne représente le token, chaque ligne correspond à un token différent. La deuxième colonne représente son lemme. La troisième colonne représente son étiquette de partie du discours. La dernière colonne représente son identifiant.

Sauvegarder les résultats de la vue

Il est possible de sauvegarder les résultats de cette vue au format CSV en appuyant sur "Save" (= sauvegarder) en haut à droite de cette vue et en choisissant de sauvegarder la première phrase ou les 1 000 premières phrases du texte :

Phrases en contexte

Description

Cette vue représente le découpage du texte en phrases. Chaque phrase du texte est accompagnée de son identifiant :

Télécharger les résultats

Une fois l'analyse effectuée, vous verrez apparaître deux nouvelles icônes en dessous de chaque outil de la chaîne de traitement qui viendront s'ajouter à l'icône : : Permet de visualiser à l'écran les annotations effectuées à chaque étape de la chaîne de traitement. Dans le cas de chaîne par défaut (chaîne pré-créée), vous n'avez pas besoin d'appuyer sur cette icône pour visualiser les résultats sauf si vous souhaitez les visualiser étape par étape (ou outil par outil). : Permet de sauvegarder les résultats de l'annotation à chaque étape de la chaîne de traitement au format TCF+XML. Pour plus d'information sur le format TCF, vous pouvez consulter la documentation de WebLicht sur le format TCF.