NLP-HUB

Language Resource Switchboard (LRS)

Service proposé par CLARIN Contact : switchboard@clarin.eu Lien vers l'outil : https://switchboard.clarin.eu/

Synopsis

Description L'outil est développé par D4Science NLP pour l'annotation d'entités nommées. Différentes entités nommées sont disponibles selon la langue telles que les noms de personnes, de lieux ou d'organisations.
Langues Anglais | Français | Italien | Espagnol | Allemand
Format d'entrée text/plain (TXT, texte brut)

Interface Web

L'interface Web par défaut pour l'anglais est la suivante :

L'interface Web par défaut pour le français est la suivante :

Vous pourrez observer que le nombre d'annotations (entités nommées) disponibles dépend bien de la langue.

L'interface de NLP-HUB est découpée en 3 parties : Language selection (= sélection de la langue) | Input text (= texte d'entrée) | Annotations. Comme Switchboard s'est occupé de transmettre votre texte d'entrée à NLP-HUB, votre texte devrait déjà se trouver dans la partie "Input Text", dans la case "paste your text here" (= coller votre texte ici) de la capture d'écran.

Language selection

Cette première partie concerne la langue du texte d'entrée. Switchboard devrait avoir transmis la langue de votre texte d'entrée à NLP-HUB. Mais, si la langue que vous voyez s'afficher à l'écran n'est pas celle de votre texte, vous pouvez sélectionner la bonne langue dans la liste déroulante où vous avez le choix entre l'italien, l'allemand, l'anglais, l'espagnol et le français.

Input text

Source : Wikipédia, Omar Sy, https://fr.wikipedia.org/wiki/Omar_Sy

Cette partie concerne votre texte d'entrée. Switchboard s'occupe de le déposer directement dans l'espace qui lui est dédié. Vous devriez donc voir apparaître votre texte dans la case en-dessous de "Write or paste a text in the text area" (= écrire ou coller du texte dans la zone) comme sur la capture d'écran précédente.

⚠ Switchboard oublie de préciser un détail important pour que NLP-HUB fonctionne. Vous devez donc vérifier que, comme indiqué dans la case dédiée à l'ajout de texte, la taille de votre texte est bien inférieure à 4 000 caractères. Si ce n'est pas le cas, vous pouvez réduire une partie votre texte directement dans cette même case.

Annotations

Par défaut, la plupart des annotations sont sélectionnées, mais vous pouvez cliquer sur les annotations que vous ne souhaitez pas sélectionner. Vérifiez ensuite que les annotations que vous voulez garder soient bien sélectionnées grâce à la coche verte à gauche de l'annotation. Les autres qui ne sont pas sélectionnés, ne sont pas cochées, et ont donc un carré vide à leur gauche comme pour keyword sur la capture d'écran précédente.

Valider les entrées

Lorsque vous avez bien vérifié que toutes les informations sont correctes et que les entités nommées que vous souhaitez garder sont sélectionnées, procédez à l'analyse en cliquant sur le bouton vert : (= lancer l'analyse) tout en bas au centre de la page. Si le bouton "Analyse" n'est pas vert, mais gris, NLP-HUB rencontre un problème pour traiter votre demande. Vérifiez alors la langue d'entrée et la taille du texte ou rafraichissez la page et recommencez la manipulation.

Résultats de l'annotation

Source : Wikipédia, Omar Sy, https://fr.wikipedia.org/wiki/Omar_Sy

Plusieurs informations sont présentes sur la page des résultat.

Case de texte

Vous retrouvez donc votre texte dans cette case. Le texte est annoté selon un type d'entités nommées. Vous pouvez sélectionner un par un le type de votre choix dans la fenêtre "Annotations" à droite de la case texte. Au dessus à droite de la case de texte, le nombre de fois où le type d'entités nommées sélectionnés apparaît dans le texte est affiché. Dans notre texte, le type d'entité nommées "Location" (= nom de lieu) est trouvé 3 fois.

Annotations

Vous verrez que les différentes entités nommées que vous avez sélectionnées à l'étape précédente y figurent, dans notre cas, toutes les entités nommées ont été sélectionnées à l'étape précédente. Les entités nommées qui ont une couleur ont donc été trouvées dans le texte d'entrée (Location, Person, Number, Date, etc.). Les entités nommées grisées sont celles qui n'ont pas été trouvées dans le texte d'entrée (Hashtag, UserID, Emoticon, etc.). Il n'est pas possible de sélectionner plus d'un type d'entités nommées à la fois pour les afficher à l'écran.

Algorithms

Au dessus de "Annotations" se trouve "Algorithms" (= algorithmes). Cliquer sur "Algorithms" permettra d'afficher les différents algorithmes utilisées par NLP-HUB pour une langue donnée. La coche verte qui figure à gauche de l'algorithme montre quels sont les algorithmes qui sont capables de détecter le type d'entités nommées sélectionné. Dans notre cas, les trois algorithmes cochés sont donc tous les trois capables de détecter des entités nommées de type "Location".

Télécharger les résultats

(= vous pouvez télécharger la totalité des résultats dans un fichier JSON, en cliquant ici) La sortie fournie par NLP-HUB n'est téléchargeable qu'au format JSON. Vous pouvez donc télécharger les résultats de votre annotation en cliquant sur le "here" (= ici) bleu au dessus à gauche de la case de texte.