Archives 2015

Informations

Une nouvelle version 0.1.5 est disponible.

Elle comprend les raccourcis de Transcriber classic les plus importants (voir ci-dessous), une sauvegarde correcte des paramètres, et une implémentation de la touche ENTRÉE à la Transcriber classic (insertion de coupure de ligne en pleine ligne). Également, j'ai essayé de réduire le nombre de raccourcis de lancement du programme à un seul, mais je n'ai complétement réussi que sur Mac. On verra après pour faire mieux sur PC, mais il y a quand même une amélioration, le serveur lance aussi directement une fenêtre navigateur. L'autre raccourci sert à lancer d'autres fenêtres navigateur (ce que l'on peut aussi faire directement avec les signets par exemple).

Il faut absolument avoir une discussion sur le thème du maniement de l'outil et des cas où plusieurs locuteurs parlent en même temps. En effet, l'outil actuel est nettement différent de Transcriber classic sur un point fondamental ! C'est que les énoncés ont un alignement de début et de fin. Cela veut dire que l'on peut indiquer temporellement de manière précise toutes les superpositions que l'on veut.

Du coup les marques symboliques à l'intérieur des énoncés sont moins vitales. Ou alors on pourrait envisager de faire des marques temporelles, par exemple avec une touche pour marquer en cours d'énoncé. Surtout, cela rend optionnel le marquage des tours à la Transcriber classic (avec la notion somme toute bizarre de tour multiple). Ou plus exactement le tour devient une information cosmétique (importante certes) mais qui ne sert pas à indiquer une superposition puisque la superposition est indiquée par le temps.

Il reste donc du coup à réaliser un interface visuelle de saisie agréable pour noter précisément les points temporels (ce que je prévois à partir du moment où on se met d'accord sur les fonctionnalités de base).

Par ailleurs pour utiliser l'outil il y a quelques notes importantes par rapport au maniement:

  • (1) Tab fait marche arrêt et positionne la ligne en cours en fonction du temps sur le média.
  • (2) Alt-Tab fait marche arrêt et remet le temps à sa valeur de début d'énoncé.
  • (3) F1 fait un simple marche arrêt sans autre effet de bord.

Je trouve que les deux fonctions ont leur intérêts. On peut facilement échanger les touches si besoin. A vous de dire. Je n'ai pas voulu implémenter un changement du temps à la volée dès qu'on clique ou que l'on déplace le curseur et que le son est train d'être joué. Si cette fonction (qui existe dans Transcriber classic) est nécessaire, je peux la mettre en place, mais seulement sur une version locale. Je ne suis pas sûr que cela soit possible sur un serveur distant.

Par ailleurs la touche ENTREE à deux modes: insertion et remplacement.

En insertion, ENTREE en cours d'énoncé le coupe en deux (ou en crée une nouvelle si en fin de ligne) en positionnant le temps en fin d'énoncé. En remplacement, ENTREE positionne simplement le temps en fin d'énoncé et descend d'une ligne.

L'intérêt est que le mode remplacement permet d'aligner un corpus existant non-aligné mais déjà transcrit très facilement (ou de corriger une partie de sa transcription).

Enfin, n'oubliez pas qu'il est possible de créer des lignes secondaires ce qui rajoute un peu de complexité. Au stade actuel, les lignes secondaires ne sont pas faites pour être alignées, mais techniquement c'est possible si cela à un intérêt (à suivre).

Remarques sur la conception de l'outil

Fonctionnalités nécessaires pour une version de base

Raccourcis Transcriber

Je suis en train de rajouter les fonctionnalités de raccourcis Transcriber classic.

J'ai noté d'après Christophe:

  • Tab ⇒ lecture et pause (ok)
  • Entrée ⇒ segmentation (ok)
  • Alt+Right ⇒ saut en avant dans le fichier son (ok)
  • Alt+Left ⇒ saut en arrière dans le fichier son (ok)
  • Alt+Up ⇒ lit le segment précédent
  • Alt+Down ⇒ lit le segment suivant
    • (Pour ces deux touches là je ne vois pas de différence dans Transcriber classic entre Up ou Down avec et sans Alt - cela me semble faire la même chose: ligne au-dessus/au-dessous. Le fait que la ligne soit jouée ne dépend que de si on est en mode lecture, pas de ce que Alt soit pressée - ça je peux le rajouter).
  • Ctrl+t ⇒ création d'un nouveau tour de parole
Christophe Benzitoun

- Lorsque l'on ouvre un fichier au format trs ou teiml, le logiciel ne tient compte que des tours de parole. Les points de synchronisation intermédiaire sont ignorés. Il serait sans doute utile de séparer les tours de parole et les points de synchronisation texte/son. Concrètement, il faudrait pouvoir avoir plusieurs segments temporels à l'intérieur d'un même Turn. Les Turn seraient séparés par des lignes noires et les segments seulement par des retours à la ligne.

Réponse Christophe Parisse

En fait il est possible de positionner tout énoncé où tu veux, que ce soit le début ou la fin. Tu peux avoir par exemple:

  • loc1: 05:00 – 09:00 - bon c'est le début
  • loc1: 11:00 – 14:00 - je parle et tu me coupes la parole
  • loc2: 12:00 – 13:00 - enfin j'essaye
  • loc3: 12:30 – 15:00 - taisez vous
  • loc1: 18:00 – 20:00 - alors on se calme

Alors on peut aussi faire:

  • —————–Turn———————-
  • loc1: 05:00 – 09:00 - bon c'est le début
  • —————–Turn———————-
  • loc1: 11:00 – 14:00 - je parle [et tu me coupes la] parole
  • loc2: 12:00 – 13:00 - [enfin j'essaye]
  • loc3: 12:30 – 15:00 - [taisez] vous
  • —————–Turn———————-
  • loc1: 18:00 – 20:00 - alors on se calme
  • —————–Turn———————-

Du coup pour moi, c'est plus une question de présentation plus que de modèle de transcription. Si c'est plus clair d'écrire les traits horizontaux on peut les inclure. En fait on peut même les calculer automatiquement ou les rendre optionnels.

J'ai mis des crochets pour symboliquement marquer l'existence de superpositions. Pareil c'est un peu une option.

Pour la représentation des superpositions, j'ai dans tous les cas l'intention de créer un petit affichage horizontal à la transcriber, donc cela ne sera peut-être pas nécessaire de surcharger avec des traits noirs et des marqueurs de tour. D'ailleurs à ce propos, une alternance de couleurs de fond en restant dans le pastel léger me parait une option alternative plus légère (mais cela c'est un test cosmétique à faire et à valider).

A nouveau Christophe Benzitoun

- Je trouve les raccourcis claviers peu pratiques car trop éloignés de la zone de saisie des caractères alphabétiques. A l'usage, je préfère les raccourcis claviers de transcriber (mais c'est peut-être subjectif)

Typiquement c'est le genre de chose à discuter pour trouver la meilleure solution pour nous. Je suis totalement agnostique sur la question. J'ai implémenté les raccourcis de Transcriber.

- Quand on appuie sur la touche Entrée à l'intérieur d'un segment déjà transcrit, il faudrait que le logiciel créée un nouveau segment avec ce qui se situe à droite du curseur.

C'est réglé. Ce sera disponible dans la prochaine version.

Ex :

0:03:25 0:03:33 je marchais dans la rue |quand soudain l'immeuble s'est effondré derrière moi

(Je fais défiler le son et j'appuie sur la touche Entrée juste après que le locuteur ait dit le mot “rue”. Cela donne (ci-dessous))

0:03:25 0:03:28 je marchais dans la rue

0:03:28 0:03:33 quand soudain l'immeuble s'est effondré derrière moi

Remarques de Matthieu Quignard sur Transcriber et les outils de transcription pour l'oral

Aspects les plus importants de Transcriber concernant l'usage qu'on en fait à ICAR.

Enoncés mono vs. plurilocuteurs : le concept passe bien. J'avais peur qu'il y ait un clash épistémologique entre la notion de ligne et la notion de tour, mais au final, quand on parle de transcription et d'alignement audio, cette nuance passe largement au second plan. Donc on peut acter qu'il y ait des lignes avec 0 locuteur (une pause, un passage non transcrit, etc.), avec 1 locuteur, avec n locuteurs. Des locuteurs indéterminés (qu'on note ???) et des locuteurs incertains (XXX?YYY).

CB : Je ne comprends pas à quoi correspond exactement le concept d'énoncés multilocuteurs. Ce sont des énoncés produits par plusieurs locuteurs en même temps, sans que l'on puisse parler de chevauchements de parole ? Dans une assemblée par exemple quand plusieurs intervenants prennent la parole et qu'on ne sait pas exactement qui parle ?

MQ : ça peut être A commence et B finit, ou A parle et B acquiesce de temps en temps… Mais grosso modo, c'est un segment temporel qu'on n'a pas envie de découper davantage et dans lequel plusieurs personnes vont parler

CB : Sait-on qui parle ou les paroles sont-elles affectées indistinctement aux n locuteurs sans possibilité de savoir qui dit quoi ?

MQ : faudrait qu'on puisse le noter, par ex comme dans la version transcriber (official).

Alignement temporel : on doit pouvoir marquer le temps au niveau des lignes (début / fin de ligne), mais aussi au cours des lignes. C'est important quand les interventions sont longues. Ca permet de pouvoir ré-écouter des passages (notamment à la fin de tour) sans avoir à tout réécouter depuis le début de l'intervention.

Alignement interlinéaire. Cela concerne uniquement (a priori) les lignes plurilocuteurs. Ce sont des sorte des bullets qui servent à aligner les passages chevauchés. Ces bullets ne sont pas forcément reliées à une timeline (c'est mieux si elles le sont, mais les transcripteurs n'ont pas forcément le temps / ou les consignes de le faire). Elles peuvent intervenir à l'intérieur d'un mot. Visuellement, dans la mesure du possible, il faudrait restituer ce chevauchement par un alignement des segments chevauchés. Chez nous, on insère des espaces à la main (on ne rit pas).

CB: :-) ;-)

Cet alignement graphique n'est réalisable proprement que lorsque les interventions font moins d'une ligne. Sinon c'est assez complexe. L'alternative serait d'introduire des bullets numérotées. On n'aurait d'alignement graphique, mais les numéros nous indiqueraient les points de coincidences entre les interventions chevauchant/chevauchees. Cela n'existe pas dans Transcriber. Ca correspondrait à des Sync sans attribut @time, mais avec un attribut @n. Mais c'est un peu plus complexe (ça peut couper des mots). En TEI ca serait des <anchor> qui seraient synchées entre elles, sans forcément référer à un <when>. A l'intérieur d'un mot : <w>chevau<anchor/>chement</w>

Transcription vs. Annotation. C'est un point discutable. Nous, on aime bien différencier (police, couleur, fond) le texte qui correspond à la transcription (du verbal prononcé transcrit) du texte correspondant à de l'annotation (marqueur de rire, de pause, de prosodie, etc.). Quand j'écris ((rire)), le locuteur n'a pas dit 'rire', il a produit quelque chose que je qualifie de rire et que je note ainsi. Ça permet de faire ressortir le texte dit, plus ou moins consensuel, et met dans un autre plan les annotations qui sont en général dans une convention plus ou moins particulière. Et pour les étudiants, c'est très pédagogique.

CB: C'est une question intéressante. Après avoir pas mal réfléchi aussi à cette question, j'en arrive à la même conclusion que toi. Il faut distinguer transcription (i.e. paroles prononcées) et annotation (i.e. événements, bruits et autres). A charge pour nous de faire une liste aussi exhaustive que possible de ce que l'on souhaite mettre dans cette couche d'annotation. Mais on y gagnera en lisibilité je pense…

CP: ici clairement on doit pouvoir utiliser un jeu de couleurs

Partition/Liste : les deux sont utiles. La Partition pour savoir où on en est dans le signal et parce que les chevauchements y sont bien rendus. La Liste, pour taper au km, y a rien de mieux. La difficulté est de gérer la synchro entre les deux.

Fonctions utiles : – Chercher/Remplacer – Aller à [timing] – Zoomer sur l'audiogramme pour repérer les pauses. – Sélectionner un segment dans l'audiogramme ⇒ indiquer start/end/duree. Super utile pour coder les pauses.

Toutes ces fonctions seront implémentées dans la version finale, je suis d'accord à 100%.

Méthode pour transcrire : Passe n°1 : on segmente temporellement à la fin des prises de parole sur une bonne minute (ça va nous occuper pendant une petite heure). Passe n°2 : on retravaille la segmentation début, fin. On attribue les locuteurs. On transcrit un peu. On sous-segmente les interventions longues. On a alors un squelette temporel assez propre. Passe n°3 et suivantes : on réécoute segment par segment pour affiner la transcription, annoter, ajuster les chevauchements. On ne travaille plus sur le temporel.

CB: Dans TCOF, on a une tout autre stratégie. Mais ça tombe bien, le logiciel permet de faire les deux :-) On transcrit en même temps que l'on segmente. On écoute le signal et on transcrit en même temps, en faisant des retours réguliers et répétés en arrière dans le son pour réécouter des portions. Et une fois qu'on est content de nous et qu'il y a une pause qui le permet, on segmente. Ensuite, pour la correction, on réécoute le tout.

Archives du 23 janvier 2014

public/archive.txt · Last modified: 2016/04/14 12:52 by cg
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0