WorldCat Identities

Laprie, Yves

Overview
Works: 33 works in 35 publications in 2 languages and 49 library holdings
Roles: Other, Thesis advisor, Author, Editor, Opponent
Publication Timeline
.
Most widely held works by Yves Laprie
Proceedings of the 8th international Seminar on speech production by International Seminar on Speech Production( Book )

1 edition published in 2008 in English and held by 3 WorldCat member libraries worldwide

Outils, travaux et propositions pour le décodage acoustico-phonétique by Yves Laprie( Book )

2 editions published in 1990 in French and held by 2 WorldCat member libraries worldwide

Cette thèse est consacrée à l'approche experte du décodage acoustico-phonétique de la parole continue. Nous décrivons tout d'abord l'environnement logiciel à la disposition du chercheur. Nous avons développé un logiciel, Snorri, qui fournit les outils classiques pour enregistrer et restituer les signaux de parole, calculer et afficher des spectrogrammes mais aussi des outils spécifiquement conçus pour l'exploration des corpus de parole. Nous décrivons ensuite deux algorithmes destinés au suivi de formants. Le premier construit des pistes à partir de données cepstrales ou provenant du codage par prédiction linéaire ; le second effectue l'interprétation en termes de formants des résultats de l'algorithme précédent. Finalement, nous proposons une nouvelle approche du décodage acoustico-phonétique en utilisant des triplets qui sont des prototypes de sons en contexte. Ce système de décodage opère en deux étapes : d'abord les meilleurs triplets candidats sont proposés pour chacun des segments de parole ; la consistance de la solution globale est ensuite améliorée en utilisant des techniques de relaxation
Production des consonnes plosives du français : du contrôle des bruits de plosion by Thibault Cattelain( )

1 edition published in 2019 in French and held by 2 WorldCat member libraries worldwide

L'étude de la production des consonnes occlusives (/p/, /b/, etc) a un intérêtparticulier pour la compréhension du contrôle moteur de la production de la parole. Eneffet, la production de ces consonnes requiert une coordination fine des 3 niveaux deproduction : respiration, vibration des cordes vocales, articulation.L'objectif de mes travaux de thèse est d'étudier la coordination des gestesrespiratoires, laryngés et articulatoires permettant de contrôler la variation de certains traits acoustiques des consonnes occlusives, plus spécifiquement les caractéristiques acoustiques de leurs bruits de plosion (intensité, durée, spectre, cruciaux pour l'intelligibilité des consonnes occlusives). Une partie importante de mes travaux de thèse s'intéresse également au contrôle musculaire de cette coordination gestuelle.Ces objectifs demandent un travail méthodologique préliminaire pour comparer,développer et implémenter différentes techniques de mesure et d'estimation des effortsarticulatoires de production de parole, à différents points de vue, physiologiques etmécaniques (cinématique du mouvement labial, capteurs de force, électromyographieorofaciale). L'exploration de ces questions a donné lieu à l'acquisition d'une large base de données (acoustiques et physiologiques) de production de consonnes occlusives du français chez une vingtaine de locuteurs adultes sains, incluant 2 modes de phonation (modal et chuchoté), 2 débits de parole (normal et rapide) et plusieurs niveaux d'effort articulatoire.L'analyse de cette base de données a permis de confirmer certaines relations déjà établies en parole conversationnelle entre l'intensité acoustique du bruit de plosion et le maximum de Pression Intra-Orale (ou la vitesse d'ouverture des lèvres pour les consonnes labiales), et entre les paramètres spectraux du bruit de plosion (skewness et kurtosis) et les paramètres articulatoires de déplacement de la langue pour les consonnes alvéolaires et vélaires.D'autres relations (non décrites dans la littérature) ont été observées en paroleconversationnelle : 1- l'intensité acoustique du bruit de plosion augmente lorsque le degré de compression labial et la vitesse de fermeture des lèvres augmentent pour les consonnes labiales ; 2- l'intensité acoustique du bruit de plosion augmente lorsque la vitesse tangentielle du mouvement d'élévation de la langue augmente pour les consonnespalatales ; 3- le degré de compression labial, les vitesses de fermeture et d'ouverture des lèvres augmentent significativement lorsque les activités des muscles Orbicularis Oris Supérieur (OOS) et Dépresseur de la Lèvre Inférieure (DLI) augmentent (dans les phases du mouvement où ils sont agonistes). Ces relations évoluent en fonction du mode de phonation (l'accent est mis en qualité chuchotée sur l'utilisation de paramètres cinématiques au détriment des paramètres aérodynamiques, articulatoires et temporels) et du débit de parole (la plupart des paramètres physiologiques et articulatoires perdent avec le débit leur efficacité de contrôle des caractéristiques acoustiques)
COSMO : un modèle bayésien des interactions sensori-motrices dans la perception de la parole by Raphael Laurent( )

1 edition published in 2014 in French and held by 2 WorldCat member libraries worldwide

While speech communication is a faculty that seems natural, a lot remainsto be understood about the nature of the cognitive representations and processes that are involved. Central to this PhD research is the study of interactions between perception and action during production or perception of syllables. We choose Bayesian Programming as a rigorous framework within which we provide a mathematical definition of the COSMO model ("Communicating Objects using Sensori-Motor Operations"), which allows to formalize motor, auditory and perceptuo-motor theories of speech communication and to study them quantitatively. This approach first leads to a strong theoretical result:we prove an indistinguishability theorem, according to which, given some ideal learning conditions, motor and auditory theories make identical predictions for perception tasks, and therefore cannot be distinguished empirically. To depart from these conditions, we introduce an original “learning by accommodation” algorithm, which enables to adapt to the ambient acoustic environment as well as to develop idiosyncrasies. This algorithm, which learns by mimicking acoustic targets, allows to acquire motor skills from acoustic inputs only, with the remarkable property of focusing its learning on the adequate regions. We use syllables synthesized by a vocal tract model (VLAM ) to analyse how thedifferent models evolve through learning and how robust they are to degradations
Techniques d'analyse et de synthèse de la parole appliquées à l'apprentissage des langues by Vincent Colotte( Book )

2 editions published in 2002 in French and held by 2 WorldCat member libraries worldwide

Nowadays when exchanges between people are more and more international, foreign language grasp is becoming essential. The computer-assisted language learning seems to be a new stake. In particular, the improvement of oral comprehension constitutes one of keys to control a language. To improve intelligibility, I work out a first strategy based on selective slowing down of speech signal. The transitory parts - regions of high acoustic cue concentration - turns out to be privileged candidates to the slowing down. The detection of these regions is based on the computation of a coefficient which reflects spectrum variation rate. I work out a second strategy which enhances relevant events of speech, i.e. that its amplification improves intelligibility. This strategy is based on the preservation of phonetic contrasts, in particular between voiced and unvoiced consonants. Thus, I developed an algorithm of detection of unvoiced plosives and unvoiced fricatives from criteria on energy. Two experiments of perception have been carried out to validate these strategies of intelligibility improvement: the first, preliminary, with French listeners on American sentences and the second with foreign students (learning French as foreign language) on French sentences. At last, to modify the prosodic elements (rhythm, intensity, fundamental frequency), my work was based on PSOLA method (Pitch Synchronous OverLap and Add). I work out an algorithm of pitch marking and I improve the accuracy of synthesis method. These strategies are totally automatic and allow to improve intelligibility of speech signal in the framework of language learning
Designing a Bilingual Speech Corpus for French and German Language Learners: a Two-Step Process by Camille Fauth( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

On the assessment of computer-assisted pronunciation training tools by Jürgen Trouvain( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

Contribution expérimentale et théorique à l'analyse et la modélisation de la vibration des cordes vocales by Anne Bouvet( )

1 edition published in 2019 in English and held by 2 WorldCat member libraries worldwide

The production of the human voice is generated by vocal folds auto-oscillation, due to the interaction between the air flow coming from the lungs and the elastic structure of the vocal folds. The purpose of this thesis is to realise an experimental and theoretical study in order to improve the understanding and modelling of this phenomenon and some of its perturbations.Firstly, the MSePGG algorithm is proposed for the calibration of a non-invasive device for in vivo glottal area measurements. The algorithm is validated on mechanical replicas and illustrated for measurements on human speakers.Secondly, the vocal folds are covered by a thin layer of liquid, essential for phonation. An experimental approach is proposed to systematically study the influence of the presence of liquid on vocal fold replicas. Water spraying is shown to impact basic voice parameter as well as their perturbation. A simplified theoretical flow model accounting for the presence of both air and water is proposed and validated.Thirdly, the effect of vertical vocal fold angular asymmetry, as occurring in the case of unilateral vocal fold paralysis, on the fluid structure interaction is experimentally assessed. It is found that loss of vocal folds full contact leads to important variation on phonation features and their variations.A simple theoretical model is shown to fit the increase of auto-oscillation onset threshold pressure. For future clinical applications obtained results suggest the further development of the MSePGG device and illustrate the multiple of potential causes of voice perturbation
Rôle des relations perception-action dans la communication parlée et l'émergence des systèmes phonologiques : étude, modélisation computationnelle et simulations by Clément Moulin-Frier( )

1 edition published in 2011 in French and held by 2 WorldCat member libraries worldwide

Si la question de l'origine du langage reste d'un abord compliqué, celle de l'origine des formes du langage semble plus susceptible de se confronter à la démarche expérimentale. Malgré leur infinie variété, d'évidentes régularités y sont présentes~: les universaux du langage. Nous les étudions par des raisonnements plus généraux sur l'émergence du langage, notamment sur la recherche de précurseurs onto- et phylogénétiques. Nous abordons trois thèmes principaux~: la situation de communication parlée, les architectures cognitives des agents et l'émergence des universaux du langage dans des sociétés d'agents. Notre première contribution est un modèle conceptuel des agents communicants en interaction, issu de notre analyse bibliographique. Nous en proposons ensuite une formalisation mathématique Bayésienne~: le modèle d'un agent est une distribution de probabilités, et la production et la perception sont des inférences bayésiennes. Cela permet la comparaison formelle des différents courants théoriques en perception et en production de la parole. Enfin, nos simulations informatiques de société d'agents identifient les conditions qui favorisent l'apparition des universaux du langage
Uncontrolled manifolds et réflexes à courte latence dans le contrôle moteur de la parole : une étude de modélisation by Andrew Szabados( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

Ce travail exploite un modèle biomécanique de la production de la parole comme sujet de référence pour étudier plusieurs phénomènes liés à l'adaptabilité et à la stabilité du contrôle moteur de la parole, en particulier l'équivalence motrice et le contrôle postural.La première partie de cette thèse s'intéresse au phénomène de l'équivalence motrice. L'équivalence motrice est une caractéristique essentielle du contrôle moteur de la parole, car les locuteurs doivent s'adapter constamment à des contextes phonétiques toujours différents et à conditions variables de production de la parole. Le concept de « Uncontrolled Manifold » (UCM) offre un cadre théorique pour comprendre les mécanismes sous-jacents à l'équivalence motrice : il propose de représenter la coordination entre les variables de contrôle moteur en deux sous-espaces séparés, un dans lequel tout changement des variables de contrôle affectent la sortie et un autre dans lequel ces changements n'influencent aucunement la sortie.Ce concept est développé et étudié pour la production de la parole en utilisant un modèle biomécanique 2D du conduit vocal. D'abord, une représentation des UCM linéarisées basée sur des matrices de projection orthogonale est proposée. Les UCM de différentes configurations du conduit vocal des 10 voyelles orales françaises sont ensuite caractérisées en étudiant les réponses aux perturbations de leurs commandes. On étudie alors si chaque catégorie phonétique, telle que les phonèmes, les voyelles antérieures/postérieures, ou les voyelles arrondies/non-arrondies, peut être caractérisée par une UCM unique ou si les UCM varient considérablement entre les différents représentants de chacune de ces classes. On a constaté que les UCM linéarisées, celles qui sont spécifiquement calculées pour chaque configuration du conduit vocal, mais aussi celles, plus globales, des classes phonétiques, permettent une réponse efficace aux perturbations des commandes. Cela suggère que des stratégies équivalentes d'équivalence motrice peuvent être mises en œuvre dans chacune de ces classes et que les UCM en fournissent des caractérisations exploitables. Des suggestions sont faites pour de futurs travaux pour déterminer quelles classes pourraient être utilisées dans la pratique.La deuxième partie étudie dans quelle mesure le contrôle postural de la langue exploit des mécanismes passifs - tels que les propriétés mécaniques et élastiques intrinsèques de la langue- ou des réflexes à faible latence - comme le réflexe d'étirement.Une perturbation en force a été appliquée au modèle biomécanique 2D, dans laquelle la langue est tirée vers l'avant par une force exercée sur le corps de la langue à l'aide d'un robot relié à la partie supérieure de la lame de la langue. Les simulations ont été comparées à des données expérimentales recueillies au Gipsa-lab dans des conditions similaires.Cette perturbation a été simulée avec différentes valeurs du paramètre qui dans le modèle module le feedback induit par l'étirement des fibres musculaires. Les résultats ont montré un effet de rebond dans les mouvements de la langue suite à la perturbation qui est imputable au mécanisme réflexe. Étant donné qu'un rebond similaire est observé dans les données expérimentales sur des sujets humains, ce résultat suggère qu'un mécanisme réflexe joue un rôle significatif dans la stabilité posturale de la langue. Les caractéristiques temporelles de ce réflexe ont été analysées et il s'avère que la précision du modèle est insuffisante pour tirer des conclusions sur l'origine, corticale ou spinale, de ce réflexe. Des pistes pour de futures études expérimentales sont proposées
What makes 'mama' and 'papa' acceptable? Experiments with a replica of von Kempelen's speaking machine by Fabian Brackhane( )

1 edition published in 2015 in English and held by 2 WorldCat member libraries worldwide

Glottal Opening Measurements in VCV and VCCV Sequences by Yves Laprie( )

1 edition published in 2019 in English and held by 2 WorldCat member libraries worldwide

Designing a bilingual speech corpus for French and German language learners by Jürgen Trouvain( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

Acoustic Evaluation of Simplifying Hypotheses Used in Articulatory Synthesis by Ioannis Douros( )

1 edition published in 2019 in English and held by 2 WorldCat member libraries worldwide

The IFCASL Corpus of French and German Non-native and Native Read Speech by Jürgen Trouvain( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

Global active method for automatic formant tracking guided by local processing by Marie-Odile Berger( Book )

1 edition published in 1992 in English and held by 1 WorldCat member library worldwide

Modélisation de la coarticulation labiale : mise en oeuvre sur une tête parlante by Vincent Robert( )

1 edition published in 2008 in French and held by 1 WorldCat member library worldwide

Cette thèse s'inscrit dans une étude sur l'élaboration d'une tête parlante. Nous nous intéressons tout particulièrement à la prédiction du mouvement de coarticulation des lèvres et de la mâchoire. Après avoir analysé les variations intra et interlocuteur des paramètres labiaux de deux corpora audiovisuels, nous avons conçu un algorithme de prédiction de la coarticulation basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires des lèvres et de la mâchoire en utilisant un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui ont été jugées pertinentes par notre algorithme de prédiction phonétique, et qui sont soit extraites du corpus, soit obtenues par complétion. Nous avons modélisé les mouvements articulatoires par des sigmoïdes qui offrent l'avantage de réduire considérablement la taille du modèle construit et permettent de s'adapter facilement à des vitesses d'élocution ou des stratégies articulatoires particulières tout en conservant les contrastes distinctifs entre les sons successifs et leurs caractéristiques intrinsèques. Afin d'estimer la qualité de notre synthèse, nous avons mesuré les différences entre les signaux réels et synthétisés sur l'ensemble des phrases du corpus et nous avons comparé notre solution avec l'algorithme de Cohen et Massaro. Nous avons montré que notre synthèse est meilleure pour certaines séquences spécifiques de type VCCV où l'anticipation est plus complexe
Perturbation de la production de la parole chez le patient atteint d'une paralysie laryngée : données acoustiques et aérodynamiques by Noé Xiu( )

1 edition published in 2018 in French and held by 1 WorldCat member library worldwide

Our thesis aims at studying the consequences of total or partial removal of the thyroid gland due to thyroid dysfunction, followed or not by a radiotherapy treatment, in the field of clinical phonetics. This type of intervention usually perturbs the speech production system and sometimes leads to permanent (less than 5% of cases) or transient degradation of voice quality. The work intends to be a contribution to research carried out in clinical linguistics and phonetics, more particularly in the area of compensatory or readjustment phenomena developed by patients, following perturbation provoked in their phonatory system. The work was carried out in collaboration with the Group Saint-Vincent Hospital, and more particularly with the Clinique Sainte-Anne of Strasbourg, within the department of thyroid surgery. Our study is longitudinal since we have followed a cohort of patients, who underwent thyroid gland surgery, for at least one year, acquiring acoustic and aerodynamic data every month, the postoperative examination having revealed or not a lesion in the mobility of the vocal folds. We have studied possible compensation or readjustment strategies that patients were able to deploy by themselves or with the help of speech therapy, in order to assess the flexibility of the speech production system. The purpose is thus to evaluate the flexibility of the speech production and perception system and to try to understand how this system works based on a specific dysfunction of pathological origin. It is thus a question of determining the limits of physical deviations imposed by linguistic requirements of clarity of the speech perception system. Through the various investigations that we have conducted, we have tried to account for possible viability of perceptually stable phonetic and phonological units, despite an omnipresent variability in the physical, articulatory, physiological and acoustic substrate. Particular attention is paid to societal dimensions related to quality of life (vocal fatigue, satisfaction of linguistic productions, self-esteem, etc.)
Articulatory speech synthesis by Anastasiia Tsukanova( )

1 edition published in 2019 in English and held by 1 WorldCat member library worldwide

The thesis is set in the domain of articulatory speech synthesis and consists of three major parts: the first two are dedicated to the development of two articulatory speech synthesizers and the third addresses how we can relate them to each other. The first approach results from a rule-based approach to articulatory speech synthesis that aimed to have a comprehensive control over the articulators (the jaw, the tongue, the lips, the velum, the larynx and the epiglottis). This approach used a dataset of static mid-sagittal magnetic resonance imaging (MRI) captures showing blocked articulation of French vowels and a set of consonant-vowel syllables; that dataset was encoded with a PCA-based vocal tract model. Then the system comprised several components: using the recorded articulatory configurations to drive a rule-based articulatory speech synthesizer as a source of target positions to attain (which is the main contribution of this first part); adjusting the obtained vocal tract shapes from the phonetic perspective; running an acoustic simulation unit to obtain the sound. The results of this synthesis were evaluated visually, acoustically and perceptually, and the problems encountered were broken down by their origin: the dataset, its modeling, the algorithm for managing the vocal tract shapes, their translation to the area functions, and the acoustic simulation. We concluded that, among our test examples, the articulatory strategies for vowels and stops are most correct, followed by those of nasals and fricatives. The second explored approach started off a baseline deep feed-forward neural network-based speech synthesizer trained with the standard recipe of Merlin on the audio recorded during real-time MRI (RT-MRI) acquisitions: denoised (and yet containing a considerable amount of noise of the MRI machine) speech in French and force-aligned state labels encoding phonetic and linguistic information. This synthesizer was augmented with eight parameters representing articulatory information--the lips opening and protrusion, the distance between the tongue and the velum, the velum and the pharyngeal wall and the tongue and the pharyngeal wall--that were automatically extracted from the captures and aligned with the audio signal and the linguistic specification. The jointly synthesized speech and articulatory sequences were evaluated objectively with dynamic time warping (DTW) distance, mean mel-cepstrum distortion (MCD), BAP (band aperiodicity prediction error), and three measures for F0: RMSE (root mean square error), CORR (correlation coefficient) and V/UV (frame-level voiced/unvoiced error). The consistency of articulatory parameters with the phonetic label was analyzed as well. I concluded that the generated articulatory parameter sequences matched the original ones acceptably closely, despite struggling more at attaining a contact between the articulators, and that the addition of articulatory parameters did not hinder the original acoustic model. The two approaches above are linked through the use of two different kinds of MRI speech data. This motivated a search for such coarticulation-aware targets as those that we had in the static case to be present or absent in the real-time data. To compare static and real-time MRI captures, the measures of structural similarity, Earth mover's distance, and SIFT were utilized; having analyzed these measures for validity and consistency, I qualitatively and quantitatively studied their temporal behavior, interpreted it and analyzed the identified similarities. I concluded that SIFT and structural similarity did capture some articulatory information and that their behavior, overall, validated the static MRI dataset. [...]
Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data by Ioannis Douros( )

1 edition published in 2020 in English and held by 1 WorldCat member library worldwide

In this thesis we used MRI (Magnetic Resonance Imaging) data of the vocal tract to study speech production. The first part consist of the study of the impact that the velum, the epiglottis and the head position has on the phonation of five french vowels. Acoustic simulations were used to compare the formants of the studied cases with the reference in order to measure their impact. For this part of the work, we used 3D static MR (Magnetic Resonance) images. As speech is usually a dynamic phenomenon, a question arose, whether it would be possible to process the 3D data in order to incorporate dynamic information of continuous speech. Therefore the second part presents some algorithms that one can use in order to enhance speech production data. Several image transformations were combined in order to generate estimations of vocal tract shapes which are more informative than the original ones. At this point, we envisaged apart from enhancing speech production data, to create a generic speaker model that could provide enhanced information not for a specific subject, but globally for speech. As a result, we devoted the third part in the investigation of an algorithm that one can use to create a spatiotemporal atlas of the vocal tract which can be used as a reference or standard speaker for speech studies as it is speaker independent. Finally, the last part of the thesis, refers to a selection of open questions of the field that are still left unanswered, some interesting directions that one can expand this thesis and some potential approaches that could help someone move forward towards these directions
 
moreShow More Titles
fewerShow Fewer Titles
Audience Level
0
Audience Level
1
  Kids General Special  
Audience level: 0.96 (from 0.92 for Proceeding ... to 0.97 for Proceeding ...)

Languages
English (13)

French (9)