WorldCat Identities

Yvon, François

Overview
Works: 74 works in 96 publications in 2 languages and 1,007 library holdings
Genres: Bibliographies 
Roles: Publishing director, Thesis advisor, Opponent, Other, dgs, Author, Editor, Contributor
Publication Timeline
.
Most widely held works by François Yvon
Textual information access : statistical models by Eric Gaussier( )

12 editions published between 2012 and 2013 in English and held by 852 WorldCat member libraries worldwide

This book presents statistical models that have recently been developed within several research communities to access information contained in text collections. The problems considered are linked to applications aiming at facilitating information access:- information extraction and retrieval;- text classification and clustering;- opinion mining;- comprehension aids (automatic summarization, machine translation, visualization). In order to give the reader as complete a description as possible, the focus is placed on the probability models used in the applications
Modèles statistiques pour l'accès à l'information textuelle( Book )

1 edition published in 2011 in French and held by 31 WorldCat member libraries worldwide

Investigations on machine translation system combination by Markus Freitag( )

1 edition published in 2016 in English and held by 14 WorldCat member libraries worldwide

Modèles Statistiques Pour l'accès à l' Information Textuelle by Eric Gaussier( )

1 edition published in 2011 in French and held by 9 WorldCat member libraries worldwide

Machine translation by François Yvon( )

in English and held by 5 WorldCat member libraries worldwide

Optimisation du graphe de décodage d'un système de reconnaissance vocale par apprentissage discriminant by Shiuan-Sung Lin( Book )

2 editions published in 2007 in English and held by 3 WorldCat member libraries worldwide

The three main knowledge sources used in the automatic speech recognition (ASR), namely the acoustic models, a dictionary and a language model, are usually designed and optimized in isolation. Our previous work proposed a methodology for jointly tuning these parameters, based on the integration of the resources as a finite-state graph, whose transition weights are trained discriminatively. In this training framework, parameter optimization is performed on a static decoding graph, whose transition weights are iteratively adjusted. We extend our previous work to a much more complex large-vocabulary task: French radio broadcast news database (ESTER). We also propose several fast decoding techniques to make the training practical. Experiments show that a reduction of 1% absolute of word error rate (WER) can be obtained, demonstrating the effectiveness of this training framework. In addition, we also investigate the strengths and shortcomings of this approach and discuss the new directions it opens
Prononcer par analogie : motivation, formalisation et évaluation by François Yvon( Book )

3 editions published in 1996 in French and held by 3 WorldCat member libraries worldwide

La transcription de textes écrits en la séquence de phonèmes correspondante est une étape importante dans de nombreuses applications du traitement automatique du langage et de la parole. Cette opération est traditionnellement réalisée par des systèmes de règles de récriture dépendant du contexte, auxquels sont adjoints, dans des proportions variables, des dictionnaires stockant les formes phonétiques des lexies les plus communes et/ou les plus exceptionnelles. Tirant les conséquences de la grande difficulté de conception que posent ces systèmes de règles, des limites intrinsèques de l'approche par règle, et, par contraste, de la disponibilité croissante de vastes lexiques phonétiques, en particulier de noms propres, et de procédure permettant de les exploiter efficacement, ce travail envisage le développement de méthodes d'apprentissage de systèmes de transcriptions à partir de connaissances lexicales. Nous procédons dans un premier temps a une revue critique des multiples approches classificatoires de ce problème, qui considère cet apprentissage sous l'angle de l'inférence de fonctions discriminantes statistiques (réseaux de neurones, arbres de décision, plus proches voisins, etc). Dans cette optique, le lexique est essentiellement considéré comme un ensemble de lettres, chaque lettre étant appariée avec le phonème correspondant, à partir duquel il s'agit d'inférer des règles de classement des symboles graphiques. Les problèmes pratiques et théoriques qu'une telle démarche soulevé sont passés en revue et illustres par de nombreux résultats obtenus à l'aide d'une méthode d'extraction d'arbres de décision. Une première alternative aux systèmes classificatoires est ensuite développée, qui consiste à envisager la transcription des mots hors-lexique par recombinaison (exemplairement la juxtaposition) de fragments de taille variable d'entrées lexicales. Nous étendons les algorithmes existants, et proposons plusieurs mécanismes de construction et d'évaluation des multiples recombinaisons envisageables. Le principal résultat de cette étude est la définition d'un critère structurel d'évaluation des transcriptions, fonde sur le concept de recouvrement entre fragments adjacents, et à l'aide duquel nous obtenons des performances significativement meilleures que celles obtenues avec un algorithme classificatoire de référence. Une seconde alternative aux systèmes classificatoires est finalement présentée, au fondement de laquelle l'idée que les lexiques de langage naturel sont bien plus que des collections d'objets indépendants, mais possèdent un mode d'organisation extrêmement riche que nous cherchons à capturer à travers le concept de paradigme. Dans cette nouvelle optique, les chaines graphiques hors-lexiques sont prononcées en deux temps. Une première étape consiste à leur appliquer des récritures hors-contexte judicieusement choisies, de manière à reconstituer une ou des lexies existantes (les lexies analogues). Ces récritures, qui correspondent exemplairement à des dérivations morphologiques, sont extraites automatiquement du lexique d'exemples. Le second temps de la procédure consiste à appliquer en retour aux transcriptions des analogues des transformations non-contextuelles dans le domaine phonétique, transformations qui ont préalablement été couplées aux transformations graphiques utilisées dans l'étape de recherche des analogues. Nous montrons les bénéfices d'un tel changement d'optique, aussi bien en terme de modélisation des phénomènes analogiques, de pertinence linguistique, et de qualité des transcriptions produites. Des expériences complémentaires dans lesquelles une telle démarche est appliquée avec succès a l'apprentissage de la conjugaison des verbes anglais sont également présentées
Construction et réduction de la base de parole adaptées à une application spécifique de la synthèse par corpus by Aleksandra Krul( Book )

2 editions published in 2008 in French and held by 2 WorldCat member libraries worldwide

Cette thèse s'inscrit dans le domaine de la synthèse de la parole à partir du texte et traite, plus précisément, de la synthèse par corpus. Nous abordons le problème de la construction d'un corpus textuel support de la base de parole utilisée pour synthétiser un énoncé donné. Cette problématique est habituellement abordée comme une recherche d'un corpus aussi petit que possible répondant à un certain nombre de spécifications linguistiques concernant la distribution des unités dans ce corpus (problème de recouvrement d'ensemble). La solution qui a été la plus exploitée pour résoudre ce problème est l'application d'une méthode plus ou moins gloutonne consistant à sélectionner, une par une, des phrases les plus pertinentes dans un grand volume de données. Nous présentons une méthode alternative de sélection de corpus : une méthode basée sur un algorithme glouton avec la divergence de Kullback-Leibler comme critère de sélection de phrases. Cette approche vise à construire un corpus dont la distribution des unités tend vers une distribution cible fixée a priori. Nous proposons également une mise à jour efficace du critère ce qui permet de diminuer significativement le temps de sélection du corpus. Notre méthode est très flexible et permet d'accommoder facilement différentes distributions cibles. C'est pourquoi la seconde partie de notre travail porte sur l'utilisation de la méthode proposée dans le cadre de l'adaptation de la base acoustique réduite pour une application précise. Nous montrons que l'adaptation de la base réduite permet d'améliorer la qualité de la synthèse par rapport à celle obtenue avec des bases réduites mais non adaptées
The KIT-LIMSI Translation System for WMT 2015 by Thanh-Le Ha( )

1 edition published in 2015 in English and held by 2 WorldCat member libraries worldwide

Méthodes probabilistes pour l'analyse exploratoire de données textuelles by Loïs Rigouste( Book )

2 editions published in 2006 in French and held by 2 WorldCat member libraries worldwide

Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double : nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales ; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques
Apprentissage automatique de relations d'équivalence sémantique à partir du Web by Florence Duclaye( Book )

2 editions published in 2003 in French and held by 2 WorldCat member libraries worldwide

This PhD thesis can be situated in the context of a question answering system, which is capable of automatically finding answers to factual questions on the Web. One way to improve the quality of these answers is to increase the recall rate of the system, by identifying the answers under multiple possible formulations(paraphrases). As the manual recording of paraphrases is a long and expensive task, the goal of this PhD thesis is to design and develop a mechanism that learns automatically and in a weakly supervised manner the possible paraphrases of an answer. Thanks to the redundance and the linguistic variety of the information it contains, the Web is considered to be a very interesting corpus. Assimilated to a gigantic bipartite graph represented, on the one hand, by formulations and, on the other hand, by argument couples, the Web turns out to be propitious to the application of Firth's hypothesis, according to which "you shall know a word (resp. a formulation, in our case) by the company (resp. arguments) it keeps". Consequently, the Web is sampled using an iterative mechanism : formulations (potential paraphrases) are extracted by anchoring arguments and, inversely, new arguments are extracted by anchoring the acquired formulations. In order to make the learning process converge, an intermediary stage is necessary, which partitions the sampled data using a statistical classification method. The obtained results were empirically evaluated, which, more particularly, shows the value added by the learnt paraphrases of the question answering system
Reassessing the value of resources for cross-lingual transfer of POS tagging models by Nicolas Pécheux( )

1 edition published in 2016 in English and held by 2 WorldCat member libraries worldwide

Cross-lingual and Supervised Models for Morphosyntactic Annotation: a Comparison on Romanian by Lauriane Aufrant( )

1 edition published in 2016 in English and held by 2 WorldCat member libraries worldwide

Classification automatique de textes dans des catégories non thématiques by Romain Vinot( Book )

2 editions published in 2004 in French and held by 2 WorldCat member libraries worldwide

La classification automatique de textes était jusqu'à présent employée pour l'indexation documentaire. À travers quatre exemples, nous présentons quelques caractéristiques de nouveaux contextes applicatifs ainsi que leurs conséquences pour les algorithmes existants. Nous mettons en évidence le fait que Rocchio, d'ordinaire peu performant, est particulièrement adapté aux corpus bruités et à une utilisation semi-automatique mais très désavantagé avec des classes définies par plusieurs thèmes. Nous proposons une extension de Rocchio, Rocchio Multi-Prototypes, pour gérer les classes multi-thématiques en adaptant la complexité de son modèle d'apprentissage. RMP utilise un algorithme de classificationfaiblement supervisée qui détecte des sous-classes et sélectionne lesplus utiles pour la catégorisation. Nous proposons aussi un algorithme de détection de changements de concepts dans des corpus à fluxtemporel à partir du calcul du taux d'activité des sous-classes
Frustratingly Easy Cross-Lingual Transfer for Transition-Based Dependency Parsing by Ophélie Lacroix( )

1 edition published in 2016 in English and held by 2 WorldCat member libraries worldwide

Filtering artificial texts with statistical machine learning techniques by Thomas Lavergne( )

1 edition published in 2010 in English and held by 2 WorldCat member libraries worldwide

Colloque international sur la fouille de textes : CIFT'2004, La Rochelle, 23-25 juin 2004 : Semaine document numérique, La Rochelle 2004 by Colloque international sur la fouille de textes( Book )

1 edition published in 2004 in French and held by 2 WorldCat member libraries worldwide

Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles by Nicolas Stroppa( Book )

2 editions published in 2005 in French and held by 2 WorldCat member libraries worldwide

Cette thèse a pour objet l'étude de modèles à base d'analogies dans un cadre d'Apprentissage Automatique pour le Traitement Automatique des Langues Naturelles. L'approche analogique apporte une alternative à la fois aux méthodes déductives (inférence de connaissances particulières à partir de connaissances générales) et aux méthodes inductives (inférence de connaissances générales à partir de connaissances particulières). Selon ce mode de raisonnement, l'analyse d'une nouvelle entité s'effectue par comparaison avec les données disponibles ; l'inférence s'effectue directement du particulier au particulier. Dans cette approche, l'abstraction que constitue la connaissance générale impliquée à la fois dans les approches déductives et inductives n'apparaît plus comme une composante nécessaire du modèle. Par ailleurs, cette approche s'accorde bien avec l'organisation paradigmatique des données linguistiques, qui permet de mettre aisément une entité linguistique en relation avec d'autres selon des schémas spécifiques ; la connaissance linguistique reste alors implicitement représentée dans le corpus accumulé et les relations systématiques qu'entretiennent les entités le composant. Cette organisation paradigmatique invite en particulier à considérer des proportions analogiques. Un modèle d'apprentissage est présenté, qui repose sur l'exploitation de proportions analogiques. Nous introduisons la notion d'extension analogique, qui permet d'exprimer la méthode et d'identifier clairement son biais d'apprentissage. Nous proposons également un cadre algébrique formel permettant de donner un sens à la notion de proportion analogique entre objets structurés
Reassessing the proper place of man and machine in translation: a pre-translation scenario by Julia Ive( )

1 edition published in 2018 in English and held by 2 WorldCat member libraries worldwide

Morphology-Aware Alignments for Translation to and from a Synthetic Language by Franck Burlot( )

1 edition published in 2015 in English and held by 2 WorldCat member libraries worldwide

 
moreShow More Titles
fewerShow Fewer Titles
Audience Level
0
Audience Level
1
  General Special  
Audience level: 0.36 (from 0.30 for Prononcer ... to 0.97 for Textual in ...)

Textual information access : statistical models
Covers
Languages
English (24)

French (16)