WorldCat Identities

Lafourcade, Mathieu

Overview
Works: 19 works in 41 publications in 2 languages and 417 library holdings
Genres: Games  Conference papers and proceedings 
Roles: Author, Other, Opponent, Thesis advisor, Editor, Creator
Publication Timeline
.
Most widely held works by Mathieu Lafourcade
Games with a purpose (GWAPs) by Mathieu Lafourcade( )

13 editions published in 2015 in English and Undetermined and held by 329 WorldCat member libraries worldwide

Jeux et intelligence collective : résolution de problèmes et acquisition de données sur le web by Mathieu Lafourcade( Book )

7 editions published in 2015 in French and English and held by 61 WorldCat member libraries worldwide

"Les jeux avec but, ou GWAP, permettent de collecter des données ou de résoudre des problèmes trop complexes, ou trop coûteux en termes de moyens pour être résolus par des machines. Ces activités ludiques, qui représentent un type de jeu sérieux, sont délicates à concevoir, car elles doivent être à la fois attrayantes et utiles. Jeux et intelligence collective présente et analyse des GWAP à thématiques spécifiques (biologie, médecine, traitement automatique du langage, etc.). Il développe plus particulièrement le projet JeuxDeMots, un ensemble de GWAP dont l'objectif est de construire une grande base de connaissances lexicales à l'aide de jeux. L'étude de ces différents concepts permet de définir les critères qu'il est important de privilégier dans la conception d'un GWAP afin d'en faire un outil efficace pour l'acquisition de données exploitables ou la résolution de problèmes."--
Génie logiciel pour le génie linguiciel by Mathieu Lafourcade( Book )

3 editions published in 1994 in French and held by 4 WorldCat member libraries worldwide

Cette thèse concerne l'étude de différentes techniques modernes de génie logiciel qui peuvent être mises en œuvre pour développer des systèmes de Traitement Automatique des Langues Naturelles de façon générique et extensible. La première partie fait le point sur l'état de l'art en TALN à propos des Langages Spécialisés pour la Programmation Linguistique et permet d'identifier l'intégralité, l'extensibilité et la généricité comme trois qualités qu'il est souhaitable de fournir aux systèmes de TALN. La définition d'un modèle à objets (LEAF) et l'affinage d'un modèle d'architecture (tableau blanc) constituent deux premiers éléments de réponse au problème de l'intégration. Une première approche de la généricité et de l'extensibilité est également présentée avec une expérience de réingéniérie du langage LT. La seconde partie approfondit les problèmes de généricité et les illustre avec la définition d'un langage original de représentation linguistique (DECOR). L'introduction de protocoles internes et externes permet de rendre ce langage particulièrement générique et dynamique. La troisième partie fait état de la réingériérie de deux langages spécialisés (ATEF et ROBRA). Cette expérience permet d'introduire une grande extensibilité dans les moteurs de ces langages par une programmation par objets et protocoles. Une question transverse à ces trois parties concerne l'identification des limites et des écueils liés à la recherche de l'intégrabilité, de l'extensibilité et de la généricité. Ces difficultés viennent principalement de la complexité croissante des protocoles adéquats, dont la maîtrise pourrait rapidement échapper au développeur si l'on n'y prend garde
Méthodes pour informatiser des langues et des groupes de langues "peu dotées" by Vincent Berment( )

2 editions published in 2004 in French and held by 3 WorldCat member libraries worldwide

In 2004, less than 1% of the 6800 languages of the world profits from a high level of computerization, including a broad range of services going from text processing to machine translation. This thesis, which focuses on the other languages-the pi-languages- aims at proposing solutions to cure their digital underdevelopment. In a first part, intended to show the complexity of the problem, we present the languages' diversity, the technologies used, as well as the approaches of the various actrors : linguistic populations, software publishers, the United Nations, States...A technique for measuring the computerization degree of a language-the sigma-index-is proposed, as well as several optimization methods. The second part deals with the computerization of the Laotian language and concretely presents the result obtained for this language by applying the methods described previously. The described achievements contributed to improve the sigma-index of the Laotian language by approximately 4 points, this index being currently evaluated with 8.7/20. In this third part, we show that an approach by groups of languages can reduce the computerization costs thanks to the use of a modular architecture associating existing general softaware and specific complements. For the most language-related parts, complementary generic lingware tools give the populations the possibility to computerize their languages by themselves. We valited this method by applying it to the syllabic segmentation of Southeast Asian languages with unsegmented writings, such as Burmese, Khmer, Laotian and Siamese (Thai)
Interopérabilité Sémantique Multi-lingue des Ressources Lexicales en Données Liées Ouvertes by Andon Tchechmedjiev( )

2 editions published in 2016 in French and held by 3 WorldCat member libraries worldwide

When it comes to the construction of multilingual lexico-semantic resources, the first thing that comes to mind is that the resources we want to align, should share the same data model and format (representational interoperability). However, with the emergence of standards such as LMF and their implementation and widespread use for the production of resources as lexical linked data (Ontolex), representational interoperability has ceased to be a major challenge for the production of large-scale multilingual resources. However, as far as the interoperability of sense-level multi-lingual alignments is concerned, a major challenge is the choice of a suitable interlingual pivot. Many resources make the choice of using English senses as the pivot (e.g. BabelNet, EuroWordNet), although this choice leads to a loss of contrast between English senses that are lexicalized with a different words in other languages. The use of acception-based interlingual representations, a solution proposed over 20 years ago, could be viable. However, the manual construction of such language-independent pivot representations is very difficult due to the lack of expert speaking enough languages fluently and algorithms for their automatic constructions have never since materialized, mainly because of the lack of a formal axiomatic characterization that ensures the pre- servation of their correctness properties. In this thesis, we address this issue by first formalizing acception-based interlingual pivot architectures through a set of axiomatic constraints and rules that guarantee their correctness. Then, we propose algorithms for the initial construction and the update (dynamic interoperability) of interlingual acception-based multilingual resources by exploiting the combinatorial properties of pairwise bilingual translation graphs. Secondly, we study the practical considerations of applying our construction algorithms on a tangible resource, DBNary, a resource periodically extracted from Wiktionary in many languages in lexical linked data
SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères : expérimentation et évaluation sur les tweets indiens et japonais by Ritesh Shah( )

1 edition published in 2017 in English and held by 2 WorldCat member libraries worldwide

As Twitter evolves into a ubiquitous information dissemination tool, understanding tweets in foreign languages becomes an important and difficult problem. Because of the inherent code-mixed, disfluent and noisy nature of tweets, state-of-the-art Machine Translation (MT) is not a viable option (Farzindar & Inkpen, 2015). Indeed, at least for Hindi and Japanese, we observe that the percentage of "understandable" tweets falls from 80% for natives to below 30% for target (English or French) monolingual readers using Google Translate. Our starting hypothesis is that it should be possible to build generic tools, which would enable foreigners to make sense of at least 70% of “native tweets”, using a versatile “active reading” (AR) interface, while simultaneously determining the percentage of understandable tweets under which such a system would be deemed useless by intended users.We have thus specified a generic "SUFT" (System for Helping Understand Tweets), and implemented SUFT-1, an interactive multi-layout system based on AR, and easily configurable by adding dictionaries, morphological modules, and MT plugins. It is capable of accessing multiple dictionaries for each source language and provides an evaluation interface. For evaluations, we introduce a task-related measure inducing a negligible cost, and a methodology aimed at enabling a « continuous evaluation on open data », as opposed to classical measures based on test sets related to closed learning sets. We propose to combine understandability ratio and understandability decision time as a two-pronged quality measure, one subjective and the other objective, and experimentally ascertain that a dictionary-based active reading presentation can indeed help understand tweets better than available MT systems.In addition to gathering various lexical resources, we constructed a large resource of "word-forms" appearing in Indian tweets with their morphological analyses (viz. 163221 Hindi word-forms from 68788 lemmas and 72312 Marathi word-forms from 6026 lemmas) for creating a multilingual morphological analyzer specialized to tweets, which can handle code-mixed tweets, compute unified features, and present a tweet with an attached AR graph from which foreign readers can intuitively extract a plausible meaning, if any
Construction et évaluation pour la TA d'un corpus journalistique bilingue : application au français-somali by Houssein Ahmed Assowe( )

1 edition published in 2019 in French and held by 2 WorldCat member libraries worldwide

Dans le cadre des travaux en cours pour informatiser un grand nombre de langues « peu dotées », en particulier celles de l'espace francophone, nous avons créé un système de traduction automatique français-somali dédié à un sous-langage journalistique, permettant d'obtenir des traductions de qualité, à partir d'un corpus bilingue construit par post-édition des résultats de Google Translate (GT), à destination des populations somalophones et non francophones de la Corne de l'Afrique. Pour cela, nous avons constitué le tout premier corpus parallèle français-somali de qualité, comprenant à ce jour 98 912 mots (environ 400 pages standard) et 10 669 segments. Ce dernier constitue'est un corpus aligné, et de très bonne qualité, car nous l'avons construit en post-éditant les pré-traductions de GT, qui combine pour cela avec une combinaison de lason système de TA français-anglais et système de TA anglais-somali. Il Ce corpus a également fait l'objet d'une évaluation de la part depar 9 annotateurs bilingues qui ont donné une note score de qualité à chaque segment du corpus, et corrigé éventuellement notre post-édition. À partir de ce corpus, en croissance, nous avons construit plusieurs versions successives d'un système de Traduction Automatique à base de fragments (PBMT), MosesLIG-fr-so, qui s'est révélé meilleur que GoogleTranslate GT sur ce couple de langues et ce sous-langage, en termes de mesure BLEU et du temps de post-édition. Nous avons fait également une première expérience de traduction automatique neuronale français-somali en utilisant OpenNMT, de façon à améliorer les résultats de la TA sans aboutir à des temps de calcul prohibitifs, tant durant l'entraînement que durant le décodage.D'autre part, nous avons mis en place une iMAG (passerelle interactive d'accès multilingue) qui permet à des internautes somaliens non francophones du continent d'accéder en somali à l'édition en ligne du journal « La Nation de Djibouti ». Les segments (phrases ou titres) prétraduits automatiquement par notre un système de TA fr-so en ligne disponible peuvent être post-édités et notés (sur sur une échelle de 1 à 20) par les lecteurs eux-mêmes, de façon à améliorer le système par apprentissage incrémental, de la même façon que ce qui a été fait pour le système français-chinois (PBMT) créé par [Wang, 2015]
Modèles et outils pour des bases lexicales "métier" multilingues et contributives de grande taille, utilisables tant en traduction automatique et automatisée que pour des services dictionnairiques variés by Ying Zhang( )

1 edition published in 2016 in French and held by 2 WorldCat member libraries worldwide

Notre recherche se situe en lexicographie computationnelle, et concerne non seulement le support informatique aux ressources lexicales utiles pour la TA (traduction automatique) et la THAM (traduction humaine aidée par la machine), mais aussi l'architecture linguistique des bases lexicales supportant ces ressources, dans un contexte opérationnel (thèse CIFRE avec L&M).Nous commençons par une étude de l'évolution des idées, depuis l'informatisation des dictionnaires classiques jusqu'aux plates-formes de construction de vraies "bases lexicales" comme JIBIKI-1 [Mangeot, M. et al., 2003 ; Sérasset, G., 2004] et JIBIKI-2 [Zhang, Y. et al., 2014]. Le point de départ a été le système PIVAX-1 [Nguyen, H.-T. et al., 2007 ; Nguyen, H. T. & Boitet, C., 2009] de bases lexicales pour systèmes de TA hétérogènes à pivot lexical supportant plusieurs volumes par "espace lexical" naturel ou artificiel (UNL). En prenant en compte le contexte industriel, nous avons centré notre recherche sur certains problèmes, informatiques et lexicographiques.Pour passer à l'échelle, et pour profiter des nouvelles fonctionnalités permises par JIBIKI-2, dont les "liens riches", nous avons transformé PIVAX-1 en PIVAX-2, et réactivé le projet GBDLEX-UW++ commencé lors du projet ANR TRAOUIERO, en réimportant toutes les données (multilingues) supportées par PIVAX-1, et en les rendant disponibles sur un serveur ouvert.Partant d'un besoin de L&M concernant les acronymes, nous avons étendu la "macrostructure" de PIVAX en y intégrant des volumes de "prolexèmes", comme dans PROLEXBASE [Tran, M. & Maurel, D., 2006]. Nous montrons aussi comment l'étendre pour répondre à de nouveaux besoins, comme ceux du projet INNOVALANGUES. Enfin, nous avons créé un "intergiciel de lemmatisation", LEXTOH, qui permet d'appeler plusieurs analyseurs morphologiques ou lemmatiseurs, puis de fusionner et filtrer leurs résultats. Combiné à un nouvel outil de création de dictionnaires, CREATDICO, LEXTOH permet de construire à la volée un "mini-dictionnaire" correspondant à une phrase ou à un paragraphe d'un texte en cours de "post-édition" en ligne sous IMAG/SECTRA, ce qui réalise la fonctionnalité d'aide lexicale proactive prévue dans [Huynh, C.-P., 2010]. On pourra aussi l'utiliser pour créer des corpus parallèles "factorisés" pour construire des systèmes de TA en MOSES
Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné by Authoul Abdulhay( )

1 edition published in 2012 in French and held by 2 WorldCat member libraries worldwide

This study aims at the implementation and evaluation of techniques for extracting semantic relations from a multilingual aligned corpus. Firstly, our observations will focus on the semantic comparison of translational equivalents in multilingual aligned corpus. From these equivalences, we will try to extract "cliques", which ara maximum complete related sub-graphs, where all units are interrelated because of a probable semantic intersection. These cliques have the advantage of giving information on both the synonymy and polysemy of units, and providing a form of semantic disambiguation. Secondly, we attempt to link these cliques with a semantic lexicon (like WordNet) in order to assess the possibility of recovering, for the Arabic units, a semantic relationships already defined for English, French or Spanish units. These relations would automatically build a semantic resource which would be useful for different applications of NLP, such as Question Answering systems, machine translation, alignment systems, Information Retrieval...etc
Explorations in Word Embeddings : graph-based word embedding learning and cross-lingual contextual word embedding learning by Zheng Zhang( )

1 edition published in 2019 in English and held by 1 WorldCat member library worldwide

Les plongements lexicaux sont un composant standard des architectures modernes de traitement automatique des langues (TAL). Chaque fois qu'une avancée est obtenue dans l'apprentissage de plongements lexicaux, la grande majorité des tâches de traitement automatique des langues, telles que l'étiquetage morphosyntaxique, la reconnaissance d'entités nommées, la recherche de réponses à des questions, ou l'inférence textuelle, peuvent en bénéficier. Ce travail explore la question de l'amélioration de la qualité de plongements lexicaux monolingues appris par des modèles prédictifs et celle de la mise en correspondance entre langues de plongements lexicaux contextuels créés par des modèles préentraînés de représentation de la langue comme ELMo ou BERT.Pour l'apprentissage de plongements lexicaux monolingues, je prends en compte des informations globales au corpus et génère une distribution de bruit différente pour l'échantillonnage d'exemples négatifs dans word2vec. Dans ce but, je précalcule des statistiques de cooccurrence entre mots avec corpus2graph, un paquet Python en source ouverte orienté vers les applications en TAL : il génère efficacement un graphe de cooccurrence à partir d'un grand corpus, et lui applique des algorithmes de graphes tels que les marches aléatoires. Pour la mise en correspondance translingue de plongements lexicaux, je relie les plongements lexicaux contextuels à des plongements de sens de mots. L'algorithme amélioré de création d'ancres que je propose étend également la portée des algorithmes de mise en correspondance de plongements lexicaux du cas non-contextuel au cas des plongements contextuels
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique by Loïc Vial( )

1 edition published in 2020 in French and held by 1 WorldCat member library worldwide

Word Sense Disambiguation (WSD) and Machine Translation (MT) are two central and among the oldest tasks of Natural Language Processing (NLP). Although they share a common origin, WSD being initially conceived as a fundamental problem to be solved for MT, the two tasks have subsequently evolved very independently of each other. Indeed, on the one hand, MT has been able to overcome the explicit disambiguation of terms thanks to statistical and neural models trained on large amounts of parallel corpora, and on the other hand, WSD, which faces some limitations such as the lack of unified resources and a restricted scope of applications, remains a major challenge to allow a better understanding of the language in general.Today, in a context in which neural networks and word embeddings are becoming more and more important in NLP research, the recent neural architectures and the new pre-trained language models offer not only some new possibilities for developing more efficient WSD and MT systems, but also an opportunity to bring the two tasks together through joint neural models, which facilitate the study of their interactions.In this thesis, our contributions will initially focus on the improvement of WSD systems by unifying the ressources that are necessary for their implementation, constructing new neural architectures and developing original approaches to improve the coverage and the performance of these systems. Then, we will develop and compare different approaches for the integration of our state of the art WSD systems and language models into MT systems for the overall improvement of their performance. Finally, we will present a new architecture that allows to train a joint model for both WSD and MT, based on our best neural systems
Analyse automatique de micro-corpus de ressentis by Pauline Soutrenon( )

1 edition published in 2021 in French and held by 1 WorldCat member library worldwide

The work that we present is part of a collaborative research project between the University Grenoble Alpes and the company Comongo. Our research focuses on the field of Natural Language Processing (NLP) and more particularly on the automatic analysis of written productions. The core business of the company is the image management of persons. In a first step, our work consisted in transposing a focus group based approach into a distant digital practice. The data we are working on are written productions (answers to open questions) that we call feelings. In a second step, we developed a Natural Language Processing tool and integrated semantic esources to this approach for data processing.This digital transition led us to make two main hypothesis : 1. semantic resources allow a better understanding of the data, however an incremental approach to improve these resources may be necessary in order to obtain optimal results 2. the digital transition has an impact on the quality of the data and the processing.The purpose of the tool is to identify and group similar ideas in productions of very low volume (micro-corpus). This discards any notion of machine learning and this is why we propose a new way to process data with an industrial need
Contributions à l'IDM : reconstruction et alignement de modèles de classes by Jean-Rémy Falleri( Book )

in French and held by 1 WorldCat member library worldwide

Avec l'essor du paradigme MDE pour la conception de logiciels, la phase de modélisation devient de plus en plus primordiale. Durant cette phase, les concepteurs modélisent à l'aide d'un langage à classes (comme UML) un domaine particulier. Ces modèles sont utilisés ultérieurement lors de la conception. Les logiciels à développer devenant volumineux et complexes, il est fréquent que ces modèles soient développés indépendamment par des équipes distinctes. Cette thèse propose deux contributions facilitant l'intégration de modèles développés de la sorte. La première contribution est une approche qui permet de détecter de manière automatique les correspondances entre les éléments de deux modèles de classes distincts. Cette approche simplifie la mise en commun des différents modèles lors de la phase d'assemblage qui vise à intégrer tous les modèles dans un modèle de classes global. Mon approche est basée sur les travaux effectués sur l'alignement de schémas et d'ontologies. La deuxième contribution est une approche permettant d'éliminer les redondances (attributs et méthodes dupliqués) d'un modèle de classes, grâce à l'introduction de nouvelles super-classes. En effet, les redondances sont fréquentes dans les modèles développés indépendamment, car les équipes ne savent pas forcement quels attributs et méthodes ont été introduits par les autres équipes. Mon approche utilise un dérivé de l'Analyse Formelle de Concepts et des techniques de traitement des langues. En plus de la découverte de nouvelles classes abstraites, l'approche est aussi capable de découvrir des attributs et méthodes abstraits qui améliorent le niveau d'abstraction du modèle, facilitant ainsi sa réutilisation
Désambiguïsation sémantique dans le cadre de la simplification lexicale : contributions à un système d'aide à la lecture pour des enfants dyslexiques et faibles lecteurs by Mokhtar Boumedyen Billami( )

1 edition published in 2018 in French and held by 1 WorldCat member library worldwide

In recent years, a large number of technologies have been created to help people who have difficulty when reading written texts. The proposed systems integrate speech technologies (reading aloud) or visual aids (setting and/or coloring of fonts or increasing the space between letters and lines). However, it is essential to also propose transformations on the texts' content in order to have simpler and more frequent substitutes. The purpose of this thesis is to contribute to develop a reading aid system that automatically provides a simplified version of a given text while keeping the same meaning of words.The presented work addresses the problem of semantic ambiguity (quite common in natural language processing) and aims to propose solutions for Word Sense Disambiguation (WSD) by using unsupervised and knowledge-based approaches from lexico-semantic resources. First, we propose a state of the art of the WSD approaches and semantic similarity measures which are crucial for this process. Thereafter, we compare various algorithms of WSD in order to get the best of them. Finally, we present our contributions for creating a lexical resource for French that proposes disambiguated and graduated synonyms according to their level of difficulty to be read and understood. We show that our resource is useful and can be integrated in a lexical simplification of texts module
Interdisciplinary approaches to language processing : the International Conference on Human and Machine Processing of Language and Speech by International Conference on Human and Machine Processing of Language and Speech( Book )

1 edition published in 2000 in English and held by 1 WorldCat member library worldwide

Type theories and lexical networks : using serious games as the basis for multi-sorted typed systems( )

1 edition published in 2017 in English and held by 1 WorldCat member library worldwide

Inferring knowledge with word refinements in a crowdsourced lexical-semantic network( )

1 edition published in 2014 in Undetermined and held by 1 WorldCat member library worldwide

Génie logiciel pour le génie linguiciel by Mathieu Lafourcade( )

1 edition published in 2004 in French and held by 1 WorldCat member library worldwide

Cette thèse concerne l'étude de différentes techniques modernes de génie logiciel qui peuvent être mises en œuvre pour développer des systèmes de Traitement Automatique des Langues Naturelles de façon générique et extensible. La première partie fait le point sur l'état de l'art en TALN à propos des Langages Spécialisés pour la Programmation Linguistique et permet d'identifier l'intégralité, l'extensibilité et la généricité comme trois qualités qu'il est souhaitable de fournir aux systèmes de TALN. La définition d'un modèle à objets (LEAF) et l'affinage d'un modèle d'architecture (tableau blanc) constituent deux premiers éléments de réponse au problème de l'intégration. Une première approche de la généricité et de l'extensibilité est également présentée avec une expérience de réingéniérie du langage LT. La seconde partie approfondit les problèmes de généricité et les illustre avec la définition d'un langage original de représentation linguistique (DECOR). L'introduction de protocoles internes et externes permet de rendre ce langage particulièrement générique et dynamique. La troisième partie fait état de la réingériérie de deux langages spécialisés (ATEF et ROBRA). Cette expérience permet d'introduire une grande extensibilité dans les moteurs de ces langages par une programmation par objets et protocoles. Une question transverse à ces trois parties concerne l'identification des limites et des écueils liés à la recherche de l'intégrabilité, de l'extensibilité et de la généricité. Ces difficultés viennent principalement de la complexité croissante des protocoles adéquats, dont la maîtrise pourrait rapidement échapper au développeur si l'on n'y prend garde
Games with a purpose (GWAPs) by Mathieu Lafourcade( )

in English and held by 0 WorldCat member libraries worldwide

 
moreShow More Titles
fewerShow Fewer Titles
Audience Level
0
Audience Level
1
  General Special  
Audience level: 0.52 (from 0.42 for Games with ... to 1.00 for Interdisci ...)

Games with a purpose (GWAPs)
Covers
Languages
French (21)

English (18)