- Karën Fort. Productions participatives de corpus annotés : des modèles encore incertains. Présentation invitée Colloque Jeunes Chercheurs PRAXILING 2019. Montpellier, France. 7 et 8 novembre 2019. →
crowdsourcing, jeux ayant un but, annotation
- Karën Fort. La production participative (crowdsourcing ) : miroir grossissant sur l’annotation manuelle. Séminaire invité de l'équipe Inria Almanach. Paris, France. 11 octobre 2019.
crowdsourcing, jeux ayant un but, annotation
- Karën Fort. Les sciences participatives, facteur d’innovation ? le cas des jeux ayant un but. Séminaire invité DRRT « Sciences et société », Ministère de la Recherche. Paris, France. 19 Septembre 2019.
crowdsourcing, jeux ayant un but, éthique
- Karën Fort et Denis Maurel. Regards croisés sur la linguistique informatique. Colloque Décrire une langue :
objectifs et méthodes. Sorbonne, Paris, France. 13 septembre 2019.→
linguistique informatique, position
- Alice Millour et Karën Fort. Unsupervised Data Augmentation for Less-Resourced Languages with no Standardized Spelling. Actes de RANLP 2019. Varna, Bulgarie, septembre 2019.
→
langues non standardisées, crowdsourcing, variations
- Margot Mieskes, Karën Fort, Aurélie Névéol, Cyril Grouin et Kevin Bretonnel Cohen. Community Perspective on Replicability in Natural Language Processing. Actes de RANLP 2019. Varna, Bulgarie, septembre 2019.
→
éthique, réplicabilité
- Karën Fort. Au-delà des listes de bonnes pratiques : faire vivre la discussion sur l’éthique dans le TAL. Présentation invitée dans le cadre du séminaire du LIDILEM. Grenoble, France, 28 juin 2019.
→
éthique
- Alice Millour, Marianne Araneta, Ivana Lazić Konjik, Annalisa Raffone, Yann-Alan Pilatte et Karën Fort. Katana and Grand Guru:
A Game of the Lost Words. Language and Technology Conference 2019, Poznań, Pologne, mai 2019. Démonstration (avec actes) →
crowdsourcing, apprentissage des langues, langues non-standardisées
- Marianne Araneta, Ivana Lazić Konjik, Alice Millour, Yann-Alan Pilatte, Annalisa Raffone et Karën Fort. Katana and Grand Guru:
A Game of the Lost Words. enetCollect annual meeting 2019, Lisbonne, Portugal, mars 2019. Présention + poster + démonstration (sans actes) →
crowdsourcing, apprentissage des langues, langues non-standardisées
- Alice Millour et Karën Fort. À l'écoute des locuteurs : production participative de ressources langagières pour des langues non standardisées. Revue TAL, numéro spécial traitement automatique des langues peu dotées, 59-3.→
crowdsourcing, langues peu dotées
- Verena Lyding, Lionel Nicolas, Branislav Bédi, Karën Fort. European Network for the Combination of Language Learning and Crowdsourcing Techniques. Actes de EuroCALL 2018, Jyväskylä, Finlande, août 2018. →
enetCollect
- Karën Fort, Bruno Guillaume, Matthieu Constant, Nicolas Lefèbvre et Yann-Alan Pilatte. "Fingers in the nose": evaluating the speakers’ intuition in identifying MWEs using a slightly gamified crowdsourcing platform. Actes du COLING 2018 Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions, Santa Fe, USA, août 2018. →
unités polylexicales (MWE), crowdsourcing, jeux ayant un but
- Karën Fort et Maxime Amblard. Éthique et traitement automatique des langues. Journée éthique et intelligence artificielle, Nancy, juillet 2018. →
éthique
- Karën Fort et Yann Mathet. The good, the bad and the metrics: understanding inter-annotator agreement. Présentation invitée dans le cadre de la journée inter-annotateur SegCor, Paris, France, juin 2018. →
annotation, accords inter-annotateurs
- Karën Fort. Games with a purpose for language resources production: lessons learned. Séminaire invité, Darmstadt, Allemagne, juin 2018.
crowdsourcing, jeux ayant un but, éthique
- Alice Millour et Karën Fort. Krik: First Steps into Crowdsourcing POS tags for Kréyòl Gwadloupéyen. Actes de l'atelier LREC CCURL 2018, Miyazaki, Japon, mai 2018. →
crowdsourcing, langues peu dotées, POS
- Alice Millour et Karën Fort. Toward a Lightweight Solution for Less-resourced Languages: Creating a POS Tagger for Alsatian Using Voluntary Crowdsourcing. Language Resources and Evaluation Conference (LREC), Miyazaki, Japon, mai 2018. →
crowdsourcing, langues peu dotées, POS
- Karën Fort, Mathieu Lafourcade et Nathalie Le Brun. Cheap, fast and good! Voting Games with a Purpose. Actes de l'atelier LREC Games4NLP 2018, Miyazaki, Japon, mai 2018. →
crowdsourcing, jeux ayant un but
- Karën Fort et Bruno Guillaume. Produire des données pour la recherche en jouant aux zombies. Interstices (revue de médiation en ligne d'Inria), mars 2018. →
crowdsourcing, jeux ayant un but, syntaxe
-
Karën Fort. Ethique et traitement automatique des langues. Conférence invitée à la Journée thématique EGC & IA : Données personnelles, vie privée et éthique. MSH Paris-Nord, France, 23 janvier 2018.
éthique
- Karën Fort et Aurélie Névéol. Présence et représentation des femmes dans le traitement automatique des langues en France. Actes de l'atelier "Penser la Recherche en Informatique comme pouvant être Située, Multidisciplinaire Et Genrée" (PRISME-G), Paris, janvier 2018. →
éthique
-
Karën Fort. The scope of language intuition: some insights from crowdsourcing. Séminaire invité à l'Université d'Islande. Reykjavik, Islande, 30 novembre 2017.
crowdsourcing
-
Karën Fort. Crowdsourcing: (a bit of) theory and ((quite) some) practice. Conférence invitée lors de la réunion plénière de l'action COST enetCollect Bolzano, Italie, 7 septembre 2017.→
crowdsourcing
- Aurélie Névéol, Karën Fort et Rebecca Hwa. Report on EMNLP Reviewer Survey. Rapport technique pour l'Association for Computational Linguistics (ACL), juillet 2017.→
éthique, relecture par les pairs
-
Karën Fort. Ethique et recherche en traitement automatique des langues. Séminaire (invité) lors de la réunion plénière de la CERNA (Commission de réflexion sur l'Ethique de la Recherche en sciences et technologies du Numérique d'Allistene) Paris, France, 15 mai 2017.→
éthique
-
Karën Fort, Bruno Guillaume, Nicolas Lefebvre, Laura Ramírez, Mathilde Regnault, Mary Collins, Oksana Gavrilova et Tanti Kristanti. Vers l'annotation par le jeu de corpus (plus) complexes : le cas de la langue de spécialité. Actes de Traitement Automatique des Langues Naturelles (TALN), Orléans, France, juin 2017- Poster. →.
annotation, crowdsourcing, syntaxe en dépendances, complexité
-
Alice Millour, Karën Fort, Delphine Bernhard et Lucie Steiblé. Vers une solution légère de production de données pour le TAL : création d'un tagger de l'alsacien par crowdsourcing bénévole. Actes de Traitement Automatique des Langues Naturelles (TALN), Orléans, France, juin 2017- Présentation orale. →.
langues peu dotées, annotation, crowdsourcing, tagging
-
Alice Millour et Karën Fort. Why do we Need Games? Analysis of the Participation on a Crowdsourcing Annotation Platform. Symposium Games4NLP, Valence, Espagne, avril 2017. →.
langues peu dotées, annotation, crowdsourcing
- Karën Fort, Bruno Guillaume et Nicolas Lefebvre. Who wants to play Zombie? A survey of the players on ZombiLingo. Symposium Games4NLP, Valence, Espagne, avril 2017. →.
annotation, crowdsourcing, jeux
- Karën Fort. Aspects méthodologiques et éthiques de l’annotation de données par myriadisation.
Séminaire (invité) interacadémique de l’école doctorale Langues et Lettres sur l’annotation fiable de
corpus. Université catholique de Louvain. Louvain-la-Neuve, Belgique, 6 mars 2017. →.
expertise, annotation, crowdsourcing, éthique
- Karën Fort. Experts ou (foule de) non-experts ? la question de l’expertise des annotateurs vue de la myriadisation (crowdsourcing). Revue CORELA (cognition, représentation, langage), 12 p. (version longue des actes de JLC 2015), février 2017. →.
expertise, annotation, crowdsourcing
- Karën Fort, Gilles Adda, K Bretonnel Cohen. Éthique et traitement automatique des langues et de la parole : entre truismes et tabous. Revue Traitement Automatique des Langues, TAL et éthique, 57 (2), pp.7 - 19. →.
éthique
- Karën Fort et Bruno Guillaume. ZombiLingo: Defying complexity (lessons learned). Proceedings of the workshop on Novel Incentives and Engineering Unique Workflows (NIEUW), Philadelphie, Etats-Unis, 2016 - Présentation invitée.
annotation, crowdsourcing, jeux
- Bruno Guillaume, Karën Fort, Nicolas Lefebvre. Crowdsourcing Complex Language Resources: Playing to Annotate Dependency Syntax. Proceedings of the International Conference on Computational Linguistics (COLING), Osaka, Japon, 2016 - Présentation orale.→.
annotation, crowdsourcing, jeux
- Karën Fort. Collaborative Annotation for Reliable Natural Language Processing: Technical and Sociological Aspects. 196 p. Wiley-ISTE. Juillet 2016. Site de l'éditeur.→. Exemplaire auteur non corrigé.
annotation, crowdsourcing, accords inter-annotateurs, jeux, éthique
- Lynette Hirschman, Karën Fort, Stéphanie Boué, Nikos Kyrpides, Rezarta Islamaj Doğan, et Kevin Bretonnel Cohen. Crowdsourcing and curation: perspectives from biology and natural language processing. Database, 2016, 2016. Site de l'éditeur (libre accès). →.
annotation, crowdsourcing, biomédical
- K. Bretonnel Cohen, Karën Fort, Gilles Adda, Dimeji Farri and Sophia Zhou. The ethics of remuneration in corpus annotation: Pay per HIT does not affect effective hourly rate for linguistic resource preparation tasks on Amazon Mechanical Turk. Atelier LREC ETHics In Corpus Collection, Annotation and Application (ETHI-CA²), Portorož, Slovénie, mai 2016. →.
crowdsourcing, éthique
- Karën Fort. Ce qu'Amazon Mechanical Turk fait à la recherche, l'exemple du traitement automatique des langues.
séminaire EHESS d'Antonio Casilli sur le thème de "Mechanical Turk et le travail invisible des données", Paris, 7 mars 2016. →.
vulgarisation, crowdsourcing, éthique
- Karën Fort et Alain Couillault. Yes, We Care! Results of the Ethics and Natural Language Processing Surveys.
Language Resources and Evaluation Conference (LREC), Portorož, Slovénie, mai 2016. →.
éthique
-
K. Bretonnel Cohen, Karin Verspoor, Karën Fort, Christopher Funk, Michael Bada, Martha Palmer, Lawrence E. Hunter. The Colorado Richly Annotated Full Text (CRAFT) Corpus: Multi-Model Annotation In The Biomedical Domain. Handbook of Linguistic Annotation, Springer, à paraître. →
annotation, biomédical, corpus annoté
- Karën Fort. Les ressources annotées, un enjeu pour l'analyse de
contenu : vers une méthodologie de l'annotation manuelle de
corpus. Thèse, soutenue le 7 décembre 2012 à l'Université Paris 13 (mention Très honorable), Résumé
L'annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL).
En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL.
Or, le processus d'annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations.
Nous proposons dans cette thèse une vision unifiée de l'annotation manuelle de corpus pour le TAL. Ce travail est le fruit de diverses expériences de gestion et de participation à des campagnes d'annotation, mais également de collaborations avec différents chercheur(e)s. Nous proposons dans un premier temps une méthodologie globale pour la gestion de campagnes d'annotation manuelle de corpus qui repose sur deux piliers majeurs : une organisation des campagnes d'annotation qui met l'évaluation au cœur du processus et une grille d'analyse des dimensions de complexité d'une campagne d'annotation.
Un second volet de notre travail a concerné les outils du gestionnaire de campagne.
Nous avons pu évaluer l'influence exacte de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, grâce à une série d'expériences menée sur l'annotation morpho-syntaxique de l'anglais.
Nous avons également apporté des solutions pratiques concernant l'évaluation de l'annotation manuelle, en donnant au gestionnaire les moyens de sélectionner les mesures les plus appropriées.
Enfin, nous avons mis au jour les processus en œuvre et les outils nécessaires pour une campagne d'annotation et instancié ainsi la méthodologie que nous avons décrite.
, Jury
- Frédéric Béchet, Professeur, Université de la Méditerranée
(rapporteur)
- Claire François, Ingénieure de Recherche, INIST-CNRS, Nancy
- Benoît Habert, Professeur, ENS de Lyon (rapporteur)
- Lori Lamel, Directrice de Recherche, LIMSI-CNRS, Orsay
(présidente)
- François Lévy, Professeur émérite, Université Paris 13
- Adeline Nazarenko, Professeure, Université Paris 13
(directrice)
- Eric Villemonte de la Clergerie, Chargé de Recherche, INRIA,
Rocquencourt
, Tapuscrit sur HAL,
Soutenance
annotation, accords inter-annotateurs, corpus annoté, méthodologie
- Karën Fort, Adeline Nazarenko et Sophie Rosset. Modeling the Complexity of Manual Annotation Tasks: a Grid of Analysis. Proceedings of the International Conference on Computational Linguistics (COLING), Mumbaï, Inde, 2012 - Présentation orale. →.
annotation, méthodologie
- Yann Mathet, Antoine Widlöcher, Karën Fort, Claire
François, Olivier Galibert, Cyril Grouin, Juliette Kahn, Sophie Rosset et Pierre Zweigenbaum, Manual Corpus Annotation: Evaluating the Evaluation Metrics. Proceedings of the International Conference on Computational Linguistics (COLING), Mumbaï, Inde, 2012 - Poster. →.
annotation, accords inter-annotateurs
- Geoffroy Peeters et Karën Fort. Towards a (better) Definition of Annotated MIR Corpora Proceedings of the 13th International Society for Music Information Retrieval Conference (ISMIR), Porto, Portugal, 2012 - Poster - →.
annotation, méthodologie
- Sophie Rosset, Cyril Grouin, Karën Fort, Olivier Galibert, Juliette Kahn et Pierre Zweigenbaum. Structured Named Entities in two distinct press corpora: Contemporary Broadcast News and Old Newspapers Proceedings of the 6th Linguistic Annotation Workshop (LAW VI), Jeju, République de Corée, 2012 - Présentation orale - →.
annotation, corpus annoté, entités nommées
- Karën Fort et Vincent Claveau. Annotation manuelle de matchs de foot : Oh la la la ! l'accord inter-annotateurs ! et c'est le but ! Actes de Traitement Automatique des Langues Naturelles (TALN), Grenoble, France, 2012. - Poster - →.
annotation, accords inter-annotateurs, corpus annoté
- Christophe Benzitoun, Karën Fort et Benoît Sagot. TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe Actes de Traitement Automatique des Langues Naturelles (TALN), Grenoble, France, 2012. - Présentation orale - →.
annotation, corpus annoté
- Karën Fort, Claire François, Olivier Galibert et Maha Ghribi. Analyzing the Impact of Prevalence on the Evaluation of a Manual Annotation Campaign, Proceedings of the International Conference on Language Resources and Evaluation (LREC), Istanbul, Turquie, 2012 - Présentation orale - →.
annotation, accords inter-annotateurs
- Karën Fort et Vincent Claveau. Annotating Football Matches: Influence of the Source Medium on Manual Annotation, Proceedings of the International Conference on Language Resources and Evaluation (LREC), Istanbul, Turquie, 2012 - Poster - →.
annotation, accords inter-annotateurs, corpus annoté