2008-2012 : Doctorat en Informatique, Université Paris 13, soutenu le 7 décembre 2012 (mention Très Honorable, pas de Félicitations à Paris 13).
- Localisation : INIST-CNRS, Nancy
- Financement : programme Quæro
- Titre : Les ressources annotées, un enjeu pour l'analyse de contenu : vers une méthodologie de l'annotation manuelle de corpus (Directrice de thèse : Adeline Nazarenko)
- Jury :
- Frédéric Béchet, Professeur, Université de la Méditerranée, Rapporteur
- Benoît Habert, Professeur, ENS de Lyon, Rapporteur
- Lori Lamel, Directrice de Recherche, LIMSI-CNRS, Orsay, Présidente
- Adeline Nazarenko, Professeure, Université Paris 13, Directrice
- Claire François, Ingénieure de Recherche, INIST-CNRS, Nancy, Examinatrice
- François Lévy, Professeur émérite, Université Paris 13, Examinateur
- Eric Villemonte de la Clergerie, Chargé de Recherche, INRIA, Rocquencourt, Examinateur
1999-2000 : DESS (Master 2) "Double Compétence Informatique et Sciences Sociales" à l'Université Pierre Mendès-France Grenoble II
1996-1997 : DESS (Master 2) "Traduction spécialisée et production de textes multilingues" (anglais, russe), mention Bien (major de promotion) à l'Université Stendhal Grenoble III
1995-1996 : Maîtrise (Master 1) "Langues Étrangères Appliquées" (anglais, russe) option Traduction Spécialisée, mention Bien, à l'Université Stendhal Grenoble III
1994-1995 : Licence (L3) "Langues Étrangères Appliquées" (anglais, russe) à l'Université Stendhal, Grenoble III
1993-1994 : Licence (L3) de russe à l'Université Stendhal, Grenoble III
1992-1993 : DEUG (L2) "Langues Étrangères Appliquées" (anglais, russe) à l'Université Stendhal, Grenoble III
1990-1991 : Baccalauréat (Série C), mention Assez Bien, à St Martin d'Hères
Expériences professionnelles
Octobre 2012 - août 2014 : Attachée Temporaire d'Enseignement et de Recherche (ATER) à temps plein au département informatique de l'École des Mines de Nancy (ENSMN). Membre de l'équipe Sémagramme du Loria, Nancy.
- Enseignement : cours en première (L3) et deuxième année (M1) de l'École des Mines. Responsable des projets (2013-2014). Encadrement de projets de deuxième et troisième année (M2).
- Recherche : au sein de l'équipe Sémagramme, en collaboration avec Bruno Guillaume et Guy Perrier. Correction et enrichissement du corpus arboré du français librement disponible Séquoia (Candito et Seddah, 2012). Fusion de ressources lexicales verbales pour l'analyse syntaxique du français (DICOVALENCE et Lexique des Verbes du Français). Groupe de travail sur les accords inter-annotateurs.
Octobre 2008 - octobre 2012 :
Ingénieure d'études à l'INIST-CNRS (Institut de l'Information Scientifique et Technique), Nancy, doctorante au LIPN (Université Paris 13), financée par le programme Quæro.Gestion de campagnes d'annotation : annotation de relations de renommage de noms de gènes, en collaboration avec l'INRA MIG et annotation d'entités nommées, actions et relations dans le domaine du football, en collaboration avec V. Claveau (INRIA TexMex).
-
Participation à des campagnes d'annotation : annotation de noms d'espèces, de gènes et de protéines, en collaboration avec l'INRA MIG, annotation d'entités nommées, termes et relations en pharmacologie, en collaboration avec Jouve, annotation d'entités nommées étendues dans des transcriptions de parole et en presse ancienne, en collaboration avec le LIMSI, annotation en morphosyntaxe sur de la parole spontanée, en collaboration avec C. Benzitoun (ATILF-CNRS) et B. Sagot (INRIA Paris 7 Alpage).
- Outils : participation aux spécifications de FastKwic (disponible sur le CNRTL), un concordancier utilisant FASTR.
- Travaux de recherche : difficultés liées à l'annotation manuelle de corpus et à son évaluation, utilisation et évaluation du crowdsourcing (myriadisation du travail parcellisé à la Amazon Mechanical Turk et jeux ayant un but, ou GWAP) comme moyen d'annotation manuelle, pré-annotation automatique.
- Encadrement : ingénieur(e)s "documentalistes" (experts) de l'INIST-CNRS réalisant l'annotation manuelle pour les campagnes d'annotation en relations de renommage de gènes et dans le domaine du football.
Septembre 2006 - septembre. 2008 :
Ingénieure spécialiste au sein des Équipes Calligramme (maintenant Sémagramme) et TALARIS (maintenant partiellement SYNALP), LORIA, Nancy, France. Création d'un outil de validation collaborative multi-niveaux de lexiques,
Sylva. Spécifications UML détaillées et développement rapide en PHP avec Symfony (respect de MVC) et MySQL.
-
Création d'un outil de mutualisation interne de ressources et d'outils pour le TAL et d'un site Web pour la mise en ligne de démonstrations et de ressources pour le TAL.
- Travaux de recherche : création d'un lexique syntaxique des prépositions du français (PrepLex), enrichissement d'un lexique syntaxique à l'aide des tables du lexique-grammaire (adverbes en -ment), enrichissement du WOLF (Wordnet Libre du Français), spécifications pour la modularisation des grammaires dans le formalisme des grammaires d'interaction (Perrier, COLING 2000) et suivi de la création de la grammaire de l'anglais.
- Encadrement : étudiantes (L3, Sciences du Langage à Nancy II) vacataires réalisant la validation premier niveau d'un lexique syntaxique sur Sylva, étudiante en Master 2 Pro (Sciences Cognitives option TAL) réalisant la grammaire d'interaction de l'anglais.
Juillet 2003 - septembre 2006 :
Ingénieure de développement à TEMIS SA (TExt MIning Solutions), St Martin d'Hères, France (rachat de l'équipe). Responsable des ressources linguistiques de XeLDA (Xerox Linguistic Development Architecture) : maintenance, support, développements linguistiques spécifiques (extension du lexique de l'italien, ajout des langues nordiques).
-
Responsable de la maintenance évolutive de l'API et du client XML IDE (Insight Discoverer Extractor, moteur d'extraction de Temis), soit plus de 7 000 lignes de code et 30 fichiers, basés sur SAX et sur la manipulation de DOM. Intégration des langues non-ISO1 dans les produits Temis (Java), support de ces produits (écriture de XSL, de XPath, utilisation de bases MySQL).
- Participation à des projets de recherche : responsable Temis des projets Technolangue EVALDA CESART (Campagne d'Évaluation de Systèmes d'Acquisition de Ressources Terminologiques) et CESTA (Campagne d'Évaluation de Systèmes de Traduction Automatique).
- Responsable technique sur des projets client de Text Mining : développements en Perl, Java, écriture d'XSLT, d'XPath, de requêtes SQL. Intégration des outils Temis, dont l'interopérabilité passe par XML.
- Architecte linguiste et ingénieur de développement (Java) : dans le cadre de l'industrialisation de LEXTER (Bourigault, 1994) logiciel d'extraction automatique de terminologie.
- Enseignement/Formations : formations clients, présentations sur le Text Mining et les différents outils Temis à l'Université Stendhal - Grenoble III et à l'Institut Marie Haps (Bruxelles).
Mars 2001 - juillet 2003 :
Responsable des ressources linguistiques à Xerox MKMS (Multilingual Knowledge Management Solutions), Meylan, France. Inventaire et transfert des ressources linguistiques du centre de recherche (XRCE, Xerox Research Center Europe, Meylan) nécessaires à XeLDA (Xerox Linguistic Development Architecture), soit huit services (reconnaissance de la langue, segmentation, analyse morphologique, désambiguïsation, extraction de groupes nominaux, analyse syntaxique, reconnaissance d'expressions idiomatiques, encodage automatique de termes) en dix-sept langues et plus de trois mille fichiers sources. Collaboration étroite avec les équipes du centre de recherche.
-
Maintenance des ressources linguistiques : mise en place d'une structure de compilation (à la fois sous Linux et Solaris), d'un processus automatique de build et de tests, portage vers les nouveaux compilateurs FST, homogénéisation, unicodification, correction de bugs, support client.
- Développement de nouvelles ressources : étiqueteur du grec, nouvelle version des étiqueteurs de l'anglais et de l'allemand, ajout de nouveaux services (morphologie "relationnelle", extracteur d'entités, segmentation de phrases, extraction de sous-groupes nominaux), développement des services de reconnaissance d'expressions idiomatiques pour l'italien et l'espagnol.
- Développement de prototypes en VisualBasic pour la conversion depuis/vers des formats XML, en particulier les standards de type MARTIF, pour la gamme de produits d'extraction terminologique XTS : écriture d'XSLT, de requêtes SQL, utilisation d'ADO (ActiveX Data Object).
- Encadrement : gestion des sous-traitants, encadrement de stagiaires pour des développements linguistiques spécifiques. Gestion des projets de documentation utilisateur.
Octobre 2000 - mars 2001 :
Ingénieure Qualité à Xerox MKMS (Multilingual Knowledge Management Solutions), Meylan, France. Assurance qualité des outils de la gamme de produits XTS (Xerox Terminology Suite). Mise en place de processus qualité (documentation, revues de code/bugs, gestion du support, etc.).
Création de plans de test (TestDirector), écriture de scripts de tests automatiques (WinRunner). Gestion des projets de traduction anglais-français des documentations utilisateur.
Avril 2000 - octobre 2000 :
Linguiste informaticienne au GETA (Groupe d'Étude pour la Traduction Automatique, maintenant GETALP), laboratoire d'informatique de Grenoble (LIG), Grenoble, France. Développements dans le cadre du projet européen NESPOLE! (Negociating through Spoken Language in E-commerce). Développements linguistiques et informatiques (Lex/Yacc, C, PERL), sous Unix, pour la génération du français.
Oct. 1998 - août 1999 :
Linguiste/lexicographe au GETA (Groupe d'Étude pour la Traduction Automatique, maintenant GETALP), laboratoire d'informatique de Grenoble (LIG), Grenoble, France. Développements linguistiques dans le cadre du projet UNL, (Universal Networking Language) pour l'Université des Nations Unies. Amélioration du dictionnaire UNL-français et des grammaires de la génération du français.
Août - septembre 1998 : participation à la traduction d'anglais en français du jeu Baldur's Gate, pour Interplay.
Mai - juin 1998 : validation d'un dictionnaire français-anglais pour BGS France dans le cadre du projet NetX (dictionnaire en ligne sur Internet).
Janvier - avril 1998 : localisatrice chez Version Internationale (SARL 2FP) à Lyon : traduction et relecture à partir de l'américain de documentations informatiques et de logiciels pour Silicon Graphics (SGI), Oracle, OCE.
Novembre 1997 : traduction vers l'anglais du site Web de l'Université Stendhal - Grenoble III. Gestion du projet de traduction vers cinq langues (harmonisation, gestion terminologique, relation client).
Octobre 1997 : traduction, à partir de l'américain et pour la COGEMA, d'une documentation technique d'environ 200 pages relative à plusieurs machines participant au recyclage des déchets nucléaires.
Oct. 1993- mai 1994 :
Professeure de français à plein temps (18h/semaine) à l'institut Pédagogique (éq. IUFM), Iochkar-Ola (République Mari), Russie. Chargée de cours auprès des 2
e, 3
e et 5
e années (grammaire, conversation, analyse littéraire)
Développements réalisés
Logiciels
- Sylva : spécifications détaillées en UML d'un outil de validation collaborative multi-niveaux de lexiques. Développement en PHP sur le framework Symfony, respect du pattern MVC. SGBD sous-jacent : MySQL. Serveur Apache. 2008
- Exter : industrialisation de LEXTER, logiciel d'extraction automatique de terminologie (Bourigault, 1994) en 2006, pour Temis : spécification et développement d'un client Java (Swing) permettant d'accéder au moteur d'extraction, spécification et développement de modules en Java permettant l'ajout rapide de langues. Création de règles pour l'extraction terminologique en 7 langues (français, anglais, allemand, italien, espagnol, portugais et russe)
- IDE : Insight Discoverer Extractor, moteur d'extraction de Temis. Maintenance évolutive : intégration des langues non-ISO1 (Java), support (écriture de XSL, de XPath, utilisation de bases MySQL). 2003-2006
Autres travaux de développement
- FST : développements linguistiques utilisant le langage XFST (Xerox Finite-State Transducers). Portage de ressources en Twolc (Two-Level Compiler) vers les nouveaux compilateurs FST. 2000-2006
- Service : développements divers en Perl pour la personnalisation client des outils Temis. 2003-2006
- Prototypage : Réalisation d'un prototype en VisualBasic pour l'import/export de données pour la gamme de produits d'extraction terminologique XTS : écriture d'XSLT, de requêtes SQL, utilisation d'ADO (ActiveX Data Object). 2000
- Scriptage : scripts Perl pour le calcul d'accords intra- et inter-annotateurs et la manipulation de fichiers pour les campagnes d'annotation manuelles réalisées dans le cadre du programme Quæro. 2009-2012
Compétences en langues
- Français : langue maternelle
- Anglais : courant
- Russe : courant
- Espagnol : lu et compris
- Autres langues : connaissance du fonctionnement et des caractéristiques des langues les plus courantes
Informations diverses
- Qualifiée en 27e section (informatique) et en 7e section (sciences du langage)