Ressources langagières et outils librement disponibles que j'ai participé à créer ou à enrichir :

Corpus

TCOF-POS, corpus de parole spontanée annoté en morpho-syntaxe

Corpus de microbiologie (abstracts PubMed) annoté en renommage de gènes

Lexiques

PrepLex, lexique des prépositions du français

Lefff, lexique des formes fléchies du français

WOLF, Wordnet Libre du Français

Outils

Propa-L, service de filtrage sémantique sur le réseau JeuxDeMots

Outil Richter permettant de donner du sens aux mesures d'accords inter-annotateurs

FastKwic, concordancier utilisant FASTR

Sylva, interface de consultation et de validation des tables des verbes du lexique grammaire



Corpus écrits libres de droits pour le français

Ce tableau (triable) contient des corpus bruts ou manuellement annotés (ce qui inclut des pré-annotations automatiques corrigées à la main) librement disponibles (donc diffusables) pour le français.

Nom Annotations Nb tokens Licence Source Autres infos
TCOF transcriptions 700000 CC BY-NC-SA ATILF-CNRS parole spontanée, corpus en évolution
TCOF-POS (PERCEO) POS 102139 CC BY-NC-SA ATILF-CNRS, INIST/LIPN parole spontanée
Est Républicain brut 100000000 CC BY-NC-SA ATILF-CNRS des doublons. XML - TEI P5
Sciences Humaines brut 165000 CC BY-NC-SA ATILF-CNRS revue Sciences Humaines. XML - TEI P5
mariagepourtousInXML MWE, structure 1089188 CC BY N. Legrand XML - TEI P5
Littéracie avancée brut 963897 CC BY-NC-SA LIDILEM écrits d'étudiants. Formats doc, pdf, txt, xml
Sequoia POS, syntaxe 67039 LGPL-LR ALPAGE annotations type corpus arboré de P7
Deep Sequoia syntaxe profonde 67039 LGPL-LR ALPAGE, Loria annotations à partir de Sequoia
Projet Gutenberg brut domaine public crowdsourcing évolution permanente
Wikipédia FR brut CC BY-SA crowdsourcing évolution permanente
Europarl FR brut 54202850 sans restriction P. Koehn parlement européen
Débats de l'Assemblée brut CC BY-NC-SA ? Assemblée nationale évolution permanente
Ministère de la culture brut CC BY-NC-SA Ministère de la culture évolution permanente, .pdf
Tourisme Othe-Armance brut 8400 LGPL-LR Groupe d'Action Locale Othe-Armance
smsalpes brut ? CC BY-NC-SA G. Antoniadis, V. Zampa TEI, 22 117 SMS