Ressources langagières et outils librement disponibles que j'ai participé à créer ou à enrichir :
Corpus
TCOF-POS, corpus de parole spontanée annoté en morpho-syntaxe
Corpus de microbiologie (abstracts PubMed) annoté en
renommage de gènes
Lexiques
PrepLex, lexique des prépositions du français
Lefff, lexique des formes fléchies du français
WOLF, Wordnet Libre du Français
Outils
Propa-L, service de filtrage sémantique sur le réseau
JeuxDeMots
Outil
Richter permettant de donner du sens aux mesures d'accords inter-annotateurs
FastKwic, concordancier utilisant FASTR
Sylva, interface de consultation et de validation des tables des verbes du lexique grammaire
Corpus écrits libres de droits pour le français
Ce tableau (triable) contient des corpus bruts ou manuellement annotés (ce qui inclut des pré-annotations automatiques corrigées à la main) librement disponibles (donc diffusables) pour le français.
Nom |
Annotations |
Nb tokens |
Licence |
Source |
Autres infos |
TCOF |
transcriptions |
700000 |
CC BY-NC-SA |
ATILF-CNRS |
parole spontanée, corpus en évolution |
TCOF-POS (PERCEO) |
POS |
102139 |
CC BY-NC-SA |
ATILF-CNRS, INIST/LIPN |
parole spontanée |
Est Républicain |
brut |
100000000 |
CC BY-NC-SA |
ATILF-CNRS |
des doublons. XML - TEI P5 |
Sciences Humaines |
brut |
165000 |
CC BY-NC-SA |
ATILF-CNRS |
revue Sciences Humaines. XML - TEI P5 |
mariagepourtousInXML |
MWE, structure |
1089188 |
CC BY |
N. Legrand |
XML - TEI P5 |
Littéracie avancée |
brut |
963897 |
CC BY-NC-SA |
LIDILEM |
écrits d'étudiants. Formats doc, pdf, txt, xml |
Sequoia |
POS, syntaxe |
67039 |
LGPL-LR |
ALPAGE |
annotations type corpus arboré de P7 |
Deep Sequoia |
syntaxe profonde |
67039 |
LGPL-LR |
ALPAGE, Loria |
annotations à partir de Sequoia |
Projet Gutenberg |
brut |
|
domaine public |
crowdsourcing |
évolution permanente |
Wikipédia FR |
brut |
|
CC BY-SA |
crowdsourcing |
évolution permanente |
Europarl FR |
brut |
54202850 |
sans restriction |
P. Koehn |
parlement européen |
Débats de l'Assemblée |
brut |
|
CC BY-NC-SA ? |
Assemblée nationale |
évolution permanente |
Ministère de la culture |
brut |
|
CC BY-NC-SA |
Ministère de la culture |
évolution permanente, .pdf |
Tourisme Othe-Armance |
brut |
8400 |
LGPL-LR |
Groupe d'Action Locale Othe-Armance |
|
smsalpes |
brut |
? |
CC BY-NC-SA |
G. Antoniadis, V. Zampa |
TEI, 22 117 SMS |