Petite sélection de références sur le thème de l'annotation
La plupart des références données ici concernent le traitement de
l'écrit et de l'oral.
Généralités
- Ce livre en ligne fournit une intéressante introduction au sujet
:
Sinclair, J. Wynne, M. (ed.) Developing Linguistic Corpora: a Guide to
Good Practice Corpus and Text - Basic Principles Oxford: Oxbow Books,
2005, 1-16 (http://ahds.ac.uk/linguistic-corpora/)
- L'énorme catalogue LDC (trop énorme pour être utilisable ?) : http://www.ldc.upenn.edu/annotation/
- Il existe un atelier ACL dédié au sujet, the Linguistic
Annotation Workshop (LAW) :
Création de corpus
- Une autre, plus orientée parole, par Olivier Baude :
Baude, O. 2007. Contribution des corpus oraux à la
linguistique de corpus : une démarche
réflexive intégrée,
Communication aux Journées de Linguistique de Corpus
(Lorient).
Formats/schémas d'annotation, normes
- Cette vue d'ensemble proposée par Nancy Ide constitue selon moi
un bon point de départ :
Ide, N. Annotation Science: From Theory to Practice and Use. (Invited
Talk) Data Structures for Linguistics Resources and Applications
Proceedings of the Bienniel GLDV Conference, 2007
(http://www.cs.vassar.edu/~ide/papers/GLDV.pdf)
- Les graphes d'annotation :
Bird, S. & Liberman, M. A Formal Framework for Linguistic
Annotation (revised version) CoRR?, 2000, cs.CL/0010033, pp 23-60
(http://arxiv.org/abs/cs/0010033)
Méthodologie
- Un article très intéressant présentant
des résultats concrets en fonction des méthodologies et
outils utilisés (pré-annotation, outil d'aide, formation,
etc):
Dandapat, S.; Biswas, P.; Choudhury, M. & Bali, K. Complex
Linguistic Annotation - No Easy Way Out! A Case from Bangla and Hindi
POS Labeling Tasks Proceedings of the third ACL Linguistic Annotation
Workshop, 2009 (http://www.aclweb.org/anthology/W/W09/W09-3002.pdf)
- Corpus MEDIA :
Bonneau-Maynard, H.; Rosset, S.; Ayache, C.; Kuhn, A. & Mostefa, D.
Semantic Annotation of the French Media Dialog Corpus InterSpeech?,
2005 (ftp://tlp.limsi.fr/public/IS052010.PDF)
- Un article que nous avons écrit en 2009, mettant l'accent sur l'importance du guide d'annotation :
Fort, K.; Ehrmann, M. & Nazarenko, A. Towards a Methodology for
Named Entities Annotation Proceeding of the 3rd ACL Linguistic
Annotation Workshop (LAW III), 2009
(http://www.aclweb.org/anthology/W/W09/W09-3025.pdf)
- Importance du guide, encore : Nédellec C., Bessières P., Bossy R.,
Kotoujansky A., Manine A.-P., Annotation Guidelines for
Machine Learning-Based Named Entity Recognition in
Microbiology, In Proceedings of the Data and text mining in
integrative biology workshop, joint to ECML/PKDD, M. Hilario et C.
Nedellec (Eds), p. 40-54, Berlin, Germany, september 2006.
(http://www.ecmlpkdd2006.org/ws-dtib.pdf)
- Annoter grâce à des
ontologies :
Cimiano, P. & Handschuh, S. Ontology-based linguistic annotation
Proceedings of the ACL 2003 workshop on Linguistic annotation,
Association for Computational Linguistics, 2003, 14-21
(http://dx.doi.org/10.3115/1119296.1119299)
Évaluer l'annotation manuelle
- L'article de référence sur les accords inter-annotateurs :
Artstein, R. & Poesio, M. Inter-coder agreement for computational
linguistics Computational Linguistics, MIT Press, 2008, 34, 555-596
(http://dx.doi.org/10.1162/coli.07-034-R2)
Outils d'aide à l'annotation
En théorie (et dans la biblio), il en existe beaucoup, en pratique très
peu sont réellement disponibles et utilisables.
- GATE : le plus connu des outils d'aide à l'annotation,
prévu à l'origine pour l'annotation automatique.
L'annotation manuelle est possible, des fonctionnalités
intéressantes sont même proposées (annotate all, par ex), mais difficile à mettre en place et utiliser. Librement téléchargeable.
http://gate.ac.uk/
- GLOZZ : un nouvel outil, prévu pour l'annotation de
discours, mais utilisable pour n'importe quel type d'annotation, y
compris de relations complexes. Doc sous forme de vidéos
uniquement. Disponible pour la recherche, mais pas open source. http://www.glozz.org/
- Callisto : en particulier pour l'annotation de temps avec TimeML (ne permet pas d'annoter d'autres types de relations). Librement téléchargeable.
http://callisto.mitre.org/
- MMAX2 : outil intéressant, permettant l'annotation de relations, mais interface difficile à utiliser. Librement téléchargeable. http://mmax2.sourceforge.net/