Centre National de Ressources Textuelles et Lexicales

Frantext

Issu de la base Frantext, le corpus Frantext « textes libres de droits » offre à la communauté scientifique, un large champ d’investigation où sont réunies 500 œuvres de la littérature française couvrant la période du 18e au 20e siècle. Le traitement informatique des données textuelles en format TEI XML a été réalisé par le laboratoire ATILF. L'interface de recherche permet d'effectuer des sélections au sein du corpus par genre de texte, auteur, période…

Accès au corpus Frantext

Corpus journalistique de l'Est Républicain

Dans le cadre d'un accord de collaboration avec L'Est Républicain, le CNRTL offre après en avoir assuré le traitement informatique, l'accès à un nouveau corpus de type journalistique. Ce corpus est constitué des données textuelles correspondant à deux années de toutes les éditions intégrales du quotidien régional.

Accès au corpus de l'Est Républicain

Projet d'Etiqueteur Robuste pour l'Ecrit et pour l'Oral (PERCEO)

PERCEO est un ensemble de ressources destiné à servir à l'annotation automatique en parties du discours et en lemmes. Nous rendons disponible sur cette page les fichiers paramètres obtenus à l'aide du module d'entraînement du logiciel Tree Tagger ainsi que l'ensemble des ressources qui nous ont permis de les obtenir.

Accès au projet PERCEO

Traitement de Corpus Oraux en Français (TCOF)

Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux constitués dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources.

Accès au projet TCOF

Corpus d'articles de linguistiques issus de la revue "Sciences Humaines"

Dans le cadre d'un projet visant à la détection et la désambiguïsation de termes en texte intégral, un partenariat a été signé avec la revue "Sciences Humaines". Ce partenariat autorise à diffuser ces articles sous la licence creative Commons (attribution à l'auteur, pas d'utilisation commerciale, rediffusion aux mêmes conditions).

Accès au corpus de la revue "Sciences Humaines"

Le Pèlerinage de Vie humaine de Guillaume de Digulleville

Le CNRTL offre l'accès à une transcription électronique du Pèlerinage de Vie humaine de Guillaume de Digulleville à partir d’un manuscrit déposé dans les fonds occidentaux de Paris, Bibliothèque Nationale de France, sous la cote BNF, fr. 1818.

Accès au pèlerinage de Vie humaine

DEDE : un corpus annoté pour le traitement des DEscriptions DEfinies

Le corpus annoté est une sous-partie du corpus PAROLE (Corpus fourni par l'ATILF) et comprend 48 360 mots annotés au niveau morphosyntaxique, suivant le schéma d'annotation Multext. Il est composé d'une série d'articles du journal Le Monde datant de septembre 1987 et appartenant à toutes les rubriques.
L'annotation réalisée porte sur 4 910 descriptions définies. Le schéma est basé sur une classification fine qui contraste en particulier, avec les classifications très générales, parfois binaires, des corpus annotés existants tels que (Fraurud 90). Les catégories de base du schéma sont les suivantes : description autonome, description coréférentielle, description associative, description situationnelle, description non référentielle.

Accès au corpus DEDE