Méthodo et outils

Formations

Formations en présentiel à Paris:

Formations en ligne:

Où trouver des corpus ?

Corpus outillés en ligne

  • Le French Treebank est consultable en ligne.

  • ScienQuest permet de chercher dans des corpus arborés (treebanks).

  • Frantext est le corpus de référence pour le français littéraire. Attention, la version gratuite ne permet l'accès qu'à un nombre limité de textes. L'Université a un abonnement, et vous pouvez accéder à tous les textes depuis un accès Internet universitaire (par exemple, depuis votre bureau).

  • SketchEngine permet de faire de recherche dans un grand nombre de corpus. Attention, les fonctionnalités sont limitées en version gratuite, notamment l'exportation de résultats. Vous disposez d'un accès via l'Université Paris Cité.

Corpus à télécharger

  • Ortolang pour des corpus en français.

Logiciels spécialisés

  • AntConc est un logiciel très simple, recommandé aux débutants. La fonctionnalité Regex permet de faire pas mal de choses. Voir aussi AntPConc pour les corpus parallèles.

  • TXM est un logiciel plus complexe, mais disposant de beaucoup plus de fonctionnalités. Il est conseillé de se former à son utilisation avant de se lancer dessus !

Logiciels généralistes

Tableurs

Pour la linguistique de corpus, je recommande l'utilisation de LibreOffice Calc. Microsoft Excel est moins adapté; il supporte mal le format CSV, qui est le plus utilisé en linguistique de corpus, et nomme différement certaines fonctions utiles en linguistique de corpus. Enfin, le OpenOffice Calc (à ne pas confondre avec LibreOffice) est pratiquement à l'abandon depuis que la marque a été rachetée par Oracle (qui vend son propre tableur concurrent), et ne doit pas être utilisé.

Regex dans un tableur

Dans LibreOffice, La fonction REGEX permet de rechercher des patterns dans un tableur.

Par exemple, la fonction =REGEX(C1; "test$") recherche si la cellule C1 correspond à la regex test$, c'est à dire si elle se termine par test. Si il y a correspondance, la fonction retourne le texte recherché (en l'occurrence test), sinon elle retourne un code d'erreur.

On peut habiller ce résultat avec ISERROR, comme ceci: =NOT(ISERROR(REGEX(C1; "test$"))). Dans ce cas, le résultat affiché serai TRUE si il y a correspondance, et FALSE dans le cas contraire.

NB: cette fonction n'a pas d'éqsuivalent dans OpenOffice. Dans Excel, il faut utiliser REGEXEXTRACT à la place.

Ligne de commande Unix

Documents TXT

  • Le script corpusCleaner est utile pour normaliser les fichiers texte.

Documents XML

Pour lire les documents XML, il y a deux outils en ligne de commande:

  • xmlstarlet permet d'utiliser l'ensemble du langage XPath, mais tout le corpus doit tenir en mémoire.
    • corpusFilter.pl permet d'extraire une partie d'un document. Utile pour découper un corpus trop gros pour xmlstarlet.
  • xmlcutty ne permet d'utiliser qu'un sous-ensemble du langage XPath, mais fonctionne sur des corpus de toute taille. Mais il n'est pas dans les dépôts, bon courage pour installer du Go.

Exemples d'utilisation:

  • Extraire toutes les balises title, en utilisant la syntaxe XPath:
    cat *.xml | perl -pe 's/xmlns=".*?"//g' | xmlstarlet sel -t -v '//title' -
    • cat *.xml lire tous les fichiers XML.
    • perl -pe 's/xmlns=".*?"//' supprimer les espaces de nommage des documents (utile quand on n'est pas autiste).
    • xmlstarlet sel -t -v '//title' - afficher le texte des balises title.