Scientifique, technique et personnel
Laboratoire : Bases, Corpus, Langage
Recherches, Publications, Entertainment
ADT ET DEEP LEARNING, REGARDS CROISÉS
L'idée est de confronter ADT et Deep learning. L’extraction de passages-clefs statistiques est d’abord proposée selon plusieurs calculs implémentés dans le logiciel Hyperbase. Une évaluation de ces calculs en fonction des filtres appliqués (prise en compte des spécificités positives seulement, prise en compte de substantifs seulement, etc) est donnée. L’extraction de passages-clefs obtenus par deep learning - c’est-à-dire des passages qui ont le meilleur taux de reconnaissance au moment d’une prédiction - est ensuite proposée. L’hypothèse est que le deep learning est bien sûr sensible aux unités linguistes sur lesquelles le calcul des phrases-clefs statistiques se fondent, mais sensible également à d’autres phénomènes que fréquentiels et d’autres observables linguistiques complexes que l’ADT a plus de mal à prendre en compte - comme le seraient des motifs sous-jacents mellet2009. Si cette hypothèse se confirmait, elle permettrait d’une part de mieux appréhender la boîte noire des algorithmes de deep learning et d’autre part d’offrir à la communauté ADT de nouveaux points de vue.
Model de déconvolution :
Résultats : Motifs linguistiques et Topologie du texte
Si les observables qui ont présidé à la détection de passages-clefs par l’ADT (les spécificités lexicales) sont connus et éprouvés, les zones d’activation du deep learning semblent relever de nouveaux observables linguistiques. Rappelons que la matière linguistique et la topologie des passages ne sauraient renvoyer au hasard : les zones d’activations permettent d’obtenir des taux de reconnaissance de plus de 90% sur le discours politique français et de 85% sur le latin classique (base du L.A.S.L.A) ; soit des taux équivalents ou supérieurs aux taux obtenus par le calcul statistique des passages-clefs. Reste désormais à améliorer le modèle et à en comprendre tous les aboutissants mathématiques comme linguistiques. La première amélioration que l’on se propose désormais d’implémenter est l’injection d’informations morphosyntaxiques dans le réseau afin de mettre à l’épreuve des motifs linguistiques toujours plus complexes.
Paysages, Nature, Montagnes