Détection de signaux faibles dans des masses de données faiblement structurées

Recherche d’information, document et web sémantique(2019)

引用 0|浏览0
暂无评分
摘要
L'etude presentee s'inscrit dans le cadre du developpement d'une plateforme d'analyse automatique de documents associee a un service securise lanceurs d'alerte, de type GlobalLeaks. Cet article se focalise principalement sur la recherche de signaux faibles presents dans les documents. Il s'agit d'une problematique investiguee dans un grand nombre de champs disciplinaires et de cadres applicatifs. Nous supposons que chaque document est un melange d'un petit nombre de themes ou categories, et que la creation de chaque mot est attribuable en termes de probabilites a l'un des themes du document. Les categories des documents transmis ne sont pas connuesa priori. Les mots-cles presents dans les documents representatifs de ces categories sont egalement inconnus. L'analyse des documents recus doit simultanement permettre de decouvrir les themes, classer les documents relativement a ces themes, detecter les mots-cles pertinents relatifs aux themes et enfin decouvrir les mots-cles relevant d'un theme eventuel. Pour atteindre cet objectif, nous proposons une definition du signal faible qui conditionne l'approche conjointe modele thematique / plongement lexical, et contraint le choix des methodes LDA et Word2Vec. Nous proposons d'evaluer les partitions obtenues grâce a un indice de coherence sur la collection de mots representative de chaque theme obtenu. Les clusters obtenus sont ainsi plus coherents au sens contextuel. La detection du cluster associe au signal faible est alors plus aisee et plus pertinente.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要