Séparation manuscrit et imprimé dans des documents administratifs complexes par utilisation de SVM et regroupement

Didier Grzejszczak,Yves Rangoni,Abdel Belaïd

HAL (Le Centre pour la Communication Scientifique Directe)(2012)

引用 23|浏览7
暂无评分
摘要
Cet article propose une methodologie pour la separation de l'imprime et du manuscrit dans des images de documents. Les documents a traiter sont majoritairement de type administratif dans un environnement industriel sans contrainte, a savoir une masse quotidienne et importante de pages a traiter avec une grande diversite de contenu et de qualite de numerisation. L'objectif est d'isoler toutes les annotations manuscrites afin d'effectuer par la suite des traitements specifiques sur le plan du manuscrit et sur le plan de l'imprime. Nous proposons une solution en plusieurs etapes qui sont: un pretraitement des images, une segmentation du contenu en pseudo-mots, une reconnaissance par separateur a vaste marge de la classe d'appartenance, puis une post-correction utilisant le contexte pour affiner la segmentation. Les resultats obtenus sont de l'ordre de 90% de bonne separation entre l'imprime, le manuscrit et le bruit.
更多
查看译文
关键词
features,knn,svm
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要