基于DOM树与模板的自适应网络信息抽取方法

Computer Applications and Software(2022)

引用 0|浏览0
暂无评分
摘要
针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法.以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法.该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则.实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要