Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

SBBD(2003)

引用 23|浏览6
暂无评分
摘要
The Classical Models of Information Retrieval (IR) only consider the content-based information to retrieve relevant documents. The information is captured by comparing document keywords against the user query terms. Considering the Web, the structure of links among the documents (or pages) is a rich source of information that has not been used by the Classic Models. On the other hands, Bayesian Network models for IR has revealed that link-based combined with content-based information can improve the quality of the retrieved documents. In this work we discuss this combination in the context of the Classic Vector Space Model(VSM). We present three new contributions. We make the combination of link-based with content- based information close to the IR community, through an extension of the VSM. We define a query language that allows users to state document preferences according to the structure of links. Finally, we propose a metric that allows the comparison among documents using link-based information. 1. Introdução A quantidade de documentos existentes na Web tem crescido muito e a tarefa de recuperar informação relevante obtendo um bom desempenho neste ambiente tem se tornado cada vez mais difícil. Os modelos clássicos de Recuperação de Informação, como o Modelo Vetorial, o Modelo Booleano e o Modelo Probabilístico consideram apenas informações baseadas em conteúdo para recuperar documentos relevantes. Estas informações são extraídas através da busca por palavras-chaves (chamadas termos) nos documentos. Porém, na Web existe uma rica informação que pode ser extraída da estrutura de links entre os documentos (ou páginas) que não é considerada pelos modelos clássicos. Combinar estas informações extraídas de links com informações extraídas de conteúdo pode ser uma boa estratégia para melhorar a qualidade do ranking. Silva et al (10) propõem um modelo, aqui chamado de Modelo Bayesiano, que combina estas informações utilizando Redes Bayesianas. Os experimentos realizados demonstraram que este tipo de combinação melhora a qualidade das respostas sem requerer nenhuma informação extra do usuário em tempo de consulta. Porém, o uso de Redes Bayesianas é pouco difundido entre a comunidade de Recuperação de Informação. Aqui estendemos o Modelo Vetorial Clássico combinando informações baseadas em link com informações baseadas em conteúdo. Definimos uma métrica para o cálculo do ranking e por meio desta métrica é possível parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Hub e autoridade são valores extraídos da análise da estrutura de links para cada documento da coleção (5). Os conceitos sobre hub e autoridade são descritos com mais detalhes na Seção 3.2.
更多
查看译文
关键词
bayesian network,query language,information retrieval,vector space model
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要