Evaluation des Konfigurationsraumes von Kohärenzmaßen für Thememodelle.

LWA(2014)

引用 0|浏览20
暂无评分
摘要
Eine Menge von Aussagen oder Fakten wird als koharent angesehen, wenn sie sich gegenseitig unterstutzen. Deshalb kann eine koharente Faktenmenge gut in einem Kontext interpretiert werden, der alle oder die meisten Fakten umfasst. Ein Beispiel fur eine solche Faktenmenge ist “das Spiel ist eine Mannschaftssportart”, “das Spiel wird mit einem Ball gespielt”, “das Spiel erfordert grose physische Anstrengungen”, die z.B. im Kontext von Fusball einen Sinn ergibt. Eine offene Forschungsfrage ist, wie die Koharenz einer Faktenmenge quantifiziert werden kann [2]. In Arbeiten aus dem Bereich der Wissenschaftsphilosophie wurden Mase vorgeschlagen, die als Funktionen von Verbundund Randwahrscheinlichkeiten formalisiert wurden, welche den Fakten zugeordnet sind. Bovens und Hartmann [2] diskutieren viele Beispiele, die zu einer Menge von notwendigen Bedingungen fuhren, die ein solches Mas erfullen soll. Die Arbeiten in diesem Bereich beschaftigen sich vor allem mit verschiedenen Schemata, die das Zusammenhangen und zueinander Passen der einzelnen Fakten einer groseren Faktenmenge abschatzen. Beispiele fur solche Schemata sind (1) vergleiche jeden einzelnen Fakt mit dem Rest aller verbleibenden Fakten, (2) vergleiche alle Paare von Fakten miteinander und (3) vergleiche alle disjunkten Teilmengen der Fakten miteinander. Diese theoretischen Arbeiten aus dem Bereich der Wissenschaftsphilosophie – siehe [4] fur einen Uberblick – sind in der Informatik weitgehend unbekannt. Das Interesse an Koharenzmasen entstand im Bereich Text Mining, weil unuberwachte Lernmethoden, wie z.B. Themenmodelle, keine Garantie dafur geben, dass ihre Ausgabe interpretierbar ist. Themenmodelle lernen unuberwacht Themen, die ublicherweise als Menge von wichtigen Wortern reprasentiert werden. Dies ist eine attraktive Methode, um unstrukturierte Textdaten mit einer Struktur zu versehen. In der grundlegenden Arbeit von Newman et al. [7] werden Koharenzmase vorgeschlagen, die bewerten, wie verstandlich durch Wortmengen reprasentierte Themen sind. Die vorgeschlagenen Mase behandeln Worter als Fakten und nutzen das Schema, das paarweise alle Worter vergleicht. Fur die Evaluationen in [7] werden durch Menschen erstellte Themen-Rankings verwendet. Die Auswertungen zeigten, dass Mase, die auf Statistiken uber das gemeinsame Auftreten von Wortern beruhen, starker mit men-
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要