News Miner News Miner

About

News Miner Übersicht

News Miner ist eine RSS-Webapplikation, die es ermöglicht, nach aktuellen Twitter-Trends gefilterte RSS-Nachrichten zu lesen.

In traditionellen RSS-Readern werden alle Artikel der abonnierten Feeds angezeigt. In wenigen Stunden können dabei Dutzende von Artikeln hinzukommen, die jedoch nicht zwangsläufig einen hohen Informationsgehalt besitzen oder über aktuelle Inhalte berichten. Sich durch eine solch teilweise enorme Menge an Daten durchzuarbeiten, kann einen großen Zeitverlust darstellen, der sich eventuell im Nachhinein gar nicht lohnt.

News Miner ist jedoch kein gewöhnlicher RSS-Reader, sondern eine Applikation, die gezielt die relevanten Artikel aus der Menge heraussucht. Denn um diesen Zeitaufwand zu minimieren und die Qualität der gezeigten Artikel sicherzustellen, werden von News Miner mittels fortlaufender Analyse der Twitter-Daten ebendiese aktuellen, informativen Artikel aus den abonnierten Feeds herausgefiltert und dem Benutzer präsentiert.

Das Vorgehen ist dabei wie folgt: Nachrichten in Twitter verbreiten innerhalb kürzester Zeit Informationen über aktuelles Geschehen weltweit. News Miner extrahiert die auftretenden Trends, dies sind zwei Worte, deren Häufigkeit und gemeinsames Auftreten sprunghaft angestiegen ist. Hierfür werden alle Wortpaare betrachtet und deren Korrelation berechnet. Dabei wird mit den Vorkommnissen aller Tweets S1 und S2, die die Worte t1 und t2 enthalten, gearbeitet und mittels der Jaccard-Koeffizienten die Korrelation bestimmt. Es wird dann zwischen erwarteter und tatsächlicher Korrelation verglichen, ist die Differenz sehr hoch, stellen diese Worte einen Trend dar. Als zweites Kriterium fließt die Popularität, also die absolute Häufigkeit der Worte mit ein. Das Verfahren basiert auf "See what's enBlogue: real-time emergent topic identification in social media" von Altanaki und Ramamritham.

Parallel dazu werden die RSS-Artikel der abonnierten Seiten fortlaufend eingelesen. Im nächsten Schritt wird die Ähnlichkeit der Trends und der gespeicherten Artikel bestimmt, um die relevanten Artikel zu bestimmen. Dazu wird aus dem Trend und einigen Tweets, in denen dieser vorkommt und die einen Kontext schaffen, ein Vektorraum aufgebaut, in dem jedes Wort eine Dimension repräsentiert. Zuvor werden die Worte gestemmt, also auf ihren Wortstamm zurückgeführt. Dieser Vektor ist der sogenannte Trendvektor. Ähnliches wird mit jedem RSS-Artikel durchgeführt. Die Worte der Beschreibung werden gestemmt, und anschließend wird der Vektor aufgebaut. Dazu wird jede Dimension, deren Wort im Artikel vorkommt, auf "1" gesetzt und sonst auf "0". Dann wird die Cosine Similarity des Trendvektors und jedes RSS-Vektors erreichnet, wobei ein hoher Wert eine hohe Ähnlichkeit zwischen Trend und Artikel bedeutet. Die Artikel mit der höchsten Ähnlichkeit, die somit über aktuellste und relevante Ereignisse berichten, werden auf der Webseite dargestellt.