Relevanzkriterien
Posted by Bastian • Tuesday, March 1. 2011 • Category: Aktuell: , i love my computer
Das allgemeine Informationsüberangebot im Netz verstört ja so manchen. Um der Flut an Daten Herr zu werden nutzt jeder so seine eigenen Mechanismen. Manche lesen nur einzelne Newsseiten, direkt im Browser. Andere abonnieren so viele RSS-Kanäle wie irgendwie möglich und markieren einfach regelmäßig alles als gelesen. Und hoffen dann darauf, dass die relevanten Informationen schon so oft veröffentlicht werden, dass sie nicht untergehen weil die Wahrscheinlichkeit hoch ist, dass man sie irgendwann liest. Wieder andere nutzen eine ganze Reihe sozialer Filter und lassen sich dadurch informieren.
Meine Informationen beziehe ich vor allem aus einem Haufen RSS-Feeds (145 sind es laut Google Reader zur Zeit), darunter Feeds von Zeitungen, von Blogs, von Aggregatoren wie ResearchBlogging und abseits davon aus meiner Twitter-Timeline und durch Twitter-Suchen. Während die RSS-Feeds zumindest zum Großteil von mir selbst angelegt wurden (wenn man das Sharing-Feature des Google Readers mal vernachlässigt) erfüllt die Timeline den sozialen Filter und spült da Links und Quellen nach oben.
Je häufiger einzelne Links gepostet werden, desto wichtiger oder relevanter sind sie dabei vermutlich. Auch wenn man, dank der nativen Retweet-Funktion, nicht mehr wirklich einen Überblick darüber bekommt wie oft einzelne Artikel empfohlen werden, ist das eigentlich ein ganz gutes Maß für den Impact einzelner Links. Allerdings: Wenn man nicht den ganzen Tag vor seiner Timeline liest und jeden einzelnen Tweet liest, dann ist es nicht ganz trivial mitzubekommen, welche Links gerade „heiss“ sind. Außerdem ist das im Kopf mitzählen wie oft etwas gepostet wurde keine dankbare Aufgabe. Und vor allem eine Aufgabe für die Computer mit ihrer Fähigkeit zu zählen viel besser geeignet sind.
Mit Paper.li, Twittertim.es & Co gibt es zwar schon automatisierte Lösungen um die eigene Timeline auszuwerten. Aber ich hab mir deshalb selbst eine kleine Lösung für das Problem gebastelt. Zum Teil aus Neugier, zum Teil um eine selbst-gehostete Lösung und zum Teil auch einfach „weil es geht“.
Auf dem Server der auch den Phylomemetic Tree hostet läuft sowieso 24 Stunden lang am Tag mein irssi. Und neben dem Rumhängen in IRC-Chats nutze ich es, via twirssi, auch für Twitter. Und da die gesamte Timeline dort sowieso mitgeloggt wird lag es relativ nah diese Datenquelle dafür zu verwenden. Und so parst ein kleines Python-Script jetzt am Ende jeden Tages sämtliche Links des Tags aus dem Logfile, verwandelt die Short-URLs gegebenenfalls wieder in die Ziel-Adressen, erstellt das Histogramm für den Tag und baut aus den häufigsten Links des Tages einen RSS-Feed. Und der ist öffentlich zugänglich, falls ihr euch also dafür interessiert was ich jeden Tag so lese, dann viel Spaß damit.
Und hier der obligatorische Disclaimer: Das Ding hab ich gestern Nachmittag kurz zusammengehackt. Es ist also nicht fertig und hat noch Fehler. Z.B. sind die Umlaute in den Titeln manchmal zerschossen.
Meine Informationen beziehe ich vor allem aus einem Haufen RSS-Feeds (145 sind es laut Google Reader zur Zeit), darunter Feeds von Zeitungen, von Blogs, von Aggregatoren wie ResearchBlogging und abseits davon aus meiner Twitter-Timeline und durch Twitter-Suchen. Während die RSS-Feeds zumindest zum Großteil von mir selbst angelegt wurden (wenn man das Sharing-Feature des Google Readers mal vernachlässigt) erfüllt die Timeline den sozialen Filter und spült da Links und Quellen nach oben.
Je häufiger einzelne Links gepostet werden, desto wichtiger oder relevanter sind sie dabei vermutlich. Auch wenn man, dank der nativen Retweet-Funktion, nicht mehr wirklich einen Überblick darüber bekommt wie oft einzelne Artikel empfohlen werden, ist das eigentlich ein ganz gutes Maß für den Impact einzelner Links. Allerdings: Wenn man nicht den ganzen Tag vor seiner Timeline liest und jeden einzelnen Tweet liest, dann ist es nicht ganz trivial mitzubekommen, welche Links gerade „heiss“ sind. Außerdem ist das im Kopf mitzählen wie oft etwas gepostet wurde keine dankbare Aufgabe. Und vor allem eine Aufgabe für die Computer mit ihrer Fähigkeit zu zählen viel besser geeignet sind.
Mit Paper.li, Twittertim.es & Co gibt es zwar schon automatisierte Lösungen um die eigene Timeline auszuwerten. Aber ich hab mir deshalb selbst eine kleine Lösung für das Problem gebastelt. Zum Teil aus Neugier, zum Teil um eine selbst-gehostete Lösung und zum Teil auch einfach „weil es geht“.
Auf dem Server der auch den Phylomemetic Tree hostet läuft sowieso 24 Stunden lang am Tag mein irssi. Und neben dem Rumhängen in IRC-Chats nutze ich es, via twirssi, auch für Twitter. Und da die gesamte Timeline dort sowieso mitgeloggt wird lag es relativ nah diese Datenquelle dafür zu verwenden. Und so parst ein kleines Python-Script jetzt am Ende jeden Tages sämtliche Links des Tags aus dem Logfile, verwandelt die Short-URLs gegebenenfalls wieder in die Ziel-Adressen, erstellt das Histogramm für den Tag und baut aus den häufigsten Links des Tages einen RSS-Feed. Und der ist öffentlich zugänglich, falls ihr euch also dafür interessiert was ich jeden Tag so lese, dann viel Spaß damit.
Und hier der obligatorische Disclaimer: Das Ding hab ich gestern Nachmittag kurz zusammengehackt. Es ist also nicht fertig und hat noch Fehler. Z.B. sind die Umlaute in den Titeln manchmal zerschossen.


0 Comments
Add Comment