Montag, 26. November 2012

Soccer Voc

Wir haben das am letzten Freitag erarbeitete Vokabular in RDF(S) gegossen und haben noch ein paar Dinge angepasst. Der Namespace lautet: http://purl.org/hpi/soccer-voc/

Wie bereits gesagt, spiegelt dieses Vokabular die grundlegenden Klassen und Eigenschaften wieder, d.h. ihr könnt eure Erweiterungen gerne selbst noch hinzufügen.

Wir haben für die selbstmodellierten Klassen relativ wenige Properties angegeben. Viele Klassen sind jedoch in anderen Vokabularen eingebettet, schaut euch daher auch die Properties dieser Oberklassen an, um einfache Dinge wie Namen (foaf:name), Bezeichner (rdfs:label), Webseiten (foaf:homepage), etc. anzugeben.

Die DBpedia-Ontologie haben wir weitestgehend herausgelassen, da diese sich ständig verändern kann. Ebenso haben wir die BBC Sport Ontology nicht direkt verwendet. Nichtsdestotrotz könnt ihr euch an diesen Ontologien orientieren und auch die dort verwendeten Properties verwenden. D.h., etwa im Falle von Fußballern, könnt ihr die Tripel der DBpedia direkt übernehmen und an eure Soccerplayer-Entität hängen, ohne sie zuvor auf eigene Properties zu mappen.

Mittwoch, 21. November 2012

Treffen zum Fußball-Schema

Da es bei manchen Gruppen beim Entwickeln eines Schemas mit RDF(S) noch Unklarheiten gibt, möchten wir uns mit allen Gruppen treffen, um gemeinsam ein Schema auszuarbeiten. Wir bieten dafür ein gemeinsames Hands-On-Treffen an, bei dem von jeder Fußball-Gruppe wenigstens ein Abgesandter kommen sollte.

Bitte tragt euch mit Namen und Gruppe in das dafür eingerichtete Doodle ein.

Bitte bringt zum Treffen eure bisherigen Schemata und Ideen in darstellbarer Form und als RDF(S) mit.

Montag, 19. November 2012

Frische Papers von der ISWC 2012

Christian hat es ja bereits anklingen lassen: letzte Woche war die International Semantic Web Conference, wo ein paar frische Ideen vorgestellt wurden, die uns eventuell im Seminar helfen können.

Guido van Oorschot et al. stellen in Automatic Extraction of Soccer Game Events from Twitter (http://ceur-ws.org/Vol-902/paper_3.pdf) einen Ansatz vor, mit dem sie Fußballspielereignisse aus Tweets extrahieren. Sie betrachten dazu hauptsächlich die Frequenz von Tweets zu einem bestimmten Spiel und klassifizieren die Peaks in Tore, Eigentore, Rote und Gelbe Karten und Auswechslungen. Wenn man sich den Nachrichtenkorpus (kann jemand Niederländisch?) anschaut, erkennt man auch, warum sie dafür maschinelle Lernverfahren verwendet haben. Leider wurden die Ergebnisse anschließend nicht als Linked Data veröffentlicht, es gibt also auch kein Schema. Das Paper entstand übrigens im Rahmen einer Masterarbeit.

Als Gewinner der Semantic Web Challenge ist die Arbeit von Houda Khrouf et al. EventMedia Live: Exploring Events Connections in Real-Time to Enhance Content (http://eventmedia.eurecom.fr/demo/eventmedia-iswc-2012.pdf) zu erwähnen. Die Autoren sammeln Daten, in diesem Fall über Events, aus verschiedenen Web APIs und reichern sie mit Daten aus der Linked Open Data Cloud an. Die Daten werden dann als Linked Data veröffentlicht und können über eine Webseite durchsucht werden. Klingt vertraut, oder?


Nicht mehr ganz so frisch, aber war auch Thema beim Semantic Web Meetup auf der ISWC und als Beispiel für den Einsatz von Linked Data für dynamische Webseiten immer wieder gut: die BBC World Cup Website. Dort wird u.a. die BBC Sport Ontology verwendet.

Für die Produktempfehlungsleute könnte GR4PHP hilfreich sein, eine API für den Zugriff auf GoodRelations-Daten.

Freitag, 16. November 2012

Paper und Ontologie zu Fußball

Wir sind auf eine sportspezifische Ontologie gestoßen, die zur Beschreibung von Sport Events geeignet ist. Sie bezieht sich nicht explizit auf Fußball, schließt dies aber mit ein:

Außerdem noch eine Arbeit von Paul Buitelaer et al. über das SOBA System zur Überführung von gesammeltem Web Data  in eine Ontologie-basierte Repräsentation am Beispiel von Fußball: http://www.aifb.kit.edu/images/d/d9/2006_1234_Buitelaar_Generating_and_1.pdf

Schließlich noch ein sehr aktuelles Paper (live aus Boston von der ISWC :): 

Guido van Oorschot, Marieke van Erp, and Chris Dijkshoorn - Automatic Extraction of Soccer Game Events from Twitter (http://ceur-ws.org/Vol-902/paper_3.pdf)

Viel Spaß!

Donnerstag, 15. November 2012

Quellen für Fußball Gruppen

Wir haben ein paar der am häufigsten von euch identifizierten Links zu möglichen Quellen für Fußballdaten für alle Gruppen zusammengetragen.
Wir würden euch bitten, euch untereinander abzusprechen (Doodle o.ä.), damit immer nur eine Gruppe eine Webseite absammelt und die Ergebnisse den anderen Gruppen zu Verfügung stellt. Wenn ihr Daten habt, könnt ihr uns gerne informieren - wir können diese dann zentral bei uns für alle Gruppen zur Verfügung stellen.

RDF Data visualisieren

Im Seminar wurde die Frage nach Tools zur einfachen Visualisierung von RDF Daten gestellt. Eine Möglichkeit hierzu findet man beim W3C:

http://www.w3.org/RDF/Validator/

Mittwoch, 7. November 2012

Seminartreffen

Heute beginnen wir mit den Seminartreffen. Jede Gruppe müsste ihren Termin per E-Mail erhalten haben. Wir treffen uns dazu im Seminarraum H-2.58.

Donnerstag, 1. November 2012

Redmine Logins

Wir haben für jede Gruppe einen Login für unser Redmine (Projektmanagement, Wiki, Issuetracker, ...) eingerichtet. Dort könnt ihr eure Arbeiten und auch die Besprechungsprotokolle der Seminartreffen dokumentieren. Die jeweiligen Zugangsdaten sollte einer aus der Gruppe erhalten haben. Der Login gilt für die gesamte Gruppe, also teilt euren Gruppenmitglieder bitte die Zugangsdaten mit.

Sollte sich ein einziger Login pro Gruppe als ungünstig erweisen -besprechen wir beim Treffen- richten wir für jeden Teilnehmer einen eigenen Login ein.

Aufgaben bis nächste Woche

Da der Mittwoch feiertagsbedingt diese Woche als Seminartermin entfällt (bereits entfallen ist...), verschieben wir die ersten Gruppentreffen auf die nächste Woche. Damit ihr Euch bis dahin nicht langweilt, haben wir ein paar erste Aufgaben zusammengestellt, die wir in der nächsten Woche besprechen werden.

Linked Soccer

(1) Literaturrecherche zum Thema:

  • verwandte Arbeiten und Verfahren identifizieren:
    1. Aggregation von Linked Data aus unstrukturierten Daten
    2. Datenextraktion aus Microposts (z.B. Tweets und Facebook Posts)
    • Was sind die aktuellen "Standard-Verfahren"?
    • Wo liegen die Kernprobleme?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten?
  • Welche Komponenten müssen später evaluiert und optimiert werden?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Erste Schritte:

  • Recherche von öffentlichen Datenquellen
    • Wie sehen die APIs aus?
    • Welche Daten sind verfügbar?
  • Welche Entitäten sollten verwendet werden?
  • Erste Ideen zur Datenstruktur

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Architekturentwurf vorstellen
  3. Quellen für Fußballdaten:
    •  Welche Quellen wurden gefunden?
    • Welche Entitäten stehen zur Verfügung und wie ist die Qualität der Daten?
    • Wie kann auf die Daten zugegriffen werden udn welche Probleme entstehen dabei?
    • Wie sieht die "Zieldatenstruktur" aus?

Intelligente Produktempfehlung

(1) Literatur Recherche zum Thema:

  • verwandte Arbeiten und Verfahren ausfindig machen:
    • Wo liegen die Kernprobleme? 
    • Was sind die aktuellen "Standard-Verfahren"?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten.
  • Welche Komponenten sind die, die später evaluiert und optimiert werden müssen?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Aufbau einer semantischen Produktdatenbank

Teil 1:
  1. Datenbanken ausfindig machen, die semantische Produktdaten gemäß Goodrelations-Ontologie enthalten, z.B. sears.com (vgl. Goodrelations-Dokumentation)
  2. Entwickeln eines einfachen Crawlers, der die Seiten systematisch abarbeitet (z.B. via Sitemap) und die RDF Daten extrahiert (z.B. mit RDFa-Distiller oder Any23)
Teil 2:
  1. Ausfindigmachen von APIs über die nicht-semantische Produktdaten gesammelt werden können (z.B. Amazon)
  2. "Semantifizieren" der gesammelten Daten - also die Daten in RDF überführen (via Goodrelations-Ontologie), sodass sie mit den Daten aus Teil 1 kompatibel sind.

Entscheidung treffen:

  • Wie sollen die RDF Daten abgespeichert werden?
    • Triplestore (wenn ja, welcher), Datenbank oder Dateien?
    • Welche Anforderungen werden and die Daten gestellt?

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Ideen zur Architektur vorstellen
  3. Produktdatenbank:
    • Wie viele Produkte wurden bisher akquiriert?
    • Welche Quellen wurden verwendet?
    • Wie ist die Qualität der Daten? (Sind sie sehr ausführlich, oder gibt es nur einen Titel?)
    • Gibt es Verknüpfungen in die DBpedia? Wenn ja wie viele?
    • Wie wurden sie abgespeichert?