Donnerstag, 20. Dezember 2012

Termin für das nächste Seminartreffen

Der nächste reguläre Termin für die Seminartreffen wird der 9.1./10.1. sein. Falls ihr uns vorher schon neue Erkenntnisse und Ergebnisse mitteilen wollt, so seid ihr natürlich eingeladen, dies zu tun!

Die Zwischenpräsentation lief insgesamt sehr gut - wir möchten euch bitten, uns eure Präsentationen zu schicken oder ins Redmine zu stellen.

Wir wünschen euch frohe Weihnachten und ein gesundes Jahr 2013!

Montag, 10. Dezember 2012

Termin Zwischenpräsentation

Wie bereits besprochen wird es im Seminar eine Zwischenpräsentation geben, die es Euch ermöglicht, Euren aktuellen Stand zu präsentieren. Dazu haben wir folgenden Termin ausgewählt:

Mi, 19.12.2012, 17:00-18:30 (Raum: H-2.58)

Die Präsentation wird einen Umfang von 10 Minuten haben. Anschließend sind 5 Minuten für Fragen eingeplant. Wir möchten Euch bitten, Euch an die vorgegebene Zeit zu halten, damit wir zügig mit allen Gruppen durchkommen!! Inhalte sollen sein:
  • Beschreibung der Aufgabenstellung
  • vorgeschlagene Idee/Ansatz zur Lösung des Problems
  • aktueller Stand der Arbeiten
  • was sind die nächsten Schritt
Wir bereits im Seminar besprochen, erwarten wir von Euch, dass Ihr den Weg zur Lösung der Aufgabenstellung vollständig durchdacht habt und Ihr Euch nach der Zwischenpräsentation auf die Implementierung konzentrieren könnt!

Fragen zur Präsentation beantworten wir gern noch während des nächsten Seminartermins (12.12./13.12.).

Dienstag, 4. Dezember 2012

Beispiel für TemporalEntity

Im SoccerVoc hatten wir die Verwendung von time:TemporalEntity vorgeschlagen und möchten dazu noch ein Beispiel geben. time:TemporalEntity kann entweder ein time:Interval (Zeitraum) oder ein time:Instant (Zeitpunkt) sein.
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix event: <http://purl.org/NET/c4dm/event.owl#> .
@prefix time: <http://www.w3.org/2006/time#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

:SMM2013-Zwischenpräsentation
 a event:Event ;
 event:time :SMM2013-Termin-KW51 .

:SMM2013-Termin-KW51
 a time:Interval ;
 time:hasBeginning :SMM2013-Termin-KW51-start ;
 time:hasEnd :SMM2013-Termin-KW51-ende .

:SMM2013-Termin-KW51-Start
 a time:Instant ;
 time:inXSDDateTime "2012-12-19T17:00:00"^^xsd:dateTime .

:SMM2013-Termin-KW51-Ende
 a time:Instant ;
 time:inXSDDateTime "2012-12-19T18:30:00"^^xsd:dateTime .

Montag, 26. November 2012

Soccer Voc

Wir haben das am letzten Freitag erarbeitete Vokabular in RDF(S) gegossen und haben noch ein paar Dinge angepasst. Der Namespace lautet: http://purl.org/hpi/soccer-voc/

Wie bereits gesagt, spiegelt dieses Vokabular die grundlegenden Klassen und Eigenschaften wieder, d.h. ihr könnt eure Erweiterungen gerne selbst noch hinzufügen.

Wir haben für die selbstmodellierten Klassen relativ wenige Properties angegeben. Viele Klassen sind jedoch in anderen Vokabularen eingebettet, schaut euch daher auch die Properties dieser Oberklassen an, um einfache Dinge wie Namen (foaf:name), Bezeichner (rdfs:label), Webseiten (foaf:homepage), etc. anzugeben.

Die DBpedia-Ontologie haben wir weitestgehend herausgelassen, da diese sich ständig verändern kann. Ebenso haben wir die BBC Sport Ontology nicht direkt verwendet. Nichtsdestotrotz könnt ihr euch an diesen Ontologien orientieren und auch die dort verwendeten Properties verwenden. D.h., etwa im Falle von Fußballern, könnt ihr die Tripel der DBpedia direkt übernehmen und an eure Soccerplayer-Entität hängen, ohne sie zuvor auf eigene Properties zu mappen.

Mittwoch, 21. November 2012

Treffen zum Fußball-Schema

Da es bei manchen Gruppen beim Entwickeln eines Schemas mit RDF(S) noch Unklarheiten gibt, möchten wir uns mit allen Gruppen treffen, um gemeinsam ein Schema auszuarbeiten. Wir bieten dafür ein gemeinsames Hands-On-Treffen an, bei dem von jeder Fußball-Gruppe wenigstens ein Abgesandter kommen sollte.

Bitte tragt euch mit Namen und Gruppe in das dafür eingerichtete Doodle ein.

Bitte bringt zum Treffen eure bisherigen Schemata und Ideen in darstellbarer Form und als RDF(S) mit.

Montag, 19. November 2012

Frische Papers von der ISWC 2012

Christian hat es ja bereits anklingen lassen: letzte Woche war die International Semantic Web Conference, wo ein paar frische Ideen vorgestellt wurden, die uns eventuell im Seminar helfen können.

Guido van Oorschot et al. stellen in Automatic Extraction of Soccer Game Events from Twitter (http://ceur-ws.org/Vol-902/paper_3.pdf) einen Ansatz vor, mit dem sie Fußballspielereignisse aus Tweets extrahieren. Sie betrachten dazu hauptsächlich die Frequenz von Tweets zu einem bestimmten Spiel und klassifizieren die Peaks in Tore, Eigentore, Rote und Gelbe Karten und Auswechslungen. Wenn man sich den Nachrichtenkorpus (kann jemand Niederländisch?) anschaut, erkennt man auch, warum sie dafür maschinelle Lernverfahren verwendet haben. Leider wurden die Ergebnisse anschließend nicht als Linked Data veröffentlicht, es gibt also auch kein Schema. Das Paper entstand übrigens im Rahmen einer Masterarbeit.

Als Gewinner der Semantic Web Challenge ist die Arbeit von Houda Khrouf et al. EventMedia Live: Exploring Events Connections in Real-Time to Enhance Content (http://eventmedia.eurecom.fr/demo/eventmedia-iswc-2012.pdf) zu erwähnen. Die Autoren sammeln Daten, in diesem Fall über Events, aus verschiedenen Web APIs und reichern sie mit Daten aus der Linked Open Data Cloud an. Die Daten werden dann als Linked Data veröffentlicht und können über eine Webseite durchsucht werden. Klingt vertraut, oder?


Nicht mehr ganz so frisch, aber war auch Thema beim Semantic Web Meetup auf der ISWC und als Beispiel für den Einsatz von Linked Data für dynamische Webseiten immer wieder gut: die BBC World Cup Website. Dort wird u.a. die BBC Sport Ontology verwendet.

Für die Produktempfehlungsleute könnte GR4PHP hilfreich sein, eine API für den Zugriff auf GoodRelations-Daten.

Freitag, 16. November 2012

Paper und Ontologie zu Fußball

Wir sind auf eine sportspezifische Ontologie gestoßen, die zur Beschreibung von Sport Events geeignet ist. Sie bezieht sich nicht explizit auf Fußball, schließt dies aber mit ein:

Außerdem noch eine Arbeit von Paul Buitelaer et al. über das SOBA System zur Überführung von gesammeltem Web Data  in eine Ontologie-basierte Repräsentation am Beispiel von Fußball: http://www.aifb.kit.edu/images/d/d9/2006_1234_Buitelaar_Generating_and_1.pdf

Schließlich noch ein sehr aktuelles Paper (live aus Boston von der ISWC :): 

Guido van Oorschot, Marieke van Erp, and Chris Dijkshoorn - Automatic Extraction of Soccer Game Events from Twitter (http://ceur-ws.org/Vol-902/paper_3.pdf)

Viel Spaß!

Donnerstag, 15. November 2012

Quellen für Fußball Gruppen

Wir haben ein paar der am häufigsten von euch identifizierten Links zu möglichen Quellen für Fußballdaten für alle Gruppen zusammengetragen.
Wir würden euch bitten, euch untereinander abzusprechen (Doodle o.ä.), damit immer nur eine Gruppe eine Webseite absammelt und die Ergebnisse den anderen Gruppen zu Verfügung stellt. Wenn ihr Daten habt, könnt ihr uns gerne informieren - wir können diese dann zentral bei uns für alle Gruppen zur Verfügung stellen.

RDF Data visualisieren

Im Seminar wurde die Frage nach Tools zur einfachen Visualisierung von RDF Daten gestellt. Eine Möglichkeit hierzu findet man beim W3C:

http://www.w3.org/RDF/Validator/

Mittwoch, 7. November 2012

Seminartreffen

Heute beginnen wir mit den Seminartreffen. Jede Gruppe müsste ihren Termin per E-Mail erhalten haben. Wir treffen uns dazu im Seminarraum H-2.58.

Donnerstag, 1. November 2012

Redmine Logins

Wir haben für jede Gruppe einen Login für unser Redmine (Projektmanagement, Wiki, Issuetracker, ...) eingerichtet. Dort könnt ihr eure Arbeiten und auch die Besprechungsprotokolle der Seminartreffen dokumentieren. Die jeweiligen Zugangsdaten sollte einer aus der Gruppe erhalten haben. Der Login gilt für die gesamte Gruppe, also teilt euren Gruppenmitglieder bitte die Zugangsdaten mit.

Sollte sich ein einziger Login pro Gruppe als ungünstig erweisen -besprechen wir beim Treffen- richten wir für jeden Teilnehmer einen eigenen Login ein.

Aufgaben bis nächste Woche

Da der Mittwoch feiertagsbedingt diese Woche als Seminartermin entfällt (bereits entfallen ist...), verschieben wir die ersten Gruppentreffen auf die nächste Woche. Damit ihr Euch bis dahin nicht langweilt, haben wir ein paar erste Aufgaben zusammengestellt, die wir in der nächsten Woche besprechen werden.

Linked Soccer

(1) Literaturrecherche zum Thema:

  • verwandte Arbeiten und Verfahren identifizieren:
    1. Aggregation von Linked Data aus unstrukturierten Daten
    2. Datenextraktion aus Microposts (z.B. Tweets und Facebook Posts)
    • Was sind die aktuellen "Standard-Verfahren"?
    • Wo liegen die Kernprobleme?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten?
  • Welche Komponenten müssen später evaluiert und optimiert werden?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Erste Schritte:

  • Recherche von öffentlichen Datenquellen
    • Wie sehen die APIs aus?
    • Welche Daten sind verfügbar?
  • Welche Entitäten sollten verwendet werden?
  • Erste Ideen zur Datenstruktur

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Architekturentwurf vorstellen
  3. Quellen für Fußballdaten:
    •  Welche Quellen wurden gefunden?
    • Welche Entitäten stehen zur Verfügung und wie ist die Qualität der Daten?
    • Wie kann auf die Daten zugegriffen werden udn welche Probleme entstehen dabei?
    • Wie sieht die "Zieldatenstruktur" aus?

Intelligente Produktempfehlung

(1) Literatur Recherche zum Thema:

  • verwandte Arbeiten und Verfahren ausfindig machen:
    • Wo liegen die Kernprobleme? 
    • Was sind die aktuellen "Standard-Verfahren"?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten.
  • Welche Komponenten sind die, die später evaluiert und optimiert werden müssen?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Aufbau einer semantischen Produktdatenbank

Teil 1:
  1. Datenbanken ausfindig machen, die semantische Produktdaten gemäß Goodrelations-Ontologie enthalten, z.B. sears.com (vgl. Goodrelations-Dokumentation)
  2. Entwickeln eines einfachen Crawlers, der die Seiten systematisch abarbeitet (z.B. via Sitemap) und die RDF Daten extrahiert (z.B. mit RDFa-Distiller oder Any23)
Teil 2:
  1. Ausfindigmachen von APIs über die nicht-semantische Produktdaten gesammelt werden können (z.B. Amazon)
  2. "Semantifizieren" der gesammelten Daten - also die Daten in RDF überführen (via Goodrelations-Ontologie), sodass sie mit den Daten aus Teil 1 kompatibel sind.

Entscheidung treffen:

  • Wie sollen die RDF Daten abgespeichert werden?
    • Triplestore (wenn ja, welcher), Datenbank oder Dateien?
    • Welche Anforderungen werden and die Daten gestellt?

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Ideen zur Architektur vorstellen
  3. Produktdatenbank:
    • Wie viele Produkte wurden bisher akquiriert?
    • Welche Quellen wurden verwendet?
    • Wie ist die Qualität der Daten? (Sind sie sehr ausführlich, oder gibt es nur einen Titel?)
    • Gibt es Verknüpfungen in die DBpedia? Wenn ja wie viele?
    • Wie wurden sie abgespeichert?

Donnerstag, 25. Oktober 2012

Folien zur technischen Einführung

Die Folien zur gestrigen technischen Einführungsveranstaltung stehen jetzt zum Download bereit...

Mittwoch, 24. Oktober 2012

Doodle zur Gruppenterminfindung

Bitte tragt in folgendem Doodle:

http://www.doodle.com/68hg987eakyheruu

gruppenweise (siehe Gruppennummer unten) ein, an welchen Terminen ihr Zeit bzw. keine Zeit habt.

Gruppen:

Gruppe 1: Marcel Bsufka, David Neumann, Lukas Rögner, Alexander Spivak (Fußball)
Gruppe 2: Moritz Exner, Moritz Finke, Julian Risch, Timo Wagner, Tim Zimmermann (Fußball)
Gruppe 3: Stefan Bunk, Tanja Bergmann, Ricarda Schüler, Johannes Eschrig, Daniel Roeder (Fußball)
Gruppe 4: Johannes Jasper, Florian Moritz, Johannes Wolf (Produktempfehlung)
Gruppe 5: Daniel Dummer, Pedro Flemming, Susanne Bülow, Thomas Hille (Fußball)
Gruppe 6: Magdalena Noffke, Manuel Hegner, Martin Zabel, Georg Krüger (Produktempfehlung)

Dienstag, 23. Oktober 2012

Folien als PDF

Die Folien zur Einführungsveranstaltung sind jetzt rechts auch als PDF herunterladbar.

Montag, 22. Oktober 2012

Die Folien zur Einführungsveranstaltung

Sorry, dass es so lange gedauert hat, aber wir hatte mit dem PDF der Folien ein paar Probleme. Die Folien sind jetzt schon einmal auf Slideshare, d.h. wenn Sie können die Folien einerseits hier im Blog durchblättern bzw. wenn Sie dem Slideshare-Link folgen, können Sie die Folien auch downloaden. Für die iPad-Benutzer (und andere, die mit dem Adobe Flash von slideshare nicht klar kommen) kommt noch ein weiterer Download Link für die Präsentation dazu.



Mittwoch, 17. Oktober 2012

UPDATE: Gruppenfindung bis 24.10.2012

Wie in der Einführungsveranstaltung angekündigt, möchten wir euch bitten, euch zu Teams von 3-4 Mitgliedern zusammenzufinden und euch für ein Thema zu entscheiden. Der Doodle Link hierfür:

Doodle

Bitte entscheidet euch bis zum nächsten Seminartermin (24.10.2012) für ein Thema und eine Gruppe!

Donnerstag, 4. Oktober 2012

Erste Seminar-Infos

In jüngster Zeit wachsen die Forschungsgebiete Semantic Web, Web 2.0, Social Network Analysis und Machine Learning immer weiter zusammen. Auf diesem Fundament entstehen neue Data Mining Anwendungen, die zuvor ungeahnte Rückschlüsse auf statistische Zusammenhänge, Marktentwicklungen oder auch die öffentlichen Meinung ermöglichen. Dabei ergänzen Semantic Web Technologien in Verbindung mit linguistischen und statistischen Analyseverfarten die traditionellen Data Mining Ansätze und ermöglichen es, die in der ungeheueren Datenflut des Webs versteckten Informationen zu filtern und korrekt zu interpretieren. Untersuchungsgegenstand sind dabei Textinhalte jeglicher Art, seien es Dokumente in natürlicher Sprache, Microposts oder strukturierte Daten, die über APIs oder via Crawling-Technologien gewonnen werden. Darauf aufbauend können intelligente Empfehlungen (Recommendations) ermittelt werden, die den bislang existierenden Logfile-basierten Ansätzen (Collaborative Filterung) überlegen sind.

Im Seminar Semantic Media Mining soll auf Basis der oben genannten Technologien in studentischen Teams (je 2-3 Studenten) eine der folgenden Anwendungen entwickelt werden:
  • Erfassung und korrekte Interpretation von statistischen Fußballdaten aus Webseiten, Blogbeiträgen, News-Artikeln und Microposts und deren semantische Weiterverarbeitung
  • Ableiten von intelligenten Produktempfehlungen (Werbung) auf der Basis von beliebigen Textinhalten (News-Artikel, microposts, andere Metadaten)
Die Einführungsveranstaltung zum Seminar Semantic Media Mining findet am 17.10.2012, 17.00 Uhr im Raum H.2-58 statt.

Die weiteren Seminarbesprechungen werden in den einzelnen Gruppen an abgestimmten Terminen stattfinden.