Donnerstag, 1. November 2012

Aufgaben bis nächste Woche

Da der Mittwoch feiertagsbedingt diese Woche als Seminartermin entfällt (bereits entfallen ist...), verschieben wir die ersten Gruppentreffen auf die nächste Woche. Damit ihr Euch bis dahin nicht langweilt, haben wir ein paar erste Aufgaben zusammengestellt, die wir in der nächsten Woche besprechen werden.

Linked Soccer

(1) Literaturrecherche zum Thema:

  • verwandte Arbeiten und Verfahren identifizieren:
    1. Aggregation von Linked Data aus unstrukturierten Daten
    2. Datenextraktion aus Microposts (z.B. Tweets und Facebook Posts)
    • Was sind die aktuellen "Standard-Verfahren"?
    • Wo liegen die Kernprobleme?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten?
  • Welche Komponenten müssen später evaluiert und optimiert werden?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Erste Schritte:

  • Recherche von öffentlichen Datenquellen
    • Wie sehen die APIs aus?
    • Welche Daten sind verfügbar?
  • Welche Entitäten sollten verwendet werden?
  • Erste Ideen zur Datenstruktur

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Architekturentwurf vorstellen
  3. Quellen für Fußballdaten:
    •  Welche Quellen wurden gefunden?
    • Welche Entitäten stehen zur Verfügung und wie ist die Qualität der Daten?
    • Wie kann auf die Daten zugegriffen werden udn welche Probleme entstehen dabei?
    • Wie sieht die "Zieldatenstruktur" aus?

Intelligente Produktempfehlung

(1) Literatur Recherche zum Thema:

  • verwandte Arbeiten und Verfahren ausfindig machen:
    • Wo liegen die Kernprobleme? 
    • Was sind die aktuellen "Standard-Verfahren"?
  • Quellen: Google Scholar, Citeseer, Bibsonomy, CiteULike

(2) Entwurf einer Gesamtarchitektur und Vorgehensweise

  • Wie müsste die Infrastruktur aussehen, um die Daten entsprechend aufzubereiten.
  • Welche Komponenten sind die, die später evaluiert und optimiert werden müssen?
  • Wie wird die Arbeitsteilung im Team ablaufen?

(3) Aufbau einer semantischen Produktdatenbank

Teil 1:
  1. Datenbanken ausfindig machen, die semantische Produktdaten gemäß Goodrelations-Ontologie enthalten, z.B. sears.com (vgl. Goodrelations-Dokumentation)
  2. Entwickeln eines einfachen Crawlers, der die Seiten systematisch abarbeitet (z.B. via Sitemap) und die RDF Daten extrahiert (z.B. mit RDFa-Distiller oder Any23)
Teil 2:
  1. Ausfindigmachen von APIs über die nicht-semantische Produktdaten gesammelt werden können (z.B. Amazon)
  2. "Semantifizieren" der gesammelten Daten - also die Daten in RDF überführen (via Goodrelations-Ontologie), sodass sie mit den Daten aus Teil 1 kompatibel sind.

Entscheidung treffen:

  • Wie sollen die RDF Daten abgespeichert werden?
    • Triplestore (wenn ja, welcher), Datenbank oder Dateien?
    • Welche Anforderungen werden and die Daten gestellt?

Themen, die beim kommenden Seminartreffen besprochen werden sollen:

  1. Verwandte Arbeiten vorstellen
  2. Ideen zur Architektur vorstellen
  3. Produktdatenbank:
    • Wie viele Produkte wurden bisher akquiriert?
    • Welche Quellen wurden verwendet?
    • Wie ist die Qualität der Daten? (Sind sie sehr ausführlich, oder gibt es nur einen Titel?)
    • Gibt es Verknüpfungen in die DBpedia? Wenn ja wie viele?
    • Wie wurden sie abgespeichert?

Keine Kommentare:

Kommentar veröffentlichen