kleine Verbesserungen

2025-04-24 22:08:04 +02:00 · 2014-01-12 17:46:43 +01:00 · 2014-01-12 17:46:43 +01:00 · e0421134c2
commit e0421134c2
parent 899cd5afe2
6 changed files with 22 additions and 17 deletions
--- a/documents/DYCOS/Ausblick.tex
+++ b/documents/DYCOS/Ausblick.tex
@ -1,8 +1,8 @@
 Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
 vielen Punkten verbessern. So könnte man vor der Auswahl des
 Vokabulars jedes Wort auf den Wortstamm zurückführen.
-Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet 
-werden \cite{porter}. Durch diese Maßnahme wird das
+Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
+Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
 Vokabular kleiner gehalten, mehr Artikel können mit einander
 durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
 besseres Maß für die Gleichheit von Texten.
@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand

 Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit 
 mehreren Labels.
+
+DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
+auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
+gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
+untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die 
+Klassifkationsgüte ist.
--- a/documents/DYCOS/DYCOS.pdf
+++ b/documents/DYCOS/DYCOS.pdf
--- a/documents/DYCOS/SchwaechenVerbesserungen.tex
+++ b/documents/DYCOS/SchwaechenVerbesserungen.tex
@ -93,21 +93,16 @@ nicht überprüft werden:
          Analyse auf S.~362 eingeführt.
          Es ist nicht klar, wie entschieden wird welche Kanten
          gespeichert werden und welche nicht.
-    \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
-          auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
-          gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
-          $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt 
-          wurde. Allerings ist hier wenigstens klar, dass $q$ für
-          den DYCOS-Algorithmus konstant ist. Für die Experimentelle
-          Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
-          Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
-          Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
-          Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
    \item Für die Analyse der CORA-Datensatzes analysiert.
          Dieser beinhaltet Forschungsarbeiten, wobei die 
          Forschungsgebiete die in einen Baum mit 73 Blättern 
          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
          extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
          künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
-          jedoch die TODO
+          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
+          nachvollzogen werden.
+    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
+          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
+          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
+          und mit $\theta$ die Klassifkationsgüte gemessen.
 \end{itemize}
--- a/documents/DYCOS/Sprungtypen.tex
+++ b/documents/DYCOS/Sprungtypen.tex
@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
          und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
          außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
    \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
-          eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
+          eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den 
+CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
    \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
          den Knoten $v'$ als Ziel des Mehrfachsprungs.
 \end{enumerate}
--- a/documents/DYCOS/Vokabularbestimmung.tex
+++ b/documents/DYCOS/Vokabularbestimmung.tex
@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
-wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
-untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte 
-sehr ähnlich ist.
+wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
+untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
+$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
+Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und 
+kein signifikanter Unterschied festgestellt.

 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
--- a/documents/DYCOS/mystyle.sty
+++ b/documents/DYCOS/mystyle.sty
@ -15,6 +15,7 @@
 \renewtheorem{definition}{Definition}

 \def\L{\ensuremath{\mathcal{L}}}
+\def\T{\ensuremath{\mathcal{T}}}
 \def\M{\ensuremath{\mathcal{M}}}

 \renewcommand{\algorithmicrequire}{\textbf{Input:}}