Verbesserungsvorschlaege von C. Oessner (Email vom 15.01.2014) eingearbeitet; Definition von 'Random Walk' hinzugefügt

2025-04-25 06:18:05 +02:00 · 2014-01-18 18:50:56 +01:00 · 2014-01-18 18:50:56 +01:00 · 3c8ca52391
commit 3c8ca52391
parent be452cf225
7 changed files with 51 additions and 42 deletions
--- a/documents/DYCOS/Ausblick.tex
+++ b/documents/DYCOS/Ausblick.tex
@ -3,9 +3,9 @@ vielen Punkten verbessern. So könnte man vor der Auswahl des
 Vokabulars jedes Wort auf den Wortstamm zurückführen.
 Dafür könnte zum Beispiel der in \cite{porter} vorgestellte 
 Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
-Vokabular kleiner gehalten, mehr Artikel können mit einander
+Vokabular kleiner gehalten wodurch mehr Artikel mit einander
-durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
+durch Vokabular verbunden werden können. Außerdem könnte so der 
-besseres Maß für die Gleichheit von Texten.
+Gini-Koeffizient ein besseres Maß für die Gleichheit von Texten werden.
 Eine weitere Verbesserungsmöglichkeit besteht in der Textanalyse.
 Momentan ist diese noch sehr einfach gestrickt und ignoriert die
--- a/documents/DYCOS/DYCOS.pdf
+++ b/documents/DYCOS/DYCOS.pdf
--- a/documents/DYCOS/README.md
+++ b/documents/DYCOS/README.md
@ -10,3 +10,6 @@ TODO
 * Abschnitt "Problemstellung" überarbeiten
 * Abbildung verlinken
 * Algorithmen erklären
 * Warum sind Stellenangaben überflüssig?
 * Map erklären
 * Algorithmus 4, S. 9
--- a/documents/DYCOS/SchwaechenVerbesserungen.tex
+++ b/documents/DYCOS/SchwaechenVerbesserungen.tex
@ -2,10 +2,9 @@ Der in \cite{aggarwal2011} vorgestellte Algorithmus hat einige Probleme,
 die im Folgenden erläutert werden. Außerdem werden Verbesserungen
 vorgeschlagen, die es allerdings noch zu untersuchen gilt.
-\subsection{Schwächen von DYCOS}
+\subsection{Anzahl der Labels}
 \subsubsection{Anzahl der Labels}
 So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden, 
-deren Knoten höchstens ein Label haben. In vielen Fällen, wie z.~B. 
+deren Knoten jeweils höchstens ein Label haben. In vielen Fällen, wie z.~B. 
 Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels.
 Auf einen ersten Blick ist diese Schwäche einfach zu beheben, indem 
@ -22,7 +21,7 @@ sowohl für diese Kategorie als auch für die Kategorie \enquote{Klassifikation}
 zählen.
-\subsubsection{Überanpassung und Reklassifizierung}
+\subsection{Überanpassung und Reklassifizierung}
 Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
 Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
 ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes 
@ -71,7 +70,7 @@ Knoten einfügt:
 Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten
 $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die 
 Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $\frac{2}{3}$.
-Werden die als ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
+Werden die ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
 gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$.
 Bei dem DYCOS-Algorithmus findet also eine Überanpassung an vergangene
 Labels statt.
@ -81,28 +80,4 @@ Problem sein. Knoten, die durch den DYCOS-Algorithmus gelabelt wurden
 könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese 
 abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.
-\subsection{Schwächen des Papers}
+
 In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe 
 des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des
 CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt.
 Die Ergebnisse dieser Analyse können aus folgenden Gründen
 nicht überprüft werden:
 \begin{itemize}
    \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten
          aller Wortknoten beschränkt, wird erst mit der Experimentellen
          Analyse auf S.~362 eingeführt.
          Es ist nicht klar, wie entschieden wird welche Kanten
          gespeichert werden und welche nicht.
    \item Für die Analyse der CORA-Datensatzes analysiert.
          Dieser beinhaltet Forschungsarbeiten, wobei die 
          Forschungsgebiete die in einen Baum mit 73 Blättern 
          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
          extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
          künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
          nachvollzogen werden.
    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
          und mit $\theta$ die Klassifikationsgüte gemessen.
 \end{itemize}
--- a/documents/DYCOS/Sprungtypen.tex
+++ b/documents/DYCOS/Sprungtypen.tex
@ -54,14 +54,16 @@ die Anzahl der möglichen Zielknoten $v' \in V_T$ auf diejenigen
 $q$ Knoten, die $v$ bzgl. der Textanalyse am ähnlichsten sind.
 In \cref{alg:l2} bis \cref{alg:l5} wird \cref{step:c1} durchgeführt.
 In \cref{alg:l6} wird \cref{step:c2} durchgeführt. Bei der
-Wahl der Datenstruktur $M_H$ ist zu beachten, dass man in
+Wahl der Datenstruktur von $T$ ist zu beachten, dass man in
-\cref{alg:21} über Indizes auf Elemente aus $M_H$ zugreifen können muss.
+\cref{alg:21} über Indizes auf Elemente aus $T$ zugreifen können muss.
 In \cref{alg:l8} bis \cref{alg:l13} wird ein Wörterbuch erstellt,
 das von $v' \in T(v)$ auf die relative
 Häufigkeit bzgl. aller Pfade von $v$ zu Knoten aus den Top-$q$ abbildet.
 In allen folgenden Zeilen wird \cref{step:c3} durchgeführt. 
 In \cref{alg:15} bis \cref{alg:22} wird ein Knoten $v' \in T(v)$ mit
 einer Wahrscheinlichkeit, die seiner relativen Häufigkeit am Anteil
 der Pfaden der Länge 2 von $v$ nach $v'$ über einen beliebigen 
@ -78,14 +80,14 @@ Wortknoten entspricht ausgewählt und schließlich zurückgegeben.
                    \State $reachableNodes[x] \gets reachableNodes[x] + 1$
                \EndFor
            \EndFor\label{alg:l5}
-            \State \label{alg:l6} $M_H \gets \Call{max}{reachableNodes, q}$ \Comment{Also: $|M_H| = q$, falls $|reachableNodes|\geq q$}
+            \State \label{alg:l6} $T \gets \Call{max}{reachableNodes, q}$ \Comment{Also: $|T| = q$, falls $|reachableNodes|\geq q$}
            \\
            \State \label{alg:l8} $s \gets 0$
-            \ForAll{Knoten $x$ in $M_H$}
+            \ForAll{Knoten $x \in T$}
                \State $s \gets s + reachableNodes[x]$
            \EndFor
            \State $relativeFrequency \gets $ Dictionary
-            \ForAll{Knoten $x$ in $M_H$}
+            \ForAll{Knoten $x \in T$}
                \State $relativeFrequency \gets \frac{reachableNodes[x]}{s}$
            \EndFor\label{alg:l13} 
            \\
@ -97,7 +99,7 @@ Wortknoten entspricht ausgewählt und schließlich zurückgegeben.
                \State $i \gets i + 1$
            \EndWhile
-            \State $v \gets M_H[i-1]$ \label{alg:21}
+            \State $v \gets T[i-1]$ \label{alg:21}
            \State \Return $v$ \label{alg:22} 
        \EndProcedure
    \end{algorithmic}
--- a/documents/DYCOS/Vokabularbestimmung.tex
+++ b/documents/DYCOS/Vokabularbestimmung.tex
@ -62,7 +62,11 @@ von Mengen $M,N$ in $\mathcal{O}(\min{|M|, |N|})$ sein muss.
            \ForAll{Label $i \in \L_t$}
                \State $p[i] \gets \frac{cLabelWords[i][w]}{cLabelWords[i][|\L_t|]}$
            \EndFor
-            \State $w$.gini $\gets$ \Call{sum}{{\sc map}({\sc square}, $p$)}
+
            \State $w$.gini $\gets 0$
            \ForAll{$i \in 1, \dots, |\L_t|$}
                \State $w$.gini $\gets$ $w$.gini + $p[i]^2$
            \EndFor
        \EndFor
        \State $\M_t \gets \Call{SortDescendingByGini}{\M_t}$
@ -72,6 +76,6 @@ von Mengen $M,N$ in $\mathcal{O}(\min{|M|, |N|})$ sein muss.
 \label{alg:vokabularbestimmung}
 \end{algorithm}
-Die Menge $S_t$ kann durch Aus der Menge aller Dokumenten, deren 
+Die Menge $S_t$ kann aus der Menge aller Dokumente, deren 
-Knoten gelabelt sind, mithilfe des in \cite{Vitter} vorgestellten
+Knoten beschriftet sind, mithilfe des in \cite{Vitter} vorgestellten
 Algorithmus bestimmt werden.
--- a/documents/DYCOS/schwaechenPaper.tex
+++ b/documents/DYCOS/schwaechenPaper.tex
@ -0,0 +1,25 @@
 \subsection{Schwächen des Papers}
 In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe 
 des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des
 CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt.
 Die Ergebnisse dieser Analyse können aus folgenden Gründen
 nicht überprüft werden:
 \begin{itemize}
    \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten
          aller Wortknoten beschränkt, wird erst mit der Experimentellen
          Analyse auf S.~362 eingeführt.
          Es ist nicht klar, wie entschieden wird welche Kanten
          gespeichert werden und welche nicht.
    \item Für die Analyse der CORA-Datensatzes analysiert.
          Dieser beinhaltet Forschungsarbeiten, wobei die 
          Forschungsgebiete die in einen Baum mit 73 Blättern 
          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
          extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
          künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
          jedoch diese Unterteilung genau durchgeführt wurde kann nicht
          nachvollzogen werden.
    \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
          Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
          werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
          und mit $\theta$ die Klassifikationsgüte gemessen.
 \end{itemize}