starke Überarbeitung

2025-04-24 22:08:04 +02:00 · 2014-01-12 17:20:36 +01:00 · 2014-01-12 17:20:36 +01:00 · 899cd5afe2
commit 899cd5afe2
parent 36425299c5
9 changed files with 97 additions and 77 deletions
--- a/documents/DYCOS/DYCOS-Algorithmus.tex
+++ b/documents/DYCOS/DYCOS-Algorithmus.tex
@ -2,18 +2,15 @@
 DYCOS (\underline{DY}namic \underline{C}lassification 
 algorithm with c\underline{O}ntent and \underline{S}tructure) ist ein 
 Knotenklassifizierungsalgorithmus, der Ursprünglich in \cite{aggarwal2011} vorgestellt 
-wurde. Er klassifiziert Knoten, indem mehrfach Random Walks startend
+wurde. Er klassifiziert einzelne Knoten, indem $r$ Random Walks der Länge $l$,
-bei dem zu klassifizierenden Knoten $v$ gemacht werden und die Labels
+startend bei dem zu klassifizierenden Knoten $v$ gemacht werden. Dabei
-der besuchten Knoten gezählt werden. Das Label, das am häufigsten
+werden die Labels der besuchten Knoten gezählt. Das Label, das am häufigsten
 vorgekommen ist, wird als Label für $v$ gewählt.
 DYCOS nutzt also die sog. Homophilie, d.~h. die Eigenschaft, dass
 Knoten, die nur wenige Hops von einander entfernt sind, häufig auch
-ähnlich sind \cite{bhagat}.
+ähnlich sind \cite{bhagat}. Der DYCOS-Algorithmus nimmt jedoch nicht 
-
+einfach den Graphen für dieses Verfahren, sondern erweitert ihn mit 
-Der DYCOS-Algorithmus nimmt jedoch nicht einfach den Graphen für 
+Hilfe der zur Verfügung stehenden Texte.\\
 dieses Verfahren, sondern erweitert ihn mit Hilfe der zur Verfügung
 stehenden Texte.
 Für diese Erweiterung wird zuerst wird Vokabular $W_t$ bestimmt, das 
 charakteristisch für eine Knotengruppe ist. Wie das gemacht werden kann
 und warum nicht einfach jedes Wort in das Vokabular aufgenommen wird,
@ -24,6 +21,12 @@ Knoten, die der Graph zuvor hatte, werden nun \enquote{Strukturknoten}
 genannt.
 Ein Strukturknoten $v$ wird genau dann mit einem Wortknoten $w \in W_t$
 verbunden, wenn $w$ in einem Text von $v$ vorkommt.
 Der DYCOS-Algorithmus betrachtet also die Texte, die einem Knoten 
 zugeornet sind, als eine Multimenge von Wörtern. Das heißt, zum einen 
 wird nicht auf die Reihenfolge der Wörter geachtet, zum anderen wird 
 bei Texten eines Knotens nicht zwischen verschiedenen 
 Texten unterschieden. Jedoch wird die Anzahl der Vorkommen 
 jedes Wortes berücksichtigt.
 \begin{figure}[htp]
    \centering
@ -43,10 +46,9 @@ die strukturellen Sprünge und inhaltliche Mehrfachsprünge:
    Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in V_t$
    ein \textbf{struktureller Sprung}.
 \end{definition}
-
+\goodbreak
 Im Gegensatz dazu benutzten inhaltliche Mehrfachsprünge
 tatsächlich die Grapherweiterung:
 \begin{definition}
    Sei $G_t = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der
    um die Wortknoten $W_{t}$ erweiterte Graph.
@ -60,46 +62,13 @@ tatsächlich die Grapherweiterung:
 Jeder inhaltliche Mehrfachsprung beginnt und endet also in einem Strukturknoten,
 springt über einen Wortknoten und ist ein Pfad der Länge~2.
-Bevor der DYCOS-Algorithmus im Detail erklärt wird, sei noch auf eine
+Ob in einem Sprung der Random Walks ein struktureller Sprung oder
-Besonderheit hingewiesen:
+ein inhaltlicher Mehrfachsprung gemacht wird, wird jedes mal zufällig
-Der DYCOS-Algorithmus betrachtet die Texte, die einem Knoten 
+neu entschiden. Dafür wird der Parameter $0 \leq p_S \leq 1$ für den Algorithmus 
-zugeornet sind, als eine Multimenge von Wörtern. Das heißt, zum einen 
+gewählt. Mit einer Wahrscheinlichkeit von $p_S$ wird eine struktureller
-wird nicht auf die Reihenfolge der Wörter geachtet, zum anderen wird 
+Sprung durchgefürt und mit einer Wahrscheinlichkeit
-bei Texten eines Knotens nicht zwischen verschiedenen 
+von $(1-p_S)$ ein modifizierter inhaltlicher Mehrfachsprung, wie er in
-Texten unterschieden. Jedoch wird die Anzahl der Vorkommen 
+\cref{sec:sprungtypen} erklärt wird, gemacht. Dieser 
 jedes Wortes berücksichtigt.
 \subsection{Datenstrukturen}
 Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$ 
 verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen:
 \begin{itemize}
    \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter,
          die auch im Vokabular $W_t$ sind,
          und deren Anzahl gespeichert. Das könnte z.~B. über ein 
          assoziatives Array geschehen. Wörter, die nicht in 
          Texten von $v$ vorkommen, sind nicht im Array. Für
          alle vorkommenden Wörter ist der gespeicherte Wert zum 
          Schlüssel \enquote{Wort} die Anzahl der Vorkommen von 
          \enquote{Wort} in den Texten von $v$.
    \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von 
          Knoten verwaltet, in deren Texten das Wort vorkommt.
    \item An einigen Stellen macht ein assoziatives Array, auch 
          \enquote{dictionary} oder \enquote{map} genannt, sinn.
          Zustätzlich ist es nützlich, wenn diese Datenstruktur für 
          unbekannte Schlüssel keinen Fehler ausgibt, sondern für diese
          Schlüssel den Wert 0 annimmt. Eine solche Datenstruktur
          wird in Python \texttt{defaultdict} genannt und ich werde
          im Folgenden diese Benennung beibehalten.
 \end{itemize}
 \input{Sprungtypen}
 \input{Vokabularbestimmung}
 \subsection{Der Algorithmus}
 Der DYCOS-Algorithmus verwendet nun für jeden Knoten der gelabelt wird
 $r$ Random Walks der Länge $l$, wobei mit einer Wahrscheinlichkeit 
 $p_S$ ein struktureller Sprung und mit einer Wahrscheinlichkeit
 von $(1-p_S)$ ein inhaltlicher Mehrfachsprung gemacht wird. Dieser 
 Parameter gibt an, wie wichtig die Struktur des Graphen im Verhältnis
 zu den textuellen Inhalten ist. Bei $p_S = 0$ werden ausschließlich
 die Texte betrachtet, bei $p_S = 1$ ausschließlich die Struktur des
@ -108,14 +77,12 @@ Graphen.
 Die Vokabularbestimmung kann zu jedem Zeitpunkt $t$ durchgeführt 
 werden, muss es aber nicht.
-In \cref{alg:DYCOS} wurde der DYCOS-Algorithmus als 
+In \cref{alg:DYCOS} wird der DYCOS-Algorithmus als 
-Pseudocode vorgestellt. Dafür werden die beiden Hilfsfunktionen 
+Pseudocode vorgestellt.
 für den strukturellen Sprung sowie den inhaltlichen Mehrfachsprung
 benötigt.
 \begin{algorithm}
    \begin{algorithmic}[1]
-        \Require \\$G_t = (V_t, E_t, V_{L,t})$ (Netzwerk),\\
+        \Require \\$G_{E,t} = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_t)$ (Erweiterter Graph),\\
                 $r$ (Anzahl der Random Walks),\\
                 $l$ (Länge eines Random Walks),\\
                 $p_s$ (Wahrscheinlichkeit eines strukturellen Sprungs),\\
@ -154,3 +121,29 @@ benötigt.
 \caption{DYCOS-Algorithmus}
 \label{alg:DYCOS}
 \end{algorithm}
 \subsection{Datenstrukturen}
 Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$ 
 verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen:
 \begin{itemize}
    \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter,
          die auch im Vokabular $W_t$ sind,
          und deren Anzahl gespeichert. Das könnte z.~B. über ein 
          assoziatives Array geschehen. Wörter, die nicht in 
          Texten von $v$ vorkommen, sind nicht im Array. Für
          alle vorkommenden Wörter ist der gespeicherte Wert zum 
          Schlüssel \enquote{Wort} die Anzahl der Vorkommen von 
          \enquote{Wort} in den Texten von $v$.
    \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von 
          Knoten verwaltet, in deren Texten das Wort vorkommt.
    \item An einigen Stellen macht ein assoziatives Array, auch 
          \enquote{dictionary} oder \enquote{map} genannt, sinn.
          Zustätzlich ist es nützlich, wenn diese Datenstruktur für 
          unbekannte Schlüssel keinen Fehler ausgibt, sondern für diese
          Schlüssel den Wert 0 annimmt. Eine solche Datenstruktur
          wird in Python \texttt{defaultdict} genannt und ich werde
          im Folgenden diese Benennung beibehalten.
 \end{itemize}
 \input{Sprungtypen}
 \input{Vokabularbestimmung}
--- a/documents/DYCOS/DYCOS.pdf
+++ b/documents/DYCOS/DYCOS.pdf
--- a/documents/DYCOS/DYCOS.tex
+++ b/documents/DYCOS/DYCOS.tex
@ -28,6 +28,7 @@
 \usepackage{tikz}
 \usepackage{enumitem}
 \usepackage[german,nameinlink]{cleveref}
 \usepackage{braket}
 \allowdisplaybreaks
 \usetikzlibrary{backgrounds}
 \usepackage{mystyle}
--- a/documents/DYCOS/SchwaechenVerbesserungen.tex
+++ b/documents/DYCOS/SchwaechenVerbesserungen.tex
@ -4,7 +4,7 @@ vorgeschlagen, die es allerdings noch zu untersuchen gilt.
 \subsection{Schwächen von DYCOS}
 \subsubsection{Anzahl der Labels}
-So, wie er vorgestellt wurde, können nur Graphen bearbeitet werden, 
+So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden, 
 deren Knoten höchstens ein Label haben. In vielen Fällen, wie z.~B. 
 Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels.
@ -24,18 +24,18 @@ zählen.
 \subsubsection{Überanpassung und Reklassifizierung}
 Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche
-Knoten der Klassifizierungsalgorithmus angewand werden soll. Jedoch
+Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch
 ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes 
-minimale Beispiel:
+Minimalbeispiel:
 Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt
 $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$  sei
 mit dem Label $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht-gelabelter
-Knoten $v_2$ sowie die Kante $(v_1, v_2)$ hinzu.\\
+Knoten $v_2$ sowie die Kante $(v_2, v_1)$ hinzu.\\
 Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und
 $v_2$ mit $A$ gelabelt.\\
 Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ gelabelt ist,
-und die Kante $(v_3, v_2)$ hinzu.
+und die Kante $(v_2, v_3)$ hinzu.
 \begin{figure}[ht]
    \centering
@ -52,6 +52,10 @@ und die Kante $(v_3, v_2)$ hinzu.
        \input{figures/graph-t3.tex}
        \label{fig:graph-t3}
    }%
    \subfloat[$t=4$]{
        \input{figures/graph-t4.tex}
        \label{fig:graph-t4}
    }%
    \label{Formen}
    \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen}
 \end{figure}
@ -66,7 +70,7 @@ Knoten einfügt:
 Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten
 $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die 
-Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $75\%$.
+Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $\frac{2}{3}$.
 Werden die als ungelabelten Knoten jedoch erst jetzt und alle gemeinsam
 gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$.
 Bei dem DYCOS-Algorithmus findet also eine Überanpassung and vergangene
@ -78,16 +82,17 @@ könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese
 abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet.
 \subsection{Schwächen des Papers}
-Die Ergebnise der experimentelle Analyse können aus folgenden Gründen
+In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe 
 des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des
 CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt.
 Die Ergebnise dieser Analyse können aus folgenden Gründen
 nicht überprüft werden:
 \begin{itemize}
-    \item DYCOS verwendet als Vokabular die Top-$m$-Wörter mit dem
+    \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten
-          höchsten Gini-Index aus einer Sample-Menge von Texten, die
+          aller Wortknoten beschränkt, wird erst mit der Experimentellen
-          wie in \cite{Vitter} beschrieben
+          Analyse auf S.~362 eingeführt.
-          erzeugt wird. Allerdings wird niemals erklärt, wie $m \in \mathbb{N}$
+          Es ist nicht klar, wie entschieden wird welche Kanten
-          bestimmt wird. Es ist nicht einmal klar, ob $m$ für den
+          gespeichert werden und welche nicht.
          Algorithmus als konstant anzusehen ist oder ob $m$ sich
          bei der Vokabularbestimmung ändern könnte.
    \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
          auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
          gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
@ -95,10 +100,10 @@ nicht überprüft werden:
          wurde. Allerings ist hier wenigstens klar, dass $q$ für
          den DYCOS-Algorithmus konstant ist. Für die Experimentelle
          Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
-          Algorithmus ist\cite[S. 362]{aggarwal2011}, aber nicht welcher
+          Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
          Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
          Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
-    \item Für die Analyse der CORA-Datensatzes\footnote{inzwischen unter \href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} analysiert.
+    \item Für die Analyse der CORA-Datensatzes analysiert.
          Dieser beinhaltet Forschungsarbeiten, wobei die 
          Forschungsgebiete die in einen Baum mit 73 Blättern 
          eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
--- a/documents/DYCOS/Sprungtypen.tex
+++ b/documents/DYCOS/Sprungtypen.tex
@ -1,4 +1,4 @@
-\subsection{Sprungtypen}
+\subsection{Sprungtypen}\label{sec:sprungtypen}
 Die beiden bereits definierten Sprungtypen, der strukturelle Sprung
 sowie der inhaltliche Mehrfachsprung werden im folgenden erklärt.
 \goodbreak
--- a/documents/DYCOS/Vokabularbestimmung.tex
+++ b/documents/DYCOS/Vokabularbestimmung.tex
@ -3,7 +3,13 @@ Da die größe des Vokabulars die Datenmenge signifikant beeinflusst,
 liegt es in unserem Interesse so wenig Wörter wie möglich ins
 Vokabular aufzunehmen. Insbesondere sind Wörter nicht von Interesse,
 die in fast allen Texten vorkommen, wie im Deutschen z.~B.
-\enquote{und}, \enquote{mit} und die Pronomen.
+\enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert
 Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
 Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
 wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
 wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
 untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte 
 sehr ähnlich ist.
 Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
 oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
--- a/documents/DYCOS/figures/graph-t2.tex
+++ b/documents/DYCOS/figures/graph-t2.tex
@ -3,6 +3,6 @@
 \begin{tikzpicture}[scale=1,framed]
    \node (a)[vertex,label=$A$] at (0,0) {$v_1$};
    \node (b)[vertex,label={\color{blue}$A$}] at (1,0) {$v_2$};
-    \draw[->] (a) -- (b);
+    \draw[->] (b) -- (a);
    \node (struktur)[label={[label distance=-0.2cm]0:$t=2$}] at (-2,1) {};
 \end{tikzpicture}
--- a/documents/DYCOS/figures/graph-t3.tex
+++ b/documents/DYCOS/figures/graph-t3.tex
@ -4,7 +4,7 @@
    \node (a)[vertex,label=$A$] at (0,0) {$v_1$};
    \node (b)[vertex,label={\color{blue}$A$}] at (1,0) {$v_2$};
    \node (c)[vertex,label=$B$] at (2,0) {$v_3$};
-    \draw[->] (a) -- (b);
+    \draw[->] (b) -- (a);
-    \draw[->] (c) -- (b);
+    \draw[->] (b) -- (c);
    \node (struktur)[label={[label distance=-0.2cm]0:$t=3$}] at (-1,1) {};
 \end{tikzpicture}
--- a/documents/DYCOS/figures/graph-t4.tex
+++ b/documents/DYCOS/figures/graph-t4.tex
@ -0,0 +1,15 @@
 \tikzstyle{vertex}=[draw,black,circle,minimum size=10pt,inner sep=0pt]
 \tikzstyle{edge}=[very thick]
 \begin{tikzpicture}[scale=1,framed]
    \node (a)[vertex,label=$A$] at (0,0) {$v_1$};
    \node (b)[vertex,label=45:{\color{blue}$A$}] at (1,0) {$v_2$};
    \node (c)[vertex,label=$B$] at (2,0) {$v_3$};
    \node (d)[vertex] at (1,1) {$v_4$};
    \draw[->] (b) -- (a);
    \draw[->] (b) -- (c);
    \draw[->] (d) -- (a);
    \draw[->] (d) -- (b);
    \draw[->] (d) -- (c);
    \node (struktur)[label={[label distance=-0.2cm]0:$t=3$}] at (-1,1) {};
 \end{tikzpicture}