diff --git a/documents/DYCOS/DYCOS-Algorithmus.tex b/documents/DYCOS/DYCOS-Algorithmus.tex index 56c7d2d..4ca83d3 100644 --- a/documents/DYCOS/DYCOS-Algorithmus.tex +++ b/documents/DYCOS/DYCOS-Algorithmus.tex @@ -2,18 +2,15 @@ DYCOS (\underline{DY}namic \underline{C}lassification algorithm with c\underline{O}ntent and \underline{S}tructure) ist ein Knotenklassifizierungsalgorithmus, der Ursprünglich in \cite{aggarwal2011} vorgestellt -wurde. Er klassifiziert Knoten, indem mehrfach Random Walks startend -bei dem zu klassifizierenden Knoten $v$ gemacht werden und die Labels -der besuchten Knoten gezählt werden. Das Label, das am häufigsten +wurde. Er klassifiziert einzelne Knoten, indem $r$ Random Walks der Länge $l$, +startend bei dem zu klassifizierenden Knoten $v$ gemacht werden. Dabei +werden die Labels der besuchten Knoten gezählt. Das Label, das am häufigsten vorgekommen ist, wird als Label für $v$ gewählt. DYCOS nutzt also die sog. Homophilie, d.~h. die Eigenschaft, dass Knoten, die nur wenige Hops von einander entfernt sind, häufig auch -ähnlich sind \cite{bhagat}. - -Der DYCOS-Algorithmus nimmt jedoch nicht einfach den Graphen für -dieses Verfahren, sondern erweitert ihn mit Hilfe der zur Verfügung -stehenden Texte. - +ähnlich sind \cite{bhagat}. Der DYCOS-Algorithmus nimmt jedoch nicht +einfach den Graphen für dieses Verfahren, sondern erweitert ihn mit +Hilfe der zur Verfügung stehenden Texte.\\ Für diese Erweiterung wird zuerst wird Vokabular $W_t$ bestimmt, das charakteristisch für eine Knotengruppe ist. Wie das gemacht werden kann und warum nicht einfach jedes Wort in das Vokabular aufgenommen wird, @@ -24,6 +21,12 @@ Knoten, die der Graph zuvor hatte, werden nun \enquote{Strukturknoten} genannt. Ein Strukturknoten $v$ wird genau dann mit einem Wortknoten $w \in W_t$ verbunden, wenn $w$ in einem Text von $v$ vorkommt. +Der DYCOS-Algorithmus betrachtet also die Texte, die einem Knoten +zugeornet sind, als eine Multimenge von Wörtern. Das heißt, zum einen +wird nicht auf die Reihenfolge der Wörter geachtet, zum anderen wird +bei Texten eines Knotens nicht zwischen verschiedenen +Texten unterschieden. Jedoch wird die Anzahl der Vorkommen +jedes Wortes berücksichtigt. \begin{figure}[htp] \centering @@ -43,10 +46,9 @@ die strukturellen Sprünge und inhaltliche Mehrfachsprünge: Knoten $v \in V_t$ zu einem benachbartem Knoten $w \in V_t$ ein \textbf{struktureller Sprung}. \end{definition} - +\goodbreak Im Gegensatz dazu benutzten inhaltliche Mehrfachsprünge tatsächlich die Grapherweiterung: - \begin{definition} Sei $G_t = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_{t})$ der um die Wortknoten $W_{t}$ erweiterte Graph. @@ -60,46 +62,13 @@ tatsächlich die Grapherweiterung: Jeder inhaltliche Mehrfachsprung beginnt und endet also in einem Strukturknoten, springt über einen Wortknoten und ist ein Pfad der Länge~2. -Bevor der DYCOS-Algorithmus im Detail erklärt wird, sei noch auf eine -Besonderheit hingewiesen: -Der DYCOS-Algorithmus betrachtet die Texte, die einem Knoten -zugeornet sind, als eine Multimenge von Wörtern. Das heißt, zum einen -wird nicht auf die Reihenfolge der Wörter geachtet, zum anderen wird -bei Texten eines Knotens nicht zwischen verschiedenen -Texten unterschieden. Jedoch wird die Anzahl der Vorkommen -jedes Wortes berücksichtigt. - -\subsection{Datenstrukturen} -Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$ -verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen: -\begin{itemize} - \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter, - die auch im Vokabular $W_t$ sind, - und deren Anzahl gespeichert. Das könnte z.~B. über ein - assoziatives Array geschehen. Wörter, die nicht in - Texten von $v$ vorkommen, sind nicht im Array. Für - alle vorkommenden Wörter ist der gespeicherte Wert zum - Schlüssel \enquote{Wort} die Anzahl der Vorkommen von - \enquote{Wort} in den Texten von $v$. - \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von - Knoten verwaltet, in deren Texten das Wort vorkommt. - \item An einigen Stellen macht ein assoziatives Array, auch - \enquote{dictionary} oder \enquote{map} genannt, sinn. - Zustätzlich ist es nützlich, wenn diese Datenstruktur für - unbekannte Schlüssel keinen Fehler ausgibt, sondern für diese - Schlüssel den Wert 0 annimmt. Eine solche Datenstruktur - wird in Python \texttt{defaultdict} genannt und ich werde - im Folgenden diese Benennung beibehalten. -\end{itemize} - -\input{Sprungtypen} -\input{Vokabularbestimmung} - -\subsection{Der Algorithmus} -Der DYCOS-Algorithmus verwendet nun für jeden Knoten der gelabelt wird -$r$ Random Walks der Länge $l$, wobei mit einer Wahrscheinlichkeit -$p_S$ ein struktureller Sprung und mit einer Wahrscheinlichkeit -von $(1-p_S)$ ein inhaltlicher Mehrfachsprung gemacht wird. Dieser +Ob in einem Sprung der Random Walks ein struktureller Sprung oder +ein inhaltlicher Mehrfachsprung gemacht wird, wird jedes mal zufällig +neu entschiden. Dafür wird der Parameter $0 \leq p_S \leq 1$ für den Algorithmus +gewählt. Mit einer Wahrscheinlichkeit von $p_S$ wird eine struktureller +Sprung durchgefürt und mit einer Wahrscheinlichkeit +von $(1-p_S)$ ein modifizierter inhaltlicher Mehrfachsprung, wie er in +\cref{sec:sprungtypen} erklärt wird, gemacht. Dieser Parameter gibt an, wie wichtig die Struktur des Graphen im Verhältnis zu den textuellen Inhalten ist. Bei $p_S = 0$ werden ausschließlich die Texte betrachtet, bei $p_S = 1$ ausschließlich die Struktur des @@ -108,14 +77,12 @@ Graphen. Die Vokabularbestimmung kann zu jedem Zeitpunkt $t$ durchgeführt werden, muss es aber nicht. -In \cref{alg:DYCOS} wurde der DYCOS-Algorithmus als -Pseudocode vorgestellt. Dafür werden die beiden Hilfsfunktionen -für den strukturellen Sprung sowie den inhaltlichen Mehrfachsprung -benötigt. +In \cref{alg:DYCOS} wird der DYCOS-Algorithmus als +Pseudocode vorgestellt. \begin{algorithm} \begin{algorithmic}[1] - \Require \\$G_t = (V_t, E_t, V_{L,t})$ (Netzwerk),\\ + \Require \\$G_{E,t} = (V_t, E_{S,t} \cup E_{W,t}, V_{L,t}, W_t)$ (Erweiterter Graph),\\ $r$ (Anzahl der Random Walks),\\ $l$ (Länge eines Random Walks),\\ $p_s$ (Wahrscheinlichkeit eines strukturellen Sprungs),\\ @@ -154,3 +121,29 @@ benötigt. \caption{DYCOS-Algorithmus} \label{alg:DYCOS} \end{algorithm} + +\subsection{Datenstrukturen} +Zusätzlich zu dem gerichteten Graphen $G_t = (V_t, E_t, V_{L,t})$ +verwaltet der DYCOS-Algorithmus zwei weitere Datenstrukturen: +\begin{itemize} + \item Für jeden Knoten $v \in V_t$ werden die vorkommenden Wörter, + die auch im Vokabular $W_t$ sind, + und deren Anzahl gespeichert. Das könnte z.~B. über ein + assoziatives Array geschehen. Wörter, die nicht in + Texten von $v$ vorkommen, sind nicht im Array. Für + alle vorkommenden Wörter ist der gespeicherte Wert zum + Schlüssel \enquote{Wort} die Anzahl der Vorkommen von + \enquote{Wort} in den Texten von $v$. + \item Für jedes Wort des Vokabulars $W_t$ wird eine Liste von + Knoten verwaltet, in deren Texten das Wort vorkommt. + \item An einigen Stellen macht ein assoziatives Array, auch + \enquote{dictionary} oder \enquote{map} genannt, sinn. + Zustätzlich ist es nützlich, wenn diese Datenstruktur für + unbekannte Schlüssel keinen Fehler ausgibt, sondern für diese + Schlüssel den Wert 0 annimmt. Eine solche Datenstruktur + wird in Python \texttt{defaultdict} genannt und ich werde + im Folgenden diese Benennung beibehalten. +\end{itemize} + +\input{Sprungtypen} +\input{Vokabularbestimmung} diff --git a/documents/DYCOS/DYCOS.pdf b/documents/DYCOS/DYCOS.pdf index e4aadd9..e0e8b48 100644 Binary files a/documents/DYCOS/DYCOS.pdf and b/documents/DYCOS/DYCOS.pdf differ diff --git a/documents/DYCOS/DYCOS.tex b/documents/DYCOS/DYCOS.tex index caedc4e..0e7014e 100644 --- a/documents/DYCOS/DYCOS.tex +++ b/documents/DYCOS/DYCOS.tex @@ -28,6 +28,7 @@ \usepackage{tikz} \usepackage{enumitem} \usepackage[german,nameinlink]{cleveref} +\usepackage{braket} \allowdisplaybreaks \usetikzlibrary{backgrounds} \usepackage{mystyle} diff --git a/documents/DYCOS/SchwaechenVerbesserungen.tex b/documents/DYCOS/SchwaechenVerbesserungen.tex index e2c571d..d286dfd 100644 --- a/documents/DYCOS/SchwaechenVerbesserungen.tex +++ b/documents/DYCOS/SchwaechenVerbesserungen.tex @@ -4,7 +4,7 @@ vorgeschlagen, die es allerdings noch zu untersuchen gilt. \subsection{Schwächen von DYCOS} \subsubsection{Anzahl der Labels} -So, wie er vorgestellt wurde, können nur Graphen bearbeitet werden, +So, wie der DYCOS-Algorithmus vorgestellt wurde, können nur Graphen bearbeitet werden, deren Knoten höchstens ein Label haben. In vielen Fällen, wie z.~B. Wikipedia mit Kategorien als Labels haben Knoten jedoch viele Labels. @@ -24,18 +24,18 @@ zählen. \subsubsection{Überanpassung und Reklassifizierung} Aggarwal und Li beschreiben in \cite{aggarwal2011} nicht, auf welche -Knoten der Klassifizierungsalgorithmus angewand werden soll. Jedoch +Knoten der Klassifizierungsalgorithmus angewendet werden soll. Jedoch ist die Reihenfolge der Klassifizierung relevant. Dazu folgendes -minimale Beispiel: +Minimalbeispiel: Gegeben sei ein dynamischer Graph ohne textuelle Inhalte. Zum Zeitpunkt $t=1$ habe dieser Graph genau einen Knoten $v_1$ und $v_1$ sei mit dem Label $A$ beschriftet. Zum Zeitpunkt $t=2$ komme ein nicht-gelabelter -Knoten $v_2$ sowie die Kante $(v_1, v_2)$ hinzu.\\ +Knoten $v_2$ sowie die Kante $(v_2, v_1)$ hinzu.\\ Nun wird der DYCOS-Algorithmus auf diesen Knoten angewendet und $v_2$ mit $A$ gelabelt.\\ Zum Zeitpunkt $t=3$ komme ein Knoten $v_3$, der mit $B$ gelabelt ist, -und die Kante $(v_3, v_2)$ hinzu. +und die Kante $(v_2, v_3)$ hinzu. \begin{figure}[ht] \centering @@ -52,6 +52,10 @@ und die Kante $(v_3, v_2)$ hinzu. \input{figures/graph-t3.tex} \label{fig:graph-t3} }% + \subfloat[$t=4$]{ + \input{figures/graph-t4.tex} + \label{fig:graph-t4} + }% \label{Formen} \caption{Minimalbeispiel für den Einfluss früherer DYCOS-Anwendungen} \end{figure} @@ -66,7 +70,7 @@ Knoten einfügt: Wird zum Zeitpunkt $t=4$ ein ungelabelter Knoten $v_4$ und die Kanten $(v_1, v_4)$, $(v_2, v_4)$, $(v_3, v_4)$ hinzugefügt, so ist die -Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $75\%$. +Wahrscheinlichkeit, dass $v_4$ mit $A$ gelabelt wird bei $\frac{2}{3}$. Werden die als ungelabelten Knoten jedoch erst jetzt und alle gemeinsam gelabelt, so ist die Wahrscheinlichkeit für $A$ als Label bei nur $50\%$. Bei dem DYCOS-Algorithmus findet also eine Überanpassung and vergangene @@ -78,16 +82,17 @@ könnten eine Lebenszeit bekommen (TTL, Time to Live). Ist diese abgelaufen, wird der DYCOS-Algorithmus erneut auf den Knoten angewendet. \subsection{Schwächen des Papers} -Die Ergebnise der experimentelle Analyse können aus folgenden Gründen +In \cite{aggarwal2011} wurde eine experimentelle Analyse mithilfe +des DBLP-Datensatzes\footnote{http://dblp.uni-trier.de/} und des +CORA-Datensatzes\footnote{\href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} durchgeführt. +Die Ergebnise dieser Analyse können aus folgenden Gründen nicht überprüft werden: \begin{itemize} - \item DYCOS verwendet als Vokabular die Top-$m$-Wörter mit dem - höchsten Gini-Index aus einer Sample-Menge von Texten, die - wie in \cite{Vitter} beschrieben - erzeugt wird. Allerdings wird niemals erklärt, wie $m \in \mathbb{N}$ - bestimmt wird. Es ist nicht einmal klar, ob $m$ für den - Algorithmus als konstant anzusehen ist oder ob $m$ sich - bei der Vokabularbestimmung ändern könnte. + \item Der Parameter $a \in \mathbb{N}$, der die Anzahl der ausgehenden Kanten + aller Wortknoten beschränkt, wird erst mit der Experimentellen + Analyse auf S.~362 eingeführt. + Es ist nicht klar, wie entschieden wird welche Kanten + gespeichert werden und welche nicht. \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie @@ -95,10 +100,10 @@ nicht überprüft werden: wurde. Allerings ist hier wenigstens klar, dass $q$ für den DYCOS-Algorithmus konstant ist. Für die Experimentelle Analyse wurde zwar erwähnt, dass $q$ ein Parameter des - Algorithmus ist\cite[S. 362]{aggarwal2011}, aber nicht welcher + Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher Wert in der Analyse des DBLP-Datensatzes genutzt wurde. Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}. - \item Für die Analyse der CORA-Datensatzes\footnote{inzwischen unter \href{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}{http://people.cs.umass.edu/~mccallum/data/cora-classify.tar.gz}} analysiert. + \item Für die Analyse der CORA-Datensatzes analysiert. Dieser beinhaltet Forschungsarbeiten, wobei die Forschungsgebiete die in einen Baum mit 73 Blättern eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen diff --git a/documents/DYCOS/Sprungtypen.tex b/documents/DYCOS/Sprungtypen.tex index 4628113..a35a0e5 100644 --- a/documents/DYCOS/Sprungtypen.tex +++ b/documents/DYCOS/Sprungtypen.tex @@ -1,4 +1,4 @@ -\subsection{Sprungtypen} +\subsection{Sprungtypen}\label{sec:sprungtypen} Die beiden bereits definierten Sprungtypen, der strukturelle Sprung sowie der inhaltliche Mehrfachsprung werden im folgenden erklärt. \goodbreak diff --git a/documents/DYCOS/Vokabularbestimmung.tex b/documents/DYCOS/Vokabularbestimmung.tex index e013218..36539d3 100644 --- a/documents/DYCOS/Vokabularbestimmung.tex +++ b/documents/DYCOS/Vokabularbestimmung.tex @@ -3,7 +3,13 @@ Da die größe des Vokabulars die Datenmenge signifikant beeinflusst, liegt es in unserem Interesse so wenig Wörter wie möglich ins Vokabular aufzunehmen. Insbesondere sind Wörter nicht von Interesse, die in fast allen Texten vorkommen, wie im Deutschen z.~B. -\enquote{und}, \enquote{mit} und die Pronomen. +\enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert +Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden. +Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular, +wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011} +wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte +untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte +sehr ähnlich ist. Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen. diff --git a/documents/DYCOS/figures/graph-t2.tex b/documents/DYCOS/figures/graph-t2.tex index 99a2a56..7668277 100644 --- a/documents/DYCOS/figures/graph-t2.tex +++ b/documents/DYCOS/figures/graph-t2.tex @@ -3,6 +3,6 @@ \begin{tikzpicture}[scale=1,framed] \node (a)[vertex,label=$A$] at (0,0) {$v_1$}; \node (b)[vertex,label={\color{blue}$A$}] at (1,0) {$v_2$}; - \draw[->] (a) -- (b); + \draw[->] (b) -- (a); \node (struktur)[label={[label distance=-0.2cm]0:$t=2$}] at (-2,1) {}; \end{tikzpicture} diff --git a/documents/DYCOS/figures/graph-t3.tex b/documents/DYCOS/figures/graph-t3.tex index 5714160..b6838c5 100644 --- a/documents/DYCOS/figures/graph-t3.tex +++ b/documents/DYCOS/figures/graph-t3.tex @@ -4,7 +4,7 @@ \node (a)[vertex,label=$A$] at (0,0) {$v_1$}; \node (b)[vertex,label={\color{blue}$A$}] at (1,0) {$v_2$}; \node (c)[vertex,label=$B$] at (2,0) {$v_3$}; - \draw[->] (a) -- (b); - \draw[->] (c) -- (b); + \draw[->] (b) -- (a); + \draw[->] (b) -- (c); \node (struktur)[label={[label distance=-0.2cm]0:$t=3$}] at (-1,1) {}; \end{tikzpicture} diff --git a/documents/DYCOS/figures/graph-t4.tex b/documents/DYCOS/figures/graph-t4.tex new file mode 100644 index 0000000..6b217c6 --- /dev/null +++ b/documents/DYCOS/figures/graph-t4.tex @@ -0,0 +1,15 @@ +\tikzstyle{vertex}=[draw,black,circle,minimum size=10pt,inner sep=0pt] +\tikzstyle{edge}=[very thick] +\begin{tikzpicture}[scale=1,framed] + \node (a)[vertex,label=$A$] at (0,0) {$v_1$}; + \node (b)[vertex,label=45:{\color{blue}$A$}] at (1,0) {$v_2$}; + \node (c)[vertex,label=$B$] at (2,0) {$v_3$}; + \node (d)[vertex] at (1,1) {$v_4$}; + \draw[->] (b) -- (a); + \draw[->] (b) -- (c); + + \draw[->] (d) -- (a); + \draw[->] (d) -- (b); + \draw[->] (d) -- (c); + \node (struktur)[label={[label distance=-0.2cm]0:$t=3$}] at (-1,1) {}; +\end{tikzpicture}