LaTeX-examples/documents/DYCOS/Vokabularbestimmung.tex

\subsection{Vokabularbestimmung}\label{sec:vokabularbestimmung}
Da die Größe des Vokabulars die Datenmenge signifikant beeinflusst,
liegt es in unserem Interesse so wenig Wörter wie möglich ins
Vokabular aufzunehmen. Insbesondere sind Wörter nicht von Interesse,
die in fast allen Texten vorkommen, wie im Deutschen z.~B.
\enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert
Wörter zu wählen, die die Texte möglichst stark voneinander Unterscheiden.
Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
untersucht und festgestellt, dass die Klassifikationsgüte mit größerem
$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und 
kein signifikanter Unterschied festgestellt.

Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
Der Gini-Koeffizient ist ein statistisches Maß, das die Ungleichverteilung
bewertet. Er ist immer im Intervall $[0,1]$, wobei $0$ einer 
Gleichverteilung entspricht und $1$ der größtmöglichen Ungleichverteilung.

Sei nun $n_i(w)$ die Häufigkeit des Wortes $w$ in allen Texten mit 
der $i$-ten Knotenbeschriftung.
\begin{align}
    p_i(w) &:= \frac{n_i(w)}{\sum_{j=1}^{|\L_t|} n_j(w)} &\text{(Relative Häufigkeit des Wortes $w$)}\\
    G(w)   &:= \sum_{j=1}^{|\L_t|} p_j(w)^2              &\text{(Gini-Koeffizient von $w$)}
\end{align}
In diesem Fall ist $G(w)=0$ nicht möglich, da zur Vokabularbestimmung
nur Wörter betrachtet werden, die auch vorkommen.

Ein Vorschlag, wie die Vokabularbestimmung implementiert werden kann,
ist als Pseudocode mit \cref{alg:vokabularbestimmung}
gegeben. Dieser Algorithmus benötigt neben dem Speicher für den
Graphen, die Texte sowie die $m$ Vokabeln noch $\mathcal{O}(|\text{Verschiedene Wörter in } S_t| \cdot (|\L_t| + 1))$
Speicher. Die Average-Case Zeitkomplexität beträgt 
$\mathcal{O}(|\text{Wörter in } S_t|)$, wobei dazu die Vereinigung
von Mengen $M,N$ in $\mathcal{O}(\min{|M|, |N|})$ sein muss.

\begin{algorithm}
    \begin{algorithmic}[1]
        \Require \\
                 $V_{L,t}$ (beschriftete Knoten),\\
                 $\L_t$ (Beschriftungen),\\
                 $f:V_{L,t} \rightarrow \L_t$ (Beschriftungsfunktion),\\
                 $m$ (Gewünschte Vokabulargröße)
        \Ensure  $\M_t$ (Vokabular)\\

        \State $S_t \gets \Call{Sample}{V_{L,t}}$ \Comment{Wähle eine Teilmenge $S_t \subseteq V_{L,t}$ aus}
        \State $\M_t \gets \bigcup_{v \in S_t} \Call{getTextAsSet}{v}$ \Comment{Menge aller Wörter}
        \State $cLabelWords \gets (|\L_t|+1) \times |\M_t|$-Array, mit 0en initialisiert\\

        \ForAll{$v \in V_{L,t}$} \Comment{Gehe jeden Text Wort für Wort durch}
            \State $i \gets \Call{getLabel}{v}$
            \ForAll{$(word, occurences) \in \Call{getTextAsMultiset}{v}$}
                \State $cLabelWords[i][word] \gets cLabelWords[i][word] + occurences$
                \State $cLabelWords[i][|\L_t|] \gets cLabelWords[i][|\L_t|] + occurences$
            \EndFor
        \EndFor
        \\
        \ForAll{Wort $w \in \M_t$}
            \State $p \gets $ Array aus $|\L_t|$ Zahlen in $[0, 1]$
            \ForAll{Label $i \in \L_t$}
                \State $p[i] \gets \frac{cLabelWords[i][w]}{cLabelWords[i][|\L_t|]}$
            \EndFor

            \State $w$.gini $\gets 0$
            \ForAll{$i \in 1, \dots, |\L_t|$}
                \State $w$.gini $\gets$ $w$.gini + $p[i]^2$
            \EndFor
        \EndFor

        \State $\M_t \gets \Call{SortDescendingByGini}{\M_t}$
        \State \Return $\Call{Top}{\M_t, m}$
    \end{algorithmic}
\caption{Vokabularbestimmung}
\label{alg:vokabularbestimmung}
\end{algorithm}

Die Menge $S_t$ kann aus der Menge aller Dokumente, deren 
Knoten beschriftet sind, mithilfe des in \cite{Vitter} vorgestellten
Algorithmus bestimmt werden.
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\subsection{Vokabularbestimmung}\label{sec:vokabularbestimmung}`
Tippfehler verbessert 2014-01-12 18:14:47 +01:00			`Da die Größe des Vokabulars die Datenmenge signifikant beeinflusst,`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`liegt es in unserem Interesse so wenig Wörter wie möglich ins`
			`Vokabular aufzunehmen. Insbesondere sind Wörter nicht von Interesse,`
			`die in fast allen Texten vorkommen, wie im Deutschen z.~B.`
starke Überarbeitung 2014-01-12 17:20:36 +01:00			`\enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert`
Tippfehler verbessert 2014-01-12 18:14:47 +01:00			`Wörter zu wählen, die die Texte möglichst stark voneinander Unterscheiden.`
starke Überarbeitung 2014-01-12 17:20:36 +01:00			`Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,`
			`wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}`
kleine Verbesserungen 2014-01-12 17:46:43 +01:00			`wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte`
Tippfehler verbessert 2014-01-12 18:14:47 +01:00			`untersucht und festgestellt, dass die Klassifikationsgüte mit größerem`
kleine Verbesserungen 2014-01-12 17:46:43 +01:00			`$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.`
			`Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und`
			`kein signifikanter Unterschied festgestellt.`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00
			`Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen`
			`oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.`
			`Der Gini-Koeffizient ist ein statistisches Maß, das die Ungleichverteilung`
			`bewertet. Er ist immer im Intervall $[0,1]$, wobei $0$ einer`
Tippfehler verbessert 2014-01-12 18:14:47 +01:00			`Gleichverteilung entspricht und $1$ der größtmöglichen Ungleichverteilung.`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00
			`Sei nun $n_i(w)$ die Häufigkeit des Wortes $w$ in allen Texten mit`
Label -> Knotenbeschriftung 2014-01-19 21:47:36 +01:00			`der $i$-ten Knotenbeschriftung.`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\begin{align}`
			`p_i(w) &:= \frac{n_i(w)}{\sum_{j=1}^{\|\L_t\|} n_j(w)} &\text{(Relative Häufigkeit des Wortes $w$)}\\`
			`G(w) &:= \sum_{j=1}^{\|\L_t\|} p_j(w)^2 &\text{(Gini-Koeffizient von $w$)}`
			`\end{align}`
			`In diesem Fall ist $G(w)=0$ nicht möglich, da zur Vokabularbestimmung`
			`nur Wörter betrachtet werden, die auch vorkommen.`

			`Ein Vorschlag, wie die Vokabularbestimmung implementiert werden kann,`
Fehler korrigiert; Verlinkung mit cleveref verbessert 2014-01-12 15:19:53 +01:00			`ist als Pseudocode mit \cref{alg:vokabularbestimmung}`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`gegeben. Dieser Algorithmus benötigt neben dem Speicher für den`
			`Graphen, die Texte sowie die $m$ Vokabeln noch $\mathcal{O}(\|\text{Verschiedene Wörter in } S_t\| \cdot (\|\L_t\| + 1))$`
			`Speicher. Die Average-Case Zeitkomplexität beträgt`
			`$\mathcal{O}(\|\text{Wörter in } S_t\|)$, wobei dazu die Vereinigung`
			`von Mengen $M,N$ in $\mathcal{O}(\min{\|M\|, \|N\|})$ sein muss.`

Fehler korrigiert; Verlinkung mit cleveref verbessert 2014-01-12 15:19:53 +01:00			`\begin{algorithm}`
TODOs entfernt; Abschnitt 'Schwächen' hinzugefügt; Nun wird nur noch der DYCOS-Algorithmus aus dem Paper beschrieben; Struktur verändert; Abschnitt über Analyse entfernt 2014-01-11 19:27:50 +01:00			`\begin{algorithmic}[1]`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\Require \\`
Label -> Knotenbeschriftung 2014-01-19 21:47:36 +01:00			`$V_{L,t}$ (beschriftete Knoten),\\`
			`$\L_t$ (Beschriftungen),\\`
			`$f:V_{L,t} \rightarrow \L_t$ (Beschriftungsfunktion),\\`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`$m$ (Gewünschte Vokabulargröße)`
			`\Ensure $\M_t$ (Vokabular)\\`

Fehler korrigiert; Verlinkung mit cleveref verbessert 2014-01-12 15:19:53 +01:00			`\State $S_t \gets \Call{Sample}{V_{L,t}}$ \Comment{Wähle eine Teilmenge $S_t \subseteq V_{L,t}$ aus}`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\State $\M_t \gets \bigcup_{v \in S_t} \Call{getTextAsSet}{v}$ \Comment{Menge aller Wörter}`
Tippfehler verbessert 2014-01-12 18:14:47 +01:00			`\State $cLabelWords \gets (\|\L_t\|+1) \times \|\M_t\|$-Array, mit 0en initialisiert\\`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00
Fehler korrigiert; Verlinkung mit cleveref verbessert 2014-01-12 15:19:53 +01:00			`\ForAll{$v \in V_{L,t}$} \Comment{Gehe jeden Text Wort für Wort durch}`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\State $i \gets \Call{getLabel}{v}$`
			`\ForAll{$(word, occurences) \in \Call{getTextAsMultiset}{v}$}`
			`\State $cLabelWords[i][word] \gets cLabelWords[i][word] + occurences$`
			`\State $cLabelWords[i][\|\L_t\|] \gets cLabelWords[i][\|\L_t\|] + occurences$`
			`\EndFor`
			`\EndFor`
			`\\`
			`\ForAll{Wort $w \in \M_t$}`
			`\State $p \gets $ Array aus $\|\L_t\|$ Zahlen in $[0, 1]$`
			`\ForAll{Label $i \in \L_t$}`
			`\State $p[i] \gets \frac{cLabelWords[i][w]}{cLabelWords[i][\|\L_t\|]}$`
			`\EndFor`
Verbesserungsvorschlaege von C. Oessner (Email vom 15.01.2014) eingearbeitet; Definition von 'Random Walk' hinzugefügt 2014-01-18 18:50:56 +01:00
			`\State $w$.gini $\gets 0$`
			`\ForAll{$i \in 1, \dots, \|\L_t\|$}`
			`\State $w$.gini $\gets$ $w$.gini + $p[i]^2$`
			`\EndFor`
Inhaltliche Mehrfachsprünge erläutert; Erklärung zur Vokabularbestimmung; Ausblick geschrieben 2013-12-27 19:14:51 +01:00			`\EndFor`

			`\State $\M_t \gets \Call{SortDescendingByGini}{\M_t}$`
			`\State \Return $\Call{Top}{\M_t, m}$`
			`\end{algorithmic}`
			`\caption{Vokabularbestimmung}`
			`\label{alg:vokabularbestimmung}`
			`\end{algorithm}`

Verbesserungsvorschlaege von C. Oessner (Email vom 15.01.2014) eingearbeitet; Definition von 'Random Walk' hinzugefügt 2014-01-18 18:50:56 +01:00			`Die Menge $S_t$ kann aus der Menge aller Dokumente, deren`
			`Knoten beschriftet sind, mithilfe des in \cite{Vitter} vorgestellten`
TODOs entfernt; Abschnitt 'Schwächen' hinzugefügt; Nun wird nur noch der DYCOS-Algorithmus aus dem Paper beschrieben; Struktur verändert; Abschnitt über Analyse entfernt 2014-01-11 19:27:50 +01:00			`Algorithmus bestimmt werden.`