diff --git a/documents/Proseminar-Netzwerkanalyse/Ausarbeitung-Thoma.pdf b/documents/Proseminar-Netzwerkanalyse/Ausarbeitung-Thoma.pdf index 4fc0c52..4e9b5c7 100644 Binary files a/documents/Proseminar-Netzwerkanalyse/Ausarbeitung-Thoma.pdf and b/documents/Proseminar-Netzwerkanalyse/Ausarbeitung-Thoma.pdf differ diff --git a/documents/Proseminar-Netzwerkanalyse/Vokabularbestimmung.tex b/documents/Proseminar-Netzwerkanalyse/Vokabularbestimmung.tex index 9263f7a..656b10b 100644 --- a/documents/Proseminar-Netzwerkanalyse/Vokabularbestimmung.tex +++ b/documents/Proseminar-Netzwerkanalyse/Vokabularbestimmung.tex @@ -6,11 +6,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B. \enquote{und}, \enquote{mit} und die Pronomen. Es ist wünschenswert Wörter zu wählen, die die Texte möglichst stark voneinander Unterscheiden. Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular, wobei -$m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011} +$m \in \mathbb{N}$ eine festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011} wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte untersucht und festgestellt, dass die Klassifikationsgüte mit größerem $m$ -sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist. Für den CORA- -Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und kein signifikanter +sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist. Für den +CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und kein signifikanter Unterschied festgestellt. Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen @@ -42,8 +42,8 @@ Datenstruktur wird in \cref{alg4:l10} bis \ref{alg4:l12} gefüllt. In \cref{alg4:l17} bis \ref{alg4:l19} wird die relative Häufigkeit der Wörter bzgl. der Beschriftungen bestimmt. Daraus wird in \cref{alg4:l20} bis \ref{alg4:l22} der Gini-Koeffizient berechnet. Schließlich werden in -\cref{alg4:l23} bis \ref{alg4:l24} die Top-$q$ Wörter mit den höchsten Gini- -Koeffizienten zurückgegeben. +\cref{alg4:l23} bis \ref{alg4:l24} die Top-$q$ Wörter mit den +höchsten Gini-Koeffizienten zurückgegeben. \begin{algorithm}[ht] \begin{algorithmic}[1]