diff --git a/documents/DYCOS/Ausblick.tex b/documents/DYCOS/Ausblick.tex index 35968f8..1f023af 100644 --- a/documents/DYCOS/Ausblick.tex +++ b/documents/DYCOS/Ausblick.tex @@ -1,8 +1,8 @@ Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an vielen Punkten verbessern. So könnte man vor der Auswahl des Vokabulars jedes Wort auf den Wortstamm zurückführen. -Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet -werden \cite{porter}. Durch diese Maßnahme wird das +Dafür könnte zum Beispiel der in \cite{porter} vorgestellte +Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das Vokabular kleiner gehalten, mehr Artikel können mit einander durch Vokabular verbunden werden und der Gini-Koeffizient wird ein besseres Maß für die Gleichheit von Texten. @@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit mehreren Labels. + +DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen +auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten +gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht +untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die +Klassifkationsgüte ist. diff --git a/documents/DYCOS/DYCOS.pdf b/documents/DYCOS/DYCOS.pdf index e0e8b48..6854e0c 100644 Binary files a/documents/DYCOS/DYCOS.pdf and b/documents/DYCOS/DYCOS.pdf differ diff --git a/documents/DYCOS/SchwaechenVerbesserungen.tex b/documents/DYCOS/SchwaechenVerbesserungen.tex index d286dfd..3d7d9d0 100644 --- a/documents/DYCOS/SchwaechenVerbesserungen.tex +++ b/documents/DYCOS/SchwaechenVerbesserungen.tex @@ -93,21 +93,16 @@ nicht überprüft werden: Analyse auf S.~362 eingeführt. Es ist nicht klar, wie entschieden wird welche Kanten gespeichert werden und welche nicht. - \item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen - auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten - gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie - $q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt - wurde. Allerings ist hier wenigstens klar, dass $q$ für - den DYCOS-Algorithmus konstant ist. Für die Experimentelle - Analyse wurde zwar erwähnt, dass $q$ ein Parameter des - Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher - Wert in der Analyse des DBLP-Datensatzes genutzt wurde. - Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}. \item Für die Analyse der CORA-Datensatzes analysiert. Dieser beinhaltet Forschungsarbeiten, wobei die Forschungsgebiete die in einen Baum mit 73 Blättern eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen extrahiert und der Graph, der keine Zeitpunkte beinhaltet, künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie - jedoch die TODO + jedoch diese Unterteilung genau durchgeführt wurde kann nicht + nachvollzogen werden. + \item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte + Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings + werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert + und mit $\theta$ die Klassifkationsgüte gemessen. \end{itemize} diff --git a/documents/DYCOS/Sprungtypen.tex b/documents/DYCOS/Sprungtypen.tex index a35a0e5..323e9cb 100644 --- a/documents/DYCOS/Sprungtypen.tex +++ b/documents/DYCOS/Sprungtypen.tex @@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt: und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind. \item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$ - eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2} + eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den +CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2} \item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$ den Knoten $v'$ als Ziel des Mehrfachsprungs. \end{enumerate} diff --git a/documents/DYCOS/Vokabularbestimmung.tex b/documents/DYCOS/Vokabularbestimmung.tex index 36539d3..bff1516 100644 --- a/documents/DYCOS/Vokabularbestimmung.tex +++ b/documents/DYCOS/Vokabularbestimmung.tex @@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B. Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden. Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular, wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011} -wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte -untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte -sehr ähnlich ist. +wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte +untersucht und festegestellt, dass die Klassifikationsgüte mit größerem +$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist. +Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und +kein signifikanter Unterschied festgestellt. Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen. diff --git a/documents/DYCOS/mystyle.sty b/documents/DYCOS/mystyle.sty index 0cf7f43..bfd5c8c 100644 --- a/documents/DYCOS/mystyle.sty +++ b/documents/DYCOS/mystyle.sty @@ -15,6 +15,7 @@ \renewtheorem{definition}{Definition} \def\L{\ensuremath{\mathcal{L}}} +\def\T{\ensuremath{\mathcal{T}}} \def\M{\ensuremath{\mathcal{M}}} \renewcommand{\algorithmicrequire}{\textbf{Input:}}