2
0
Fork 0
mirror of https://github.com/MartinThoma/LaTeX-examples.git synced 2025-04-24 22:08:04 +02:00

kleine Verbesserungen

This commit is contained in:
Martin Thoma 2014-01-12 17:46:43 +01:00
parent 899cd5afe2
commit e0421134c2
6 changed files with 22 additions and 17 deletions

View file

@ -1,8 +1,8 @@
Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
vielen Punkten verbessern. So könnte man vor der Auswahl des
Vokabulars jedes Wort auf den Wortstamm zurückführen.
Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet
werden \cite{porter}. Durch diese Maßnahme wird das
Dafür könnte zum Beispiel der in \cite{porter} vorgestellte
Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
Vokabular kleiner gehalten, mehr Artikel können mit einander
durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
besseres Maß für die Gleichheit von Texten.
@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand
Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit
mehreren Labels.
DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die
Klassifkationsgüte ist.

Binary file not shown.

View file

@ -93,21 +93,16 @@ nicht überprüft werden:
Analyse auf S.~362 eingeführt.
Es ist nicht klar, wie entschieden wird welche Kanten
gespeichert werden und welche nicht.
\item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
$q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt
wurde. Allerings ist hier wenigstens klar, dass $q$ für
den DYCOS-Algorithmus konstant ist. Für die Experimentelle
Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
\item Für die Analyse der CORA-Datensatzes analysiert.
Dieser beinhaltet Forschungsarbeiten, wobei die
Forschungsgebiete die in einen Baum mit 73 Blättern
eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
jedoch die TODO
jedoch diese Unterteilung genau durchgeführt wurde kann nicht
nachvollzogen werden.
\item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
und mit $\theta$ die Klassifkationsgüte gemessen.
\end{itemize}

View file

@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
\item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den
CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
\item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
den Knoten $v'$ als Ziel des Mehrfachsprungs.
\end{enumerate}

View file

@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte
sehr ähnlich ist.
wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und
kein signifikanter Unterschied festgestellt.
Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.

View file

@ -15,6 +15,7 @@
\renewtheorem{definition}{Definition}
\def\L{\ensuremath{\mathcal{L}}}
\def\T{\ensuremath{\mathcal{T}}}
\def\M{\ensuremath{\mathcal{M}}}
\renewcommand{\algorithmicrequire}{\textbf{Input:}}