mirror of
https://github.com/MartinThoma/LaTeX-examples.git
synced 2025-04-24 22:08:04 +02:00
kleine Verbesserungen
This commit is contained in:
parent
899cd5afe2
commit
e0421134c2
6 changed files with 22 additions and 17 deletions
|
@ -1,8 +1,8 @@
|
|||
Den sehr einfach aufgebauten DYCOS-Algorithmus kann man noch an
|
||||
vielen Punkten verbessern. So könnte man vor der Auswahl des
|
||||
Vokabulars jedes Wort auf den Wortstamm zurückführen.
|
||||
Dafür könnte zum Beispiel der Porter-Stemming-Algorithmus verwendet
|
||||
werden \cite{porter}. Durch diese Maßnahme wird das
|
||||
Dafür könnte zum Beispiel der in \cite{porter} vorgestellte
|
||||
Porter-Stemming-Algorithmus verwendet werden. Durch diese Maßnahme wird das
|
||||
Vokabular kleiner gehalten, mehr Artikel können mit einander
|
||||
durch Vokabular verbunden werden und der Gini-Koeffizient wird ein
|
||||
besseres Maß für die Gleichheit von Texten.
|
||||
|
@ -18,3 +18,9 @@ In diesem Fall macht es jedoch einen wichtigen Unterschied, ob jemand
|
|||
|
||||
Eine einfache Erweiterung des DYCOS-Algorithmus wäre der Umgang mit
|
||||
mehreren Labels.
|
||||
|
||||
DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
|
||||
auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
|
||||
gemessen mit der Aggregatanalyse, allerdings wurde bisher noch nicht
|
||||
untersucht, wie der Einfluss von $q \in \mathbb{N}$ auf die
|
||||
Klassifkationsgüte ist.
|
||||
|
|
Binary file not shown.
|
@ -93,21 +93,16 @@ nicht überprüft werden:
|
|||
Analyse auf S.~362 eingeführt.
|
||||
Es ist nicht klar, wie entschieden wird welche Kanten
|
||||
gespeichert werden und welche nicht.
|
||||
\item DYCOS beschränkt sich bei inhaltlichen Mehrfachsprüngen
|
||||
auf die Top-$q$-Wortknoten, also die $q$ ähnlichsten Knoten
|
||||
gemessen mit der Aggregatanalyse. Auch hier wird nicht erklärt wie
|
||||
$q \in \mathbb{N}$ bestimmt oder nach welchen Überlegungen $q$ gesetzt
|
||||
wurde. Allerings ist hier wenigstens klar, dass $q$ für
|
||||
den DYCOS-Algorithmus konstant ist. Für die Experimentelle
|
||||
Analyse wurde zwar erwähnt, dass $q$ ein Parameter des
|
||||
Algorithmus ist \cite[S. 362]{aggarwal2011}, aber nicht welcher
|
||||
Wert in der Analyse des DBLP-Datensatzes genutzt wurde.
|
||||
Für den CORA-Datensatz wurde $q=10$ gewählt\cite[S. 364]{aggarwal2011}.
|
||||
\item Für die Analyse der CORA-Datensatzes analysiert.
|
||||
Dieser beinhaltet Forschungsarbeiten, wobei die
|
||||
Forschungsgebiete die in einen Baum mit 73 Blättern
|
||||
eingeordnet wurden. Aus diesen 73 Blättern wurden 5 Klassen
|
||||
extrahiert und der Graph, der keine Zeitpunkte beinhaltet,
|
||||
künstlich in 10 Graphen mit Zeitpunkten unterteilt. Wie
|
||||
jedoch die TODO
|
||||
jedoch diese Unterteilung genau durchgeführt wurde kann nicht
|
||||
nachvollzogen werden.
|
||||
\item Der auf S. 360 in \enquote{Algorithm 1} vorgestellte
|
||||
Pseudocode soll den DYCOS-Algorithmus darstellen. Allerdings
|
||||
werden die bereits klassifizierten Knoten $\T_t$ neu klassifiziert
|
||||
und mit $\theta$ die Klassifkationsgüte gemessen.
|
||||
\end{itemize}
|
||||
|
|
|
@ -36,7 +36,8 @@ Mehrfachsprung machen will folgendes Clusteranalyse durchgeführt:
|
|||
und erstelle eine Liste $L$, der erreichbaren Knoten $v'$. Speichere
|
||||
außerdem, durch wie viele Pfade diese Knoten $v'$ jeweils erreichbar sind.
|
||||
\item[C2] Betrachte im folgenden nur die Top-$q$ Knoten, wobei $q \in \mathbb{N}$
|
||||
eine zu wählende Konstante des Algorithmus ist. \label{list:aggregate.2}
|
||||
eine zu wählende Konstante des Algorithmus ist.\footnote{Sowohl für den DBLP, als auch für den
|
||||
CORA-Datensatz wurde in \cite[S. 364]{aggarwal2011} $q=10$ gewählt.} \label{list:aggregate.2}
|
||||
\item[C3] Wähle mit Wahrscheinlichkeit $\frac{\Call{Anzahl}{v'}}{\sum_{w \in L} \Call{Anzahl}{v'}}$
|
||||
den Knoten $v'$ als Ziel des Mehrfachsprungs.
|
||||
\end{enumerate}
|
||||
|
|
|
@ -7,9 +7,11 @@ die in fast allen Texten vorkommen, wie im Deutschen z.~B.
|
|||
Wörter zu wählen, die die Texte möglichst start voneinander Unterscheiden.
|
||||
Der DYCOS-Algorithmus wählt die Top-$m$ dieser Wörter als Vokabular,
|
||||
wobei $m \in \mathbb{N}$ eine Festzulegende Konstante ist. In \cite[S. 365]{aggarwal2011}
|
||||
wird der Einfluss von $m \in \Set{5,10, 20}$ auf die Klassifikationsgüte
|
||||
untersucht und festegestellt, dass für $m \in \Set{5,10}$ die Klassifikationsgüte
|
||||
sehr ähnlich ist.
|
||||
wird der Einfluss von $m \in \Set{5,10, 15,20}$ auf die Klassifikationsgüte
|
||||
untersucht und festegestellt, dass die Klassifikationsgüte mit größerem
|
||||
$m$ sinkt, sie also für $m=5$ für den DBLP-Datensatz am höchsten ist.
|
||||
Für den CORA-Datensatz wurde mit $m \in \set{3,4,5,6}$ getestet und
|
||||
kein signifikanter Unterschied festgestellt.
|
||||
|
||||
Nun kann man manuell eine Liste von zu beachtenden Wörtern erstellen
|
||||
oder mit Hilfe des Gini-Koeffizienten automatisch ein Vokabular erstellen.
|
||||
|
|
|
@ -15,6 +15,7 @@
|
|||
\renewtheorem{definition}{Definition}
|
||||
|
||||
\def\L{\ensuremath{\mathcal{L}}}
|
||||
\def\T{\ensuremath{\mathcal{T}}}
|
||||
\def\M{\ensuremath{\mathcal{M}}}
|
||||
|
||||
\renewcommand{\algorithmicrequire}{\textbf{Input:}}
|
||||
|
|
Loading…
Add table
Add a link
Reference in a new issue