Skip to content
This repository has been archived by the owner on Jan 30, 2024. It is now read-only.

Commit

Permalink
explain lda as per #1
Browse files Browse the repository at this point in the history
  • Loading branch information
maxheld83 committed Sep 15, 2018
1 parent 087c526 commit d14e1d2
Show file tree
Hide file tree
Showing 2 changed files with 15 additions and 0 deletions.
1 change: 1 addition & 0 deletions DESCRIPTION
Original file line number Diff line number Diff line change
Expand Up @@ -16,6 +16,7 @@ Imports:
tidyverse,
purrr,
tidytext,
topicmodels,
textstem
Remotes:
tidyverse/purrr
14 changes: 14 additions & 0 deletions index.Rmd
Original file line number Diff line number Diff line change
Expand Up @@ -353,6 +353,20 @@ Einige der üblichen Ansätze für Textanalyse erscheinen für den vorliegenden
Eine Sentiment-Analyse, zumindest eine auf Unigrams basierende, ist für die vorliegenden Daten mit gängigen Lexika wenig aussagekräftig.
Der spezifische Kontext (hier: bullshit jobs) von Wörtern kann mit diesen Methoden nicht abgebildet werden.

Schließlich extrahieren wir mittels Latent Dirichlet Allocation (LDA) Muster von ähnlichen Thmene zwischen den unterschiedlichen Kommentaren.
Bei einer LDA werden die einzelnen Dokumente (hier: Kommentare) als Mischungen von Themen beschrieben und die einzelnen Themen wiederrum als (möglicherweise überlappende) Mischungen von Wörtern.
Eine LDA daher zerlegt die Rohdaten in zwei Matrizen: Eine Matrix $Wörter x Themen$ mit den Gewichten der Wörter pro Thema, und eine $Dokumente x Themen$ Matrix mit den Gewichten der Themen pro Dokument.
Somit handelt es sich bei der LDA um eine Dimensionsreduktion, also um einen Ansatz des *unsupervised learning*.

```{r}
td_coms %>%
tidy()
```






# Feelgood Management

Expand Down

0 comments on commit d14e1d2

Please sign in to comment.