Игра в слова
Привет!
Давайте поиграем со словами. Посчитаем все вхождения слов в постах и комментариях какого–нибудь пользователя и посмотрим, что получится. Возьмем топ–100 слов и сделаем наиболее частые крупнее. Начну с себя:
![](https://cdn.jpg.wtf/futurico/bc/68/1550424355-bc6899b6d03331cfd55dc938755dc231.png)
Нет, так дело не пойдет. Надо выкинуть все эти частицы речи. И имена пользователей тоже:
![](https://cdn.jpg.wtf/futurico/b7/4b/1550424410-b74ba45a562dd30d8bcbdcb654f9eb94.png)
Уже лучше, но всё равно не то: все эти "большой", "ваш", "человек" – кто большой? кто ваш? какой человек? Надо бы оставить самую мякотку, чтобы было видно о чем действительно человек пишет. Например, "Европа", "женщина" — ну ок. А вот "отвечать", "считать" – выбрасываем. Тут уж придется положиться на субъективную оценку и подобавлять некоторые стоп–слова руками:
![](https://cdn.jpg.wtf/futurico/12/c3/1550430548-12c352ce683c8fb357e0ab550fbdd87b.png)
Вот так уже лучше. Испробуем на ком–нибудь ещё теперь. Вот вам несколько пользователей. Посмотрим, угадаете ли кто здесь кто:
![](https://cdn.jpg.wtf/futurico/63/20/1550424620-63206c6da1d4544d91f87f394125f06a.png)
Юзернейм №1
![](https://cdn.jpg.wtf/futurico/c8/26/1550424692-c826e98e400a55a2fb371826df3f4cf2.png)
Юзернейм №2
![](https://cdn.jpg.wtf/futurico/e8/51/1550429337-e8514da5a4626d96d382c1a19274f5c8.png)
Юзернейм №3
А как насчет сообществ? Ну–ка, посмотрим:
![](https://cdn.jpg.wtf/futurico/a9/2f/1550429442-a92f7f8584a698d71d25d20a432b6513.png)
science
![](https://cdn.jpg.wtf/futurico/b5/8a/1550429526-b58a2011385b054e54e5f813ce25c985.png)
cosmos
![](https://cdn.jpg.wtf/futurico/0e/fd/1550429561-0efd9693396b3b5e4539207f52cbb56b.png)
historyporn
А вот самое интересное, посмотрите как похожи наши politota и politics:
![](https://cdn.jpg.wtf/futurico/23/c6/1550429668-23c6d183e20b053e5ab756af81a73ef9.png)
politota
![](https://cdn.jpg.wtf/futurico/ff/35/1550429744-ff35da6ffba5b88ec00455057d130a01.png)
politics
Да, вот пост @Patagonia, который заставил меня наконец заняться этой идеей.Там @irony правильно предлагал сделать срезы по годам и выделить тренды, по навскидку ничего интересного пока не получилось: топовые слова практически не меняются из года в год. Можно, конечно, попробовать составить список слов, популярность которых сильнее всего менялась за последние годы, но это тема для отдельного поста.
Конец.
Написал romaklimenko на dataisbeautiful.d3.ru / комментировать