Погружение в machine learning

До недавнего времени я занимался исключительно разработкой програмного и немного аппаратного обеспечения, но смена места работы подтолкнула меня открыть для себя целый новый мир машинного обучения. Хоть я и был знаком с реализацией некоторых методов ML ещё с университета, но осознание масштабов его применения стало для меня открытием.
Приведу нуже ссылки материалов, которые посчитал полезными:

Курсы

coursera.org/learn/vvedenie-mashinnoe-obuchenie — курс по ML, который отлично «вправляет мозги»

Модели

rusvectores.org/ru/ — word2vec модели для русского языка

Библиотеки

tensorflow.org/tutorials/ — туториалы к библиотеке по ML, которые объясняют почему модели работают. Например отличный разбор word2vec.
scikit-learn.org — swish army knife дата саентиста. Для тех, кто хочет чтобы «просто работало». До меня медленно доходило, что применение нового инструмента часто приносит больше пользы, чем мучительное допиливание старого. Т.е. для проверки гипотез рекомендовал бы именно эту библиотеку вместо более низкоуровневых и дающих больше контроля вроде tensorflow.

Статьи

colah.github.io/posts/2015-08-Understanding-LSTMs/ для понимани RNN, GRU и LSTM
tech.adroll.com/blog/data-science/2015/08/25/factorization-machines.html про эмбеддинги для фичей, что позволяет дёшево использовать комбинации фичей
rare-technologies.com/fasttext-and-gensim-word-embeddings сравнение wor2vec и FastText. FastText лучше выучивает синтаксис(consequent-final+finally=consequently) из-за использования n-gram.

Публикации

arxiv.org/abs/1410.4615 — статья про обучение RNN исполнять python и запоминать предложения. Содержит исследование модификаций последовательностей(реверс, повторение) и способов обчучения(от простого к сложному).

Соревнования

kaggle.com/c/text-normalization-challenge-russian-language — превращаем «70,5см» в «семьдесят с половиной сантиметров»
kaggle.com/c/text-normalization-challenge-english-language — превращаем «70,5cm» в «seventy and half centimeters»
kaggle.com/c/quora-question-pairs — проверка вопросов на дубликаты

Yuriy Nazarov on GithubYuriy Nazarov on Twitter
Yuriy Nazarov
Software engineer
Люблю machine learning