to post messages and comments.

Вот некоторые не любят число 13, некоторые — ещё какое-то число. А я вот не люблю 0.693. Потому что если кроссэнтропия равна этому числу (а это ln 2, если что), то это значит, что классификатор (какая-нибудь нейронная сеточка) нифига не классифицирует, а пытается угадать. Всё время говорит 0, а если не угадала, то возвращает деньги.

Это, наверное, единственный нецелый логарифм, который я знаю до третьего знака. Как в анекдоте про программиста, который бойко называл степени двойки. А когда его спросили про три в квадрате, замялся: «Наверное, что-то дробное…»

Осилил курс "Введение в машинное обучение" от ВШЭ и ШАД на курсере.

Долго не мог заставить себя подобраться к курсеровскому формату изучения материала, но на практике всё оказалось понятнее и приятнее, чем я представлял. Кто ещё раздумывает, рекомендую попробовать.

Я очень много работаю на работе, проектах, олимпиадах для школьников, курсах для учителей и поэтому перестала писать. Но вот вам история сегодняшнего дня, которая положила конец моим трехгодичным страданиям и переживаниям.

На 4 курсе я писала один раз отчет по самому сложному предмету за все время учебы. Он занимал 30 страниц (больше чем мой диплом). И я там где-то в 4 утра написала "этот график показывает более лучшие результаты". Препод в рецензии на отчет написал, что я Света из Иваново с ее "Более лучше одеваться". Я проревела весь вечер за такое сравнение, но благо быстро отошла и к этой ситуации мы вернулись в конце семестра. В форме отзывов на курс я оставила обращение, что такое сравнение вообще говоря обидно и больно. Мне написали, что просят прощения и что это не этично и блаблабла, сорнян.

А сегодня я с этим преподам по работе 2 часа адекватно и няшно разговаривала (мне нужно было узнать про сотрудничество между моим работодателем и кафедрой). Разговор получился уберклевым и я в конце поделилась своими переживаниями, что мол "вот, я получила ML образование, может быть всю эту менеджерскую деятельность бросить и начать быть каким-нибудь Data Scientist'ом, а то я какой-то хрен с горы и зачем это все".

А он мне сказал: "Катя, то, что могут сделать 100 000 китайцев (решать соревнования на кагле), не рокетсайнс и не стоит туда так стремиться. У Вас есть прекрасные менеджерские навыки, образование ML и на этом стыке, где вы сейчас работаете, вы сможете добиться колосальных успехов"

И все мои сомнения, копившиеся 3 года, пропали! То есть я очень нервничала, что какой я так себе специалист, хоть и с нормальной зп (10% квантиль по бывшим одногруппникам!), а теперь нет! Еще он верит что я могу выйти из декрета и вообще смогу защититься, но это вообще за гранью.

Посмотрел из любопытства курс машинного обучения от ВШЭ на Coursera. Воронцов замечательный мужик, конечно, но курс у него не очень.

1. Непонятно, зачем он вообще что-то говорит, если всё есть на слайдах, которые он, фактически читает.
2. Конспектировать невозможно, так как слайды быстро сменяют друг друга. В этом плане мне больше нравятся лекции, где лектор объяснения пишет по ходу дела. Многие не конспектируют, а я конспектирую всё, реально помогает.
3. Объяснений как таковых нет. Я всё понимал, но лишь потому, что я этим уже лет, наверное, семь занимаюсь. В комментариях люди жалуются. Похоже, создатели курса решили запихнуть больше теории в ущерб пониманию.
4. Отрыв теории от практики. На лекции рассматриваются деревья, алгоритм ID3, все дела. На практике надо с помощью Pandas найти самое популярное имя среди пассажиров «Титаника». Не, я понимаю, что без Pandas и Scikit-learn сейчас никуда, но либо надо про них в лекциях немного рассказывать, либо задачки давать про то, что на теории изучено.
5. Ну и ещё по мелочам.

Хоть я не большой фанат курса от Эндрю Ына, но у него поинтереснее будет, несмотря на то, что курс более однобокий. Он много времени тратил на объяснения. Градиентный спуск только полчаса объяснял, наверное. И он не ленился рассказывать, как пользоваться инструментами (в его случае Octave).

ml

А как нынче поживают всякие ML? Знаю, что OCaml на грани жизни и смерти где-то барахтается, а остальные как? Кто-нибудь начинает новые проекты на ML?

Полез пробывать МЛ , выбрал mlton . качнул с гита — берусь собирать , а для его сборки нужен он же сам. поставил из репок — собрал — удалил тот которым собирал — сделал make install . в сочетании с попыткой прочесть за день теоретическим минимум необходимым для изучения — кажется я начинаю ссыковать и идти на попятную — но блин интересно аж жуть. начинаю понимать фяполюбов.

ml

А есть ли тут, кто угорел по Machine Learning и подобным вещам? С чего начинать? Начинал курс на курсере смотреть, но манера подачи материала выбесила, не смог продолжить. Три или четыре серии посмотрел, одна вода.

Обнаружил колонку "Related tags", и задумался, а для чего она вообще может быть полезна. Насколько я понимаю, туда выпадает топ по частоте совместного употребления. То есть такие теги, которые будут выдавать не так уж много новых результатов по сравнению с текущей выдачей. В то же время вполне естественная задача — видеть "другие теги по той же теме". Пример — теги "yandex" и "яндекс": тема одна, но люди ставят либо один тег, либо другой; ну и в "related tags" они друг у друга, естественно, не появляются ( juick.com ). Интересно, по какому принципу было бы разумно строить кластеризацию на самом деле?

Статья "Обобщенное программирование" русская википедия:
Возможности обобщённого программирования впервые появились в 1970-х годах в языках Клу и Ада

Английская википедия "Generic programming":
This approach, pioneered by ML in 1973

Хаха, не императивщина — значит не было :)

Кто смотрел concretely лекции по машинному обучению от Andrew Ng, тот знает, что параметры линейной регрессии могут быть найдены либо итеративно путем градиентного спуска, либо вычислением closed form solution $(A^TA)^{-1}A^Ty$. В следующей серии из трех видео по 15 минут объясняется, почему эта форма имеет именно такой вид через метод максимального правдоподобия (MLE). Случай интересен в принципе обыкновенным для машинного обучения применением методов статистики, линейной алгебры и калькулюса. youtube.com