Telegram Group & Telegram Channel
#classic_ML

Наивный байесовский классификатор

Другой "простой" метод, который приходится рассказывать студентам в некотором смысле как дань истории - наивный байесовский классификатор. Начиналось все довольно просто: на заре развития электронной почты люди уже страдали от спама. Возникла простая идея: давайте сначала отсортируем письма на спам и не спам, чтобы получить обучающую выборку, а потом посчитаем вероятность встретить каждое слово из выборки в спаме и не в спаме (ну просто долю одних и других случаев). Дальше, когда нам приходит новое письмо, рассчитываем вероятность того, что оно спамное как произведение вероятностей увидеть каждое слово письма в спаме. И аналогично оцениваем вероятность того, что письмо НЕ спамное. Какая вероятность больше, таков и ответ.

В общем случае этот подход обобщается так: для каждого признака объекта вы по выборке оцениваете его распределение в классе 0 и в классе 1, а дальше просто смотрите на признаки объекта, считаете вероятность такой объект увидеть в каждом классе (как произведение по всем признакам объекта) и выбираете наиболее вероятный класс. Если классы априори в разной степени часто встречаются в природе (например, классы - болен ковидом и не болен) - то имеет смысл умножить это все на априорные вероятности классов.

Чем же нам сейчас полезен на практике наивный байес? На практике - уже ничем. А вот в постижении теории очень даже полезная штука, только там не только про наивного байеса надо разбираться, а вообще про байесовскую теорию классификации (могу как-нибудь написать пост). Ну и еще чтобы на экзамене мучать бедных студентов вопросами почему наивный байес наивный и причем там теорема Байеса


Метод K средних

Метод К средних это простой и изящный метод кластеризации. Кластеризация это довольно неприятная задача, которую не то чтобы кто-то умеет стабильно решать хорошо, подробнее про кластеризацию я писал в учебнике ШАД.

Если кратко, суть метода в следующем. Сначала выбираем K случайных центров для кластеров, потом повторяем до сходимости два шага:
-распределить выборку по ближайшим центрам (центр какого кластера ближе, в тот и попадает объект)
-пересчитать центры кластеров (просто как среднее арифметическое векторов признаков попавших в него объектов)

Неожиданным образом K-means очень крутой и адекватный метод кластеризации. Серьезно, если предположения алгоритма более-менее выполнены (кластеры выпуклые и примерно равного размера), получается очень даже хорошо и можно использовать метод и по сей день. Чудес как в любом методе кластеризации ждать не стоит, но как бейзлайн must, а не побить этот бейзлайн даже не стыдно, особенно если перед K-Means был некоторый feature engineering.

А что вы думаете об этих методах? Есть ли у них до сих пор какие-то применения, о которых можете упомянуть? Надо ли продолжать про них рассказывать людям?
47👍24🔥7👏3😁2🤯1



tg-me.com/kantor_ai/248
Create:
Last Update:

#classic_ML

Наивный байесовский классификатор

Другой "простой" метод, который приходится рассказывать студентам в некотором смысле как дань истории - наивный байесовский классификатор. Начиналось все довольно просто: на заре развития электронной почты люди уже страдали от спама. Возникла простая идея: давайте сначала отсортируем письма на спам и не спам, чтобы получить обучающую выборку, а потом посчитаем вероятность встретить каждое слово из выборки в спаме и не в спаме (ну просто долю одних и других случаев). Дальше, когда нам приходит новое письмо, рассчитываем вероятность того, что оно спамное как произведение вероятностей увидеть каждое слово письма в спаме. И аналогично оцениваем вероятность того, что письмо НЕ спамное. Какая вероятность больше, таков и ответ.

В общем случае этот подход обобщается так: для каждого признака объекта вы по выборке оцениваете его распределение в классе 0 и в классе 1, а дальше просто смотрите на признаки объекта, считаете вероятность такой объект увидеть в каждом классе (как произведение по всем признакам объекта) и выбираете наиболее вероятный класс. Если классы априори в разной степени часто встречаются в природе (например, классы - болен ковидом и не болен) - то имеет смысл умножить это все на априорные вероятности классов.

Чем же нам сейчас полезен на практике наивный байес? На практике - уже ничем. А вот в постижении теории очень даже полезная штука, только там не только про наивного байеса надо разбираться, а вообще про байесовскую теорию классификации (могу как-нибудь написать пост). Ну и еще чтобы на экзамене мучать бедных студентов вопросами почему наивный байес наивный и причем там теорема Байеса


Метод K средних

Метод К средних это простой и изящный метод кластеризации. Кластеризация это довольно неприятная задача, которую не то чтобы кто-то умеет стабильно решать хорошо, подробнее про кластеризацию я писал в учебнике ШАД.

Если кратко, суть метода в следующем. Сначала выбираем K случайных центров для кластеров, потом повторяем до сходимости два шага:
-распределить выборку по ближайшим центрам (центр какого кластера ближе, в тот и попадает объект)
-пересчитать центры кластеров (просто как среднее арифметическое векторов признаков попавших в него объектов)

Неожиданным образом K-means очень крутой и адекватный метод кластеризации. Серьезно, если предположения алгоритма более-менее выполнены (кластеры выпуклые и примерно равного размера), получается очень даже хорошо и можно использовать метод и по сей день. Чудес как в любом методе кластеризации ждать не стоит, но как бейзлайн must, а не побить этот бейзлайн даже не стыдно, особенно если перед K-Means был некоторый feature engineering.

А что вы думаете об этих методах? Есть ли у них до сих пор какие-то применения, о которых можете упомянуть? Надо ли продолжать про них рассказывать людям?

BY Kantor.AI





Share with your friend now:
tg-me.com/kantor_ai/248

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.

Should You Buy Bitcoin?

In general, many financial experts support their clients’ desire to buy cryptocurrency, but they don’t recommend it unless clients express interest. “The biggest concern for us is if someone wants to invest in crypto and the investment they choose doesn’t do well, and then all of a sudden they can’t send their kids to college,” says Ian Harvey, a certified financial planner (CFP) in New York City. “Then it wasn’t worth the risk.” The speculative nature of cryptocurrency leads some planners to recommend it for clients’ “side” investments. “Some call it a Vegas account,” says Scott Hammel, a CFP in Dallas. “Let’s keep this away from our real long-term perspective, make sure it doesn’t become too large a portion of your portfolio.” In a very real sense, Bitcoin is like a single stock, and advisors wouldn’t recommend putting a sizable part of your portfolio into any one company. At most, planners suggest putting no more than 1% to 10% into Bitcoin if you’re passionate about it. “If it was one stock, you would never allocate any significant portion of your portfolio to it,” Hammel says.

Kantor AI from us


Telegram Kantor.AI
FROM USA