👀 Почему one-hot encoding может быть неэффективен при большом количестве категориейOne-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например

Библиотека собеса по Data Science | вопросы с собеседований

📍

Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.

📍

Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.

📍

Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍

Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;

📍

Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;

📍

Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/us/Библиотека собеса по Data Science | вопросы с собеседований/com.ds_interview_lib/1020

632 viewsJun 12 at 18:20

tg-me.com/ds_interview_lib/1020

Create: 2025-06-12
Last Update: 2025-07-01 18:38:44

👀 Почему one-hot encoding может быть неэффективен при большом количестве категорией

One-hot encoding создает по одному бинарному признаку на каждое уникальное значение категориальной переменной. Когда количество категорий очень велико (например, тысячи ID товаров или пользователей), возникают несколько проблем:

📍Взрыв размерности: матрица признаков становится разреженной и очень широкой, что увеличивает требования к памяти и может замедлить обучение.
📍Переобучение: модель может начать подгоняться под шум, если некоторые категории редко встречаются.
📍Потеря семантической связи: one-hot не учитывает близость между категориями — все они считаются равными и независимыми.

В таких случаях лучше использовать альтернативы:

📍Target encoding / mean encoding — замена категории на среднее значение целевой переменной для этой категории;
📍Embedding-слои — обучаемые векторные представления категорий, особенно популярны в нейросетях;
📍Frequency encoding — замена категории на частоту её появления.

Выбор метода зависит от модели и объема данных, но при большом количестве уникальных значений one-hot часто оказывается неоптимальным.

Библиотека собеса по Data Science

Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Telegram announces Search Filters

Dump Scam in Leaked Telegram Chat