Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 142 in /var/www/tg-me/post.php on line 75
Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/986 -
Telegram Group & Telegram Channel
Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью

Методы, основанные на ближайших соседях (например, k-NN), предполагают, что каждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.

📝 Варианты решений

1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.

2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.

3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».

📝 Подводные камни:

📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.

📝 Вывод

Если часть меток отсутствует, не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/986
Create:
Last Update:

Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью

Методы, основанные на ближайших соседях (например, k-NN), предполагают, что каждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.

📝 Варианты решений

1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.

2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.

3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».

📝 Подводные камни:

📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.

📝 Вывод

Если часть меток отсутствует, не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/986

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Telegram Be The Next Best SPAC

I have no inside knowledge of a potential stock listing of the popular anti-Whatsapp messaging app, Telegram. But I know this much, judging by most people I talk to, especially crypto investors, if Telegram ever went public, people would gobble it up. I know I would. I’m waiting for it. So is Sergei Sergienko, who claims he owns $800,000 of Telegram’s pre-initial coin offering (ICO) tokens. “If Telegram does a SPAC IPO, there would be demand for this issue. It would probably outstrip the interest we saw during the ICO. Why? Because as of right now Telegram looks like a liberal application that can accept anyone - right after WhatsApp and others have turn on the censorship,” he says.

How Does Bitcoin Mining Work?

Bitcoin mining is the process of adding new transactions to the Bitcoin blockchain. It’s a tough job. People who choose to mine Bitcoin use a process called proof of work, deploying computers in a race to solve mathematical puzzles that verify transactions.To entice miners to keep racing to solve the puzzles and support the overall system, the Bitcoin code rewards miners with new Bitcoins. “This is how new coins are created” and new transactions are added to the blockchain, says Okoro.

Библиотека собеса по Data Science | вопросы с собеседований from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA