Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 142 in /var/www/tg-me/post.php on line 75 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/1032 -
❓Как проводить кросс-валидацию, если у вас многоклассовая задача, а некоторые классы крайне редки
Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов. StratifiedKFold и StratifiedShuffleSplit стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.
Возможные решения: 📝Убедитесь, что у каждого класса достаточно примеров, чтобы он мог попасть в каждый fold. 📝Используйте дополнительные техники, например, oversampling редких классов внутри каждого fold-а. 📝Если возможно, соберите больше данных для малочисленных классов. 📝В случаях, когда невозможно увеличить объём данных, можно использовать метрики, устойчивые к отсутствию класса в тесте (например, macro F1-score). 📝Либо реализовать собственную стратегию разбиения, которая будет гарантировать присутствие всех классов в каждом fold-е.
Частные случаи: 📝Если класс встречается всего несколько раз, он может отсутствовать в части разбиений — даже при стратификации. 📝При сильной диспропорции классов даже стратифицированные выборки могут иметь искажённое распределение, что потребует аккуратной интерпретации результатов и использования специальных метрик (precision, recall и др.).
❓Как проводить кросс-валидацию, если у вас многоклассовая задача, а некоторые классы крайне редки
Работа с многоклассовыми наборами данных, где некоторые классы сильно недопредставлены, может быть сложной, даже при использовании стратифицированных методов. StratifiedKFold и StratifiedShuffleSplit стараются сохранить пропорции классов в каждом сплите, но если у некоторых классов слишком мало примеров, они могут не попасть в некоторые тестовые выборки. Это происходит просто потому, что данных недостаточно, чтобы обеспечить их равномерное распределение.
Возможные решения: 📝Убедитесь, что у каждого класса достаточно примеров, чтобы он мог попасть в каждый fold. 📝Используйте дополнительные техники, например, oversampling редких классов внутри каждого fold-а. 📝Если возможно, соберите больше данных для малочисленных классов. 📝В случаях, когда невозможно увеличить объём данных, можно использовать метрики, устойчивые к отсутствию класса в тесте (например, macro F1-score). 📝Либо реализовать собственную стратегию разбиения, которая будет гарантировать присутствие всех классов в каждом fold-е.
Частные случаи: 📝Если класс встречается всего несколько раз, он может отсутствовать в части разбиений — даже при стратификации. 📝При сильной диспропорции классов даже стратифицированные выборки могут иметь искажённое распределение, что потребует аккуратной интерпретации результатов и использования специальных метрик (precision, recall и др.).
Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.
The global forecast for the Asian markets is murky following recent volatility, with crude oil prices providing support in what has been an otherwise tough month. The European markets were down and the U.S. bourses were mixed and flat and the Asian markets figure to split the difference.The TSE finished modestly lower on Friday following losses from the financial shares and property stocks.For the day, the index sank 15.09 points or 0.49 percent to finish at 3,061.35 after trading between 3,057.84 and 3,089.78. Volume was 1.39 billion shares worth 1.30 billion Singapore dollars. There were 285 decliners and 184 gainers.
Библиотека собеса по Data Science | вопросы с собеседований from us