Telegram Group & Telegram Channel
Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту
🔥21👍8❤‍🔥52



tg-me.com/kantor_ai/377
Create:
Last Update:

Итак, ответ на вопросы успешно найден в комментариях. Т.к. на картинке датасет выстроился почти в непрерывную кривую, разность между координатами соседних текстов оказалась всегда маленькой. Это значит, что и в исходных признаках при переходе от текста к тексту признаки изменялись лишь чуть-чуть.

Очевидный способ достижения этого результата - забыть обнулять счетчики частот слов, что и сделал студент, о чем и догадался научрук. Пассаж про изучение библиотек был, конечно же, о том, что в sklearn есть готовые текстовые векторизации, которые можно взять из коробки и не накосячить таким образом. Тот факт, что студент забыл обнулять счетчики, проверяется легко: достаточно посмотреть на матрицу признаков, ведь к последнему тексту нулей уже, конечно же, не осталось.

Почему же возникали разрывы? Из-за плохой предобработки текстов были тексты с большим количеством всяких спецсимволов и слов, которые давали очень большой прирост к криво выделенным токенам. В частности, картина из предыдущего поста - это еще после фильтрации части таких спецтекстов. Без фильтрации получалась та, которую вы видите в прикрепленных к посту

BY Kantor.AI





Share with your friend now:
tg-me.com/kantor_ai/377

View MORE
Open in Telegram


Kantor AI Telegram | DID YOU KNOW?

Date: |

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

NEWS: Telegram supports Facetime video calls NOW!

Secure video calling is in high demand. As an alternative to Zoom, many people are using end-to-end encrypted apps such as WhatsApp, FaceTime or Signal to speak to friends and family face-to-face since coronavirus lockdowns started to take place across the world. There’s another option—secure communications app Telegram just added video calling to its feature set, available on both iOS and Android. The new feature is also super secure—like Signal and WhatsApp and unlike Zoom (yet), video calls will be end-to-end encrypted.

Kantor AI from us


Telegram Kantor.AI
FROM USA