Telegram Group & Telegram Channel
1. Модели на GeoWAC

Это модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.

Во-первых, они обучены на корпусе GeoWAC, который мы до этого не использовали. На сайте GeoWAC есть больше подробностей, но в основе своей это дампы CommonCrawl для конкретного языка ( в данном случае, русского). Но не просто дампы, а хорошо почищенные и географически сбалансированные.

Сбалансированность тут означает, что создатели корпуса попытались не просто взять случайные страницы на русском из Интернета, а сэмплировать их географически по принципу "чем больше в этой стране процент русскоговорящего населения, тем больше русских текстов из этой страны должно быть в нашем корпусе". Соответственно, в итоге в русском GeoWAC примерно в равной степени представлены русскоязычные тексты из России, Казахстана, Украины и Беларуси. Дальше со всё уменьшающейся долей идут Киргизия, Латвия, Эстония, Узбекистан и так далее. Общий размер корпуса - около 2.1 миллиарда слов.

Самое главное для нас - это относительно современный русский язык в таком виде, в каком он представлен в Сети. В корпусах вроде НКРЯ или Тайги доминируют художественные тексты, и это делает их более "классическими". Есть веб-корпус Araneum, но ему всё-таки уже более 4 лет, и он постепенно устаревает. GeoWAC же совсем свежий (хоть и поменьше Araneum по объёму). Это сразу видно по выдаче моделей, обученных на GeoWAC (смотрите картинку ниже). Это единственная модель из представленных сейчас в веб-интерфейсе RusVectōrēs, которая "видит" семантическую неоднозначность слова "мышь": это и грызун, и компьютерный манипулятор. Модели, обученные на НКРЯ, Тайге и Аранеуме, "не в курсе" о втором значении.

Мы предполагаем, что модели на GeoWAC будут более полезны в задачах, где требуется обработка именно современного русского языка. Впрочем, на наших стандартных тестах SimLex965 и Google Analogies они тоже показывают неплохие результаты.

Во-вторых, сами модели тоже необычны. Их две: первая обучена на леммах, вторая на сырых токенах. Это значит, что во второй модели есть предобученные вектора для словоизменительных форм ("столов", "мыши"). То есть, вы можете не лемматизировать ваши тексты перед извлечением векторов. Конечно, модели обучены при помощи fastText, и, строго говоря, для них вообще нет "незнакомых слов". Однако, вектора для слов, которые модель всё же видела в процессе обучения, почти всегда будут лучше, чем вектора, сгенерированные на основе символьных н-грамм. Это первые не-лемматизированные "статические" эмбеддинги на RusVectōrēs.

Заметим, что лемматизированная версия всё же показывает лучшие результаты на тестовых сетах. Но если вам важнее минимизировать предобработку, модель на токенах к вашим услугам.
Кроме того, из обучающих корпусов для обеих моделей не удалялись функциональные части речи (только пунктуация). Если для вашей задачи важны предлоги и союзы - в моделях имеются вектора для них.

Разумеется, обе модели можно скачать, а с лемматизированной, вдобавок - поэкспериментировать прямо на сайте RusVectōrēs.

В следующем посте мы расскажем о новой модели ELMo.



tg-me.com/rusvectores/58
Create:
Last Update:

1. Модели на GeoWAC

Это модели с идентификаторами geowac_lemmas_none_fasttextskipgram_300_5_2020 и geowac_tokens_none_fasttextskipgram_300_5_2020. В них много нового.

Во-первых, они обучены на корпусе GeoWAC, который мы до этого не использовали. На сайте GeoWAC есть больше подробностей, но в основе своей это дампы CommonCrawl для конкретного языка ( в данном случае, русского). Но не просто дампы, а хорошо почищенные и географически сбалансированные.

Сбалансированность тут означает, что создатели корпуса попытались не просто взять случайные страницы на русском из Интернета, а сэмплировать их географически по принципу "чем больше в этой стране процент русскоговорящего населения, тем больше русских текстов из этой страны должно быть в нашем корпусе". Соответственно, в итоге в русском GeoWAC примерно в равной степени представлены русскоязычные тексты из России, Казахстана, Украины и Беларуси. Дальше со всё уменьшающейся долей идут Киргизия, Латвия, Эстония, Узбекистан и так далее. Общий размер корпуса - около 2.1 миллиарда слов.

Самое главное для нас - это относительно современный русский язык в таком виде, в каком он представлен в Сети. В корпусах вроде НКРЯ или Тайги доминируют художественные тексты, и это делает их более "классическими". Есть веб-корпус Araneum, но ему всё-таки уже более 4 лет, и он постепенно устаревает. GeoWAC же совсем свежий (хоть и поменьше Araneum по объёму). Это сразу видно по выдаче моделей, обученных на GeoWAC (смотрите картинку ниже). Это единственная модель из представленных сейчас в веб-интерфейсе RusVectōrēs, которая "видит" семантическую неоднозначность слова "мышь": это и грызун, и компьютерный манипулятор. Модели, обученные на НКРЯ, Тайге и Аранеуме, "не в курсе" о втором значении.

Мы предполагаем, что модели на GeoWAC будут более полезны в задачах, где требуется обработка именно современного русского языка. Впрочем, на наших стандартных тестах SimLex965 и Google Analogies они тоже показывают неплохие результаты.

Во-вторых, сами модели тоже необычны. Их две: первая обучена на леммах, вторая на сырых токенах. Это значит, что во второй модели есть предобученные вектора для словоизменительных форм ("столов", "мыши"). То есть, вы можете не лемматизировать ваши тексты перед извлечением векторов. Конечно, модели обучены при помощи fastText, и, строго говоря, для них вообще нет "незнакомых слов". Однако, вектора для слов, которые модель всё же видела в процессе обучения, почти всегда будут лучше, чем вектора, сгенерированные на основе символьных н-грамм. Это первые не-лемматизированные "статические" эмбеддинги на RusVectōrēs.

Заметим, что лемматизированная версия всё же показывает лучшие результаты на тестовых сетах. Но если вам важнее минимизировать предобработку, модель на токенах к вашим услугам.
Кроме того, из обучающих корпусов для обеих моделей не удалялись функциональные части речи (только пунктуация). Если для вашей задачи важны предлоги и союзы - в моделях имеются вектора для них.

Разумеется, обе модели можно скачать, а с лемматизированной, вдобавок - поэкспериментировать прямо на сайте RusVectōrēs.

В следующем посте мы расскажем о новой модели ELMo.

BY RusVectōrēs




Share with your friend now:
tg-me.com/rusvectores/58

View MORE
Open in Telegram


RusVectōrēs Telegram | DID YOU KNOW?

Date: |

The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.

How To Find Channels On Telegram?

There are multiple ways you can search for Telegram channels. One of the methods is really logical and you should all know it by now. We’re talking about using Telegram’s native search option. Make sure to download Telegram from the official website or update it to the latest version, using this link. Once you’ve installed Telegram, you can simply open the app and use the search bar. Tap on the magnifier icon and search for a channel that might interest you (e.g. Marvel comics). Even though this is the easiest method for searching Telegram channels, it isn’t the best one. This method is limited because it shows you only a couple of results per search.

RusVectōrēs from us


Telegram RusVectōrēs
FROM USA