Warning: preg_grep(): Compilation failed: quantifier does not follow a repeatable item at offset 142 in /var/www/tg-me/post.php on line 75 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/351 -
Можно разделить метрики близости текстов на два типа: лексические и семантические.
🔹Лексические — Сходство Жаккара (Jaccard similarity) Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.
🔹Семантические — Косинусное сходство (cosine similarity) Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация). — Евклидово расстояние (euclidean distance) Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.
Можно разделить метрики близости текстов на два типа: лексические и семантические.
🔹Лексические — Сходство Жаккара (Jaccard similarity) Это довольно простая метрика. Работает так: берутся две последовательности A и B, далее находится число общих элементов в них и делится на количество элементов обеих последовательностей.
🔹Семантические — Косинусное сходство (cosine similarity) Измеряет косинус угла между двумя векторами, представляющими тексты в векторном пространстве (часто используется TF-IDF векторизация). — Евклидово расстояние (euclidean distance) Находится кратчайшая прямая между двумя точками в евклидовом пространстве. Сначала также необходима векторизация.
#NLP
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.
To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.
Библиотека собеса по Data Science | вопросы с собеседований from us