Telegram Group & Telegram Channel
К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china



tg-me.com/begtin/5612
Create:
Last Update:

К вопросу о качестве индексов в больших агрегаторов данных, приведу в пример SciDB [1] китайский агрегатор и портал для раскрытия научных данных. Всего там 8,7 миллионов объектов, можно было бы называть их датасетами, но датасеты там далеко не всё.

Когда смотришь подробнее на статистику то оказывается что в фильтрах гораздо меньше данных. В фильтре по годам 3.5 миллионов записей, в фильтре по типу около 5 миллионов записей из которых 4.25 - это "Other data",а по фильтру тематик вообще размечено только 50 тысяч наборов данных.

И тут просто таки начинаешь задаваться вопросом, а где же всё остальное? Неужели где-то врут?

Но, скорее всего не врут, а не договаривают. Общий индекс может быть большим, но данные там не родные, а импортированные из DataCite или Zenodo и других ресурсов. Они почти наверняка не размечены и не сматчены с тематиками SciDB и всем остальным. Похожая ситуация и в базе поиска Datacite и в OpenAIRE когда большая часть фильтров не фильтрует потому что нужно много работать над этим. Качество метаданных и качество поисковых индексов очень невысокое. Увы( Но это можно рассматривать не как проблему, а как вызов.

В Dateno тематическая классификация датасетов сейчас решается через классифицированные источники и через авторазметку по простым правилам, а в планах добавить разметку по расширенному классификатору и это даст возможность находить самые неожиданные данные.

Ссылки:
[1] https://www.scidb.cn

#opendata #datasets #datasearch #china

BY Ivan Begtin






Share with your friend now:
tg-me.com/begtin/5612

View MORE
Open in Telegram


Ivan Begtin Telegram | DID YOU KNOW?

Date: |

However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.

Ivan Begtin from us


Telegram Ivan Begtin
FROM USA