Telegram Group Search
#пост_по_регламенту

Итак, закрываем долги. Ловите оставшиеся небольшие тематические папочки от нашего Зоопарка - небольшие, но интересные:

Математика

Физика

Технические науки

Если кто хочет добавиться, пишите в комменты до конца дня (после не имеет практического смысла)
Время очередной подборочки интересных около-опенсорсных материалов и активностей:

- Стартовал конкурс проектов с открытым кодом для студентов ФКН НИУ ВШЭ.
Хорошая инициатива, тоже в ИТМО планируем такое сделать.

- Близится дедлайн конкурса Kaicode.
Авторам хорошо проработанных открытых проектов рекомендуем попробовать податься - даже если не выиграете, то получите обратную связь. Там была проблема с формой сабмита, но организаторы оперативно починили.

- Вышло исследование про MLOps в России от ICT.Moscow.
Дал для него пару комментариев с точки зрения не-корпоративных опенсорс-разработчиков

- Мы выложили в ютуб-канале доклады с нашего недавнего онлайн-митапа про способы поддержки научных опенсорс-проектов.
Для удобства разбили единую запись на несколько видео. Если есть вопросы к докладчикам - можно задавать прямо тут.

- В нашем чате в рамках обсуждения лицензирования открытого кода был сегодня хороший пост про то, почему корпорации вовсе не хотят украcть ваш открытый код.

Соглашусь с выводом, что при использовании чужих опенсорс-проектов "этически корректное решение теперь часто совпадает с экономически выгодным". Мы в своих открытых проектах тоже в основном используем BSD-3/MIT вместо GPL-лицензий, чтобы всячески упростить их потенциальное использование.
Увидел, что опубликовали результаты грантовой программы Yandex Open Source 2025. Среди проектов-победителей:

- SQL‑линтер sqruff — Андрей Николаев;
- Расширение pg_index_stats для PostgreSQL — Андрей Лепихов;
- Отладчик BugStalker — Константин Деревцов;
- Эмулятор js‑dos — Александр Гурьянов;
- Календарь Vanilla Calendar Pro — Юрий Уваров;
- Библиотека WebMarkupMin для сжатия HTML, XHTML и XML — Андрей Тарицын;
- Инструмент kernel‑build‑containers для контейнеров — Александр Попов;
- Утилита i18n‑unused для локализации — Максим Вишневский;
- Открытая прошивка для паяльников IronOS - Иван Зорин;
- Библиотека Talker для логирования — Станислав Ильин;
- Фреймворк VLMHyperBench для оценки VLM‑моделей — Антон Ширяев;
- Инструмент Faster COCO Eval для ускорения валидации — Михаил Степанов.

Подробнее про суть решений - расписано на Хабре. А про один из проектов - VLMHyperBench, созданный студентами AI Talent Hub ИТМО - скоро можно будет послушать на нашей секции DataFest 2025. Скоро все напишем, следить за анонсами.
Мы тут вместе с учебно-научной лабораторией ИТМО LISA организовали мини-семинар по разборке удачных и неудачных реализаций студенческих репозиториев. Заодно обсудим опыт улучшения некоторых из них с помощью нашего ИИ-инструмента OSA (про который недавно писали на Хабре).

С нашей стороны в роли эксперта участвует Андрей Гетманов - исследователь из NSS Lab, руководитель разработки OSA и активный участник соообщества ITMO OpenSource.

Если интересно послушать - подключиться можно тут в зуме, вот как раз начинаем.
А тем временем, близится DataFest 2025, на котором мы традиционно проводим секцию OpenSource. В карточках - описание основных локаций и докладов.

Площадок несколько: 24 мая - в Москве (VK), 25 мая - в Белграде (Yandex), 29 мая - в СПб (Selectel), 1 июня - онлайн.

Кто хочет попасть на очные площадки - регистрируйтесь ASAP, место мало. Для остальных планируется трансляция, записи также выложат.

Запланировано много интересного - не пропускайте! Конечно, ближе к делу обо всем напомним.
Меньше чем через час стартует DataFest 2025 на площадке VK - трансляция основного зала по ссылке.
Из нашей секции по open-source будет два доклада. Они в зале А1 без live-трансляции - но видео после мероприятия выложат, обязательно про это напишем и скинем ссылки.

А пока - про сами доклады и их авторов:

1) Антон Костин, Иван Литвак - преподаватели МФТИ
Как мы сделали свободный и открытый (GPLv3) бенчмарк в домене российского права
13:05, зал А1

Расскажем, зачем создавать опенсорсные датасеты для дообучения и проверки способностей моделей работать с правовыми вопросами (чтобы сделать опенсорс лучше). Ссылка на бенчмарк: https://huggingface.co/datasets/lawful-good-project/sud-resh-benchmark


2) Михаил Гущин - руководитель проекта по открытому коду ФКН НИУ ВШЭ
Открытый код в научных исследованиях
13:35, зал А1

На ФКН НИУ ВШЭ есть проект по открытому коду, где мы популяризируем открытый код научных исследований наших сотрудников и студентов. Мы рассказываем про них на нашем канале https://www.tg-me.com/hse_cs_opensource. Некоторые проекты широко используются исследователями в своих работах. Мы бы хотели рассказать про некоторые проекты сотрудников ФКН, о том зачем их выкладывать в открытый доступ и зачем это для науки.

Все докладчики - участники нашего чата, так кто вопросы можно задавать и прямо тут.
Cегодня в секции OpenSource на DataFest 2025 - доклад в Белграде, в офисе Яндекса.

В 16-10 выступает Алексей Васильев, исполнительный директор по исследованию данных в Сбере:

OpenSource в Sber AI Lab. Библиотека для создания рекомендательных систем RePlay

Большинство фреймворков в области рекомендаций нацелены в первую очередь на исследователей и требуют модификации для использования в продакшене из-за невозможности работы с большими наборами данных или неподходящей архитектуры. Мы представляем нашу библиотеку с открытым исходным кодом RePlay — фреймворк, содержащий сквозной конвейер для построения рекомендательных систем, который готов к использованию в проде.

Кто регистрировался на площадку - приходите, для остальных - выложим видео и презентацию позже, в комментариях к этому посту.
Сегодня - следующий день опенсорс-докладов DataFest, который пройдёт в СПб на площадке Selectel. Для тех кто удалённо - трансляция будет тут.

Сегодня в программе четыре доклада, начиная с 20-30 и до 22-30:

1. SVETlANNa = свет + artificial neural network: как физики делали Open Source и что из этого вышло
Владимир Игошин, ИТМО

Расскажем о том, что такое дифракционные нейросети, представим нашу открытую библиотеку для их моделирования и нашем опыте разработки.

2. Adept: Исследовательская и образовательная платформа с открытым кодом для тензорных вычислений, обучения и запуска моделей машинного обучения
Кирилл Колодяжный, YADRO

Хочу рассказать про исследовательский и образовательный проект Adept который я сейчас разрабатываю - это платформа для обучения нейронных сетей. Основная цель: создать базу для курса по построению ML-платформ, чтобы познакомить студентов со всеми компонентами от реализации библиотек линейной алгебры до Python-интерфейса с которым работают ML-инженеры. Также в планах реализовать конвейер обучения моделей на Vulkan и OpenCL, чтобы была альтернатива CUDA. Сейчас проект уже используется как база для студенческой практики.

3. Volga: движок для обработки real-time данных с фокусом на AI/ML системы
Андрей Новицкий, независимый разработчик

Построение систем искусственного интеллекта и машинного обучения (AI/ML), работающих в режиме реального времени - непростая инженерная задача, особенно в части обработки данных.
В этом докладе мы обсудим связанные с этим ключевые сложности (вычисление онлайн и оффлайн фичей, построение feature platform и т.д.), рассмотрим существующие open-source решения (Flink, Spark, Chronon) и проприетарные облачные платформы (Tecton-ai, Fennel-ai, Chalk-ai), а затем представим Volga — open-source движок обработки данных, призванный стать улучшенной альтернативой упомянутым системам.
Github: https://github.com/volga-project/volga, блог: https://volgaai.substack.com/

4. Обучение на табличных данных в Postgres
Александр Календарёв, разработчик OpenSource

Доклад о плюсах и минусах внедрения библиотеки CatBoost в PostgreSQL. Так же в начале сделаю обзор существующих проектов машинного обучения в PostgreSQL и расскажу, чем они отличаются от моего решения. Расскажу какие есть идеи и что уже внедрено. Будет демонстрация на датасетах с kaggle.

До встречи!
Недавно писали про вебинар лаборатории LISA ИТМО, где мы применяли наш инструмент для улучшения репозиториев OSA к студенческим научным проектам.

И вот стала доступна запись (YouTube и ВК) и ссылки на обработанные репозитории - см. репост ниже.

Не везде доработка получилось идеальной, но в целом оказалось полезным. Вот, например, отзыв от автора одного из проектов - CGT4NN:

"OSA очень много полезного сделала в моём репозитории, что делать руками было бы долго и неприятно. Например, она создала workflows для автоматизации тестирования и сгенерировала docstrings для определений функций. Меня радует, что такая рутинная работа была сделана за меня."
Forwarded from Lisa.itmo
Media is too big
VIEW IN TELEGRAM
👩‍💻 Результаты встречи LISA GitHub Review

21 мая прошла встреча и мы готовы поделиться результатами анализа репозиториев проектов в экосистеме LISA-ITMO

Материалы генерации проекта OSA по репозиториям LISA:
1. CGT4NNбазовая и с учетом тезиса
2. bot_vasilyбазовая и с учетом тезиса
3. LLM-resume-moderatorбазовая и с учетом тезиса
4. SchoolOCR — с учетом тезиса
5. teept-gui-assistantбазовая и с учетом тезиса
6. universal_eduplatformбазовая и с учетом тезиса

Благодарим приглашенных экспертов из NSS Lab: Николая Никитина и Андрея Гетманова! 🔥
Запись встречи с таймкодами на YouTube и ВК 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Некоторое время назад наш подписчик Валерий рассказал об очень любопытном опенсорсном инструменте для генерации постеров с помощью (v)LLM - https://github.com/Paper2Poster/Paper2Poster. Тут же заинтересовались - делать постеры обычно нужно быстро и адекватное начальное приближение в формате pptx было бы довольно полезно.

Попробовали прогнать нашу статью c NeurIPS 2024. Первая картинка - сгенерированный ИИ-инструментом постер, вторая - авторская версия, представленная на конференции.

Вывод: пока не оч. Всё-таки выглядит "скучно" и не особо информативно. При этом данный результат получился не с первого раза - если загружать полный текст статьи с appendix-ами, то получается совсем так себе, пришлось его вырезать.

Из плюсов - всё можно доработать вручную в поверпоинте. Но вот будет ли сильно быстрее ли чем делать вручную с нуля - не факт. Ну и радует что инструмент заработал и выдал обещанный результат - т.е. технически реализовано неплохо.

Так что пока это скорее добротный proof-of-concept, чем рабочий инструмент.

С другой стороны, каких только постеров на конференциях не встретишь, стена текста на куче мятых А4 - ещё не самое странное. Так что может через пару итераций доработки будет вполне полезный ассистент ученого-статьеписателя.

P.S. За эксперименты c генерацией постеров спасибо Ярославу @staeros.
Итак, настал финальный день DataFest 2025.
Сегодня в онлайн-программе доклады секции Opensource, начиная с 14-00 мск:

1. Александр Нозик, Scientific programming centre МФТИ.
Экосистема открытого научного ПО KScience и возможности развития открытого ПО в вузах.

Термин открытое программное обеспечение у всех на слуху. В этом докладе мы обсудим, что такое открытое программное обеспечение, какова его история и какие типы такого ПО бывают. Обсудим создание комьюнити и коммерциализации таких проектов на примере экосистемы KScience, включающей такие проекты как KMath, Controls-kt, VisionForge и Maps-kt. Ну и наконец мы обсудим, как может выглядеть экосистема открытого ПО для промышленности на базе вузов.

2. Дмитрий Кабанов, эксперт по стратегическому управлению, НИУ ВШЭ
Как ученые-стратеги понимают open source

Доклад про то, как ученые-стратеги смотрят на явление open source, какие существуют мифы и заблуждения, какие новые взгляды и инициативы стоит знать. Поговорим о (1) развитии научной мысли и подходов к open source с позиции стратегического управления организациями — от простейших концепций и бизнес-моделей к развитию организационных способностей. Кроме того, обсудим (2) мягкие инициативы государственных структур и регуляторов в данной области — от open source-реестров к геостратегическому взгляду на феномен открытой разработки технологий.

3. Антон Ширяев
VLMHyperBench — open-source фреймворк для оценки возможностей Vision language models (VLMs) распознавать документы на русском языке.

VLMHyperBench позволяет: сравнивать модели, запускаемые на разных фреймворках инференса (Hugging Face, vLLM, SGLang и др.); сравнивать между собой модели, несовместимые по зависимостям; оценивать подбираемые промпты для каждого отдельного типа документа и каждого отдельного поля документа, объединяя их в коллекции промптов; подбирать коллекцию промптов для каждого типа вопроса, если их конечное множество, как в документах; использовать коллекции промптов и системных промптов подобранных индивидуально для каждой модели, чтобы получать максимум от ее возможностей; легко добавлять свои наборы данных, модели, типы задач, метрики и визуализации результатов оценки за счет модульной и расширяемой архитектуры; проводить оценку метрик с агрегацией: по каждому отдельному объекту датасета индивидуально, группируя тип вопроса и промпт, группируя по типу вопроса, по всему датасету. Вдохновившись примером Дональда Кнута, мы решили создать собственный open source фреймворк, сочетающий данные возможности и особенности.Следить за нашим проектом удобнее всего через официальный новостной канал. Проект был поддержан грантом Yandex Open Source 2025 г.

4. Мария Румянцева, аналитик данных ООО "Статанли", аспирант ИТМО
CTCI - библиотека для анализа однородных промышленных данных.

Однородные плотно сгруппированные промышленные данные - это, например, камни в кучах и на конвейере, пузырьки флотации, гранулы удобрений и так далее, т.е. те данные, которые достаточно сложно и дорого размечать, и даже автоматическая разметка с помощью фундаментальных моделей не всегда помогает. В инструменте
CTCI мы предлагаем способы размечать автоматически, при этом значительно экономя время, но достигая сопоставимых результатов.

——

Также проанонсирую доклад в соседнем треке AI4SE, который пройдет в 12-00 мск:

Андрей Гетманов, ML researcher и open-source разработчик, Институт ИИ ИТМО:
OSA: Как помочь учёным писать хороший код


Тут Андрей расскажет про новые обновления в нашем инструменте OSA (в частности - покажет прототип графического интерфейса).

Приглашаем всех послушать и позадавать вопросы. Пароль от ODS спейса: datafest2025_0106, а а ссылка тут - https://ods.ai/events/df2025-01-june-online
Через 10 минут начнётся секция Open Source DataFest 2025
Подключаться сюда
Пароль: datafest2025_0106
После подключения заходите в комнату Open Source
Задавайте вопросы в чате Spatial, спикеры обязательно на них ответят
Научный опенсорс
Сообщают, что на Хабре объявили совместный с GitVerse конкурс статей про опенсорс - https://habr.com/ru/specials/898552/ Статьи могут быть посвящены опыту создания, поддержке и сопровождении open-source-проектов, описанию глубоких погружений в код популярных…
Пару месяцев назад писал про конкурс "Сезон Open Source" на Хабре, организованный совместно с GitVerse. И вот уже 10 июня в 16-00 начнется встреча с подведением итогов и другими активностями, посвященными открытом коду. Планируется обсуждения перспектив совмещения ИИ и open-source, современных инструментов (в том числе GigaCode и GigaIDE) и перспектив области в целом.

Все подробности - в канале GitVerse, трансляция - тут.

От своей лаборатории мы подавали на конкурс посты:

1) OSA: ИИ-помощник для разработчиков научного open source (про активно нами развиваемый проект https://github.com/aimclub/OSA)

2) Нейросети со льдом (про созданный в рамках проекта КОД-ИИ фреймворк https://github.com/ChrisLisbon/TorchCNNBuilder и его использование для прикладных задач в области гидромета).
Писал пару месяцев назад про закрытый тест платформы SourceCraft от Yandex, а сегодня вот сообщают, что выпустили публичную версию.

Среди новых фич:
- Чат-клиент для SourceCraft Code Assistant (плагины для VSCode и IDE от JetBrains);
- Миграция и зеркалирование проектов с GitHub (что полезно - включая PR и Issue);
- Публичное API для автоматизации и интеграции с другими приложениями;
- Форки, пакеты, локальные actions.

Подробнее - в блоге или канале платформы.
При сабмите на конференции с double-blind review (как, например, на большинстве треков A*) у авторов периодически возникает вопрос - как упомянуть в статье свой репозиторий с кодом и данными, не утратив при этом анонимности.

Могу порекомендовать сервис, который сам использую - https://anonymous.4open.science/

Что умеет:

1) Анонимизировать существующие репо из гитхаба, меняя ссылку на свою (а при необходимости - синхронизируя дальнейшие обновления);
2) Удалять заданные ключевые слова, которые могут вас раскрыть (название, имена, технологии);
3) Чистить картинки, приложенные PDF и др.
4) Учитывать требования конкретных конференций к анонимизации;
5) Удалять анонимный репозиторий после заданной даты;

Конечно, бдительность все равно нужно сохранять. Знаю ситуацию с desk reject с NeurIPS, когда никто из соавторов не заметил, что в конце README притаился раздел в How To Cite с не до конца анонимизированной ссылкой на предыдущую статью по проекту. А вот рецензент - заметил... Было обидно.

От этого предложенный сервис не спасёт, конечно. Но вообще такие моменты умеют неплохо подмечать LLM - есть смысл им свою статью и документацию из репо тоже "показывать" (тот же бесплатный DeepSeek умеет принимать на вход документы целиком).

В общем, очень удобная штука. Всем удачных сабмитов!
2025/06/13 11:31:28
Back to Top
HTML Embed Code: