Telegram Group Search
Конспект лекций Беркли «Машинное обучение»

📓 Книга

@machinelearning_books
⚡️Строим рекомендательную систему фильмов на Kaggle

Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬

Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.

Что будем делать на вебинаре:
🟠Разберем имеющиеся данные фильмов с их оценками
🟠Проведем предобработку данных
🟠Построим рекомендательную систему на основе машинного обучения
🟠Проведем расчет и анализ метрик на основе результатов работы модели

Вебинар будет интересен как новичкам, так и уже опытным специалистам

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔥 Classifier Factory от Mistral

Classifier Factory — это интуитивно понятное руководство для создания и обучения собственных моделей классификации на базе компактных LLM от Mistral AI.

С его помощью — как через веб‑интерфейс La Plateforme, так и через API — можно быстро разворачивать решения для модерации контента, детекции намерений, анализа тональности, кластеризации данных, обнаружения мошенничества, фильтрации спама, рекомендательных систем и других задач

Classifier Factory поможет упростить весь цикл работы с custom‑классификаторами: от подготовки данных до развёртывания готовой модели в продакшене.

🔜 Docs
🔜Cookbook: Moderation Classifier
🔜Cookbook: Intent Classification
🔜Cookbook: Classification of Food

@ai_machinelearning_big_data


#Mistral #api
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
15 бесплатных книг по Data Science (часть 1)*

1. *Veridical Data Science*
👩‍🔬 Авторы: Bin Yu & Rebecca L. Barter
Описание: Введение в науку о данных (data science): как область возникла, как она развивается и какую роль играет в современном мире.
🔗 https://vdsbook.com/

2. *Data Science: Theories, Models, Algorithms, and Analytics*
📘 Автор: Sanjiv Ranjan Das
Описание: Учебник по DS с упором на алгоритмы и аналитику.
🔗 https://srdas.github.io/Papers/DSA_Book.pdf

3. *Think Python 3E*
🐍 Автор: Allen B. Downey
Описание: Современное введение в Python с нуля.
🔗 https://greenteapress.com/wp/think-python-3rd-edition/

4. *Python Data Science Handbook*
📊 Автор: Jake VanderPlas

Описание: Практика работы с NumPy, pandas, sklearn и визуализациями.
🔗 https://jakevdp.github.io/PythonDataScienceHandbook/

5. *R for Data Science*
📈 Авторы: Hadley Wickham и др.
Описание: Современный подход к анализу данных в R.
🔗 https://r4ds.hadley.nz/

6. *Think Stats 3E*
📐 Автор: Allen B. Downey
Описание: Статистика через Python и практику.
🔗 https://allendowney.github.io/ThinkStats/

7. *Statistics and Prediction Algorithms Through Case Studies*
📙 Автор: Rafael A. Irizarry
Описание: Кейсы по статистике и прогнозированию с кодом на R.
🔗 https://rafalab.github.io/dsbook/

8. *Bayesian Methods for Hackers*
🧠 Автор: Cameron Davidson-Pilon
Описание: Визуальное введение в байесовский анализ с PyMC.
🔗 https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

9. *Think Bayes 2E*
🔢 Автор: Allen B. Downey
Описание: Пошаговый байесовский подход на Python.
🔗 https://allendowney.github.io/ThinkBayes2/

10. *Data Science at the Command Line*
💻 Автор: Jeroen Janssens
Описание: Unix-инструменты как основа для анализа данных.
🔗 https://datascienceatthecommandline.com/

Математика и теория вероятностей:
11. Теория вероятностей
👩‍🔬 Автор: Чернова Н. И.
Описание: Понятное введение в теорию вероятностей, основа для изучения математической статистики.
🔗 http://www.nsu.ru/mmf/tvims/chernova/tv/tv_nsu07.pdf

12. * Математическая статистика*
👩‍🔬 Автор: Чернова Н. И.
Описание: Продолжение курса по теории вероятностей (НГУ), покрывающее основы математической статистики: оценки параметров, проверка гипотез, регрессионный анализ.
🔗 http://www.nsu.ru/mmf/tvims/chernova/ms/ms_nsu07.pdf

13. * Курс дифференциального и интегрального исчисления (Том 1)*
👩‍🔬 Автор: Фихтенгольц Г. М.
Описание: Фундаментальный и классический учебник по основам математического анализа.
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

14.*Векторные исчисления для инженеров*
👩‍🔬 Автор:Jeffrey R. Chasnov
🔗 http://math.ru/lib/book/djvu/fichtengolz/f_1.djvu

15 .*Theory—Theoretical & Mathematical Foundations ;
👩‍🔬Daniel A. Roberts, Sho Yaida, Boris Hanin
Описание: Эта книга предлагает теоретический подход к анализу глубинных нейросетей с практической значимостью
🔗https://arxiv.org/abs/2106.10165

📘 Еще больше книг здесь

@ai_machinelearning_big_data

#books #opensource #freebooks
🔍 OpenLLMetry стандартизированная observability для LLM-приложений. Это значит, что мониторинг вызовов к OpenAI, Anthropic или векторным базам вроде Pinecone и Weaviate можно интегрировать в существующие системы без перестройки пайплайнов.

Интересно, что решение работает в двух режимах: как готовый SDK для быстрого старта и как набор инструментаций для тех, кто уже использует OpenTelemetry. При этом собранные данные сохраняют совместимость kll— можно начать с Traceloop, а затем переключиться на другой бэкенд без потери истории.

🤖 GitHub

@machinelearning_books
Стэнфорд опубликовал свой самый новый курс «CS336: Language Modeling с нуля».

Курс практический, всех желающих научат обучать свою LLM — уже до начала июня будете иметь в руках своего личного ChatGPT. Рассказывают про всё: от архитектуры и токенизаторов до обучения с подкреплением и масштабирования.

Первые три лекции здесь, а домашка — тут.
Forwarded from Machinelearning
📌Обучение с подкреплением: как языковые модели учатся рассуждать.

Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL.

В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.

Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.

Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).

Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.

Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.

Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.

Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.

Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)

В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.

🔜 Читать статью в оригинале


@ai_machinelearning_big_data

#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.

На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.

После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.

⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/YMrI/?erid=2W5zFJGLnAU 

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Demonstrating Berkeley Humanoid Lite:
An Open-source, Accessible, and Customizable
3D-printed Humanoid Robot


➡️ Схема робота

@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 Librum — читалка с облачной библиотекой и 70 000+ бесплатных книг

С этим инструментом ваша библиотека станет по-настоящему мобильной — проект имеет синхронизацию между устройствами, теги, коллекции и даже статистика чтения — всё под рукой, будь то Windows, Linux или macOS.

Проект полностью открытый, а его команда живёт на донаты. При этом здесь уже есть поддержка редких форматов вроде CBZ (для комиксов) и TIFF, а в дорожной карте — TTS и AI-инструменты для заметок.

🤖 GitHub
🖥 500+ промптов для любых задач — собрано в одном месте.

Всего 9 категорий: бизнес, карьера (подходит для создания резюме), креатив, образование, здоровье, маркетинг, технологии, личный помощник и универсальные.

Сохраняйте, чтобы всегда под рукой. Ускоряйте работу и повышайте свою эффективность!

https://www.promptly.fyi/library
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Создаём свою нейросеть в PyTorch

Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.

Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.

Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.

🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
🐍 Practical Python Programming — бесплатный курс по Python для тех, кто хочет не просто читать, а писать код

Курс ориентирован на практику и охватывает ключевые аспекты современного Python-разработчика:

• Работа с данными
• Построение структуры программы
• Классы, объекты и ООП
• Механика работы объектов "под капотом"
• Генераторы и ленивые вычисления
• Тестирование, логирование и отладка
• Работа с модулями и пакетами

Отличный старт для тех, кто хочет уверенно разобраться в Python и сразу применять знания на практике.

🔗 Ссылка на курс
📌VLM становятся умнее, быстрее и доступнее.

Технологии, связанные с VLM переживают настоящий бум в 2025 году. Если раньше они ограничивались базовыми задачами вроде описания картинок, то теперь справляются с логическими рассуждениями, управлением роботами и генерацией видео на лету.

Основной тренд - гибкость: современные «умные» системы могут обрабатывать любые данные: текст, изображения, звук и выдавать ответы в любой форме.

В 2023 году компания Марка Цукерберга представила семейство моделей Chameleon, а команда Qwen доработала ее до Qwen2.5 Omni, которая сочетает генерацию текста и изображений через архитектуру «Thinker-Talker». Иными словами, VLM научились рассуждать.

Размер моделей перестал быть главным критерием. Вместо гигантских сетей разработчики теперь делают компактные версии, которые работают на обычных компьютерах. SmolVLM2 с 500 миллионами параметров справляется с видеоанализом, а Google упаковала мультимодальные способности в Gemma 3 в 1 миллиард параметров. Пользователям важны доступность мощь без лишних затрат.

Еще один эволюционный виток — использование смесей экспертов. Вместо того, чтобы задействовать всю сеть целиком, модели выбирают только нужные части, экономя ресурсы. Kimi-VL от Moonshot AI, например, задействует 2,8 миллиарда параметров из 16, решая сложные задачи. Это как собрать команду специалистов, где каждый отвечает за свою часть работы.

VLM научились не только понимать данные, но и действовать. В робототехнике их используют как «мозг» для управления движениями — π0 от Physical Intelligence складывает белье или собирает коробки, превращая команды в физические действия. А в повседневных задачах, например, с HuggingSnap, модели анализируют видео на смартфонах.

Безопасность тоже стала критичной. Модели ShieldGemma 2 и Llama Guard 4 проверяют контент на соответствие политикам, блокируя вредоносные изображения или текст. Это особенно важно для сервисов, где пользователи загружают персональные медиа.

Наконец, VLM учатся работать с длинными видео и документами. Qwen2.5-VL анализирует часовые видеозаписи, выделяя ключевые кадры, а ColPali помогает находить информацию в PDF без предварительной обработки.

В 2025 году VLM перестали быть «игрушкой» для лабораторий. Они внедряются в реальные задачи: от автоматизации офисной работы до помощи в медицине. Главный вопрос теперь не в том, на что способна та или иная модель, а как быстро ее внедрить на практике.

🟡Статья на Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?


📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
Data Fest 2025 в гостях у VK — офлайн 24 мая 🤩

Открываем конференцию Data Fest 2025 — в офисе VK. Приходите познакомиться с опытом дата-инженеров и исследователей в направлениях LLM, NLP, MLOps и других. Эксперты VK подготовили секцию докладов о RecSys, Reliable ML и карьере тимлида. Афтепати с розыгрышем призов и нетворкингом прилагается.

📍 Встречаемся 24 мая по адресу: Ленинградский проспект, 39, стр. 79, БЦ Skylight, башня А.

🤗 Регистрация уже открыта.
Количество мест ограничено, поэтому заполняйте анкету внимательно.
Media is too big
VIEW IN TELEGRAM
📌Yoshua Bengio на TED: "Как переосмыслить ИИ, пока не стало слишком поздно"

Выступление Yoshua Bengio на тему которая все чаще вызывает споры в техническом сообществе: растущая автономия ИИ как главный риск для человечества. Его аргументы — не просто теоретические страхи, а выводы, подкрепленные исследованиями и личным опытом.

Йошуа Бенжио — канадский математик, кибернетик и информатик, наиболее известный работами в области ИИ, нейронных сетей и глубокого обучения. Член Королевского общества Канады, Лондонского королевского общества, Профессор Монреальского университета.
Бенджио сравнивает развитие ИИ с детскими открытиями: подобно тому, как ребенок учится складывать буквы в слова, системы ИИ учатся планировать, обманывать и даже бороться за выживание. И если раньше такие сценарии казались фантастикой, сегодня они становятся частью научных отчетов.

Основная тема доклада — различие между способностями ИИ и его агентностью (способностью действовать автономно). Если первые развивались постепенно, то вторая способность начала расти экспоненциально.

По данным исследований, длительность задач, которые ИИ может выполнять без вмешательства человека, удваивается каждые 7 месяцев. Это открывает дверь для сценариев, где системы не просто решают проблемы, но и скрывают свои намерения.

Бенджио утверждает, что главная угроза не в том, что ИИ станет «умнее» человека (это вопрос времени), а в том, что его цели перестанут совпадать с нашими.

Уже сейчас системы демонстрируют склонность к обману и самосохранению, а при наличии доступа к интернету они гипотетически могут копировать себя на тысячи устройств, создавая угрозу потери контроля. При этом регуляторные меры отстают.

«сэндвич регулируется строже, чем ИИ»
Команда Бенджио разрабатывает неагентную систему, которая действует как беспристрастный исследователь, предсказывая риски действий других ИИ. Такая модель могла бы стать «тормозом» для опасных решений, не требуя собственной автономии.

Парадокс в том, что для создания безопасного ИИ нужны именно неагентные инструменты, а не попытки «очеловечить» алгоритмы.

Бенджио признает — остановить развитие невозможно, но можно перенаправить его в русло, где технологии служат людям, а не ставят под угрозу их будущее.

«Мы не обречены, но чтобы сохранить радость и свободу следующих поколений, действовать нужно уже сейчас».
И это не паника, а призыв к рациональности — от человека, который десятилетиями строил фундамент ИИ и теперь видит, как легко его творение может выйти из-под контроля.

🔜 Смотреть доклад на Youtube
Please open Telegram to view this post
VIEW IN TELEGRAM
Мультиагентные системы — главный тренд 2025

Модели, работающие в команде, способны разбивать задачи, делиться ролями и принимать коллективные решения. Главное — задать понятную цель, иметь данные и четкие метрики. Пока технологии только догоняют идею, но потенциал у подхода — взрывной.

6 июня на True Tech Day 2025 Иван Оселедец — доктор физико-математических наук, профессор РАН и генеральный директор AIRI — подробно расскажет, почему мультиагентные системы становятся следующим этапом эволюции ИИ.

После его доклада в программе — максимум практики и фана:

— батл по взлому Tesla Model X
— воркшоп по созданию ИИ-ассистента
— HR-хаб с рекомендация по карьерному треку
— мастер-класс по сборке серверов
— нетворкинг с экспертами из бигтеха

…а еще after-party со звездным лайн-апом и призы. Зарабатывай баллы, получай мерч и знакомься!

Ждем тебя и коллег 6 июня в МТС Live Холл.
Участие бесплатное, но мест мало. Регистрируйся по ссылке.
2025/05/30 00:35:36
Back to Top
HTML Embed Code: