🧠 GAIA — новый ориентир для General AI Assistants
GAIA — это benchmark, который проверяет, насколько AI-ассистенты могут мыслить, действовать и работать с инструментами в реальных.
📊 Что тестируется
- 466 заданий, требующих:
- логического мышления и планирования
- работы с вебом и мультимодальностью (текст, изображения)
- использования инструментов — браузера, кода, анализа файлов и пр.
- Задания просты для человека, но AI решает их с трудом (люди получают ~92 %, GPT‑4 + плагины — ~15 %)
🔍 Почему это важно
- В отличие от других benchmark-ов, GAIA фокусируется на настоящих задачах, а не узкоспециализированных тестах
- Задания ясны и дают однозначный ответ, что облегчает автоматическую оценку
- Benchmark защищён от «запоминания» — задачи редко встречаются в открытых данных и требуют последовательных действий
🛠️ Как работает
1. Задачи задаются "в ноль" — без примеров
2. AI получает вопрос (текст и/или файл) и должен самостоятельно:
- искать в интернете
- обрабатывать мультимодальные данные
- выполнять код или анализ
3. Ответы оцениваются автоматически — только один правильный вариант
⚡ Перспективы и вызовы
- Пока лишь немногие модели приближаются к человеческому уровню — GPT‑4 с плагинами на ~15 %
- Benchmark рассчитан на долгосрочное развитие AGI — от точности решения до открытости и надёжности оценивания
- GAIA подчёркивает необходимость создания систем, способных последовательно действовать, а не просто «угадывать» ответы.
🔗 Github: https://github.com/Intelligent-Internet/ii-agent
🔗 GAIA Examples: https://ii-agent-gaia.ii.inc
GAIA — это benchmark, который проверяет, насколько AI-ассистенты могут мыслить, действовать и работать с инструментами в реальных.
📊 Что тестируется
- 466 заданий, требующих:
- логического мышления и планирования
- работы с вебом и мультимодальностью (текст, изображения)
- использования инструментов — браузера, кода, анализа файлов и пр.
- Задания просты для человека, но AI решает их с трудом (люди получают ~92 %, GPT‑4 + плагины — ~15 %)
🔍 Почему это важно
- В отличие от других benchmark-ов, GAIA фокусируется на настоящих задачах, а не узкоспециализированных тестах
- Задания ясны и дают однозначный ответ, что облегчает автоматическую оценку
- Benchmark защищён от «запоминания» — задачи редко встречаются в открытых данных и требуют последовательных действий
🛠️ Как работает
1. Задачи задаются "в ноль" — без примеров
2. AI получает вопрос (текст и/или файл) и должен самостоятельно:
- искать в интернете
- обрабатывать мультимодальные данные
- выполнять код или анализ
3. Ответы оцениваются автоматически — только один правильный вариант
⚡ Перспективы и вызовы
- Пока лишь немногие модели приближаются к человеческому уровню — GPT‑4 с плагинами на ~15 %
- Benchmark рассчитан на долгосрочное развитие AGI — от точности решения до открытости и надёжности оценивания
- GAIA подчёркивает необходимость создания систем, способных последовательно действовать, а не просто «угадывать» ответы.
🔗 Github: https://github.com/Intelligent-Internet/ii-agent
🔗 GAIA Examples: https://ii-agent-gaia.ii.inc
🩺 Google выпустила MedGemma — открытые модели ИИ для медицины
На Hugging Face вышла коллекция MedGemma, созданная Google на базе Gemma 3 специально для медицинских задач. Это мощные модели, способные анализировать как текст, так и медицинские изображения — от рентгена до дерматологии.
📦 В коллекции:
•
•
•
🔍 Что умеют:
✅ Обнаружение патологий на рентген-снимках
✅ Ответы на медицинские вопросы (VQA)
✅ Генерация медицинских отчётов
✅ Обработка клинических заметок, триажа, историй болезни
📊 Бенчмарки:
• CheXpert F1 (Top‑5): 48.1 vs 31.2 у базовой
• DermMCQA точность: 71.8%
• VQA‑Rad F1: 49.9
🧪 Пример использования:
🔗 Hugging Face: https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
📝 Лицензия: Apache 2.0 (с медицинским соглашением)
#MedGemma #GoogleAI #Gemma3 #HealthcareAI #RadiologyAI #MedicalAI #OpenSourceAI #HuggingFace
На Hugging Face вышла коллекция MedGemma, созданная Google на базе Gemma 3 специально для медицинских задач. Это мощные модели, способные анализировать как текст, так и медицинские изображения — от рентгена до дерматологии.
📦 В коллекции:
•
medgemma-4b-it
— мультимодальная модель (текст + изображения) •
medgemma-4b-pt
— предварительно обученная версия •
medgemma-27b-text-it
— огромная текстовая модель для клинической документации🔍 Что умеют:
✅ Обнаружение патологий на рентген-снимках
✅ Ответы на медицинские вопросы (VQA)
✅ Генерация медицинских отчётов
✅ Обработка клинических заметок, триажа, историй болезни
📊 Бенчмарки:
• CheXpert F1 (Top‑5): 48.1 vs 31.2 у базовой
• DermMCQA точность: 71.8%
• VQA‑Rad F1: 49.9
🧪 Пример использования:
from transformers import pipeline
pipe = pipeline("image-text-to-text", model="google/medgemma-4b-it")
🔗 Hugging Face: https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4
📝 Лицензия: Apache 2.0 (с медицинским соглашением)
#MedGemma #GoogleAI #Gemma3 #HealthcareAI #RadiologyAI #MedicalAI #OpenSourceAI #HuggingFace
👾 SGLang — промышленный фреймворк для быстрого обслуживания LLM. Проект предлагает готовое решение для быстрого разворачивания модели в продакшене — от оптимизированного рантайма до удобного API. Проект уже используют в NVIDIA, Google Cloud и LinkedIn для обработки триллионов токенов ежедневно на парках из 100k+ GPU. Установка —
Ключевая фишка — RadixAttention: система кеширования префиксов, сокращающая время генерации. Поддерживает все популярные модели и фичи вроде speculative decoding или квантования INT4. Для разработчиков есть Python-интерфейс с контролем потока и мультимодальным вводом.
🤖 GitHub
@data_analysis_ml
pip install sglang,
а для масштабирования есть туториалы по tensor parallelism. Ключевая фишка — RadixAttention: система кеширования префиксов, сокращающая время генерации. Поддерживает все популярные модели и фичи вроде speculative decoding или квантования INT4. Для разработчиков есть Python-интерфейс с контролем потока и мультимодальным вводом.
🤖 GitHub
@data_analysis_ml
Media is too big
VIEW IN TELEGRAM
🎥 Veo3 — новая эра генерации видео от Google DeepMind
Veo3 позволяет создавать видео по тексту — теперь даже с диалогами с одного промпта.
Результат: синхронная речь, живые сцены и минимум усилий.
Один из креаторов рассказал, как начал с идеи «пластикового ребёнка», а получил эмоциональную историю с настоящим сюжетом. Офисные сцены, шутки, даже синхрон губ — всё сработало с первого раза.
⚠️ Единственное ограничение: image-to-video хуже справляется с речью, и для стабильности в этом видео используется Pixverse.
Veo3 уже применяют для pre-viz в реальных проектах. Черипики получаются настолько хорошими, что их не хотят менять 😄
👏 Респект Google DeepMind — Veo3 делает видео генерацию по-настоящему живой.
@data_analysis_ml
Veo3 позволяет создавать видео по тексту — теперь даже с диалогами с одного промпта.
Результат: синхронная речь, живые сцены и минимум усилий.
Один из креаторов рассказал, как начал с идеи «пластикового ребёнка», а получил эмоциональную историю с настоящим сюжетом. Офисные сцены, шутки, даже синхрон губ — всё сработало с первого раза.
⚠️ Единственное ограничение: image-to-video хуже справляется с речью, и для стабильности в этом видео используется Pixverse.
Veo3 уже применяют для pre-viz в реальных проектах. Черипики получаются настолько хорошими, что их не хотят менять 😄
👏 Респект Google DeepMind — Veo3 делает видео генерацию по-настоящему живой.
@data_analysis_ml
🧠 Новая работа от ANSE Project: модель уже знает, какой шум лучший
Исследователи Кванён Ким и Санхён Ким предложили улучшение для видео-диффузионных моделей — метод ANSE (Active Noise Selection for Generation).
🔍 В чём идея?
В диффузионных моделях начальный шум влияет на результат. Один и тот же prompt с разными шумами может дать совершенно разные видео — по качеству, стилю и соответствию запросу.
ANSE предлагает не выбирать шум случайно, а использовать внутренние сигналы модели (внимание/attention), чтобы активно выбрать лучший шум перед генерацией.
🧪 Как это работает?
- Используется BANSA (Bayesian Active Noise Selection via Attention) — метрика на основе энтропии внимания
- Она измеряет, насколько модель "уверена" в своём внимании при разных инициализациях шума
- Для ускорения применяется аппроксимация через бернуллиевы маски и выборку подслоёв
📈 Результаты:
На моделях CogVideoX-2B и 5B метод ANSE:
• улучшает качество и согласованность видео
• требует всего на ~10% больше времени на inference
• показывает более стабильные и осмысленные результаты
📎 Подробнее: https://arxiv.org/abs/2505.17561
🌐 Проект: https://anse-project.github.io/anse-project/
Исследователи Кванён Ким и Санхён Ким предложили улучшение для видео-диффузионных моделей — метод ANSE (Active Noise Selection for Generation).
🔍 В чём идея?
В диффузионных моделях начальный шум влияет на результат. Один и тот же prompt с разными шумами может дать совершенно разные видео — по качеству, стилю и соответствию запросу.
ANSE предлагает не выбирать шум случайно, а использовать внутренние сигналы модели (внимание/attention), чтобы активно выбрать лучший шум перед генерацией.
🧪 Как это работает?
- Используется BANSA (Bayesian Active Noise Selection via Attention) — метрика на основе энтропии внимания
- Она измеряет, насколько модель "уверена" в своём внимании при разных инициализациях шума
- Для ускорения применяется аппроксимация через бернуллиевы маски и выборку подслоёв
📈 Результаты:
На моделях CogVideoX-2B и 5B метод ANSE:
• улучшает качество и согласованность видео
• требует всего на ~10% больше времени на inference
• показывает более стабильные и осмысленные результаты
📎 Подробнее: https://arxiv.org/abs/2505.17561
🌐 Проект: https://anse-project.github.io/anse-project/
Выгодная инфраструктура с GPU для проектов любого масштаба
Если вы создаете приложения на базе ИИ, занимаетесь анализом данных и сложными вычислениями, вам знакома проблема нехватки ресурсов GPU. С Selectel о ней можно забыть. Здесь есть мощные серверы с видеокартами для решения задач любой сложности всего от 29 ₽/час:
Почему стоит выбрать аренду серверов с GPU в Selectel:
● Широкий выбор видеокарт: Более 20 моделей карт — от GTX 1080 до профессиональных H100 и А100 (40 и 80 ГБ).
● Гибкость и масштабируемость: Мгновенное масштабирование под растущие нагрузки, стандартные и индивидуальные конфигурации с нужной видеокартой.
● Высокий уровень безопасности: серверы Selectel соответствуют международным и российским стандартам безопасности, включая 152-ФЗ (УЗ-1), PCI DSS, ISO 27001, 27017 и 27018.
Разверните ваш проект на серверах с GPU в Selectel от 29 ₽/час:
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzquspGb7
Если вы создаете приложения на базе ИИ, занимаетесь анализом данных и сложными вычислениями, вам знакома проблема нехватки ресурсов GPU. С Selectel о ней можно забыть. Здесь есть мощные серверы с видеокартами для решения задач любой сложности всего от 29 ₽/час:
Почему стоит выбрать аренду серверов с GPU в Selectel:
● Широкий выбор видеокарт: Более 20 моделей карт — от GTX 1080 до профессиональных H100 и А100 (40 и 80 ГБ).
● Гибкость и масштабируемость: Мгновенное масштабирование под растущие нагрузки, стандартные и индивидуальные конфигурации с нужной видеокартой.
● Высокий уровень безопасности: серверы Selectel соответствуют международным и российским стандартам безопасности, включая 152-ФЗ (УЗ-1), PCI DSS, ISO 27001, 27017 и 27018.
Разверните ваш проект на серверах с GPU в Selectel от 29 ₽/час:
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzquspGb7
🧠 VLM-3R: Мультимодальный агент нового поколения
VLM-3R — это мощный мультимодальный агент, сочетающий визуальное восприятие, речевое взаимодействие и пространственное мышление.
🔍 Расшифровка названия:
VLM-3R = Vision-Language Model for **R**easoning, **R**econstruction и **R**eal-world interaction
🎯 Основные возможности:
• Понимание и генерация изображений, видео и речи
• Работа в 3D-пространствах (реконструкция и навигация)
• Решение задач с реальным контекстом (например, манипуляции с объектами в симуляциях)
• Интерактивный агент с мультимодальной памятью и планированием
🚀 На чём построен:
• VLM-3R интегрирует крупные языковые и визуальные модели
• Использует mid-level представления для более точного понимания
• Работает с 2D и 3D сценами, распознаёт объекты, действия и голосовые команды
🔬 Применения:
• Робототехника
• Виртуальные ассистенты
• Интерактивные обучающие среды
• Моделирование поведения в симулированных мирах
📎 Подробнее: https://vlm-3r.github.io/
VLM-3R — это мощный мультимодальный агент, сочетающий визуальное восприятие, речевое взаимодействие и пространственное мышление.
🔍 Расшифровка названия:
VLM-3R = Vision-Language Model for **R**easoning, **R**econstruction и **R**eal-world interaction
🎯 Основные возможности:
• Понимание и генерация изображений, видео и речи
• Работа в 3D-пространствах (реконструкция и навигация)
• Решение задач с реальным контекстом (например, манипуляции с объектами в симуляциях)
• Интерактивный агент с мультимодальной памятью и планированием
🚀 На чём построен:
• VLM-3R интегрирует крупные языковые и визуальные модели
• Использует mid-level представления для более точного понимания
• Работает с 2D и 3D сценами, распознаёт объекты, действия и голосовые команды
🔬 Применения:
• Робототехника
• Виртуальные ассистенты
• Интерактивные обучающие среды
• Моделирование поведения в симулированных мирах
📎 Подробнее: https://vlm-3r.github.io/
🧠 PKU-DS-LAB представили Fairy-R1 — мощную LLM-модели для математики и программирования, которая превосходит более крупные модели при меньшем числе параметров.
🚀 Что такое Fairy-R1:
• Это семейство языковых моделей, разработанных для задач математического и кодингового рассуждения
• Построены на базе DeepSeek-R1 с использованием метода distill-and-merge
• Выпущены две версии:
— FairyR1-32B (32B параметров)
— FairyR1-14B-Preview (14B параметров)
📊 Результаты на бенчмарках:
• AIME 2024: 80.4 (32B), 73.7 (14B)
• AIME 2025: 75.6 (32B), 64.9 (14B)
• LiveCodeBench: 67.7 (32B), 58.8 (14B)
📌 Почему это важно:
• Модели работают почти так же точно, как GPT-4, но в 20 раз легче
• Умеют обрабатывать задачи на английском и китайском
• Используют архитектуру слияния нескольких специализаций (AcreeFusion)
🛠 Как обучали:
• Математика: AIMO / NuminaMath-1.5
• Программирование: OpenThoughts-114k
• Обучение: на 32 × NVIDIA H100 (32B), 16 × H100 (14B)
• Доступ: полностью open-source (Apache 2.0)
🔗 https://huggingface.co/collections/PKU-DS-LAB/fairy-r1-6834014fe8fd45bc211c6dd7
@data_analysis_ml
🚀 Что такое Fairy-R1:
• Это семейство языковых моделей, разработанных для задач математического и кодингового рассуждения
• Построены на базе DeepSeek-R1 с использованием метода distill-and-merge
• Выпущены две версии:
— FairyR1-32B (32B параметров)
— FairyR1-14B-Preview (14B параметров)
📊 Результаты на бенчмарках:
• AIME 2024: 80.4 (32B), 73.7 (14B)
• AIME 2025: 75.6 (32B), 64.9 (14B)
• LiveCodeBench: 67.7 (32B), 58.8 (14B)
📌 Почему это важно:
• Модели работают почти так же точно, как GPT-4, но в 20 раз легче
• Умеют обрабатывать задачи на английском и китайском
• Используют архитектуру слияния нескольких специализаций (AcreeFusion)
🛠 Как обучали:
• Математика: AIMO / NuminaMath-1.5
• Программирование: OpenThoughts-114k
• Обучение: на 32 × NVIDIA H100 (32B), 16 × H100 (14B)
• Доступ: полностью open-source (Apache 2.0)
🔗 https://huggingface.co/collections/PKU-DS-LAB/fairy-r1-6834014fe8fd45bc211c6dd7
@data_analysis_ml
Forwarded from Machinelearning
Вслед за релизом Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систему на базе MM-DiT для генерации динамичных видео из изображения с одним или несколькими персонажами, синхронизированных с аудио.
Объединить такие возможности было непростой задачей, это стало возможным благодаря использованию ключевых для Hunyuan Video Avatar методов:
По сравнительных тестах с Sonic, EchoMimic, EchoMimicV2 и Hallo-3 на датасетах для портретной анимации (HDTF, CelebV-HQ и свой приватный сет) Hunyuan Video Avatar показал лучшие результаты: 3,99 в метриках качества видео (IQA), 2,54 по эстетике (ASE), 5,30 в синхронизации аудио и видео (Sync-C), 38.01 в точности воспроизведения видео (FID) и 358.71 по искажениям (FVD).
При тестировании полнокадровой анимации на собственном датасете HunyuanVideo-Avatar показал лучшие результаты по IQA (4.66), ASE (3.03) и Sync-C (5.56) в сравнении с Hallo3, FantasyTalking и OmniHuman-1.
⚠️ Модель прожорливая: минимум 24 ГБ VRAM для 704x768, а для плавного 4K рекомендуют GPU на 96 ГБ.
Зато входные изображения берет любые: фотореалистичные портреты, 3D-модели, аниме-персонажи — хоть лису в костюме. Разрешение тоже гибкое: от крупных планов до полноростовых.
@ai_machinelearning_big_data
#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 best-of-robot-simulators: крупнейший рейтинг симуляторов для робототехники
Проект — это автоматизированная и регулярно обновляемая подборка лучших симуляторов для робототехники на GitHub. Это must-have для всех, кто работает с моделированием и тестированием роботов в виртуальной среде.
🧩 Что внутри:
● 120+ симуляторов в 10 категориях
● Более 300 000 звёзд в сумме
● Автоматическая сортировка по GitHub-метрикам: звёзды, форки, активность
● Обновляется каждую среду
📂 Категории симуляторов:
• Generic Robotics
• Aerial (дроны)
• Maritime (морская робототехника)
• Space
• Domain Specific
• Game engines
• AI-training
• Rendering
• Physics engines
• 2D Simulators
🔍 Примеры известных фреймворков:
• Gazebo, Webots, Isaac Sim, MuJoCo, AirSim, PyBullet
🛠 Полезно для:
• Разработчиков и исследователей
• Студентов робототехники
• Команд, выбирающих движок под проект
• Энтузиастов AI/симуляции
📎 Лицензия: CC-BY-SA 4.0
🌐 Репозиторий
#robotics #AI #simulation #opensource #gazebo #webots #isaacsim #mujoco
Проект — это автоматизированная и регулярно обновляемая подборка лучших симуляторов для робототехники на GitHub. Это must-have для всех, кто работает с моделированием и тестированием роботов в виртуальной среде.
🧩 Что внутри:
● 120+ симуляторов в 10 категориях
● Более 300 000 звёзд в сумме
● Автоматическая сортировка по GitHub-метрикам: звёзды, форки, активность
● Обновляется каждую среду
📂 Категории симуляторов:
• Generic Robotics
• Aerial (дроны)
• Maritime (морская робототехника)
• Space
• Domain Specific
• Game engines
• AI-training
• Rendering
• Physics engines
• 2D Simulators
🔍 Примеры известных фреймворков:
• Gazebo, Webots, Isaac Sim, MuJoCo, AirSim, PyBullet
🛠 Полезно для:
• Разработчиков и исследователей
• Студентов робототехники
• Команд, выбирающих движок под проект
• Энтузиастов AI/симуляции
📎 Лицензия: CC-BY-SA 4.0
🌐 Репозиторий
#robotics #AI #simulation #opensource #gazebo #webots #isaacsim #mujoco
📣 Получите статус Yandex DataLens Certified Analyst
⠀
Сертификация DataLens Analyst от Yandex Cloud — это возможность структурировать знания и подтвердить свой профессиональный уровень в анализе и визуализации данных.
⠀
Сертифицированные специалисты ценятся на рынке выше, а подготовка к экзамену помогает систематизировать навыки: от создания датасетов до проектирования дашбордов.
⠀
Сейчас пройти сертификацию можно с 50% скидкой — до конца августа стоимость составит 2 500 ₽ вместо 5 000 ₽.
⠀
На сайте есть бесплатный курс и примеры экзаменационных заданий.
⠀
📍Подробности и регистрация — по ссылке.
⠀
Сертификация DataLens Analyst от Yandex Cloud — это возможность структурировать знания и подтвердить свой профессиональный уровень в анализе и визуализации данных.
⠀
Сертифицированные специалисты ценятся на рынке выше, а подготовка к экзамену помогает систематизировать навыки: от создания датасетов до проектирования дашбордов.
⠀
Сейчас пройти сертификацию можно с 50% скидкой — до конца августа стоимость составит 2 500 ₽ вместо 5 000 ₽.
⠀
На сайте есть бесплатный курс и примеры экзаменационных заданий.
⠀
📍Подробности и регистрация — по ссылке.
🚀 Представлен Apache Spark 4.0 — крупнейший релиз с момента запуска Spark 2.0
Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.
Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.
🔥 Что нового:
• 💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
• 🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
• ⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
• 📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
• 🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
• 🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций
📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40
@data_analysis_ml
Databricks анонсировали Spark 4.0 с множеством фундаментальных улучшений производительности и архитектуры.
Новый релиз фокусируется на ускорении обработки, поддержке GenAI-нагрузок и расширенной масштабируемости.
🔥 Что нового:
• 💡 Project Tungsten++, Catalyst++ — переработка движка исполнения и оптимизации запросов
• 🧠 Поддержка генеративных AI-запросов — Spark теперь эффективнее работает с LLM-нагрузками
• ⚙️ Новый Execution Engine — более 2× ускорение в среднем, до 10× в некоторых кейсах
• 📦 Модульная архитектура — теперь ядро Spark отделено от MLlib, GraphX и др.
• 🌐 Поддержка нового Shuffle-движка и улучшенное распределение по кластерам
• 🧪 Обратная несовместимость — Spark 4.0 требует миграции, особенно для UDF и кастомных оптимизаций
📌 Подробности и тесты:
https://www.databricks.com/blog/introducing-apache-spark-40
@data_analysis_ml
YTsaurus - платформа для хранения и обработки больших данных, теперь доступная в Yandex Cloud как управляемый сервис.
Решение подходит для широкого спектра задач: от построения корпоративных хранилищ и реализации ETL-процессов до запуска аналитики и обучения моделей машинного обучения.
Платформа масштабируется до миллионов вычислительных ядер, поддерживает работу с ClickHouse, Apache Spark и MapReduce, а также справляется с любыми типами данных - структурированными, полуструктурированными и неструктурированными.
YTsaurus обеспечивает стабильную производственную нагрузку, высокую гибкость и интеграцию с существующими дата-инфраструктурами.
Сервис уже доступен в облаке. Подключайтесь и оставляйте заявку на сайте.
Решение подходит для широкого спектра задач: от построения корпоративных хранилищ и реализации ETL-процессов до запуска аналитики и обучения моделей машинного обучения.
Платформа масштабируется до миллионов вычислительных ядер, поддерживает работу с ClickHouse, Apache Spark и MapReduce, а также справляется с любыми типами данных - структурированными, полуструктурированными и неструктурированными.
YTsaurus обеспечивает стабильную производственную нагрузку, высокую гибкость и интеграцию с существующими дата-инфраструктурами.
Сервис уже доступен в облаке. Подключайтесь и оставляйте заявку на сайте.
🔁 BERT перезагружается — революция в обработке языка
Когда-то BERT (Bidirectional Encoder Representations from Transformers) стал поворотной точкой в NLP. Это была первая модель, которая обучалась трансформеру двунаправленно — она одновременно учитывала контекст и слева, и справа от каждого слова, чтобы понимать язык глубже, чем когда-либо.
🧠 Что изменил BERT:
• Принёс в трансформеры стратегию «предобучение → дообучение»
• Учил модели понимать текст без ручной разметки
• Доказал, что язык можно моделировать через простые, но мощные задачи
🛠 Как устроено предобучение BERT:
🔹 MLM (Masked Language Model)
Модель случайно скрывает 15% слов в предложении и учится угадывать их, основываясь на окружающем контексте.
Примерно как человек, который понимает фразу, даже если не видит пару слов.
🔹 NSP (Next Sentence Prediction)
BERT также обучался распознавать, действительно ли второе предложение логически следует за первым.
Но…
⚡ Современные версии (NeoBERT, ModernBERT) отказываются от NSP — вместо него они используют более быстрые и эффективные подходы, чтобы добиться лучшей производительности.
🔍 Хотите узнать больше о BERT, его развитии и новой модели ConstBERT для поисковых задач?
👉 Читайте разбор здесь: https://turingpost.com/p/bert
Когда-то BERT (Bidirectional Encoder Representations from Transformers) стал поворотной точкой в NLP. Это была первая модель, которая обучалась трансформеру двунаправленно — она одновременно учитывала контекст и слева, и справа от каждого слова, чтобы понимать язык глубже, чем когда-либо.
🧠 Что изменил BERT:
• Принёс в трансформеры стратегию «предобучение → дообучение»
• Учил модели понимать текст без ручной разметки
• Доказал, что язык можно моделировать через простые, но мощные задачи
🛠 Как устроено предобучение BERT:
🔹 MLM (Masked Language Model)
Модель случайно скрывает 15% слов в предложении и учится угадывать их, основываясь на окружающем контексте.
Примерно как человек, который понимает фразу, даже если не видит пару слов.
🔹 NSP (Next Sentence Prediction)
BERT также обучался распознавать, действительно ли второе предложение логически следует за первым.
Но…
⚡ Современные версии (NeoBERT, ModernBERT) отказываются от NSP — вместо него они используют более быстрые и эффективные подходы, чтобы добиться лучшей производительности.
🔍 Хотите узнать больше о BERT, его развитии и новой модели ConstBERT для поисковых задач?
👉 Читайте разбор здесь: https://turingpost.com/p/bert