Media is too big
VIEW IN TELEGRAM
Mistral представил Mistral Code — инструмент для программистов, который будет бороться за внимание пользователей с GitHub Copilot и другими аналогами. Продукт основан на открытом проекте Continue и включает в себя собственные модели Mistral: Codestral для автозаполнения кода, Devstral для решения задач через агенты, Mistral Medium для чатов и Codestral Embed для поиска. Поддерживаются 80+ языков программирования, интеграция с VS Code и JetBrains уже в бета-тестировании.
В компании говорят, что ассистент уже используют Capgemini, SNCF и банк Abanca. Mistral Code позволяет работать локально, обрабатывает файлы, ошибки в терминале и даже обсуждения из тикетов. Beta-версия доступна для тестирования, а часть улучшений обещают добавлять в опенсорс.
mistral.ai
Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости.
Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее.
Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%.
venturebeat.com
Компания Марка Цукерберга раскрыла подробности об очках Aria Gen 2. Новинка весит 74–76 грамм, имеет 8 вариантов оправ и складные дужки для удобства. Главное изменение: 4 камеры с датчиками затвора, которые устойчивы к искажения при движении. Динамический диапазон вырос до 120 дБ, а угол перекрытия стереокамер увеличился до 80°, что улучшает определение глубины. В наносном узле разместили контактный вибромикрофон и датчик пульса PPG.
Для ИИ-задач предусмотрен отдельный процессор, а система VIO отслеживает движение в 6DoF. Очки следят за глазами, фиксируют зрачки, отслеживают руки в 3D. Устройства планируют выдавать исследователям позже в 2025 году, а демо покажет на конференции CVPR в июне этого года.
mashable.com
Anthropic разработала версии моделей Claude, предназначенных исключительно для правительственных структур, занимающихся вопросами национальной безопасности. Решение создано на основе обратной связи от госзаказчиков и прошло проверки на безопасность.
Модели оптимизированы для работы с секретными данными, лучше понимают документы из сферы разведки и обороны, анализируют киберугрозы и поддерживают редкие языки, важные для спецопераций. Использование ограничено закрытыми системами, где доступ к информации строго регламентирован.
anthropic.com
Higgsfield представил Higgsfield Speak — платформу, которая превращает текст в видео с анимированными персонажами, передающими эмоции, жесты и движения. В отличие от обычного липсинка, новый инструмент использует 80 параметров движения и 40 визуальных эффектов, чтобы сделать анимацию похожей на «живую» съемку. Платформа подходит для подкастов, обучающих роликов или рекламных кампаний: пользователи выбирают стиль, аватар и сценарий — остальное система обрабатывает автоматически.
Продукт позиционируется как решение для креативщиков, которым нужно быстро создавать контент без камеры - от влогов до рекламных лендингов. Подписки Pro и Ultimate открывают доступ к инструментам, которые, по словам разработчиков, изменят подход к производству видео в ближайшее полугодие.
HiggsField AI в сети Х (ex-Twitter)
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Ребята из финтеха Точка сделали классный разбор того, как обучать ML-модели, когда размеченных данных мало, а времени и бюджета на ручную разметку нет.
В посте собрали описания несколько подходов, которые реально работают: Active Learning, Semi-Supervised Learning, Transfer Learning. Главный фокус — на Weak Supervision и том, как автоматизировать разметку с помощью эвристик, баз знаний, краудсорсинга и языковых моделей.
Подробно разложен по полочкам Programmatic Weak Supervision (PWS). Рассказали:
- как создавать разметочные функции;
- как агрегировать противоречивые слабые метки;
- как использовать генеративную модель для оценки качества;
- как на основе этой автоматической разметки обучать полноценную дискриминативную модель.
Если в ваших проектах нет разметки, этот пост поможет обойти это ограничение и быстро и качественно обучить модели.
Читать пост
Подписывайтесь на канал Точки .ml — там разборы инструментов, обзоры фреймворков и выжимки из статей.
В посте собрали описания несколько подходов, которые реально работают: Active Learning, Semi-Supervised Learning, Transfer Learning. Главный фокус — на Weak Supervision и том, как автоматизировать разметку с помощью эвристик, баз знаний, краудсорсинга и языковых моделей.
Подробно разложен по полочкам Programmatic Weak Supervision (PWS). Рассказали:
- как создавать разметочные функции;
- как агрегировать противоречивые слабые метки;
- как использовать генеративную модель для оценки качества;
- как на основе этой автоматической разметки обучать полноценную дискриминативную модель.
Если в ваших проектах нет разметки, этот пост поможет обойти это ограничение и быстро и качественно обучить модели.
Читать пост
Подписывайтесь на канал Точки .ml — там разборы инструментов, обзоры фреймворков и выжимки из статей.
Forwarded from .ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.
Проект включает в себя все необходимое: и фронтенд, и бэкенд.
Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.
Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.
Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.
⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.
@ai_machinelearning_big_data
#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic отключила Windsurf от прямого использования моделей Claude 3.5 и 3.7 Sonnet, объяснив это слухами о возможной покупке стартапа OpenAI.
По словам сооснователя Anthropic Джареда Каплана, компания хочет сосредоточиться на долгосрочных партнерствах, так как сейчас сталкивается с нехваткой вычислительных мощностей.
Windsurf, получавший доступ к Claude для разработки своих продуктов, теперь вынужден переходить на сторонние платформы, что может временно нарушить стабильность сервиса для пользователей.
В то же время Anthropic анонсировал сотрудничество с Cursor. Каплан подчеркнул, что фокус компании смещается с чат-ботов на «агентные» решения вроде Claude Code, которые, по его мнению, окажутся более полезными в будущем.
Источник: Techcrunch
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🛎 Готовы делиться опытом в прикладном машинном обучении?
Practical ML Conf возвращается 27 сентября — это ежегодная конференция от Яндекса про технологии, которые уже сегодня работают на бизнес. Команда ждёт практичные и глубокие доклады по направлениям:
• CV
• NLP
• Speech
• Recommendation Systems
• MLOps
• Data Science
🎯 Темы оцениваются по 4 критериям:
полезность, новизна, сложность и применимость.
👥 Что получают спикеры:
⚪️ Консультации от экспертов по структуре и содержанию
⚪️ Прогоны с тренером по публичным выступлениям
⚪️ Помощь дизайнеров с презентацией
⚪️ Нетворкинг с другими спикерами и экспертами
⚪️ Поддержку в продвижении — о лучших докладах расскажут в каналах Яндекса
⚪️ Участие в конференции без отбора + инвайт для +1
⚪️ И главное — возможность стать частью сильного ML-сообщества
🗓 Заявки принимаются до 23 июня.
🛄 Встретимся на Practical ML Conf!
Practical ML Conf возвращается 27 сентября — это ежегодная конференция от Яндекса про технологии, которые уже сегодня работают на бизнес. Команда ждёт практичные и глубокие доклады по направлениям:
• CV
• NLP
• Speech
• Recommendation Systems
• MLOps
• Data Science
🎯 Темы оцениваются по 4 критериям:
полезность, новизна, сложность и применимость.
👥 Что получают спикеры:
⚪️ Консультации от экспертов по структуре и содержанию
⚪️ Прогоны с тренером по публичным выступлениям
⚪️ Помощь дизайнеров с презентацией
⚪️ Нетворкинг с другими спикерами и экспертами
⚪️ Поддержку в продвижении — о лучших докладах расскажут в каналах Яндекса
⚪️ Участие в конференции без отбора + инвайт для +1
⚪️ И главное — возможность стать частью сильного ML-сообщества
🗓 Заявки принимаются до 23 июня.
🛄 Встретимся на Practical ML Conf!
В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.
Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.
Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.
Deceptive Employment Scheme: IT Workers.
Covert IO: Operation “Sneer Review”
Covert IO: Operation “High Five”
Social engineering meets IO: Operation “VAGue Focus”
Covert IO: Operation “Helgoland Bite”
Cyber Operation: “ScopeCreep”
Cyber Operations: Vixen and Keyhole Panda
Covert IO: Operation “Uncle Spam”
Recidivist Influence Activity: STORM-2035
Scam: Operation “Wrong Number”
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
EleutherAI выпустила The Common Pile v0.1 — 8-терабайтный набор данных для тренировки моделей, собранный при участии Hugging Face и академических институтов. В него вошли более 20-ти публичных источников, На базе датасета созданы Comma v0.1-1T и Comma v0.1-2T (по 7 млрд параметров), которые, по заявлению разработчиков, не уступают моделям, обученным на нелицензированном контенте.
Модели показывают сильные результаты в прораммировании и математике, опровергая мнение, что только "пиратский" контент обеспечивает качество. Релиз датасета - это попытка исправить ошибки прошлого: ранее EleutherAI критиковали за использование защищенного авторским правом контента в старом датасете The Pile.
huggingface.co
OpenAI получила судебный приказ о временном хранении данных пользователей ChatGPT и API, даже если они были удалены. Это связано с иском New York Times о нарушении авторских прав. NYT требует сохранить «всю переписку и контент» для использования в качестве доказательств.
Под приказ попадают данные пользователей бесплатных и платных версий ChatGPT (Plus, Pro, Team), а также API-клиенты без соглашения о нулевом хранении данных. Корпоративные клиенты и образовательные проекты в безопасности — их информация не попадает под приказ.
OpenAI назвала требование чрезмерным, подчеркнув, что обычно удаляет данные через 30 дней и подала апелляцию, но временно соблюдает решение.
openai.com
MIT CSAIL и Recursion разработали Boltz-2 — открытую модель для анализа биомолекулярных структур и связывания. Она сочетает рекордную скорость и точность, превосходя AlphaFold3 и других конкурентов.
Boltz-2 предсказывает, как молекулы взаимодействуют, с точностью, близкой к физическим методам FEP, но в 1000 раз быстрее. Разработчики надеются, что публикация модели облегчит поиск лекарств, ведь Boltz-2 может за час перебрать тысячи соединений вместо недель вычислений.
globenewswire.com
AMD объявил о покупке ключевых специалистов из стартапа Untether AI, разработавшего энергоэффективные чипы для ИИ-инференса. Сделка должна укрепить возможности компании в области компиляторов и проектирования чипов.
Untether AI, основанный в 2018 году, славился архитектурой «at-memory», повышающей производительность в дата-центрах и на EDGE-устройствах. Их плата speedAI240 Slim показала рекордную энергоэффективность: в 3–6 раз выше аналогов по тестам MLPerf.
Сделка стала частью стратегии AMD по конкурированию с Nvidia. Ранее, приобретя стартап Brium, компания усилила оптимизацию ИИ-нагрузок на GPU Instinct. Теперь фокус смещается на интеграцию новых технологий в продукты, ориентированные на растущий рынок ИИ.
crn.com
В Нью-Йорке прошел ежегодный фестиваль ИИ-фильмов от Runway. За 3 года проект вырос от 300 до 6000 заявок, а в этом году представил десятку короткометражек, созданных с помощью ИИ. Лучшей стала «Total Pixel Space» Джейкоба Алдера, исследующая математические границы digital-изображений.
По словам организаторов, технологии ускоряют процессы кинопроизводства и фестиваль делает акцент на том, как ИИ поддерживает, а не заменяет творцов.
apnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
📌 Лицензирование: CC-BY-4.0
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
Китайская компания 4DV AI, показала проект, который позволяет превращать обычные видео в интерактивную 3D-сцену — с возможностью крутить камеру, приближать и менять ракурс.
🔍 Как это работает:
Видео разбивается на облако точек — сплаты, каждая с цветом, формой и позицией в 3D.
Потом эти точки собираются заново — уже под нужным углом.
Получается как будто ты находишься внутри сцены и можешь смотреть на неё с любой стороны.
🔜 Всё это происходит в реальном времени, как в игровом движке. Качество впечатляет: примерно на 2.4dB лучше (Peak Signal-to-Noise Ratio), чем предыдущий метод (4DGS) и выдает — до 467 FPS на RTX 4090.
🎧 Звук синхронизируется, так что ощущается реалистично.
📹 Можно покрутить и посмотреть демки в браузере👇
https://www.4dv.ai/viewer/salmon_10s
🌟 Проект: https://zju3dv.github.io/freetimegs/
@ai_machinelearning_big_data
#AI #4DV #GaussianSplatting #3Dvideo #NeRF
🔍 Как это работает:
Видео разбивается на облако точек — сплаты, каждая с цветом, формой и позицией в 3D.
Потом эти точки собираются заново — уже под нужным углом.
Получается как будто ты находишься внутри сцены и можешь смотреть на неё с любой стороны.
🎧 Звук синхронизируется, так что ощущается реалистично.
📹 Можно покрутить и посмотреть демки в браузере👇
https://www.4dv.ai/viewer/salmon_10s
@ai_machinelearning_big_data
#AI #4DV #GaussianSplatting #3Dvideo #NeRF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Eso-LM - это новый класс языковых моделей, сочетающий автогрегрессионные (AR) и маскированные диффузионные методы (MDM), чтобы сбалансировать качество генерации и скорость работы.
Основная идея состоит в том, чтобы устранить слабые места обеих технологий: медленное выполнение AR-моделей и низкую эффективность MDM при сохранении их ключевых преимуществ - параллелизма.
Архитектура строится на гибридной функции потерь, которая одновременно обучает модель как AR-генератору, так и MDM-декодеру. Это достигается через модифицированный механизм внимания, который динамически переключается между причинным (для AR-фазы) и двусторонним (для MDM-фазы) режимами.
В отличие от классических MDM, Eso-LM использует разреженные матрицы внимания, позволяя кэшировать KV даже во время диффузионного этапа. Эта техника ощутимо сокращает вычислительную нагрузку за счет обработки только тех токенов, которые нужно «демаскировать» на каждом шаге.
Процесс генерации разбит на 2 стадии:
Обе стадии используют единый KV-кэш, что исключает повторные вычисления и ускоряет работу в разы. В итоге, для длинных последовательностей (8192 токена), Eso-LM работает в 65 раз быстрее, чем стандартные MDM.
Экспериментальные модели обучали на сетах LM1B (1 млрд. слов) и OpenWebText с использованием токенизаторов BERT и GPT-2 соответственно.
Тесты показали, что Eso-LM не только улучшает скорость, но и устраняет «модовое коллапсирование» (деградацию качества при малом числе шагов), характерное для предыдущих решений (BD3-LM).
На наборе OWT модель достигла уровня perplexity 21.87 при высокой скорости генерации, оставаясь конкурентоспособной как с MDM, так и с AR-моделями.
@ai_machinelearning_big_data
#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM