Holo1 — новое семейство open-source моделей от H Company, созданных специально для понимания и автоматизации веб-интерфейсов.
Это Action VLM-модели, которые могут "видеть" сайт, распознавать кнопки, поля, меню и действовать, как реальный пользователь.
Доступно
• Holo1-3B и Holo1-7B — последняя достигает 76.2% точности на UI-бенчмарках (лучший результат среди компактных моделей)
• WebClick — датасет из 1 639 задач, имитирующих поведение человека в интерфейсе
💸 И главное:
Автоматизация реальных веб-задач (читать, кликать, вводить) с точностью 92.2% всего за $0.13 за задачу. Раньше за такую точность приходилось переплачивать в разы.
⚙️ Surfer-H — ИИ, который сам "читаeт", "думаeт", "кликаeт" и "проверяет"
Построен на базе Holo1 и работает прямо в браузере — никаких API и костылей.
Состоит из 3 модулей:
1. Policy — планирует поведение агента
2. Localizer — находит нужные элементы на экране
3. Validator — проверяет, всё ли сделано правильно
🔗 Hugging Face
@ai_machinelearning_big_dat
#Holo #web
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ChatGPT для корпоративных пользователей теперь поддерживает интеграцию с Dropbox, Box, SharePoint, OneDrive и Google Drive, позволяя анализировать данные из корпоративных хранилищ в реальном времени.
Плюс, добавили функцию record mode - это запись встреч с автоматической генерацией заметок, таймкодами и выделением задач. Это как у Zoom и Notion, но с возможностью превращать темы обсуждений в структурированные документы в Canvas.
Для Deep Research стали доступны бета-коннекторы к HubSpot, Linear и инструментам Microsoft/Google. А еще Pro, Team и Enterprise пользователи получили доступ к MCP .
OpenAI в сети X (ex-Twitter)
Anthropic обновила подписку Claude Pro, добавив в нее несколько полезных функций для тех, кто работает с кодом. Подписчикам плана стал доступен Claude Code - инструмент для работы с небольшими проектами (до 1000 строк кода). Правда, лимиты остаются: около 10-40 запросов каждые 5 часов, а модель Opus 4 здесь не поддерживается.
Еще одна возможность - Claude-Squad. Он позволяет запускать несколько агентов одновременно. Интеграция с VS Code и Cursor уже есть, а Figma добавила официальный MCP-сервер, который активируется в настройках.
Anthropic в сети Х (ex-Twitter)
OpenAudio (создатели FishSpeech) представила TTS-модель S1, способную воссоздавать естественную речь с эмоциями и акцентами. Обученная на 2 млн часов аудио, она использует архитектуру Qwen3 с 4 млрд параметров, RLHF-оптимизацию и кодек, подобный Descript Audio Codec.
Модель поддерживает метки точного контроля: от злых интонаций до шепота или смеха. S1 работает на 12 языках, включая русский. Старшая модель (4B) доступна только как сервис по цене $0.8 за час синтеза, а S1-mini (0.5 млрд параметров) опубликована для некоммерческого использования на HuggingFace.
openaudio.com
Исследователи подозревают, что часть обучающих данных модели DeepSeek R1-0528 могла быть взята из инференса Google Gemini. Независимые эксперты заметили сходство в выборе слов и логике работы. Модель «думает» так же, как Gemini.
Ранее DeepSeek уже обвиняли в копировании данных OpenAI. Их предыдущая версия, V3, иногда выдавала себя за ChatGPT. Microsoft и OpenAI тогда заявили, что через API-аккаунты компании якобы утекали данные.
В ответ на утечки усилили защиту: Google и Anthropic теперь скрывают процесс размышлений своих моделей, чтобы затруднить копирование.
techcrunch.com
MIT через стартап Themis AI решила ключевую проблему современных ИИ-систем: их неспособность честно признать, когда они не уверены в ответе. Платформа Capsa модифицирует любую ML-модель, выявляя ненадежные выводы. Она анализирует паттерны обработки данных, сигнализирующие о неоднозначности, неполноте информации или скрытых смещениях.
Capsa может показать, основан ли прогноз на реальных данных или это чистая спекуляция модели. Так же она помогает большим языковым моделям "самоотчитываться" о своей уверенности в каждом ответе, отсеивая "галлюцинации".
Технология уже тестируется в телекоме, нефтегазе и фарме.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Это реклама открытой технологической конференции от Сбера GigaConf 2025.
На ней технари рассказывают сложные вещи о прикладном применение генеративного искусственного интеллекта.
Контент конференции будет сложно понять простому обывателю, а разработчиков и членов инженерных команд мы приглашаем пройти регистрацию на сайте.
GigaConf 2025 // Москва, 25 июня
https://gigaconf.ru/
На ней технари рассказывают сложные вещи о прикладном применение генеративного искусственного интеллекта.
Контент конференции будет сложно понять простому обывателю, а разработчиков и членов инженерных команд мы приглашаем пройти регистрацию на сайте.
GigaConf 2025 // Москва, 25 июня
https://gigaconf.ru/
Новая стабильная версия Cursor, и в ней появилось много обновлений, которые делают работу с кодом удобнее.
Вот что стоит отметить:
🐞 Bugbot
Автоматически проверяет Pull Request'ы на баги и предлагает исправления.
Можно внести правку прямо в редакторе — в один клик.
🧠 Memory (beta)
Cursor теперь запоминает контекст проекта, что помогает при командной работе и упрощает навигацию по коду.
⚙️ One-Click MCP Setup
Настройка подключения к Model Context Protocol — теперь через одну кнопку, без ручной конфигурации.
• Возможность редактировать несколько мест в коде одновременно
• Поддержка таблиц, Markdown и диаграмм Mermaid в чате
• Обновлённые настройки и админ-панель
• Фоновая работа агентов — можно интегрировать их со Slack и Jupyter Notebooks
Cursor постепенно становится более удобной средой для совместной работы с ИИ-помощником.
https://www.cursor.com/changelog
@ai_machinelearning_big_data
#CursorAI #AIcoding #DevTools #Jupyter #CodeAssistant
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Reddit подаёт в суд на Anthropic за незаконное использование данных
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡 Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡 GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡 Modelscope: https://modelscope.cn/organization/qwen
@ai_machinelearning_big_data
#qwen
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
@ai_machinelearning_big_data
#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая версия уже доступна для тестирования и показывает заметные улучшения в:
🧠 кодинге
📊 логическом выводе
🔬 задачах по науке и математике
Pro-версия показывает прирост на 24 пункта Elo, удерживая лидерство на lmarena_ai с результатом 1470.
💬 Также улучшены стиль и структура ответов — Google учла фидбек пользователей.
Gemini обошёл Opus 4 в тестах на веб-разработку (WebDev Arena).
💰 Цены
— до 200 000 токенов: $1.25 вход / $10 выход (за 1M токенов)
— свыше 200 000 токенов: $2.50 вход / $15 выход (за 1M токенов)
🔧Модель достпна уже сейчас в:
- AI Studio
- Vertex AI
- Gemini app
https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
@ai_machinelearning_big_data
#Gemini #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🎙️ ElevenLabs представила Eleven v3 (alpha) — самую выразительную модель озвучки текста
Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.
🧠 Новая архитектура лучше понимает текст и контекст, создавая естественные, "живые" аудио.
🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи
🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]
📡 Публичный API обещают выкатить очень скоро.
⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет
💸 Весь июньдают 80% скидки на генерацию
🟡 Промпт-гайд для v3: https://elevenlabs.io/docs/best-practices/prompting/eleven-v3
Eleven v3.
🟡 Eleven v3: https://elevenlabs.io/v3
@ai_machinelearning_big_data
#ElevenLabs #tts
Самая выразительная модель озвучки текста на сегодня.
Поддерживает 70+ языков, многоголосовой режим, и теперь — аудио-теги, которые задают интонацию, эмоции и даже паузы в речи.
🗣️ Что умеет Eleven v3:
• Генерировать реалистичный диалог с несколькими голосами
• Считывать эмоциональные переходы
• Реагировать на контекст и менять тон в процессе речи
🎛 МОдель уаправляется через теги:
- Эмоции: [sad], [angry], [happily]
- Подача: [whispers], [shouts]
- Реакции: [laughs], [sighs], [clears throat]
📡 Публичный API обещают выкатить очень скоро.
⚠️ Это превью версия — может требовать точной настройки промптов. Но результат действительно впечатляет
💸 Весь июньдают 80% скидки на генерацию
Eleven v3.
@ai_machinelearning_big_data
#ElevenLabs #tts
Please open Telegram to view this post
VIEW IN TELEGRAM