Telegram Group & Telegram Channel
✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7034
Create:
Last Update:

✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7034

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Spiking bond yields driving sharp losses in tech stocks

A spike in interest rates since the start of the year has accelerated a rotation out of high-growth technology stocks and into value stocks poised to benefit from a reopening of the economy. The Nasdaq has fallen more than 10% over the past month as the Dow has soared to record highs, with a spike in the 10-year US Treasury yield acting as the main catalyst. It recently surged to a cycle high of more than 1.60% after starting the year below 1%. But according to Jim Paulsen, the Leuthold Group's chief investment strategist, rising interest rates do not represent a long-term threat to the stock market. Paulsen expects the 10-year yield to cross 2% by the end of the year. A spike in interest rates and its impact on the stock market depends on the economic backdrop, according to Paulsen. Rising interest rates amid a strengthening economy "may prove no challenge at all for stocks," Paulsen said.

NEWS: Telegram supports Facetime video calls NOW!

Secure video calling is in high demand. As an alternative to Zoom, many people are using end-to-end encrypted apps such as WhatsApp, FaceTime or Signal to speak to friends and family face-to-face since coronavirus lockdowns started to take place across the world. There’s another option—secure communications app Telegram just added video calling to its feature set, available on both iOS and Android. The new feature is also super secure—like Signal and WhatsApp and unlike Zoom (yet), video calls will be end-to-end encrypted.

Machinelearning from us


Telegram Machinelearning
FROM USA