Telegram Group & Telegram Channel
✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7034
Create:
Last Update:

✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7034

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage account—you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

NEWS: Telegram supports Facetime video calls NOW!

Secure video calling is in high demand. As an alternative to Zoom, many people are using end-to-end encrypted apps such as WhatsApp, FaceTime or Signal to speak to friends and family face-to-face since coronavirus lockdowns started to take place across the world. There’s another option—secure communications app Telegram just added video calling to its feature set, available on both iOS and Android. The new feature is also super secure—like Signal and WhatsApp and unlike Zoom (yet), video calls will be end-to-end encrypted.

Machinelearning from cn


Telegram Machinelearning
FROM USA