Telegram Group & Telegram Channel
✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7034
Create:
Last Update:

✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7034

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

The STAR Market, as is implied by the name, is heavily geared toward smaller innovative tech companies, in particular those engaged in strategically important fields, such as biopharmaceuticals, 5G technology, semiconductors, and new energy. The STAR Market currently has 340 listed securities. The STAR Market is seen as important for China’s high-tech and emerging industries, providing a space for smaller companies to raise capital in China. This is especially significant for technology companies that may be viewed with suspicion on overseas stock exchanges.

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

Machinelearning from ye


Telegram Machinelearning
FROM USA