Telegram Group & Telegram Channel
Forwarded from Machinelearning
✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/DevOPSitsec/1354
Create:
Last Update:

✔️ Factorio стала новым бенчмарком для ИИ.

Factorio привлекла внимание ресерчеров в качестве инструмента для оценки возможностей ИИ. Игра измеряет способность языковых моделей планировать и создавать сложные системы, одновременно управляя ресурсами и производственных цепочек.

Для этих целей была разработана среда Factorio Learning Environment (FLE) c двумя режимами: "Lab-Play" (24 структурированные задачи) и "Open Play", где агенты исследуют процедурно сгенерированные карты с целью построить максимально большую фабрику. В процессе тестирования модели взаимодействуют с Factorio через Python API и получают обратную связь через игровой сервер. Оцениваются параметры "Производственный показатель" и достижение ключевых "Вех".

Создатели протестировали 6 LLM, включая Claude 3.5 Sonnet и GPT-4o. Результаты показали, что модели испытывают серьезные трудности с пространственным мышлением, долгосрочным планированием и исправлением ошибок. Лучшие результаты у Claude 3.5 Sonnet, которая успешно справилась с 15 из 24 задач в режиме "Lab Play".
jackhopkins.github.io

✔️ Американцы все чаще считают, что искусственный разум превосходит их интеллект.

Исследование, проведенное Университетом Элона, выявило, что почти половина пользователей (49%) полагает, что LLM превосходят их собственный интеллект. Из отчета следует, что женщины чаще мужчин считают LLM "значительно умнее" (30% против 20%), а половина взрослого населения США уже использует языковые модели, лидирует ChatGPT с долей в 72%. Также выяснилось, что большинство пользователей (51%) применяют LLM в личных целях для обучения и планирования, в то время как для работы их используют лишь 24%. 65% пользователей взаимодействуют с ИИ-системами посредством голосовых команд.

Несмотря на высокий показатель общей удовлетворенности (76%), значительная часть пользователей сталкивается с проблемами: 23% совершали серьезные ошибки из-за галлюцинаций моделей в ответах, а 21% чувствовали себя манипулируемыми.
imaginingthedigitalfuture.org

✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.
Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org

✔️ MEGA mini: концепт архитектуры для универсальных NPU.

На конференции по твердотельным схемам (ISSCC) была представлена архитектура MEGA.mini, позиционируемая как универсальный процессор для генеративного ИИ.

MEGA.mini использует парадигму Arm big.LITTLE и предлагает использование двухъядерной концепции в NPU. Предполагается, что высокомощные ядра "Mega" будут задействоваться для выполнения ресурсоемких задач, а облегченные ядра "Mini" будут использоваться для рутинных операций. Архитектура разрабатывается как универсальный процессор, в отличие от CPU, чтобы разработчики могли применять его в разных сценариях - от NLP-задач до мультимодальных ИИ-систем.
techradar.com

✔️ Deepseek R1 671B запустили локально на новом Mac Ultra M3.

YouTube-блогер Дейв Ли провел эксперимент по локальному запуску 4-bit версии Deepseek R1 с 671B параметров. Она может работать локально, но требует 512 ГБ RAM, 404 ГБ хранилища и принудительного выделения 448 ГБ видеопамяти через терминал.

Несмотря на незначительное снижение точности, скорость инференса составила 17-18 токенов в секунду, при этом энергопотребление находилось в пределах 200 Вт. Для сравнения: ПК с аналогичной производительностью потребовал бы в 10 раз больше электричества.
macrumors.com

@ai_machinelearning_big_data

#news #ai #ml

BY DevOps




Share with your friend now:
tg-me.com/DevOPSitsec/1354

View MORE
Open in Telegram


DevOps Telegram | DID YOU KNOW?

Date: |

Dump Scam in Leaked Telegram Chat

A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

DevOps from us


Telegram DevOps
FROM USA