Telegram Group & Telegram Channel
📌Небенчмарковый анализ математических рассуждений o3-mini.

Epoch AI провели исследование, чтобы копнуть способность o3-mini в математическом ризонинге глубже, чем это происходит в популярных тестах и бенчмарках.

Они дали 14 математикам разобрать, как именно o3-mini-high решает сложные задачи из FrontierMath. Цель - понять ее сильные и слабые стороны в реальном математическом мышлении, а не просто фиксировать правильные ответы.

Так как внутренняя структура самой модели OpenAI не раскрывает, авторы сосредоточились на анализе ее рассуждений.

По 29-и "траекториям рассуждений" стало видно: модель не просто перебирает формулы, она действует как "индуктивный решатель на ощущениях" (по выражению одного математика).

Модель проявляет любопытство: пробует разные подходы, ставит "бюджетные эксперименты", чтобы прощупать задачу. Иногда даже пишет код для расчетов, избегая излишней абстракции.

Но стиль ее рассуждений часто неформальный, "черновой". Рассуждения излагаются приблизительно, без строгой формулировки, с пропусками сложных моментов – совсем не как это принято в математической среде.

Почему так? Возможно, строгие доказательства просто реже встречались в ее обучающих данных.

Главные проблемы модели – это обратная сторона ее же достоинств. Да, она эрудирована как никто (знает кучу теорем из разных областей – в 66% случаев она адресно применяла нужные знания, даже если подход был замаскирован).

Но ей не хватает строгости и глубины. Она часто "читерит": делает верную догадку интуитивно и тут же применяет ее для решения, даже не пытаясь ее подтвердить доказательствами.

Порой ей не хватает буквально одного шага до верного ответа. Но главное – математики критикуют ее за слабую креативность. Как заметил один эксперт, модель похожа на аспиранта, который может блеснуть начитанностью, назвать кучу теорем и авторов, но не способен глубоко переосмыслить материал или придумать что-то новое.

Набор идей модели ограничен, и если они не срабатывают – прогресса нет. Плюс ко всему, в 75% рассуждений нашли галлюцинации: модель путает термины, формулы, и зачастую выдумывает несуществующие URL для поиска недостающей информации.

Модель, по заверением OpenAI, обучали на огромном массиве данных математической литературы. Это объясняет ее феноменальную эрудицию. Но смогут ли такие модели, как o3-mini-high, преодолеть свои слабости в будущем?

Или же системы, обученные на синтетических данных (AlphaProof), пойдут другим путем, предлагая в инфернесе рассуждения, мало похожие на человеческое математическое мышление?

А пока что вывод: o3-mini-high – это мощный, но своеобразный инструмент. Знаток с интуицией, но без дисциплины профессора.

🔜 Читать статью полностью

@ai_machinelearning_big_data

#AI #ML #EpochAI
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7742
Create:
Last Update:

📌Небенчмарковый анализ математических рассуждений o3-mini.

Epoch AI провели исследование, чтобы копнуть способность o3-mini в математическом ризонинге глубже, чем это происходит в популярных тестах и бенчмарках.

Они дали 14 математикам разобрать, как именно o3-mini-high решает сложные задачи из FrontierMath. Цель - понять ее сильные и слабые стороны в реальном математическом мышлении, а не просто фиксировать правильные ответы.

Так как внутренняя структура самой модели OpenAI не раскрывает, авторы сосредоточились на анализе ее рассуждений.

По 29-и "траекториям рассуждений" стало видно: модель не просто перебирает формулы, она действует как "индуктивный решатель на ощущениях" (по выражению одного математика).

Модель проявляет любопытство: пробует разные подходы, ставит "бюджетные эксперименты", чтобы прощупать задачу. Иногда даже пишет код для расчетов, избегая излишней абстракции.

Но стиль ее рассуждений часто неформальный, "черновой". Рассуждения излагаются приблизительно, без строгой формулировки, с пропусками сложных моментов – совсем не как это принято в математической среде.

Почему так? Возможно, строгие доказательства просто реже встречались в ее обучающих данных.

Главные проблемы модели – это обратная сторона ее же достоинств. Да, она эрудирована как никто (знает кучу теорем из разных областей – в 66% случаев она адресно применяла нужные знания, даже если подход был замаскирован).

Но ей не хватает строгости и глубины. Она часто "читерит": делает верную догадку интуитивно и тут же применяет ее для решения, даже не пытаясь ее подтвердить доказательствами.

Порой ей не хватает буквально одного шага до верного ответа. Но главное – математики критикуют ее за слабую креативность. Как заметил один эксперт, модель похожа на аспиранта, который может блеснуть начитанностью, назвать кучу теорем и авторов, но не способен глубоко переосмыслить материал или придумать что-то новое.

Набор идей модели ограничен, и если они не срабатывают – прогресса нет. Плюс ко всему, в 75% рассуждений нашли галлюцинации: модель путает термины, формулы, и зачастую выдумывает несуществующие URL для поиска недостающей информации.

Модель, по заверением OpenAI, обучали на огромном массиве данных математической литературы. Это объясняет ее феноменальную эрудицию. Но смогут ли такие модели, как o3-mini-high, преодолеть свои слабости в будущем?

Или же системы, обученные на синтетических данных (AlphaProof), пойдут другим путем, предлагая в инфернесе рассуждения, мало похожие на человеческое математическое мышление?

А пока что вывод: o3-mini-high – это мощный, но своеобразный инструмент. Знаток с интуицией, но без дисциплины профессора.

🔜 Читать статью полностью

@ai_machinelearning_big_data

#AI #ML #EpochAI

BY Machinelearning








Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7742

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

Newly uncovered hack campaign in Telegram

The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.

Machinelearning from it


Telegram Machinelearning
FROM USA