Telegram Group & Telegram Channel
Forwarded from Machinelearning
⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple.

Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.

Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.

Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.

Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.

В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.

Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.

Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.

Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Photogrammetry #Matrix3D #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2287
Create:
Last Update:

⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple.

Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.

Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.

Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.

Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.

В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.

Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.

Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.

Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Photogrammetry #Matrix3D #Apple

BY Data Science by ODS.ai 🦜





Share with your friend now:
tg-me.com/opendatascience/2287

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Look for Channels Online

You guessed it – the internet is your friend. A good place to start looking for Telegram channels is Reddit. This is one of the biggest sites on the internet, with millions of communities, including those from Telegram.Then, you can search one of the many dedicated websites for Telegram channel searching. One of them is telegram-group.com. This website has many categories and a really simple user interface. Another great site is telegram channels.me. It has even more channels than the previous one, and an even better user experience.These are just some of the many available websites. You can look them up online if you’re not satisfied with these two. All of these sites list only public channels. If you want to join a private channel, you’ll have to ask one of its members to invite you.

Data Science by ODS ai 🦜 from us


Telegram Data Science by ODS.ai 🦜
FROM USA