Machinelearning | Telegram Webview: ai_machinelearning_big

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin

• Github
• HF
• Demo

@ai_machinelearning_big_data

#ocr #ByteDance

www.tg-me.com/sa/Machinelearning/com.ai_machinelearning_big_data/7787

13.9K viewsJun 14 at 12:01

tg-me.com/ai_machinelearning_big_data/7787

Create: 2025-06-14
Last Update: 2025-06-15 20:47:24

BY Machinelearning

Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7787

Machinelearning Telegram | DID YOU KNOW?

Why Telegram?

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображенийDolphin — это мультимодальная модель