tg-me.com/ai_machinelearning_big_data/7787
Last Update:
📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений
Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.
Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.
Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты
Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты
📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия
Установка:git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin
• Github
• HF
• Demo
@ai_machinelearning_big_data
#ocr #ByteDance
BY Machinelearning
Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7787