Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:
git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin


Github
HF
Demo

@ai_machinelearning_big_data


#ocr #ByteDance



tg-me.com/ai_machinelearning_big_data/7787
Create:
Last Update:

📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты

📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия

Установка:
git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin


Github
HF
Demo

@ai_machinelearning_big_data


#ocr #ByteDance

BY Machinelearning


Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7787

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

Machinelearning from sa


Telegram Machinelearning
FROM USA