Telegram Group & Telegram Channel
💡 Парсинг неструктурированных DOCX в TypeScript/Node.js: как я решил нетривиальную задачу

Недавно я взял фриланс-проект, где нужно было преобразовать «почти неструктурированные» DOCX-файлы в структурированные данные, например, в JSON. Сначала я думал, что справлюсь за пару дней. Но в итоге потратил больше пяти.

📄 Что такое «почти неструктурированные» DOCX?

Файлы генерируются сервером и содержат несколько статей. Каждая статья обычно включает заголовок, автора, дополнительную информацию и резюме. Однако структура варьируется: где-то нет автора, где-то несколько, а вместо резюме — комментарии.

🔍 Проблемы с существующими библиотеками:

* officeparser: извлекает только текст, без структуры.
* docx4js: не имеет типов для TypeScript и сложно использовать.
* docx: больше подходит для создания DOCX, а не для парсинга.

🛠️ Моё решение:

Поняв, что DOCX — это ZIP-архив с XML-файлами, я решил сам обработать document.xml. Использовал fast-xml-parser для преобразования XML в JS-объекты. Однако структура XML оказалась сложной, и пришлось разбираться в ней вручную.

📌 Вывод:

Иногда проще написать свой парсер, чем пытаться адаптировать существующие решения. Особенно когда структура данных нестабильна и требует гибкого подхода.

https://nguyenhuythanh.com/posts/unstructured-ish-docx-parsing/

✍️ @nodejs_lib



tg-me.com/nodejs_lib/351
Create:
Last Update:

💡 Парсинг неструктурированных DOCX в TypeScript/Node.js: как я решил нетривиальную задачу

Недавно я взял фриланс-проект, где нужно было преобразовать «почти неструктурированные» DOCX-файлы в структурированные данные, например, в JSON. Сначала я думал, что справлюсь за пару дней. Но в итоге потратил больше пяти.

📄 Что такое «почти неструктурированные» DOCX?

Файлы генерируются сервером и содержат несколько статей. Каждая статья обычно включает заголовок, автора, дополнительную информацию и резюме. Однако структура варьируется: где-то нет автора, где-то несколько, а вместо резюме — комментарии.

🔍 Проблемы с существующими библиотеками:

* officeparser: извлекает только текст, без структуры.
* docx4js: не имеет типов для TypeScript и сложно использовать.
* docx: больше подходит для создания DOCX, а не для парсинга.

🛠️ Моё решение:

Поняв, что DOCX — это ZIP-архив с XML-файлами, я решил сам обработать document.xml. Использовал fast-xml-parser для преобразования XML в JS-объекты. Однако структура XML оказалась сложной, и пришлось разбираться в ней вручную.

📌 Вывод:

Иногда проще написать свой парсер, чем пытаться адаптировать существующие решения. Особенно когда структура данных нестабильна и требует гибкого подхода.

https://nguyenhuythanh.com/posts/unstructured-ish-docx-parsing/

✍️ @nodejs_lib

BY Node JS




Share with your friend now:
tg-me.com/nodejs_lib/351

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

Telegram announces Anonymous Admins

The cloud-based messaging platform is also adding Anonymous Group Admins feature. As per Telegram, this feature is being introduced for safer protests. As per the Telegram blog post, users can “Toggle Remain Anonymous in Admin rights to enable Batman mode. The anonymized admin will be hidden in the list of group members, and their messages in the chat will be signed with the group name, similar to channel posts.”

Telegram hopes to raise $1bn with a convertible bond private placement

The super secure UAE-based Telegram messenger service, developed by Russian-born software icon Pavel Durov, is looking to raise $1bn through a bond placement to a limited number of investors from Russia, Europe, Asia and the Middle East, the Kommersant daily reported citing unnamed sources on February 18, 2021.The issue reportedly comprises exchange bonds that could be converted into equity in the messaging service that is currently 100% owned by Durov and his brother Nikolai.Kommersant reports that the price of the conversion would be at a 10% discount to a potential IPO should it happen within five years.The minimum bond placement is said to be set at $50mn, but could be lowered to $10mn. Five-year bonds could carry an annual coupon of 7-8%.

telegram from sg


Telegram Node JS
FROM USA