denis-19 Dec 18 2024 at 18:49

Microsoft выпустила MarkItDown — открытый инструмент на Python для преобразования файлов и офисных документов в Markdown

1 min

11K

Open source*Development for Windows*Development Management*System administration*Python*

+16

Comments 8

QtRoS Dec 18 2024 at 23:42

В репозитории подозрительно мало кода. Это вызвало любопытство, пробежался глазами по реализации. Оказалось, что либа чуть более чем полностью состоит из набора хаков и довольно прямолинейных способов распарсить разные форматы файлов. Несколько рандомных строчек, за которые зацепился глаз:

alt_text = shape._element._nvXxPr.cNvPr.attrib.get("descr", "")
qs["u"][0][2:].strip() + "=="
except ValueError: # It's not clear if this ever gets thrown
Todo

Кажется, что раньше Microsoft делал либы покачественнее...

kompilainenn2 Dec 18 2024 at 23:56

Как Гвидо их научил, так и лепят =)

4external Dec 19 2024 at 01:25

Вроде всё просто

class DocxConverter(HtmlConverter): """ Converts DOCX files to Markdown. Style information (e.g.m headings) and tables are preserved where possible. """ ... result = mammoth.convert_to_html(docx_file, style_map=style_map)А для ковертации Excel используют import pandas as pd

QtRoS Dec 19 2024 at 08:11

Именно, до неприличия просто. Майкрософт парсит свои форматы файлов опенсорсными либами и костылями с прямым доступом к структуре - мне странно такое видеть в официальной библиотеке компании.

bilayan Dec 19 2024 at 02:09

Они просто выложили свою обертку, в которой в однотипные команды обернули уже существующие библиотеки. По сути ничего нового и радоваться нечему, просто выдёргивание текстовой информации из файлов чтоб потом скормить нейросетке.