§2.1.1
PDF 解析的五大难点(扫描件 / 双栏 / 表格 / 公式 / 目录)?
- §2.1PyMuPDF / pdfplumber / pdfminer.six 对比?→
- §2.1VLM 端到端解析(GPT-4o / Qwen2.5-VL / Nougat / olmOCR)?→
- §2.1HTML / Markdown / DOCX / PPT 解析要点?→
- §2.1OCR 引擎(PaddleOCR / Tesseract / Surya / GOT-OCR2.0)对比?→
- §2.1表格抽取(Camelot / Tabula / Table Transformer / TableLLM)?→
- §2.1Unstructured / Docling (IBM) / MinerU / Marker / olmOCR 对比?→