通用多模态数据集-文档理解

提供OCR文本、Bounding Box、Header/Question/Answer等标注，支持文档OCR、KIE、版面分析及多模态文档理解训练。

0 条数据更新时间 2026-06-08

数据集简介

主要数据内容包括：扫描表单与文档理解（Form Understanding）数据资源包含真实世界噪声扫描文档与表格图像数据提供 OCR 文本、Bounding Box 与版面布局标注信息包含 Header、Question、Answer、Other 等实体标签数据提供字段关系（Key-Value Relation）与语义链接标注覆盖表单、票据、申请单等多类型文档场景支持文档版面分析与信息抽取的数据资源支持的能力方向包括：OCR 与文档文字识别训练Key-Value 信息抽取（KIE）文档版面分析（Document Layout Analysis）表单理解（Form Understanding）模型训练Vision-Language 文档模型训练实体识别（NER）与关系抽取多模态文档理解与结构化解析适用于：智能文档处理（IDP）系统研发OCR 与票据识别场景企业表单自动化处理文档 AI 与版面分析研究多模态文档模型训练Benchmark 评测与算法验证

数据质量

记录时效性

按需更新

记录结构化

NDJSON、JSON、CSV、XLSX、Parquet，支持定制化

记录云交付

Amazon S3、Snowflake、Alibaba Cloud OSS、Google Cloud Storage、Google Drive

记录标准化

为保证数据的一致性与可用性，数据集在构建过程中对原始记录进行了标准化处理，包括：（1）单位标准化：统一价格、重量、尺寸等字段的计量单位；（2）格式标准化：统一日期、时间、数值字段的表示格式；（3）文本清洗：去除 HTML 标签、多余空格及异常字符；（4）字段规范化：统一字段命名、数据类型与缺失值表示方式。该过程确保数据在不同来源和不同采集批次之间保持结构一致性，便于后续分析与建模。

记录代表性

数据覆盖全量业务场景，样本均衡，具备行业代表性

需要定制更适合业务场景的数据集？

我们支持公开数据浏览、关键词筛选与企业级定制交付，帮助你更快完成模型训练与数据分析落地。