生成式 AI 训练

图片-艺术图像

覆盖绘画、雕塑、艺术作品等文化视觉内容资源。

垂类视频-真人短剧

短剧类有真实⼈物出镜

图片-高审美图文 (aesthetics_v2_4.5)

主要数据内容包括：大规模高美学评分图文配对数据（Image-Text Pair）基于 LAION-5B 筛选的高质量互联网图片数据图片对应文本描述（Caption）与元数据信息多场景、高视觉质量的自然图像资源包含美学评分（Aesthetic Score）过滤后的优质视觉内容适用于生成式 AI 与视觉语义训练的数据资源支持的能力方向包括：文生图（Text-to-Image）模型训练 Diffusion 模型与生成式 AI 训练多模态视觉语言模型（VLM）训练图文语义对齐与跨模态学习图像美学质量建模与优化高质量图像生成与视觉理解训练适用于： AIGC 图像生成模型研发 Stable Diffusion 类模型训练多模态 AI 模型预训练计算机视觉与图像生成研究图文理解与视觉语义分析场景

52+

1.3B+

3D场景-3维数据

覆盖室内外场景、物体模型与空间结构信息的三维数据资源，适用于3D视觉与空间智能训练。

178+

图片-艺术图像

覆盖绘画、雕塑、艺术作品等文化视觉内容资源。

垂类视频-真人短剧

短剧类有真实⼈物出镜

图片-高审美图文 (aesthetics_v2_4.5)

52+

1.3B+

图片-图文配对 (LAION-5B)

主要数据内容包括：超大规模图文配对数据（Image-Text Pair）超过 58 亿互联网图片与文本描述数据基于 Common Crawl 构建的网页级视觉语义数据资源覆盖英语及 100+ 多语言图文内容包含图片 URL、Caption、CLIP 相似度与元数据信息提供 NSFW、水印、美学评分等质量过滤标签支持大规模视觉与多模态模型训练的数据资源支持的能力方向包括： Vision-Language Model（VLM）训练多模态大模型（MLLM）预训练文生图（Text-to-Image）模型训练图文语义对齐与跨模态学习 CLIP 类视觉语义模型训练图像生成、检索与视觉理解训练零样本（Zero-shot）与生成式 AI 模型训练适用于：多模态 AI 模型研发 Stable Diffusion 类模型训练 AIGC 图像生成与理解视觉语言基础模型训练图文检索与语义分析任务大规模视觉数据 Benchmark 与算法评测多模态数据工程与研究场景

图片-图文配对 (coyo-700m)

主要数据内容包括：超大规模图文配对数据（Image-Text Pair）超过 7 亿互联网图片与英文文本描述数据基于 Common Crawl 构建的网页级视觉语义数据资源包含图片 URL、Caption、分辨率与丰富元数据信息提供 CLIP 相似度、NSFW、安全性、美学评分等质量标注数据覆盖人物、商品、动物、自然、艺术、生活等多类别视觉内容支持大规模视觉与多模态模型训练的数据资源支持的能力方向包括： Vision-Language Model（VLM）训练多模态大模型（MLLM）预训练图文语义对齐与跨模态学习文生图（Text-to-Image）模型训练 CLIP 类视觉语义模型训练图像分类、检索与视觉理解训练零样本（Zero-shot）与生成式 AI 模型训练适用于：多模态 AI 模型研发 AIGC 图像生成与理解视觉语言基础模型训练图文检索与语义分析任务计算机视觉与多模态研究大规模视觉数据 Benchmark 与算法评测

700M+

音视频数据-通用视频理解 (Video-10M)

主要数据内容包括：大规模视频数据与视频文本描述（Video-Text Pair）超过千万级互联网公开视频资源包含视频标题、时长、URL 与元数据信息覆盖自然场景、人物、城市、运动、生活、艺术等多类别视频内容多场景短视频与动态视觉内容数据资源适用于视频理解与生成任务的多模态训练数据支持的能力方向包括：视频理解与视频分类模型训练 Text-to-Video 视频生成模型训练视频 Caption 与视频语义理解 Video-Language Model（VLM）训练动作识别与场景识别训练多模态视频语义对齐与检索任务适用于：视频生成式 AI 模型研发多模态视频模型预训练视频理解与分析算法研究视频检索与推荐系统训练 AIGC 视频内容生成与数据研究计算机视觉与多模态 Benchmark 场景

10.7M+

图片-多语言图文 (relaion2B-multi-joined-translated-to-en)

主要数据内容包括：大规模多语言图文配对数据（Multilingual Image-Text Pair）来自互联网公开资源的图片与文本描述数据多语言 Caption 数据，并统一翻译为英文语料覆盖自然场景、人物、商品、艺术、生活等多类别视觉内容高质量图文语义对齐与跨语言视觉数据资源包含图像元数据、文本标签与语义描述信息支持的能力方向包括：多模态视觉语言模型（VLM）训练跨语言图文语义对齐训练文生图（Text-to-Image）模型训练多语言图像理解与生成能力训练图文检索与跨模态学习多语言 AI 与生成式模型预训练适用于：多模态 AI 模型研发多语言视觉语言模型训练 AIGC 图像生成与理解图文语义分析与数据研究跨语言 AI 模型训练与 Benchmark 评测