具身智能相关数据-XR交互

包含长时序视频、动作标签、手物交互及语音描述，支持机器人操作、手物交互识别、VLA训练和视频理解任务。

0 条数据更新时间 2026-06-08

数据集简介

主要数据内容包括：大规模第一人称视角（Egocentric Vision）视频数据真实厨房环境中的日常操作与交互视频头戴式摄像机采集的长时序动作视频数据包含动作标签、物体交互、手部操作与语音描述数据多步骤烹饪、物品拿取、切割、清洗等细粒度任务场景提供视频帧、动作分割、目标检测、分割掩码与3D场景数据覆盖多国家、多家庭、多样化生活操作场景支持的能力方向包括：第一人称视频理解（Egocentric Video Understanding）机器人操作与具身智能训练手物交互（Hand-Object Interaction）识别长流程任务理解与动作预测视频动作识别与行为预测训练Vision-Language-Action（VLA）模型训练多模态视频理解与时序推理3D 场景重建与视频分割训练适用于：具身智能模型研发机器人操作任务训练视频理解与行为分析研究多模态 AI 与 VLM/VLA 模型训练自动化任务规划与动作预测研究Benchmark 评测与算法验证仿真环境与真实场景联合训练

数据质量

记录时效性

按需更新

记录结构化

NDJSON、JSON、CSV、XLSX、Parquet，支持定制化

记录云交付

Amazon S3、Snowflake、Alibaba Cloud OSS、Google Cloud Storage、Google Drive

记录标准化

为保证数据的一致性与可用性，数据集在构建过程中对原始记录进行了标准化处理，包括：（1）单位标准化：统一价格、重量、尺寸等字段的计量单位；（2）格式标准化：统一日期、时间、数值字段的表示格式；（3）文本清洗：去除 HTML 标签、多余空格及异常字符；（4）字段规范化：统一字段命名、数据类型与缺失值表示方式。该过程确保数据在不同来源和不同采集批次之间保持结构一致性，便于后续分析与建模。

记录代表性

数据覆盖全量业务场景，样本均衡，具备行业代表性

需要定制更适合业务场景的数据集？

我们支持公开数据浏览、关键词筛选与企业级定制交付，帮助你更快完成模型训练与数据分析落地。