大学英文题库数据集
200万条大学英文试题,覆盖艺术设计、商科、教育、健康医学、历史、人文、数学、自然科学、社会科学、科技与工程10大学科门类,全部试题均包含完整解析说明。
203.0万 条数据更新时间 2026-05-11
数据集简介
本大学英文题库聚焦高等教育阶段的英文试题,总计约200万道试题,覆盖10大学科门类:art_and_design(艺术与设计)、business(商学与管理学)、education(教育学)、health_and_medicine(健康与医学)、history(历史学)、humanities(人文学科,含哲学、语言文学、宗教研究等)、math(数学)、science(自然科学,含物理、化学、生物学、地球科学等)、social_sciences(社会科学,含经济学、政治学、社会学、心理学、人类学等)、tech_and_engineering(科技与工程,含计算机科学、电子工程、机械工程、土木工程等)。每道试题按照规范的结构化数据格式存储,包含以下字段:question(问题内容)、answer(标准答案)、category(一级分类)、sub_category(二级分类,细分为具体课程名称或研究方向)、hint(解析,含解题思路、知识点说明与步骤分析)、option(题目选项,适用于选择题)。本数据集适合用于高校课程考核自动化、智慧教育产品开发、AI在线教学系统及全英文教学辅助等场景。
数据质量
记录完整性
91.78%
记录时效性
按需更新
记录结构化
NDJSON、JSON、CSV、XLSX、Parquet,支持定制化
记录云交付
Amazon S3、Snowflake、Alibaba Cloud OSS、Google Cloud Storage、Google Drive
记录标准化
为保证数据的一致性与可用性,数据集在构建过程中对原始记录进行了标准化处理,包括:(1)单位标准化:统一价格、重量、尺寸等字段的计量单位;(2)格式标准化:统一日期、时间、数值字段的表示格式;(3)文本清洗:去除 HTML 标签、多余空格及异常字符;(4)字段规范化:统一字段命名、数据类型与缺失值表示方式。该过程确保数据在不同来源和不同采集批次之间保持结构一致性,便于后续分析与建模。
记录代表性
数据覆盖全量业务场景,样本均衡,具备行业代表性
需要定制更适合业务场景的数据集?
我们支持公开数据浏览、关键词筛选与企业级定制交付,帮助你更快完成模型训练与数据分析落地。