论文-科研论文预印本
数据集收录多学科科研论文预印本,附带标题、摘要、作者及出版信息,用于文献分析与 NLP 模型训练。
240.0万 条数据更新时间 2026-06-08
数据集简介
主要数据内容包括:全球开放获取的科研论文预印本(Preprint)数据资源覆盖计算机科学、人工智能、数学、物理、统计、生物等多个学科领域包含论文 PDF、LaTeX 源码、摘要、作者与引用元数据提供最新学术研究成果与未正式同行评审论文内容支持论文版本更新、分类标签与全文检索累计收录超过 200 万篇科研论文与预印本资源支持的能力方向包括:大语言模型(LLM)科研语料训练AI 学术问答与论文理解科研知识图谱与文献检索数学推理、代码生成与科学推理训练RAG(Retrieval-Augmented Generation)学术知识增强学术摘要生成与自动论文分析科研 Agent 与自动化研究辅助系统训练适用于:AI 科研大模型研发学术搜索与论文推荐系统科研知识库与文献分析平台科学推理与教育 AI 场景学术 Benchmark 与模型评测多学科科研数据挖掘与知识工程
数据质量
记录时效性
按需更新
记录结构化
NDJSON、JSON、CSV、XLSX、Parquet,支持定制化
记录云交付
Amazon S3、Snowflake、Alibaba Cloud OSS、Google Cloud Storage、Google Drive
记录标准化
为保证数据的一致性与可用性,数据集在构建过程中对原始记录进行了标准化处理,包括:(1)单位标准化:统一价格、重量、尺寸等字段的计量单位;(2)格式标准化:统一日期、时间、数值字段的表示格式;(3)文本清洗:去除 HTML 标签、多余空格及异常字符;(4)字段规范化:统一字段命名、数据类型与缺失值表示方式。该过程确保数据在不同来源和不同采集批次之间保持结构一致性,便于后续分析与建模。
记录代表性
数据覆盖全量业务场景,样本均衡,具备行业代表性
需要定制更适合业务场景的数据集?
我们支持公开数据浏览、关键词筛选与企业级定制交付,帮助你更快完成模型训练与数据分析落地。