清华大学 English
8:00 ~ 22:00
  -
- / -
  -
-
首页 咨询 服务办理 我的图书馆
首页 > 科研支持 > 开放科学 > 资讯动态 > 科普文章 > 正文

科普文章

加速科学数据管理与共享|科学数据仓储注册和发现平台介绍

科普文章
2023年12月26日


随着当今世界科学技术全球化的不断深入,开放、共享正成为科学研究的核心内涵与鲜明特征,开放科学(Open Science)的实践得到越来越多人的认可和采用。从定性社会科学到生物医学,科学数据(Scientific Data)都是学术工作的支柱和重要产出,也是开放科学运动的重要物质基础。认真负责任地管理和共享科学数据有助于提高研究的透明度、严谨性、可重复性和公共价值

高校图书馆是学校的文献信息资源中心,在基于文献资源的元数据收割、交互及链接规范上有着丰富的实践经验,有能力成为科学数据管理(Scientific Data Management,以下简称SDM)服务中的关键角色和主要贡献者。调研高校成熟的科学数据管理实践,进行分析与学习,可帮助我们促进高质量科学数据资源的共享和再利用,推进全球开放科学运动在高校中的实践。本专题将基于常见的科学数据仓储进行数据分析,梳理全球高校科学数据仓储(SDR)的基本情况,并遴选SDR建设经验丰富,SDM政策完备的高校进行深入分析与学习,为我国高校的科学数据管理实践建设提供依据。

当前比较常见的科学数据仓储注册和发现平台包括re3dataFAIRsharingData Citation Index等,本文将对以上科学数据仓储进行简要介绍,为后续基于科学数据仓储的数据分析建立基础。

Re3data简介

re3dataREgistry of REsearch data REpositories)是一个涵盖全球范围内不同研究学科科研数据仓储(Research Data Repository,以下简称RDR)的注册平台,于2012年启用,并由德国研究基金会(DFG)提供资助。re3data.org的使命是促进研究数据的共享,增加数据的访问权限以及更好的可见性。

图片来源:https://www.re3data.org/

该平台的元数据框架主要包含RDR的一般描述性信息、内容、基础设施、责任机构、法律政策,以及是否符合技术、质量和元数据标准等元数据属性,能够帮助研究者、资助机构、出版者和学术机构遴选能够永久保存与访问数据集的合适仓储库。re3data采用DFG的学科科目分类,包括人文社会科学、生命科学、自然科学和工程科学4类。Dublin CoreData Cite Metadata Schema是各学科中应用较多的综合性元数据标准。由于各学科数据有自身的特点,各科研数据仓储的元数据框架具有多样化的特点。一些RDR采用几个通用标准组合或通用标准与学科标准相结合的方法构建元数据框架,例如人文社会科学主要采用的元数据标准有Dublin CoreDDIData Documentation Initiative)、Data Cite Metadata Schema;生命科学主要采用的元数据标准有Dublin CoreDDIDarwin Core;自然科学主要采用的元数据标准有ISO 19115Dublin CoreFGDC /CSDGM Federal Geographic Data Committee Content Standard for Digital Geospatial Metadata)、EMLEcological Metadata Language);工程科学主要采用的元数据标准有Data Cite Metadata SchemaDublin CoreDDIOAI-OREOpen Archives Initiative Object Reuse and Exchange)。一些RDR则没有采用现有的元数据标准,而是自行建设元数据框架,或者直接采用实验室内部的元数据。

re3data的合作伙伴是柏林洪堡大学的柏林图书馆和信息科学学院,德国地球科学研究中心的亥姆霍兹开放科学办公室,德国卡尔斯鲁厄理工学院(KIT)图书馆和普渡大学图书馆。20133月,re3dataDatabib宣布合并为一个科研数据仓储注册平台,并自2015年底起由DataCite主持管理,旨在更好地服务科学研究。

 

FAIRsharing简介

FAIRsharing 由英国牛津大学于2011年创办,由牛津大学的数据准备小组和参与数据生命周期的所有其他利益相关者共同运营,是一个社区驱动的资源服务机构。FAIRsharing 的使命是增加对数据标准、数据库、存储库和数据策略的消费者的指导,以加速这些资源的发现、选择和使用,提升资源可见性、再利用、采用和引用方面的生产者满意度。

图片来源:https://fairsharing.org/

FAIRsharing拥有多种不同学科的用户和合作者,与利益相关者合作,通过促进数据标准、数据库和科学数据政策的价值和使用来实现 FAIR 原则。FAIRsharing维护以下三类资源注册表:

1.标准:包括(但不限于)报告指南、人工术语、模型和格式以及指标。

2.数据库:按照领域、物种或组织划分的数据存储库或知识库。

3.政策:数据保存、管理和共享等政策

同时对于具有数据政策的期刊出版商或组织,FAIRsharing 可以维护相互关联的可引用标准和数据库列表,形成分组(Collection)并推荐给用户。在查看数据库的同时可以了解到其执行的标准以及认可的相关政策。

为了使标准、数据库、存储库和数据政策更易于发现和引用,FAIRsharing为每条记录生成数字对象标识符 (DOI),提供了一个持久且唯一的标识符保障对这些资源的准确引用。 此外,FAIRsharing得到Bodleian 图书馆的支持,每条记录的维护者可以与他们的开放研究和贡献者标识符 (ORCID) 个人资料 (https://orcid.org) 相关联。

平台的元数据框架由DOI、资源类型、注册表、资源描述、资源链接、资源创建年份、资源维护者、资源所属国家、学科主题、学科领域、分类范围、用户定义的标签等元数据属性构成。

 

Data Citation IndexDCI)简介

DCI2012年由科睿唯安推出,DCI提供了一个访问全球高质量研究数据的入口。通过DCI用户可检索科学、社会科学和人文学科领域的几百个经过评估的数据仓储中的数百万条记录,每一条记录均可链接到数据仓储。数据库Web of Science Core Collection记录中的‘Associated Data’按钮,方便用户将研究与基础数据联系起来。

图片来源:https://webofscience.help.clarivate.com/

DCI允许纳入的数据包括存放在公认的数据仓库中的数据研究、数据集、软件。其中数据研究指对存储库中保存的研究或实验的描述,以及数据研究中使用的相关数据或软件。数据集指存储库提供的单个或连贯的一组数据、数据文件或软件对象。数据仓库则包含数据研究和数据集的数据库或集合,用于存储和提供对原始数据的访问。

 

基于以上科学数据仓储注册和发现平台,我们调研并获取到有丰富的科学数据管理经验的8所高校,包括加州大学 (University of California)、哈佛大学 (Harvard University)、哥伦比亚大学 (Columbia University)、密歇根大学 (University of Michigan)、帕多瓦大学(University of Padova)、威斯康星大学(University of Wisconsin)、康奈尔大学(Cornell University)、斯坦福大学 (Stanford University)并从数据管理政策、数据全生命周期管理、数据素养教育等多个维度展开分析,以期为我国高校的科学数据管理实践建设提供依据。

全部问题

Hi,你好

有问题咨询馆员?

常见问题

< 查看全部问题