清华大学 English
9:00 ~ 17:00
  -
- / -
  -
-
首页 咨询 服务办理 我的图书馆
首页 > 科研支持 > 开放科学 > 资讯动态 > 政策研究 > 正文

政策研究

【文章推介】深入FAIR原则,洞察中国科学数据资源现状(二)

政策研究
2023年12月14日

 

导语:

从社会科学到生物医学,科学数据都是我们学术征程中的支柱和重要产物,更是开放科学运动不可或缺的基石。这些数据资源不仅是科学研究背后的硬核驱动力,同时也是科学发展的力量源泉。而规范、高效、安全地管理与共享这些宝贵资源,则如同为学术研究注入一剂强心针,能够提升研究的透明度、严谨性、可重复性,以及公共价值。

2023年,清华大学图书馆联合科研院发表的一篇文章,将我们带入了一场关于科学数据的深度探索。上一期推文(【文章推介】深入FAIR原则,洞察中国科学数据资源现状(一))揭示了我国科学数据资源在科学数据仓储(SDR)层面的规模和传播现状。通过本期推送让我们一同揭开这篇文章的第二部分,深入FAIR原则,分析我国典型SDR的现状及面临的挑战,探寻其中的启示。

 

引言:

为提高科学数据资源的显示度和使用率,克服数据发现与重用的障碍,国际学术界提出面向科学数据管理的FAIR原则,从可发现(Findable)、可访问(Accessible)、可交互(Interoperable)、可重用(Reusable)四方面指导和评估科学数据管理实践。基于这一原则,国内外学者对科学数据资源管理的现状、趋势及存在问题进行了研究。虽然已有研究中探讨的数据访问权限、数据使用许可和标识符是评估科学数据管理水平的重要因素,但SDR的显示度、数据标识符的可解析性、数据的引用方式及使用说明等要素对于促进科学数据的发现与重用具有同样的重要性。

 

图文导读:

本文从FAIR原则的可发现、可访问、可交互、可重用四方面(图1)出发,对我国科学数据资源的管理与共享现状进行分析。保障科学数据的可发现性是落实FAIR原则其他方面的重要前提。而科学数据一经潜在的数据使用者和计算机发现,就会通过可信的SDR提供的服务被访问及获取。科学数据通常需要与其他数据集成整合,通过使用标准定义和通用的语言与应用程序或工作流进行交互操作,以开展数据的分析、存储和处理等工作。实现科学数据的广泛重用是实践FAIR原则的目标。通过对数据(元数据)进行准确、充分的描述和说明,以便潜在数据使用者正确使用数据。

 

面向科学数据使用和传播的FAIR原则及主要内容

 

1、可发现性

保障数据可发现性有两个重要技术手段。其中一个是为数据(元数据)分配全球唯一且永久的标识符,这被认为是FAIR原则中最重要的方面。表1列出了我国20个国家科学数据中心在数据使用和传播方面的现状及面临的挑战。对国家科学数据中心的数据采集截至20231月。

20个国家科学数据中心中,有10个为数据分配了DOI,但其中有6个只为部分数据分配了DOI,占比60%。基于我国自主制定的科技资源标识体系,有14个为数据分配了中国科技资源标识符(CSTR),占比达70%;但其中有3个只为部分数据分配了CSTR

保障数据可发现性的另一个技术手段是为数据提供丰富的元数据。以国家青藏高原科学数据中心为例,提供了描述性、技术性、管理性、权限管理等元数据,从关键词、时空范围、引用方式、项目信息、数据贡献者等多个方面对数据进行了详细描述,进一步提高了数据的可发现性。

 

2、可访问性

保障数据的可访问性需要一方面确保数据标识符可以被任何能够连接到互联网的潜在数据使用者正常解析,进而访问科学数据;另一方面保障数据存储在可信的、稳定可访问的SDR中。在数据标识符的可解析性方面,除国家极地科学数据中心外,其他SDRDOI均可被正常解析。虽然这两个国家科学数据中心通过在re3data等国际平台上登记提高了其全球显示度,但数据标识符的解析问题阻碍了潜在使用者对数据和元数据的正常访问。

 

3、可交互性

数据引用是国内外数据共享界提出的新概念,旨在建立数据与数据之间以及数据与文献之间的关联,进而促进数据的广泛交互。结果表明有4个国家科学数据中心没有提供明确的数据引用方式,而其他SDR提供的数据引用方式则形式多样。以国家青藏高原科学数据中心为例,除了对数据或数据出版文献的直接引用外,还包括对与数据研究背景、产生过程、处理方法和质量评价等相关关联文献的引用,同时提供数据使用者基于数据所发表文献的引用信息。

 

4、可重用性

保障科学数据可重用性的重要技术手段是通过采用标准化的数据组织方式对数据(元数据)进行准确、充分的描述和说明。在数据使用说明中提供法律层面的数据使用许可协议能够确保数据重用过程中知识产权的清晰明确。同时,数据的来源、产生过程及涉及的相关贡献者等信息的提供也有利于潜在数据使用者对数据的重用,降低数据复用的复杂度。分析国家科学数据中心的数据可重用性,结果表明有5个没有提供清晰的数据使用文档或指南。各SDR提供的数据使用说明也没有一个相对统一的形式。

 

1 国家科学数据中心数据使用和传播现状

 

启示:

当前,我们正面临着一些挑战,这些挑战正在我国的科学数据领域中引起波澜:我们不够关注SDR的国际传播,即使建设了国家层面的SDR,也未在国际上亮相;在SDR的可访问性、数据标识符的分配及可解析性方面存在不足,一定程度上使得我国部分科学数据资源只能通过国外SDR进行传播和共享;科学数据的引用和使用说明存在不完整、不清晰的问题,成了阻碍数据共享和再利用的“拦路虎”。

国际组织和机构的典型经验与举措为我国的科学数据管理提供了启示。未来,我们有机会通过对FAIR原则的政策支持和规范实施,提高我国科学数据资源的开放共享水平。这不仅将为我国的开放科学生态注入强劲动力,更为国家科技创新和经济社会发展提供必不可少的支撑。

 

全文见文献:

李骐安,孟宪飞,张书华,张璐,张蓓,窦天芳. 基于FAIR原则的中国科学数据资源现状分析及启示[J]. 数字图书馆论坛,2023,19(1):50-57. DOI:10.3772/j.issn.1673-2286.2023.01.007.

 

全文链接:

http://www.dlf.net.cn/dlf/ch/reader/view_abstract.aspx?file_no=202301007&flag=1

 

全部问题

Hi,你好

有问题咨询馆员?

常见问题

< 查看全部问题