导语:
从社会科学到生物医学,科学数据都是我们学术征程中的支柱和重要产物,更是开放科学运动不可或缺的基石。这些数据资源不仅是科学研究背后的硬核驱动力,同时也是科学发展的力量源泉。而规范、高效、安全地管理与共享这些宝贵资源,则如同为学术研究注入一剂强心针,能够提升研究的透明度、严谨性、可重复性,以及公共价值。
2023年,清华大学图书馆联合科研院发表的一篇文章,将我们带入了一场关于科学数据的深度探索。这不仅仅是对我国科学数据资源的现状进行对比分析,更是基于FAIR原则对我国典型科学数据仓储(SDR)所面临挑战的深入剖析。
令人振奋的是,我国研究人员不仅产出了丰富的科学数据资源,而且对数据共享有着迫切的需求。然而,引发我们思考的是,这些宝贵的数据资源却更多地依赖于欧美国家托管的SDR在全球范围内进行传播。在保障数据和元数据的可发现性、可访问性、可交互性和可重用性方面,我国的典型SDR还面临着一些考验与挑战。
让我们一同深入了解这篇文章,深探FAIR原则,洞察中国科学数据资源的现状,思考它所带来的启示。
#开放科学 #数据共享 #FAIR原则
全文速览:
为推动开放科学实践,促进科学数据共享与重用,选取re3data、FAIRsharing和WOS Data Citation Index(DCI)这3个国际主要SDR注册和发现平台作为主要数据源,开展中国科学数据资源现状与国外的对比分析,发现我国有国际影响力的SDR数量与科学数据集的体量不匹配,包括我国在内的各国科学数据集的传播共享主要依靠欧美国家的SDR;基于FAIR原则分析我国典型SDR面临的挑战,结果表明,我国的国家科学数据中心在数据和元数据的可发现性、可访问性方面受到数据标识符分配不足和无法正常解析的影响。在数据和元数据的可交互性和可重用性方面,存在引用信息和使用说明不完整、不清晰等问题,阻碍数据的传播和共享。国际组织和机构的典型经验与举措为我国的科学数据管理提供了启示。基于此,未来我国可以通过开展对FAIR原则的政策支持和规范实施,提高我国科学数据资源的开放共享水平。
通过本期推送让我们一同先解锁这篇文章的第一部分,揭示我国科学数据资源的规模和传播现状。
引言:
随着当今科学技术全球化的不断深入,开放、共享正成为科学研究的核心内涵与鲜明特征,开放科学(Open Science)的实践得到越来越多人的认可和采用。科学数据是开放科学的重要物质基础,科学数据资源的管理与共享水平是衡量一个国家整体科技水平和综合国力的一项重要标志。我国非常重视科学数据的管理与共享。自1984年正式加入国际数据委员会(CODATA)并成立中国委员会以来,我国陆续启动气象、林业、农业等科学数据共享中心的建设与服务试点。随着全球科技创新能力和投入的不断增强,科学数据采集能力持续提升,但同时也给科学数据的存储、管理和共享带来了挑战。在此背景下,SDR迅速发展,成为促进科学数据开放共享的重要载体,例如,新冠疫情暴发以来汇聚疫情数据的权威平台GISAID、美国政府的数据门户以及我国的20个国家科学数据中心。
图文导读:
从SDR层面将中国的科学数据资源现状与国外进行对比分析,如图1、图2所示。美国的SDR数量处在绝对领先位置,在re3data平台登记了1141个,占该平台SDR总量的40.7%。德国、英国、欧盟等国家或国际组织的SDR数量也较多,与美国类似主要在re3data平台上登记。相比之下,中国的SDR数量较少,主要在FAIRsharing平台上登记(102个),但仅占到该平台SDR总量的5.5%;在re3data和DCI平台中则分别占各平台SDR总量的1.7%和2.5%。中国在上述3个平台登记的SDR有119个,按规则在世界范围内进行SDR元数据等信息的共享。
图1 科学数据仓储(SDR)的主要分布国家/组织
图2 各SDR注册平台中SDR的主要分布国家/组织
基于DCI从科学数据集层面对中国与其他国家的科学数据资源体量及存储现状进行分析可以发现,中国科学数据集的数量以较为明显的优势超过除美国以外的其他国家而位居第二,达到158,243个(图3)。这与我国在国际主要SDR注册和发现平台登记的SDR数量所处的排名形成鲜明对比。
图3 科学数据集的主要分布国家
对这些科学数据集的主要分布SDR进行分析发现,科学数据集数量排名前20的SDR大部分来自美国,占总量的55%,其他主要来自英国、德国等欧洲国家以及欧盟等国际组织(图4)。结果表明,我国丰富的科学数据集与有国际影响力的SDR数量不匹配,包括我国在内的各国科学数据资源主要依靠欧美国家的SDR实现全球的共享传播。
图4 科学数据集的主要分布SDR(b)及其国家/组织分布(c)
总结:
我国注重加强和规范科学数据管理,但相比于欧美国家起步较晚,在国际主要SDR注册和发现平台上登记的SDR数量有限,与我国科学数据集的体量不匹配,科学数据资源基本依靠欧美国家中具有国际影响力的SDR进行传播共享。本研究为我国科学数据管理和SDR建设提供了方向性建议。
全文见文献:
李骐安,孟宪飞,张书华,张璐,张蓓,窦天芳. 基于FAIR原则的中国科学数据资源现状分析及启示[J]. 数字图书馆论坛,2023,19(1):50-57. DOI:10.3772/j.issn.1673-2286.2023.01.007.
全文链接:
http://www.dlf.net.cn/dlf/ch/reader/view_abstract.aspx?file_no=202301007&flag=1