引言:
科学数据(Scientific Data)是学术工作的支柱和重要产出,也是开放科学运动的重要物质基础。认真负责任地管理和共享科学数据有助于提高研究的透明度、严谨性、可重复性和公共价值。调研高校成熟的科学数据管理实践,进行分析与学习,可帮助我们促进高质量科学数据资源的共享和再利用,推进全球开放科学运动在高校中的实践。今天我们将一起从数据管理政策、数据全生命周期管理、数据素养教育三个维度来了解下威斯康星大学的科学数据管理现状。
1.1.1. 数据管理政策
表 威斯康星大学科学数据管理政策
政策名称 |
政策名称(中文) |
描述 |
Policy on data stewardship, access, and retention |
数据管理、访问和保留政策 |
规定了大学、首席研究员 (PI) 和校内研究人员在数据管理方面的角色和责任。该政策大纲主要侧重于数据的保留、访问以及研究人员离开学校时的数据所有权指导。 |
University of Wisconsin Data Governance Program |
威斯康星大学数据治理计划 |
https://data.wisc.edu/data-literacy/ |
联邦资助要求:
2013 年,白宫科技政策办公室 (OSTP) 下达了一项任务,要求研发经费超过 1 亿美元的联邦机构必须要求公众获取因资助而产生的文章和数据。每个机构负责详细说明其具体要求;资助者之间往往有大量重叠,但也有针对具体学科的要求。一般来说,申请资助的机构会被要求在其数据管理计划中提供更详细的信息。
1.1.2. 数据全生命周期管理
数据是宝贵的资产。在威斯康星大学麦迪逊分校,我们利用机构数据做出决策,改善学生体验,提高运营效率,并为新发现打开大门。在整个数据生命周期中应用良好的数据管理和素养对于数据的可信度、适当共享和道德使用至关重要。 这些培训模块专为处理和使用威斯康星大学麦迪逊分校收集、存储和维护的数据的大学员工、教师和学生雇员而设计,这些数据是我们教育使命的一部分。
本指南将从数据管理、数据整理和数据素养的基础出发,帮助您确定在数据生命周期的不同阶段采取的行动。
数据生命周期说明了数据(各种形式和衍生物,包括数据点、数据集、数据库、数据文件、可视化和代码)如何在概念上流经其有用的生命周期。虽然数据生命周期是讨论在不同阶段采取适当行动的有用框架,但重要的是要记住,对于大多数数据来说,路径并不是线性的,有些行动可能根本不会发生。
数据生命周期模型的示例:
哈佛大学朗伍德医学院LMA研究数据管理工作组的生物医学数据生命周期示例在基础组件上增加了一个附加层,为每个阶段通常采取的行动提供了更多内容。在整个生命周期的中心是持续的存储和管理行动,包括数据安全、数据安全、存储选项。
图 “Biomedical Data Lifecycle” by Harvard Longwood Medical School LMA Research Data Management Working Group. License: CC-BY-NC 4.0.
1.1.2.1. 数据生命周期的各个阶段
数据管理最佳实践涉及从项目开始到结束的整个数据生命周期,以及可能适用的所有治理、规则、法律和法规。培训包括以下阶段: 创建、管理、使用、共享、收集/重用和销毁。
图 “Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0
1.1.2.2. 规划阶段
在收集或获取数据之前,应规划如何在整个数据生命周期内管理数据。可操作的数据管理计划应考虑数据管理的角色和责任,如谁可以对数据的访问、使用和保留做出决策。还必须考虑任何法律、规则和法规如何适用于数据,以及谁将对数据负责。
1.1.2.3. 管理数据
从数据创建到销毁,数据管理行动包括数据存储、数据质量和完整性、安全性以及对数据保留时间的监控。在这一阶段,信息技术专家(包括数据架构师、数据建模师和风险管理师)在设计和开发适当的数据管理基础设施方面发挥着至关重要的作用。最后,数据归档、记录保留和数字保存最佳实践在权衡法律要求、地方政策和预期效用后决定数据保留时间方面发挥着重要作用。
图 “Data Management in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
1.1.2.4. 使用数据
在数据使用阶段,数据素养技能有助于我们组织、转换、分析和解释数据,以传达有意义的信息。文档、数据管道和可重现的工作流程有助于数据到知识的循环,帮助数据的未来用户了解分析中的变化和转换,从而更好地确保透明度和提高信任度。
图 “Data Literacy in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
数据、信息和知识之间的区别是数据使用阶段的重要组成部分。Carol Tenopir(引自Zins,2007年)将这些概念定义为:
● 数据是观察或测量的结果。
● 信息是有意义的数据。或以提供意义的方式排列或解释的数据。
● 知识是内化或理解的信息,可用于决策。
图 Relationships Amongst Knowledge, Information, And Data from Liew, 2007 as illustrated by Medged, 2018
1.1.2.5. 共享数据
数据共享的目标包括促进数据再利用、可复制性、验证和透明度。数据共享阶段涉及准备、选择和背景化等数据整理技术,以帮助有效和适当地重复使用数据。传输和授权访问的方式会有所不同,在需要长期访问的情况下,数据共享的责任可能会转移到可信的数据存储库,以帮助长期保存和访问。
图 “Data Curation in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
1.1.2.6. 查找/重复使用
数据再利用涉及查找、评估、理解和同意任何必要访问条件的数据素养技能。充分了解数据的目的、历史和脉络是适当有效地重复使用数据的重要组成部分。
图 “Data Reuse in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
常见的数据访问类型:
● 公有领域:根据公有领域奉献或知识共享零许可(CC0)表明,无任何限制地发布的数据。
● 署名:数据被释放供无限制使用,但要求对作者或来源进行署名和引用,正如CC-BY许可证所示。
● 共享相同:数据被释放供无限制使用,但要求任何产品或派生物也要使用相同的许可证进行分享,正如MIT许可证或CC-BY-SA许可证所示。
● 非商业性:数据仅用于教育或非盈利目的,正如CC-BY-NC许可证所示。
1.1.3. 数据素养教育
图 威斯康星大学科研数据服务
图 威斯康星大学数据素养和培训
1.1.3.1. 数据社区资源
● 数据科学中心Data Science Hub:为研究人员提供社区参与和学习机会
● 数据爱好者实践社区Data Wonks Community of Practice:分享技术和数据方面的知识和热情
● Badger Analytics User Group:在学校内推广分析技术的使用,讨论使用大学数据的创新方法
1.1.3.2. 视频学习和教学资源
1) 研究数据管理简介
● 第 1 课:数据具有价值
● 第 2 课:文件命名与组织
● 第 3 课:数据描述与文档
● 第 4 课:存储与备份
● 第 5 课:过时与可持续性
● 第 6 课:结论
● 第 7 课:资源
2) 负责任的数据规划、使用和共享
● 第 1 课:政策和法规
● 第 2 课:负责任研究的伦理考虑因素
● 第 3 课:数据管理计划
● 第 4 课:资源