引言:
科学数据(Scientific Data)是学术工作的支柱和重要产出,也是开放科学运动的重要物质基础。认真负责任地管理和共享科学数据有助于提高研究的透明度、严谨性、可重复性和公共价值。调研高校成熟的科学数据管理实践,进行分析与学习,可帮助我们促进高质量科学数据资源的共享和再利用,推进全球开放科学运动在高校中的实践。今天我们将一起从数据管理政策、数据全生命周期管理、数据素养教育三个维度来了解下密歇根大学的科学数据管理现状。
1.1.1. 数据管理政策
表 密歇根大学数据管理政策
1.1.2. 数据全生命周期管理
在研究生命周期的各个阶段和各个研究领域,研究人员都应该考虑最终存储和保存研究数据的潜在长期影响。以下是一些按研究生命周期阶段划分的资源,可作为数据管理实践的切入点,帮助研究人员节省时间、满足资助者的要求,并最终最大限度地发挥研究的影响力。
1.1.2.1. 研究设计与数据收集
在制定研究计划时考虑到数据管理,例如制定明确的协议来收集和存储所产生的数据,这将带来巨大的下游效益。此外,大多数机构现在都要求在提交项目计划时提供DMP或其他有关数据管理和指导的信息。
以下是一些精选的资源,可以帮助研究人员在开展研究时开始思考有效的数据实践。
表 研究设计与数据收集资源
研究或申报书要素 |
资源 |
通用数据元素 (CDE) |
CDE 是结构化的人类和机器可读的数据元素定义,用于研究和其他目的。美国国立卫生研究院有一个通用数据元素资源库,帮助研究人员确定从调查到疾病命名等各项研究中使用的标准化术语或概念。 |
元数据 |
FAIRSharing.org(FAIRSharing.org)为研究人员提供了一个跨学科元数据标准数据库,有助于改进数据共享实践。 密歇根大学图书馆还围绕数据文档和元数据标准制定了最佳实践指南(data documentation and metadata standards) |
协议 |
整理和共享个人协议可确保各研究小组内部研究数据实践的一致性,同时也便于与更广泛的研究社区共享。 密歇根大学向一家电子实验笔记本提供商订购了一份机构协议,使研究人员能够享受集中化、无纸化协议和工作流程带来的好处、效率和长期成本节约。 Protocols.io 是另一个供研究人员开发和共享实验协议的平台。 |
数据管理计划 |
密歇根大学图书馆提供有关数据管理计划的广泛指导,包括针对工程学、社会科学和健康科学的特定学科指南。 DMPTool 是一个免费的开源工具,可帮助研究人员创建标准化的数据管理计划。 |
项目计划预算编制 |
随着对数据管理的新要求,资助机构越来越多地允许将数据共享成本作为直接成本纳入项目计划预算。ORSP为与项目相关的直接费用提供高层次的预算和费用指导(budget and cost guidance)。在资助机构没有禁止的情况下,根据相关资助的适用条款和条件,与数据整理、数据格式化、数据去身份化、元数据准备和存储库数据沉积费相关的费用可作为直接费用列入提案中。 |
表 研究设计与数据收集资源(特定学科)
特定学科指导 |
资源 |
临床研究 |
密歇根大学的研究人员可以通过生物医学和教育研究统计分析小组 (SABER) 获得临床试验设计、实施和分析方面的帮助,包括数据管理和软件开发。 密歇根临床与健康研究所 (Michigan Institute for Clinical & Health Research, MICHR) 还提供额外的数据收集指导,以及与临床研究相关的数据管理基础在线课程。 |
定性研究 |
定性研究是非数值数据,通常需要上下文信息,这给数据管理带来了额外的挑战。数据管理网络提供了定性研究数据类型入门指南(a primer on data types in qualitative research),帮助研究人员了解这些领域的数据需求。 |
计算研究 |
除研究数据外,计算研究越来越多地需要解决代码和软件的可用性问题。美国国立卫生研究院(NIH)、软件木工(Software Carpentry)和软件可持续发展研究所(Software Sustainability Institute)等机构为研究人员提供了如何应对这些挑战的指南。不过,在发布开源代码时,如有必要,请向麻省理工大学创新合作伙伴关系咨询有关许可选项、最佳实践和知识产权方面的问题。 |
人文学科 |
随着数字化的兴起,人文学科对数据的需求与日俱增。《数字人文科学数据整理指南》(Digital Humanities Curation Guide)汇集了各种资源,帮助数字人文学者应对数据整理方面的挑战。 |
跨学科 |
大学图书馆为跨学科学者提供了一个开放数据工具包(open data toolkit),用于指导收集、管理、利用、共享和整理研究数据以造福大众的最佳实践 |
1.1.2.2. 数据安全和隐私保护
研究人员在管理研究数据时需要考虑许多因素,尤其是在处理潜在敏感信息或某些类型的受监管数据时。大学有许多资源可用于帮助研究人员应对这些挑战,具体取决于正在生成的数据类型。
表 数据安全和隐私保护资源
总体安全/安保指南 |
资源 |
国际合作与出口管制 |
有些研究数据在是否/如何与外国、个人或实体共享方面可能有限制。大学出口管制法规(U-M Export Controls)可以帮助研究人员确保遵守所有相关法规,并在必要时制定技术控制计划 (TCP)。 |
研究数据安全 |
根据大学和法律的不同要求,有几类研究数据需要特殊保护。大学的研究信息安全监督 (RISO) 计划与PI合作,确定需要采取哪些额外控制措施(如有)。 |
安全计算 |
为了保护您自己和您的研究数据免受网络钓鱼攻击或其他电子漏洞的侵害,马萨诸塞大学提供高级安全计算资源,包括敏感数据指南。 |
1.1.2.3. 研究数据管理与存储
(1)短期研究数据管理和存储
在研究过程中,负责任地、有策略地管理研究数据流,对于提高研究的长期影响力和可复制性大有裨益。大学有许多资源可供研究人员使用,帮助他们管理和/或分析不同学科或方法的研究数据。
1) 咨询服务
高级研究计算中心(ARC)和统计、计算和分析研究咨询公司(CSCAR)提供咨询服务,帮助计算研究人员实施数据分析和工作流程,并协助满足数据管理和存储需求。
对于从事临床和转化科学工作的研究人员,MICHR的数据管理指导计划(Data Management Mentoring Program)提供指导,通过共享数据管理工具和最佳实践,帮助研究团队更有效地收集和管理研究数据。
2) 数据存储服务(日常)
对于需要确定和比较短期研究数据存储需求的研究人员,U-M ITS 提供数据存储搜索器。
研究人员还可以选择电子实验笔记本(electronic lab notebooks),它集成了一个易于使用的解决方案。
临床研究数据存档指南可从MICHR获取。
3) 数据存储服务(特殊需求)
对于大量数据和/或大文件,ITS高级研究计算(ARC)提供了许多活跃的研究数据存储服务(如OSiRIS、Locker和Turbo)。
4) 高性能计算
对于需要高性能计算的研究人员,ARC提供大量计算和数据存储资源,包括马萨诸塞大学研究计算包。许多学校和学院还与ITS合作提供服务,包括工程学院、医学院和LSA。
5) 研究中心
如果学科有特定的数据管理需求,还可以获得许多其他服务。例如,整个大学约100个研究中心中的许多中心都提供与其设备和/或分析相关的数据服务。
(2)数据共享和长期保存
随着研究人员从积极管理项目和/或分析数据过渡到完成项目和/或发布数据,对研究数据的需求也在发生变化。最佳实践包括归档或保存以确保公众可访问,记录元数据以提高可发现性,以及越来越多地注释和存放代码以确保可重现性。以下是可帮助研究人员确保其数据可长期访问的资源示例。
1) 一般指导
共享和保存数据的一般指南,包括如何选择存储库,可从大学图书馆获得研究指南(research guide)。还提供针对健康科学、工程学和定性科学的特定主题指南。
数据仓储可让您轻松发布研究数据信息。您可以选择在资源库中发布实际数据,或者只提供元数据以便于发现。有许多数据仓储可供使用。它们可能是机构存储库、政府存储库、商业存储库或特定学科存储库。在存放您的研究数据之前,请评估数据存储库如何满足您的要求。考虑的因素包括SDR的:
a. 可持续性和持续资金
b. 保存政策或计划
c. 受众
d. 许可和访问安排
e. 包含适当的元数据元素,以确保数据的可发现性
f. 对FAIR数据原则的承诺
g. 数据再利用和数据引用政策
2) 数据长期存储
对于较大的数据集,先进研究计算(ARC)的Data Den Research Archive可与其他服务(如Globus,大学已订购该服务)相结合,实现对不被主动访问的数据的长期存档。
3) 科学数据仓储(数字数据)
根据您的研究领域和需求,研究人员可以使用数百个数据存储库。Re3data 和“开放存取目录”(Open Access Directory)提供按国家或研究领域划分的资料库列表。美国国立卫生研究院(NIH)也有一份由 NIH 支持的特定领域资料库列表。
4) 科学数据仓储(实物样本)
在许多学科中,保存研究数据还包括将实物标本永久存档。大学拥有许多世界一流的设施和博物馆,可以帮助研究人员获取标本或将标本存入馆藏。
5) 软件和代码共享
若要公开用于生成或分析研究数据的计算代码和/或软件,应将代码放在已知的、公众了解的存储库中,如GitHub、SourceForge、BitBucket或类似存储库。应积极维护这些资源库,并提供更新、基本使用说明、适当的许可条款和相关版权声明。在发布开源代码时,应就最佳实践、选项、方法和指导咨询大学创新合作部。
1.1.2.4. 出版、许可和数据使用协议
1) 版权
有关版权基础知识和知识共享许可协议的信息,研究人员可查阅版权指南或直接联系大学图书馆版权服务团队。
2) 数据使用协议
转让非公开数据或受使用限制的数据可能需要数据使用协议。研究与赞助项目办公室(ORSP)在eRPM中将其作为无资助协议(UFA)进行管理。如果涉及患者健康信息,临床与转化研究数据办公室(DOCTR)会进行HIPAA审查,必要时还会请密歇根医学院合规办公室介入。IHPI为密歇根大学社区提供一个可搜索的健康科学数据使用协议数据库。
3) 出版仓储
研究人员可以将出版物(在最终出版之前或之后)存放到可公开访问的资料库中,以满足资助者对出版物的公开访问要求,或者仅仅是为了使学术成果能够被更广泛地访问。
大学提供了一个名为Deep Blue Documents的机构资料库,用于存放文章、章节、论文、会议演讲、媒体以及大学制作的其他作品。研究人员还可以从开放存取目录(Open Access Directory)中选择一个学科资料库。
4) 知识产权
知识产权、技术许可和材料转让协议,通常还有与企业赞助商签订的数据使用协议,都由大学的创新伙伴关系部门负责处理。
5) 出版商数据政策
在过去几年中,出版商对公开获取研究数据的要求发展迅速。例如,许多期刊选择采用部分或全部《透明度与公开性促进(TOP)准则(Transparency and Openness Promotion (TOP) Guidelines)》,该准则要求采用模块化数据引用和可用性标准。
鉴于形势瞬息万变,强烈建议在提交论文之前先确认各期刊的政策,即使您最近已在该期刊上发表过论文。
6) 开放获取出版
许多作者选择出版免费向任何读者提供的期刊文章或书籍(即开放存取出版物)。在这种情况下,出版费用通常由作者自己承担。大学图书馆与许多学术出版商达成了协议(discounts for authors on article processing charges),为作者提供文章处理费折扣,并为人文科学领域的开放存取专著提供高达15,000美元的资助。
1.1.3. 数据素养教育
1.1.3.1. 数据收集
1) 社交媒体研究:查找Twitter、Facebook等社交媒体数据来源,以及有关研究方法和在学术研究中合乎道德地使用社交媒体数据的资源。
2) 数据源参考指南:在本研究指南中,您可以找到由政府和私营部门制作的各种主题的数据,包括当地社区、其他国家的人口数据、民意调查、刑事司法、监禁和监狱。
3) 信息与图书馆学研究指南:该指南为麻省大学信息学院(UMSI)的学生或任何对信息和图书馆学跨学科领域的研究感兴趣的人提供有用的资源。
1.1.3.2. 数据管理
1) DS 101:管理您的数据(DS 101: Managing your data):这个研讨会介绍了实际技能和主题,从数据收集和存储到同意协议,再到处理敏感信息和数据的备选方案,帮助制定和编写数据管理计划。查阅数据规划清单是确保涵盖数据管理各个阶段和任务的有用资源。
2) 研究数据:查找、管理、共享(Research Data: Finding, Managing, Sharing):这个指南提供了关于数据管理和监护的所有方面的信息,包括查找、规划、组织、记录、共享和保存研究数据。
3) 管理引文(Managing citations):获取有关选择和使用引文管理程序的指导。
4) UM敏感数据IT服务指南(UM Sensitive Data Guide to IT Services):该指南旨在帮助您在收集、处理、存储或共享大学数据时,就使用哪些IT服务做出明智的安全和合规决策。
1.1.3.3. 工具
1) Tropy是一款免费的开放源码软件,可用于组织和描述研究材料的照片。
2) PermaCC是一种用于法律和学术引文的网络归档服务。
3) Open Refine是一款开源桌面应用程序,用于数据清理和转换为其他格式。
4) TextCleanr是一款开源网络应用程序,用于在应用程序之间复制和粘贴时修复和清理文本(删除电子邮件缩进、空格和换行符等)。