近年来,越来越多的科研机构、学术出版商、项目资助方呼吁或致力于开放科学、开放数据的相关实践。在开放科学这场“运动”中,科学数据的地位开始悄然发生变化:其不再仅是学术论文的附属物,而成为科研的基础产出。特别是开放共享的科学数据,因具有独立的身份识别、属性描述、监护机制、溯源流程,通过信息网络可发现、可获取、可互操作和可重用(科学数据管理的FAIR原则),而成为保证科研结果可验证、可分享、可重现的基础支撑。
1
开放科学数据是科学研究内在要求
从资金来源上看,当前大部分科学研究是由公共资金资助的,研究所取得的成果也应免费向公众开放。2018年3月,国务院办公厅印发的《科学数据管理办法》指出,“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道”。美国科学与技术政策办公室(OSTP)也于2013年提出,由联邦资金全部资助或部分资助的科研项目所产生的非保密的科学研究数据,应存储并无偿为公众提供访问权限。公共资金资助的科学数据实现开放获取,不仅有利于资源共享,还有利于加强对科研成果的社会监督,遏制科学不端行为的发生。
不管是出于学术期刊投稿的要求,抑或是科研工作者的共享需求,科学数据的开放共享都需要以数据存储库为平台,从而实现科学数据的有效管理、公开共享、规范引用和出版传播。我国科学数据共享事业起步较晚,相关数据开放工作受制于国外学术期刊的要求,数据的存储和开放也更加依赖国外的数据存储库。为完善科技资源共享服务体系,推动科技资源向社会开放共享,我国于2019年成立了20个国家级科学数据中心,助力推进相关领域科学数据向国家平台汇聚,完善科学数据存储、管理和安全所需基础设施。此外,也有“科学数据银行”(Science Data Bank)这样的公共数据存储共享平台,提供数据在线存储、长期保存与获取、共享、出版和引用服务。
2
开放数据推动可重复的科学研究
科学数据的开放共享可供其他研究人员引用或重现实验,有助于避免不必要的重复实验操作,缩短研究周期,加快整个领域的研究进程。信息科学领域的数据具有良好的科学数据开放共享基础,各类算法竞赛提供了基准数据集,如视觉识别挑战大赛(ILVRC)的基准数据集ImageNet。2012年,AlexNet在该赛事中基于ImageNet获得图像分类和物体识别算法的优胜,错误率比第二名低了10.8个百分点,一战成名,激起了更多使用卷积神经网络和GPU来加速深度学习研究的出现。基准数据集的公开共享和应用,驱动相关领域研究取得重大进展和突破。
科学数据的开放共享还可以有效提升研究成果的学术影响力。比如,2016年,中国科学院空天信息创新研究院研究员邱玉宝等人发表的《青藏高原MODIS逐日无云积雪面积数据集》(DOI:10.11922/sciencedb.55)获得了数千访问量和多个平台、国家级科学数据中心转载,浏览量一直在科学数据银行中名列前茅。相关数据也收到了大量海内外用户的积极使用反馈,在学科领域被有效利用。
科学数据的开放共享也为公开、理性的学术交流提供了依据。比如,《社会学研究》2019年6期刊发《住房市场化与住房不平等——基于CHIP和CFPS数据的研究》一文,文章发表后有读者对此文进行了复制性研究并公开提出一些疑问。随后,原文作者吴开泽就数据处理、模型分析结果对读者的疑问进行了重点回应。此类量化研究的重要特点在于可复制性。正因为争议中的论文采用Chinese Household Income Project(CHIP)和中国家庭追踪调查(CFPS)等公开数据,因此专业读者可以重新复现该研究,从而进行开诚布公的学术交流,进一步提升研究的可信度。
3
科学数据开放共享举措多样
国际科学数据开放共享氛围日益成熟。2015年,国际科学理事会(ICSU)、国际合作伙伴关系(IAP)、世界科学院(TWAS)和国际社会科学理事会(ISSC),在国际科学理事会发布了Open Data in a Big Data World协议(该协议认为“开放数据”将提高公共研究的效率、生产力和创造力),同时还公开支持科学论文的数据可以为科学的“自我纠正”提供基础。“开放科学中心”(Center for Open Science)针对期刊出版发布《期刊透明性与开放性指南》,要求期刊在来源引用、数据、代码、研究材料、研究设计与内容分析、研究预注册和重复验证等方面透明开放。Elsevier、Springer Nature、Taylor&Francis和Wiley等出版商也都制定了数据共享政策,鼓励作者在论文中引用相关的科学数据,提供数据可用性声明,并将数据存储在合适的数据存储库中。
国内科学数据管理逐渐规范。在国家政策层面,2018年3月,国务院办公厅发布的《科学数据管理办法》提出,“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”,并要求“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”。在期刊方面,我国有《中国科学数据》和《全球变化数据学报》等数据期刊,另有部分传统学术期刊专门设置了数据论文专栏。《中华外科杂志》于2017年发布《关于投稿人自愿提供稿件支持原始数据的通知》,明确稿件一经录用,支撑数据将在文章发表的同时纳入国家人口与健康科学数据共享平台管理。
4
数据开放共享理念的实践展开
科学数据开放共享模式可分为三类。1.与专业的科学数据存储库合作,开展科技论文与其支撑科学数据的关联出版(附属于出版物的数据发布)。2.独立的数据出版即在数据存储库存储发布(不依赖出版物的数据发布)。3.以数据论文形式发布(作为出版物本身的数据出版)。其中,第一种方式的开放共享流程较为灵活,可以以多种形式、在多个时间节点上嵌入配合论文的投稿、评审和出版流程。比如,可以在科技论文收稿阶段提交数据集,科学数据随科技论文一起参与整个论文评审流程;也可以在论文录用阶段提交科学数据,在科技论文出版前完成数据集的评审、加工整理和出版工作等。
科学数据与论文关联共享的方式具有可独立引用、独立标识、独立计量评价等诸多数据共享和数据重用上的优势。此外,由专业的科学数据存储库负责数据的录入、存储及安全管理,可以使科学数据开放共享具有更好的持久性。
科学数据存储库在科学数据开放共享、帮助科研提升可重复性的过程中发挥着至关重要的作用。科学数据存储库使科学数据具备可发现性。比如,提供数据API、唯一标识符等服务;良好支持开放数据的重用,支持为开放共享的数据指定明确的数据使用许可协议(如CC许可协议),提供具有机器可读性的元数据获取服务,提供数据规范引用服务;支持开放共享数据的完整性和真实性;支持数据的更新操作及版本管理机制等。
如今,科学数据开放共享作为助力科学研究高度协作、开放获取、数据共享、研究透明的重要途径,正在帮助人们解决科研可重复性带来的挑战。我国在科学数据开放共享方面具有很大潜力,政府管理和科学研究领域都作出了不懈努力,并已取得一定成效。“数据开放共享”理念和实践的发展进步,将为科学研究的可重复性描绘出美好蓝图。
(作者单位:中国科学院计算机网络信息中心)
作者:李宗闻 姜璐璐 王鹏尧
编辑:张卓晶