NIH下手,对中国关闭核心数据库,科学家们最担心什么?-创新-知识分子

NIH下手,对中国关闭核心数据库,科学家们最担心什么?

4天前
导读
4月2日,美国国立卫生研究院(NIH)发布了一份《实施更新:增强 NIH 受控访问数据的安全措施》文件,宣布从2025年4月4日起,禁止位于中国(含中国香港和中国澳门、不含中国台湾)、俄罗斯、伊朗、朝鲜、古巴、委内瑞拉的机构访问NIH受控访问数据库及其相关数据。我国的《人类遗传资源管理条例实施细则》于2023年7月施行,明确规定了遗传资源的利用规范,强调跨境数据传输必须经过严格审批,建立了相比国际通行规则更为严格的保护壁垒。时至今日,两扇大门相互都关上了。
 4.9‍‍‍‍‍‍‍
知识分子
The Intellectual

图源:Freepik

撰文 | 严胜男

 ●                   ●                    


You access to dbGaP has been suspended,上周许多生物医学领域的学者都收到来自大洋彼岸的这样一封邮件。


42日,美国国立卫生研究院NIH发布了一份《实施更新:增强 NIH 受控访问数据的安全措施》文件,宣布从202544日起,禁止位于中国(含中国香港和中国澳门、不含中国台湾)、俄罗斯、伊朗、朝鲜、古巴、委内瑞拉的机构访问NIH受控访问数据库及其相关数据。


时隔一年,NIH最终宣布对中国关闭了21个受控访问数据库,其中最具代表性的有基因组-表型数据库dbGaP和部分癌症基因组图谱TCGA数据。其承载了全球最核心的人类基因组、表型信息和疾病研究数据,其中后者是一项涵盖33种癌症类型、11000名患者具有里程碑意义的癌症基因组学计划。


值得注意的是,NIH的数据平台分为受控数据库controlled-access data repositories和开放数据库open access,其中开放数据库(如PubMed生物医学文献数据库、GenBank核酸序列数据库等)并未受到限制。在禁令之前,受控数据库中的数据只需申请人提交申请,如无特殊原因,一般都会被通过。


这项禁令,早在2024228日拜登政府签署的《关于防止受关注国家获取美国人大量敏感个人数据和美国政府相关数据的行政令》便意有所指,其核心目标是限制特定国家获取、分析与交易美国公民的基因组、健康等敏感数据,一位生物信息学教授表示,落地只是时间问题


我国的《人类遗传资源管理条例实施细则》于20237月施行,明确规定了遗传资源的利用规范,强调跨境数据传输必须经过严格审批,建立了相比国际通行规则更为严格的保护壁垒。时至今日,两扇大门相互都关上了。


人们将此举比作科研领域的卡脖子,不过许多人表示,这还远没有到最糟糕的时刻。如果收缩进一步扩大到全球最大的生物医学文献数据库PubMed全球最大的生物样本库UK bioBank、全球最大的公开核酸序列数据库GenBank、全球高通量基因表达数据的权威存储平台GEO等传统的基础设施,科学家们将面临不得不集体搬家,只是很有可能没有 新家供他们选择。


01

对中国的限制是大趋势?


访问渠道关闭后影响几何,学术界的看法不尽相同。前述生物信息学教授表示,受控的主要是关于人类基因组信息,大部分生物医学研究都会受影响,不论是生命科学的基础研究、生物信息挖掘还是药物开发、疫苗研发等


王亚力(化名)是国内一生物医学大数据中心主任,他表示,此次政策调整对于大部分科学研究和临床研究不会产生直接冲击。受影响的集中于基因组学、癌症、遗传学等前沿领域,比如肿瘤基因组学研究、疾病相关的全基因组关联分析研究等,体现在数据获取渠道受限、研究连续性中断以及国际合作受阻等方面,对研究深度和广度都会造成一定制约


然而,不论观点如何,大家都表达了同一种忧虑,也包括一些不受此次政策影响的研究者。个人基因组信息现在敏感度越来越高了,对中国有限制是大趋势。任何能追溯到个人的信息,美国从国家安全角度,欧洲从隐私保护角度,都会采取更多针对中国接触的限制,这个趋势不会变了 阿拉巴马大学伯明翰分校遗传学博士周叶斌介绍道。


最为紧张的是UK bioBank的用户。这项于2006年由英国发起的,收集了约50万名参与者的遗传、影像、健康及生活方式数据的生物样本库,相比于dbGaPTCGA拥有更多的用户和更广泛的影响力。截止20249月,全球超过90个国家/地区的19000名研究者使用其数据,发表了超过13000篇出版物,也包括了大量中国研究者。


去年7月,UK Biobank Community宣布不再提供原始数据,而是要求研究者云端进行分析。这被视为降低数据泄露和滥用风险的举措,但也有业内人士提到,其中还涉及数据下载不便和营收的考量。


02

有替代之法吗?


没有了研究数据,研究者们的解决方式无外乎两类,但都不可避免地被掣肘。


上海科技大学生命学院助理教授张力烨解释道,第一可以去联系数据所有者本人,请求其共享,好处是不存在任何法律风险,但可能得通过一些私人渠道或者关系非常好。另一重困难在于,如果涉及到数据量非常庞大,例如PB级别,大量数据点对点传输和获取并不容易。第二,即便非常幸运在禁令之前保存了数据,但在发表文章中也不能公开使用,因为涉及到数据使用权限的问题


遗憾的是,目前国内能够实现完全替代的数据集并不存在。


前述生物信息学教授表示,本次受限的数据库收录的数据大都是NIH资助项目产出的,数据标准化做得非常好,数据集质量都比较高。国内收上来的数据,很多都缺乏统一的数据标准,质量也参差不齐。另一方面,国内数据库拥有的数据量相对还是较少,大家愿意贡献出来的数据不多


数据脱钩的态势下,过去几年,国内各类基因组数据库一直在尝试建立NIH下属美国国家生物技术信息中心National Center

for Biotechnology Information, NCBI公开数据的镜像和本地备份,以备不时之需。以国家基因组科学数据中心NGDC为例,其已备份了十余个NCBI数据库。


但问题依旧没有得到解决,一旦禁令严格执行,这些数据也面临公开使用违法了,国际论文发表会受影响的局面,敏感人物出国会有风险,王亚力表示。


前述生物信息学教授则表示该种情形出现的可能性不大,他介绍道,NCBI早在2005年便与欧洲生物信息学研究所European Bioinformatics Institute, EBI和日本DNA数据库DNA Data Bank of Japan, DDBJ达成协议建立了国际核酸序列数据库合作联盟International Nucleotide Sequence Database Collaboration, INSDC每天交换更新数据和信息涵盖测序原始数据、组装序列和注释信息、以及相关的元信息,促进生物信息大数据汇交共享。但凡这三家共享的信息都不应当受到控制和关闭,并且INSDC也是希望在全球建立多个镜像,方便世界各地的研究人员获取并使用他们的数据


03

本土数据库公开之难


虽然NIH数据禁令属有限制措施,但其象征意义与潜在影响值得警惕。


王亚力解释道,该事件表现了国际科研合作壁垒愈发实体化,全球生物医学领域正经历从数据国际共享数据主权化的重大转变,关键技术卡脖子风险显性化。我国亟需构建系统性应对方案,以应对潜在的全面数据封锁风险


二十年前,一些有识之士就开始呼吁建立本土数据库,但开放氛围的缺失难倒了各位英雄好汉。国内真正愿意分享自己数据的研究人员比例大概不会超过20%,前述生物信息学教授表示。


行政命令是国内数据公开的重要推手,科技部重点研发计划明确要求上传数据库,基金委等部分项目也在试点中。但上有政策下有对策,效果并不理想,数据交成什么样,交到哪里完全能糊弄过去。


2022年,《知识分子》曾报道科技部重点研发计划精准医学专项队列研究时,一专家提到,20个国家科学数据中心,立项时并没有规定交到其中哪一个,所以理论上(精准医学专项的数据)交到比如地震数据中心或者气象数据中心都是可以的,尽管这听起来有些不可思议。


另一方面,即使将数据完整上传至数据库,能否使用依旧要看上传者的脸色 张力烨介绍道,NCBI人类遗传相关数据库dbGap有一个专门的委员会,由第三方来管理数据是否能够共享给申请者,这提升了用户的体验,而国内以及欧洲类似数据库(ENA)的数据权限则直接由上传者审核的方式,一些人可能因为潜在的竞争关系而拒绝提供或者拖延,此外也不排除部分数据管理人没有足够重视导致的忘记审核,以及由于一些技术原因(如数据审核人离职电子邮箱作废)导致审核拖延和无法进行。因此,基于数据提交者审核系统整体获得数据难度往往要高于dbGap数据评审委员会。


浏览国家生物信息中心的网站会发现,满分五颗星,3806组数据中,共享率达到四星及以上的数据仅6.1%


数据共享率低是国内数据库建设长期以来都面临的困难。现在各个地方都号称自己有数据库,大家都号称自己公开,但其实都不公开,也不是有什么限制,主要就是不想,一位遗传学教授介绍道,就算在机构内部,共享也很难实现。假如一个科室很大,每个老师都有一个自己的小队列,但彼此都没有办法拿到。国外现在都是几十万的队列,我们还在一两万的队列在做


假共享、真封闭、数据库闲置、零散琐碎……解决数据依赖必须要跨过公开共享这道鸿沟。


这些年国内也做了很多人群队列研究,产出了不少序列,但大多分散在各个单位、各个医院,如果能把这些统筹好了,我想也不会比国外差很多,前述生物信息学教授表示,好多人担心把自己的数据公开了,别人分析能力特别强,发了文章抢了他的东西,等于他就白辛苦了。他干了这么多,把宝贵的病人样本资源聚集起来,花了钱测了序,结果什么也没得到,他们考虑的也不是完全没有道理。所以从这个角度来讲,我们怎么能够建立一些激励机制,给数据贡献者一些甜头或好处?但是这里的利益分配也牵扯很多事情,不是简单能解决的


国外人家想的就是,我拿了NIH的钱,数据共享是天经地义,不会打一些小九九,非得我自己分析。他们的想法就是让大家都能把数据用起来,这是价值所在,而不见得一定要发文章。但国内目前的各种考核评价体系还是看重文章,这种指挥棒下,观念很难改变


在中美科技竞争持续深化的背景下,下一步国内数据库该如何建设?前述生物信息学教授表示,一方面把大家的数据整合起来,不要散落在各地。另一方面数据收起来以后也要开放共享。如果把这两个做好,短期内就能解决一部分的问题,不能说很大程度上,但至少能解决一部分问题了


参与讨论
0 条评论
评论
暂无评论内容
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO