8月14日,中國科學(xué)院北京基因組研究所(國家生物信息中心)國家基因組科學(xué)數(shù)據(jù)中心(CNCB-NGDC)在Genomics,Proteomics & Bioinformatics上,在線發(fā)表研究論文The Genome Sequence Archive Family: Toward Explosive Data Growth and Diverse Data Types。GSA數(shù)據(jù)庫體系接受全世界科研工作者的數(shù)據(jù)提交,匯交和管理各類型的數(shù)據(jù),并對所有公開可用數(shù)據(jù)提供免費(fèi)開放訪問,支撐生命科學(xué)研究。

組學(xué)原始數(shù)據(jù)歸檔庫(GSA)是生命組學(xué)原始測序數(shù)據(jù)管理的公益性數(shù)據(jù)庫,旨在推動全球生命組學(xué)數(shù)據(jù)的共享與應(yīng)用。近年來,隨著組學(xué)數(shù)據(jù)的爆炸性增長和數(shù)據(jù)類型的多樣化,以及人類遺傳資源數(shù)據(jù)管理的特殊需求,CNCB-NGDC對GSA數(shù)據(jù)庫進(jìn)行了更新和擴(kuò)展,形成了GSA數(shù)據(jù)庫體系,包括GSA、GSA-Human和OMIX。

GSA數(shù)據(jù)庫與2017發(fā)布的版本相比,在數(shù)據(jù)模型、系統(tǒng)功能和數(shù)據(jù)提交方式等方面進(jìn)行了更新和功能提升;GSA-Human是存儲人類遺傳資源數(shù)據(jù)的數(shù)據(jù)庫,可實(shí)現(xiàn)人類遺傳資源數(shù)據(jù)的受控訪問,保障人類遺傳資源數(shù)據(jù)的安全性;OMIX數(shù)據(jù)庫存儲非原始測序數(shù)據(jù),如環(huán)境組、表型組、代謝組等,作為上述兩種數(shù)據(jù)資源庫的重要補(bǔ)充,有效地解決了用戶提交除原始測序數(shù)據(jù)外的其他類型數(shù)據(jù)的需求。

截至2021年8月14日,GSA和GSA-Human已收集的數(shù)據(jù)量達(dá)9.5 PB,OMIX上線不久數(shù)據(jù)量已達(dá)1.6 TB。GSA數(shù)據(jù)庫體系已為全球111個國家/地區(qū)的用戶提供數(shù)據(jù)服務(wù),平均每天的數(shù)據(jù)下載量達(dá)4 TB,已成為Elsevier、Wiley、Taylor & Francis 、Cell及Springer Nature出版集團(tuán)指定的核酸數(shù)據(jù)歸檔庫,并獲得領(lǐng)域內(nèi)國內(nèi)外主流期刊的認(rèn)可。

研究工作得到國家重點(diǎn)研發(fā)計劃、中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、中科院信息化專項(xiàng)等的支持,GSA歸檔數(shù)據(jù)使用的計算機(jī)硬件設(shè)施得到國家財政部修繕購置專項(xiàng)的支持。

論文鏈接

北京基因組所關(guān)于原始數(shù)據(jù)管理體系(GSA Family)研發(fā)取得進(jìn)展-肽度TIMEDOO

GSA Family數(shù)據(jù)模型

來源: 北京基因組研究所