從讀到寫(xiě)

基因是生命的語(yǔ)言,在過(guò)去幾十年里,基因組測(cè)序和合成的過(guò)程,就是一部生命語(yǔ)言的發(fā)展史。在日前的”尹哥的深夜課堂“里,華大基因CEO尹燁博士以《基因傳:從讀到寫(xiě)》為題,和我們分享了這部磅礴遼遠(yuǎn)的發(fā)展史。
真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO

一、生命語(yǔ)言的讀

真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
和人類(lèi)的傳統(tǒng)語(yǔ)言認(rèn)知一樣,人類(lèi)對(duì)生命語(yǔ)言的掌握也是從最初的“讀”開(kāi)始。Sanger 測(cè)序初露端倪1965年,美國(guó)康奈爾大學(xué)的生化學(xué)家羅伯特·霍利(Robert Holley)采用類(lèi)似蛋白質(zhì)測(cè)序“化整為零”的方法,耗時(shí)7年(3年分離RNA,4年測(cè)序)測(cè)定了一條只有77個(gè)堿基的酵母轉(zhuǎn)運(yùn)RNA序列。這算得上第一個(gè)被測(cè)定序列的核酸分子。而他也在1968年與尼倫伯格、獲拉納一起分享了當(dāng)年的諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)。

1977年,弗雷德里克·桑格(Frederick Sanger)用雙脫氧法測(cè)定了噬菌體φX174的基因組序列,長(zhǎng)度為5386個(gè)堿基,這是人類(lèi)第一次測(cè)定一個(gè)生物體完整的基因組。但事實(shí)上這是指第一個(gè)DNA的基因組測(cè)定,第一個(gè)RNA的基因組測(cè)定其實(shí)是噬菌體MS2,由比利時(shí)根特大學(xué)的瓦爾特·菲爾斯(Walter Fiers)在1976年鑒定并公布,比前者早一年。也正是基于桑格的第一個(gè)DNA噬菌體測(cè)序,估算一個(gè)堿基的測(cè)序成本約為10美金,這就是最早人類(lèi)基因組計(jì)劃預(yù)估300億美金的由來(lái)。

1980年,桑格與沃爾特·吉爾伯特(Walter Gilbert)和保羅﹒伯格(Paul Berg)一起分享了諾貝爾化學(xué)獎(jiǎng),成為歷史上唯一一位兩次榮獲諾貝爾化學(xué)獎(jiǎng)的科學(xué)家。

利用Sanger雙脫氧終止法的測(cè)序原理,結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳技術(shù)來(lái)實(shí)現(xiàn)測(cè)序的自動(dòng)化,很多物種的基因組破譯得以實(shí)現(xiàn)。Sanger測(cè)序技術(shù)的優(yōu)點(diǎn)是測(cè)序讀長(zhǎng)長(zhǎng),能達(dá)到800-1K bp,且用時(shí)短,只需要幾十分鐘即可完成一次測(cè)序,準(zhǔn)確度高達(dá)99.999%,目前仍是測(cè)序的金標(biāo)準(zhǔn);2001年完成的首個(gè)人類(lèi)基因組圖譜就是以改進(jìn)了的Sanger法為其測(cè)序基礎(chǔ)。缺點(diǎn)是通量低、成本高,影響了其真正大規(guī)模的應(yīng)用。

此后,第一個(gè)測(cè)序的模式植物擬南芥于2000年完成。重要的糧食作物水稻基因組于2002年完成,第一個(gè)測(cè)序的家禽家雞基因組于2004年完成,高重復(fù)玉米基因組于2009年完成,這幾個(gè)項(xiàng)目華大都深度參與了。

真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO短讀長(zhǎng)測(cè)序快速崛起2010年,大熊貓基因組測(cè)序研究項(xiàng)目完成,繪制出基因組精細(xì)圖。這是中國(guó)科學(xué)家第一次全面系統(tǒng)地對(duì)大熊貓基因組進(jìn)行測(cè)序研究,也是全球第一個(gè)完全使用短讀長(zhǎng)合成法測(cè)序技術(shù)完成的基因組序列圖,全部組裝和分析軟件都是深圳生命科學(xué)研究院(原深圳華大基因研究院)自主編寫(xiě)。這一成果證明了短序列也能組裝成完整基因組,并成為基因組繪圖的國(guó)際標(biāo)準(zhǔn),集中體現(xiàn)了中國(guó)的科技競(jìng)爭(zhēng)力和中國(guó)科學(xué)家的創(chuàng)新能力。

短讀長(zhǎng)測(cè)序系統(tǒng)在2005-2007年因其可同時(shí)進(jìn)行大量平行測(cè)序反應(yīng)而廣為人知。這些系統(tǒng)可以同時(shí)分析百萬(wàn)甚至上億個(gè)序列反應(yīng)。短讀長(zhǎng)測(cè)序技術(shù)相比Sanger測(cè)序大幅降低了成本,保持了較高準(zhǔn)確性,并且大幅降低了測(cè)序時(shí)間,將一個(gè)人類(lèi)基因組測(cè)序從數(shù)年降至幾天之內(nèi)。

自從有了短讀長(zhǎng)大規(guī)模高通量并行測(cè)序技術(shù),行業(yè)真正進(jìn)入到物種破譯的“寒武紀(jì)”。2011年的土豆基因組、2012年第一個(gè)軟體動(dòng)物牡蠣基因組、2012年第一個(gè)六倍體物種小麥基因組、2013年復(fù)雜昆蟲(chóng)小菜蛾基因組、2014年火炬松基因組(迄今最大的植物基因組)的測(cè)序相繼完成。

真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
長(zhǎng)讀長(zhǎng)測(cè)序法高質(zhì)量的參考基因組對(duì)研究非常重要,但是某些復(fù)雜動(dòng)植物基因組(高重復(fù)序列、高雜合率)一直是基因組組裝的難題。測(cè)序技術(shù)經(jīng)過(guò)Sanger技術(shù)、短讀長(zhǎng)技術(shù)的發(fā)展,讀長(zhǎng)從最初的近1000bp降到了幾百bp,通量和速度大幅提升。為了彌補(bǔ)了讀長(zhǎng)較短的劣勢(shì),長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)應(yīng)運(yùn)而生。最大的特點(diǎn)就是單分子測(cè)序,測(cè)序過(guò)程無(wú)需進(jìn)行PCR擴(kuò)增。

長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)以其獨(dú)特的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),可以很好地解決復(fù)雜基因組組裝的難題。2015年發(fā)表在Nature上的復(fù)活草基因組文章,利用純長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)完成,相比短讀長(zhǎng)測(cè)序的動(dòng)植物基因組,在組裝質(zhì)量上有了很大改善 。

2016年海馬基因組、銀杏基因組,2017年人參基因組、潘那利番茄基因組,2018年六角恐龍/蠑螈基因組(迄今為止最大的基因組)、3000株水稻項(xiàng)目紛紛完成。其中3000株水稻項(xiàng)目首次實(shí)現(xiàn)了在頂級(jí)期刊Nature中使用漢字。2019年,首次對(duì)整個(gè)云南瑞麗植物園的761份樣本進(jìn)行全基因組測(cè)序,在植物研究史上添上了濃墨重彩的一筆。

真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO真·基因傳:從讀到寫(xiě)-肽度TIMEDOO

二、生命語(yǔ)言的寫(xiě)

真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
和人類(lèi)對(duì)語(yǔ)言的認(rèn)知規(guī)律一樣,當(dāng)我們知道了基因的序列就是生命的語(yǔ)言,會(huì)讀了必然要去寫(xiě)。對(duì)標(biāo)到基因語(yǔ)言上,合成基因、染色體就像最初開(kāi)始寫(xiě)句子、日記,合成物種相當(dāng)于已經(jīng)寫(xiě)出華麗的文章來(lái)了。從1828年的尿素合成到2017年的酵母基因組合成,尹燁博士細(xì)數(shù)了一百多年來(lái)的生物合成史上的關(guān)鍵節(jié)點(diǎn),涵蓋了氨基酸肽鏈、維生素C、奎寧、蛋白質(zhì)牛胰島素、葉綠素、青蒿素、多利羊克隆等重要合成技術(shù)突破,展示了波瀾壯闊的合成生物史。
真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
2017年3月,作為基因組合成領(lǐng)域的科學(xué)里程碑項(xiàng)目—— “人工合成酵母基因組計(jì)劃(Sc2.0 Project)”在國(guó)際合作組的通力協(xié)作下,取得了重大突破性進(jìn)展。國(guó)際協(xié)作組宣布完成2號(hào)、5號(hào)、6號(hào)、10號(hào)和12號(hào)這5條染色體的從頭設(shè)計(jì)與全合成,并從多個(gè)方面進(jìn)行了深入分析,最終獲得與普通酵母菌高度一致的人工合成酵母菌。人造酵母新生命的誕生,標(biāo)志著合成生物學(xué)里程碑式的進(jìn)展。這個(gè)領(lǐng)域的快速突破,將變革生物制造、醫(yī)藥、能源、環(huán)境、農(nóng)業(yè)等領(lǐng)域,帶來(lái)顛覆性的發(fā)展。

三、生命語(yǔ)言的發(fā)展和未來(lái)

生物合成的未來(lái)就是測(cè)序的現(xiàn)在,可以說(shuō),科技服務(wù)未來(lái)在于合成生物學(xué)。
真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
在演講中,尹燁博士對(duì)比讀寫(xiě)成本,引出SZ Index概念,指出大規(guī)模自動(dòng)化的大片段基因組DNA合成技術(shù)是未來(lái)基因組合成中提高效率和降低成本的重要手段,總體成本應(yīng)降低到每堿基1美分,是國(guó)際上未來(lái)的發(fā)展趨勢(shì)。
真·基因傳:從讀到寫(xiě)-肽度TIMEDOO
工欲善其事必先利其器。第一個(gè)人類(lèi)基因組草圖經(jīng)6個(gè)國(guó)家的精英科學(xué)家、耗時(shí)13年、耗費(fèi)38億美金;第一個(gè)中國(guó)人的基因組耗時(shí)數(shù)月、耗費(fèi)300萬(wàn)美金。隨著測(cè)序技術(shù)的迅猛發(fā)展,個(gè)人全基因組測(cè)序的費(fèi)用以超摩爾定律的速度下降。華大在2015年底推出了自主測(cè)序平臺(tái)BGISEQ-500,并于1年后推出600美元的WGS產(chǎn)品,引領(lǐng)業(yè)界真正進(jìn)入了百元基因組時(shí)代。WGS是目前大規(guī)模獲得人高質(zhì)量基因序列信息的主要手段,這些海量的數(shù)據(jù)將被用于評(píng)估個(gè)人健康和疾病,是助力精準(zhǔn)醫(yī)學(xué)的第一步。此外,華大還先后提出了“生命周期表”計(jì)劃和“地球生物基因組計(jì)劃”,旨在對(duì)已知物種進(jìn)行測(cè)序,尋找基因組之間的關(guān)聯(lián),進(jìn)一步挖掘隱藏在數(shù)據(jù)背后的生命規(guī)律。

四、不應(yīng)被遺忘的“基因傳”

在演講的最后,尹燁博士特別分享了自己對(duì)于暢銷(xiāo)書(shū)《基因傳》的補(bǔ)充意見(jiàn)。作為一部以“傳”為記、影響廣泛的科普通識(shí)讀物,《基因傳》卻忽略了部分華人在基因測(cè)序發(fā)展史上的標(biāo)志性事件,實(shí)在令人遺憾。尹燁博士現(xiàn)場(chǎng)列舉了其中幾點(diǎn)。人類(lèi)染色體數(shù)目之辨1923年,著名的美國(guó)遺傳學(xué)家佩因特得出人類(lèi)染色體數(shù)目是48條的結(jié)論,并長(zhǎng)達(dá)30多年無(wú)人質(zhì)疑。直到1955年12月22日,華裔科學(xué)家蔣有興在顯微鏡下觀察到了人胚細(xì)胞的染色體,得到了46條的結(jié)論。隨后,他又進(jìn)行了更進(jìn)一步驗(yàn)證,并把寫(xiě)好的論文送到Heredity雜志,最終在1956年4月發(fā)表。結(jié)論震驚了當(dāng)時(shí)整個(gè)細(xì)胞遺傳學(xué)界,并很快得到了很多其他實(shí)驗(yàn)室觀結(jié)果的驗(yàn)證。人們最終接受了”人類(lèi)染色體數(shù)為46條”這個(gè)科學(xué)事實(shí)。

首次合成結(jié)晶牛胰島素

1958年,我國(guó)科學(xué)家提出人工合成胰島素的設(shè)想,當(dāng)時(shí)國(guó)際上最高的科研水平,也只能合成由19個(gè)氨基酸組成的多肽。胰島素雖然是相對(duì)分子質(zhì)量較小的蛋白質(zhì),但是也由17種、51個(gè)氨基酸、兩條肽鏈組成。經(jīng)過(guò)6年多的艱苦努力,1965年9月17日,中國(guó)科學(xué)家首次用人工方法合成了結(jié)晶牛胰島素。

真正的DNA測(cè)序之父——吳瑞

1968年至1972年的幾年時(shí)間里,康奈爾大學(xué)的華人科學(xué)家吳瑞在DNA測(cè)序方面發(fā)表多篇文章。其中吳先生1968年的第一篇論文測(cè)定了DNA的堿基組成,1970年的新文章既測(cè)定DNA堿基組成又測(cè)定出順序,是真正的DNA測(cè)序第一人。而在吳瑞先生工作的啟發(fā)下,Sanger深入研究,改進(jìn)了之前的方法,才最終確立了DNA測(cè)序的主流方法Sanger法。在DNA測(cè)序史上,吳瑞先生的貢獻(xiàn)不應(yīng)被忽略。

來(lái)源:華大科技市場(chǎng)部