真·基因傳:從讀到寫(xiě)
從讀到寫(xiě)


一、生命語(yǔ)言的讀

1977年,弗雷德里克·桑格(Frederick Sanger)用雙脫氧法測(cè)定了噬菌體φX174的基因組序列,長(zhǎng)度為5386個(gè)堿基,這是人類(lèi)第一次測(cè)定一個(gè)生物體完整的基因組。但事實(shí)上這是指第一個(gè)DNA的基因組測(cè)定,第一個(gè)RNA的基因組測(cè)定其實(shí)是噬菌體MS2,由比利時(shí)根特大學(xué)的瓦爾特·菲爾斯(Walter Fiers)在1976年鑒定并公布,比前者早一年。也正是基于桑格的第一個(gè)DNA噬菌體測(cè)序,估算一個(gè)堿基的測(cè)序成本約為10美金,這就是最早人類(lèi)基因組計(jì)劃預(yù)估300億美金的由來(lái)。
1980年,桑格與沃爾特·吉爾伯特(Walter Gilbert)和保羅﹒伯格(Paul Berg)一起分享了諾貝爾化學(xué)獎(jiǎng),成為歷史上唯一一位兩次榮獲諾貝爾化學(xué)獎(jiǎng)的科學(xué)家。
利用Sanger雙脫氧終止法的測(cè)序原理,結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳技術(shù)來(lái)實(shí)現(xiàn)測(cè)序的自動(dòng)化,很多物種的基因組破譯得以實(shí)現(xiàn)。Sanger測(cè)序技術(shù)的優(yōu)點(diǎn)是測(cè)序讀長(zhǎng)長(zhǎng),能達(dá)到800-1K bp,且用時(shí)短,只需要幾十分鐘即可完成一次測(cè)序,準(zhǔn)確度高達(dá)99.999%,目前仍是測(cè)序的金標(biāo)準(zhǔn);2001年完成的首個(gè)人類(lèi)基因組圖譜就是以改進(jìn)了的Sanger法為其測(cè)序基礎(chǔ)。缺點(diǎn)是通量低、成本高,影響了其真正大規(guī)模的應(yīng)用。
此后,第一個(gè)測(cè)序的模式植物擬南芥于2000年完成。重要的糧食作物水稻基因組于2002年完成,第一個(gè)測(cè)序的家禽家雞基因組于2004年完成,高重復(fù)玉米基因組于2009年完成,這幾個(gè)項(xiàng)目華大都深度參與了。





短讀長(zhǎng)測(cè)序系統(tǒng)在2005-2007年因其可同時(shí)進(jìn)行大量平行測(cè)序反應(yīng)而廣為人知。這些系統(tǒng)可以同時(shí)分析百萬(wàn)甚至上億個(gè)序列反應(yīng)。短讀長(zhǎng)測(cè)序技術(shù)相比Sanger測(cè)序大幅降低了成本,保持了較高準(zhǔn)確性,并且大幅降低了測(cè)序時(shí)間,將一個(gè)人類(lèi)基因組測(cè)序從數(shù)年降至幾天之內(nèi)。
自從有了短讀長(zhǎng)大規(guī)模高通量并行測(cè)序技術(shù),行業(yè)真正進(jìn)入到物種破譯的“寒武紀(jì)”。2011年的土豆基因組、2012年第一個(gè)軟體動(dòng)物牡蠣基因組、2012年第一個(gè)六倍體物種小麥基因組、2013年復(fù)雜昆蟲(chóng)小菜蛾基因組、2014年火炬松基因組(迄今最大的植物基因組)的測(cè)序相繼完成。





長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)以其獨(dú)特的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),可以很好地解決復(fù)雜基因組組裝的難題。2015年發(fā)表在Nature上的復(fù)活草基因組文章,利用純長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)完成,相比短讀長(zhǎng)測(cè)序的動(dòng)植物基因組,在組裝質(zhì)量上有了很大改善 。
2016年海馬基因組、銀杏基因組,2017年人參基因組、潘那利番茄基因組,2018年六角恐龍/蠑螈基因組(迄今為止最大的基因組)、3000株水稻項(xiàng)目紛紛完成。其中3000株水稻項(xiàng)目首次實(shí)現(xiàn)了在頂級(jí)期刊Nature中使用漢字。2019年,首次對(duì)整個(gè)云南瑞麗植物園的761份樣本進(jìn)行全基因組測(cè)序,在植物研究史上添上了濃墨重彩的一筆。





二、生命語(yǔ)言的寫(xiě)


三、生命語(yǔ)言的發(fā)展和未來(lái)


四、不應(yīng)被遺忘的“基因傳”
首次合成結(jié)晶牛胰島素
1958年,我國(guó)科學(xué)家提出人工合成胰島素的設(shè)想,當(dāng)時(shí)國(guó)際上最高的科研水平,也只能合成由19個(gè)氨基酸組成的多肽。胰島素雖然是相對(duì)分子質(zhì)量較小的蛋白質(zhì),但是也由17種、51個(gè)氨基酸、兩條肽鏈組成。經(jīng)過(guò)6年多的艱苦努力,1965年9月17日,中國(guó)科學(xué)家首次用人工方法合成了結(jié)晶牛胰島素。
真正的DNA測(cè)序之父——吳瑞
1968年至1972年的幾年時(shí)間里,康奈爾大學(xué)的華人科學(xué)家吳瑞在DNA測(cè)序方面發(fā)表多篇文章。其中吳先生1968年的第一篇論文測(cè)定了DNA的堿基組成,1970年的新文章既測(cè)定DNA堿基組成又測(cè)定出順序,是真正的DNA測(cè)序第一人。而在吳瑞先生工作的啟發(fā)下,Sanger深入研究,改進(jìn)了之前的方法,才最終確立了DNA測(cè)序的主流方法Sanger法。在DNA測(cè)序史上,吳瑞先生的貢獻(xiàn)不應(yīng)被忽略。


本文系作者 @華大集團(tuán) 授權(quán)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。