8月23日,,兩篇發(fā)表在《自然》雜志的論文宣告:科學(xué)家組裝了人類Y染色體的第一個(gè)完整序列,,補(bǔ)齊了人類基因組這部“生命天書(shū)”。多年以來(lái),,“生命天書(shū)”初稿被科學(xué)家反復(fù)打磨,、拾遺補(bǔ)闕。等待了20多年后,,Y染色體的完整“章節(jié)”姍姍來(lái)遲,。而這還只是一個(gè)開(kāi)始,未來(lái),,有關(guān)遺傳,、生育、疾病,、進(jìn)化的諸多密碼有望被一一破解,。
好消息傳來(lái)。美國(guó)國(guó)家人類基因組研究所領(lǐng)導(dǎo)美國(guó)約翰斯·霍普金斯大學(xué),、加州大學(xué)圣克魯斯分校等多家機(jī)構(gòu)的科學(xué)家組裝了人類Y染色體的第一個(gè)完整序列,。這是最后一個(gè)被完全測(cè)序的人類染色體,新序列填補(bǔ)了Y染色體長(zhǎng)度的一半以上的空白,。兩篇相關(guān)論文于8月23日發(fā)表在《自然》雜志上,。
幾十年來(lái),Y染色體作為人類兩性染色體之一,,由于其結(jié)構(gòu)的復(fù)雜性,,一直是基因組學(xué)界難啃的“硬骨頭”。現(xiàn)在,,這一難以捉摸的基因組區(qū)域已經(jīng)被完整測(cè)序,,這意味著,人類泛基因組的最后一塊“拼圖”被補(bǔ)上了。
這次測(cè)序?yàn)楫?dāng)前人類參考基因組增加了逾3000萬(wàn)個(gè)堿基對(duì),,揭示了多個(gè)基因家族的完整結(jié)構(gòu),并確認(rèn)了41個(gè)新的蛋白質(zhì)編碼基因,,為研究生殖,、進(jìn)化和人口變化相關(guān)的重要問(wèn)題提供了關(guān)鍵信息。
Y染色體測(cè)序困難重重
深圳華大生命科學(xué)研究院副院長(zhǎng)金鑫在接受科技日?qǐng)?bào)記者采訪時(shí)說(shuō):“人類基因組測(cè)序是理解人類疾病,、健康和進(jìn)化的關(guān)鍵,。通過(guò)將個(gè)體基因序列與參考基因組進(jìn)行比對(duì),科學(xué)家可以找到與疾病相關(guān)的基因,,進(jìn)而為個(gè)體提供更精準(zhǔn)的診斷和治療方案,。”
深圳華大生命科學(xué)研究院研究員周旸介紹說(shuō),,完整人類基因組中約有30億個(gè)堿基對(duì),,科學(xué)家其實(shí)很難通過(guò)直接測(cè)序把序列測(cè)通,所以在測(cè)序的時(shí)候,,需要將大片段的DNA進(jìn)行隨機(jī)打斷再進(jìn)行測(cè)序,。對(duì)于常染色體是如此,對(duì)于X和Y染色體亦然,。所以在測(cè)序結(jié)束后,,科學(xué)家需要通過(guò)對(duì)測(cè)序數(shù)據(jù)進(jìn)行拼接來(lái)得到完整真實(shí)的基因組序列。
1999年,,人類首次成功完成對(duì)人體染色體完整基因序列的測(cè)定,。科學(xué)家使用“短讀長(zhǎng)”測(cè)序技術(shù)來(lái)做到這一點(diǎn),,將DNA切成大約一百個(gè)堿基的小片段,,然后像拼拼圖一樣重新組裝它們。
2022年,,最新版人類參考基因組(T2T-CHM13)問(wèn)世,。該基因組包含22條常染色體和X染色體的無(wú)間隙序列,共有30.55億對(duì)堿基,,比之前的人類參考基因組(GRCh38)增加了近2億堿基對(duì)的遺傳信息,,約等于整個(gè)基因組8%的序列信息,達(dá)到了前所未有的完整程度,。然而,,人類參考基因組中的Y染色體,仍有約一半序列是缺失的,。
Y染色體的測(cè)序?yàn)槭裁慈绱思??周旸說(shuō):“這些未知區(qū)域主要集中在異染色質(zhì)區(qū)域。該區(qū)域主要由微衛(wèi)星序列組成,。要通過(guò)測(cè)序數(shù)據(jù)確定其序列是一件非常困難的事情,?!?
微衛(wèi)星序列通常屬于重復(fù)序列,是一種在基因組中廣泛存在的特殊DNA序列重復(fù)單元,。金鑫表示,,由于Y染色體包含大量重復(fù)或“回文”序列,共有多達(dá)百萬(wàn)個(gè)堿基對(duì),。而“短讀長(zhǎng)”技術(shù)無(wú)法跨越這么長(zhǎng)的重復(fù)序列,,從而無(wú)法確定正確的序列順序,也就無(wú)法繪制出完整序列,。
組裝測(cè)序數(shù)據(jù)就像嘗試閱讀一本被切成條狀的長(zhǎng)書(shū),,每一條都是書(shū)中的一句話。如果書(shū)中的所有句子都是唯一的,,那么就更容易確定句子的順序,。但是,如果同一句話重復(fù)了數(shù)千或數(shù)百萬(wàn)次,,那么這些句子的原始順序就沒(méi)有那么清楚了,。Y染色體上約有3000萬(wàn)個(gè)堿基字母是重復(fù)序列,就好像這本書(shū)的一半篇幅都重復(fù)著同樣的幾句話,。
技術(shù)“組合拳”助力測(cè)序
如果把染色體比作一本書(shū),,那么被稱為“短讀長(zhǎng)”的DNA測(cè)序技術(shù)一次只能讀取相對(duì)較短的序列,但現(xiàn)在,,“長(zhǎng)讀長(zhǎng)”DNA測(cè)序技術(shù)可在不影響準(zhǔn)確性的情況下生成更長(zhǎng)的DNA序列讀數(shù),,甚至可一次閱讀整個(gè)“句子”或“段落”。這樣,,研究人員能夠更準(zhǔn)確地判斷“句子”“段落”之間的排列順序,,從而更有助于完成完整的測(cè)序。
得益于“長(zhǎng)讀長(zhǎng)”DNA測(cè)序技術(shù)和創(chuàng)新的序列組裝方法,,科學(xué)家們終于實(shí)現(xiàn)了對(duì)Y染色體的無(wú)間隙讀取,。
周旸說(shuō):“科學(xué)家利用‘長(zhǎng)讀長(zhǎng)’DNA測(cè)序技術(shù),一定程度上降低了組裝Y染色體的難度,。另外,,科學(xué)家也針對(duì)新技術(shù)的測(cè)序數(shù)據(jù)開(kāi)發(fā)了新的組裝算法進(jìn)行自動(dòng)化組裝,提升了組裝效率,?!?
今年2月,美國(guó)國(guó)立衛(wèi)生研究院研究人員發(fā)布了一種創(chuàng)新的軟件工具Verkko,,用于組裝來(lái)自各種物種的真正完整的基因組序列,。研究人員稱,有了Verkko,研究人員現(xiàn)在只需按下一個(gè)按鈕就能自動(dòng)獲取完整的基因組序列,。
英國(guó)《新科學(xué)家》雜志網(wǎng)站8月23日?qǐng)?bào)道,,研究人員還運(yùn)用了英國(guó)牛津納米孔公司所開(kāi)發(fā)的納米孔(Nanopore)測(cè)序技術(shù)。當(dāng)單個(gè)DNA分子穿過(guò)一個(gè)納米孔時(shí),,就能讀取該分子的序列,,產(chǎn)生數(shù)百萬(wàn)個(gè)DNA堿基字母的片段,而不僅僅是幾百個(gè),。
在本次研究中,得益于上述方法,,團(tuán)隊(duì)能夠應(yīng)對(duì)Y染色體測(cè)序中的種種挑戰(zhàn),。
Y染色體上的新發(fā)現(xiàn)
此次發(fā)表的一篇論文稱,Y染色體包含62460029個(gè)堿基對(duì)序列,。該數(shù)字比參考基因組GRCh38里的Y染色體數(shù)據(jù)多了3000萬(wàn)個(gè)堿基對(duì),,標(biāo)志著測(cè)序完整性的顯著進(jìn)步。
通過(guò)改進(jìn)GRCh38中的錯(cuò)誤并闡明DAZ和RBMY等基因家族的結(jié)構(gòu)(這兩個(gè)基因家族都有助于精子的產(chǎn)生),,該團(tuán)隊(duì)增進(jìn)了對(duì)Y染色體遺傳結(jié)構(gòu)的理解,。
此外,這條完整的Y染色體有106個(gè)蛋白質(zhì)編碼基因,,比參考基因組多了41個(gè),。但幾乎所有這些額外的基因都只是一種被稱為T(mén)SPY的基因的副本。他們還辨識(shí)出以前被誤解為是細(xì)菌DNA的序列,,這些序列其實(shí)是之前未知的人類Y染色體序列,。
在另一篇論文中,包括美國(guó)杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室在內(nèi)的聯(lián)合團(tuán)隊(duì)組裝了代表世界21個(gè)不同人群的43名男性的Y染色體,。這些組裝結(jié)果更詳細(xì)地闡釋了Y染色體在人類演化歷史中的遺傳差異,。研究結(jié)果揭示了新的DNA序列、保守區(qū)域的特征,,以及促進(jìn)Y染色體復(fù)雜結(jié)構(gòu)的分子機(jī)制,。
金鑫表示,去年公布的T2T-CHM13完整基因組樣本取自一個(gè)葡萄胎的單倍基因組(完全性葡萄胎是一種罕見(jiàn)的妊娠并發(fā)癥,,由來(lái)源于胎盤(pán)的細(xì)胞異常生長(zhǎng)引起),,而此次樣本取自健康的人類個(gè)體。
上海交通大學(xué)長(zhǎng)聘教軌副教授毛亞飛告訴記者,,目前來(lái)看,,這個(gè)數(shù)目的樣本已經(jīng)是人類基因組測(cè)序上很大的突破。不過(guò),,下一步還應(yīng)該選擇更廣泛的樣本,,包括不同種族、地理區(qū)域和人群,這樣才能更好地代表全球人類遺傳多樣性,,進(jìn)而有助于揭示人類種群之間的遺傳差異和相似性,,從而提供更準(zhǔn)確的基因組參考。
完整基因測(cè)序意義非凡
Y染色體通常與生理性別為男性的個(gè)體相關(guān)聯(lián),,但它也可能存在于雌雄同體者中,。盡管Y染色體上的基因相對(duì)較少,但這些基因復(fù)雜且處在動(dòng)態(tài)變化中,,并具有編碼精子生成等重要功能,。完整的Y染色體參考序列將使科學(xué)家能夠以前所未有的方式更好地研究人類基因組中Y染色體的各種特征。
研究發(fā)現(xiàn),,不同個(gè)體含有10到40個(gè)TSPY基因拷貝,。例如,一名男子的Y染色體有與精子形成有關(guān)的TSPY基因的23個(gè)拷貝,,而另一名男子則有39個(gè)拷貝?,F(xiàn)在,科學(xué)家可以使用新的參考圖譜和已建立的Y染色體測(cè)序方法更好地研究這種進(jìn)化,。這可能是未來(lái)體外受精領(lǐng)域或其他生殖和不孕癥領(lǐng)域的研究焦點(diǎn),。
完整的、無(wú)間隙的Y染色體序列對(duì)于研究人類群體進(jìn)化和遷移至關(guān)重要,。毛亞飛補(bǔ)充說(shuō):“我們與猴子,、黑猩猩等有共同的演化線索,通過(guò)解析基因組變化,,可以了解人類是如何演化而來(lái)的,。”
“此前,,人們其實(shí)已經(jīng)根據(jù)Y染色體的基因組草圖定位了許多與雄性發(fā)育,、精子生成等過(guò)程相關(guān)的基因,也發(fā)現(xiàn)了Y染色體與諸如癌癥等疾病的關(guān)聯(lián),;而最近發(fā)表的Y染色體完整序列將會(huì)為探索這些區(qū)域序列的功能提供扎實(shí)的數(shù)據(jù)基礎(chǔ),。”周旸指出,,“新研究也進(jìn)一步揭示了個(gè)體間Y染色體的差異,。這些Y染色體上的變異以及與人類性狀的關(guān)聯(lián)分析將有助于人群演化、遺傳,、疾病等方面的研究,。”
總之,,完整的人類Y染色體將為許多新發(fā)現(xiàn)打開(kāi)大門(mén),。下一步,,研究人員計(jì)劃通過(guò)將Y染色體納入未來(lái)版本的人類泛基因組參考圖譜來(lái)進(jìn)一步改善Y染色體的研究。泛基因組是一種新的基因組參考,,它將來(lái)自不同祖先背景的多個(gè)人的基因組信息結(jié)合起來(lái),,最終可以實(shí)現(xiàn)更客觀的研究和臨床發(fā)現(xiàn),如幫助診斷疾病,、預(yù)測(cè)醫(yī)療效果和指導(dǎo)治療等,。
受訪專家均相信,目前發(fā)表的Y染色體的組裝結(jié)果只是一個(gè)開(kāi)始,。隨著技術(shù)的不斷發(fā)展,,總有一天全世界的每一個(gè)人都可以對(duì)自己的基因進(jìn)行測(cè)序。
金鑫展望道:“現(xiàn)在,,我們?nèi)メt(yī)院都是做血常規(guī),、尿常規(guī)等檢測(cè),未來(lái)有了臨床基因測(cè)序技術(shù)后,,我們可能要先做個(gè)基因常規(guī)檢測(cè),把最主要的遺傳信息跟疾病的關(guān)系,、藥物的禁忌都先了解清楚,,醫(yī)生再對(duì)癥下藥。所以,,基因組測(cè)序會(huì)對(duì)整個(gè)人類,,尤其是對(duì)了解我們自身的健康起到非常重要的作用?!?
(編輯:映雪)
