圖片來源:N.哈納切克/美(mei)國國家標準(zhun)與技(ji)術(shu)研(yan)究(jiu)院
編者按 8月23日(ri),兩篇發表在《自(zi)然》雜志的(de)(de)論文宣告:科學家組裝了人類Y染(ran)(ran)色體(ti)的(de)(de)第一(yi)個完整序(xu)列,補齊了人類基因組這部“生(sheng)命天書(shu)”。多(duo)年(nian)(nian)以來(lai)(lai),“生(sheng)命天書(shu)”初稿被科學家反復(fu)打磨(mo)、拾遺補闕。等待(dai)了20多(duo)年(nian)(nian)后,Y染(ran)(ran)色體(ti)的(de)(de)完整“章節”姍姍來(lai)(lai)遲。而這還只(zhi)是一(yi)個開始,未來(lai)(lai),有關(guan)遺傳、生(sheng)育、疾病、進化的(de)(de)諸多(duo)密碼有望被一(yi)一(yi)破解。
(資料圖片(pian)僅供參(can)考)
好消息(xi)傳來。美(mei)國國家(jia)人類基(ji)因組(zu)研究所領導美(mei)國約翰斯·霍普金斯大學(xue)、加州大學(xue)圣(sheng)克魯斯分校等多家(jia)機構的(de)科學(xue)家(jia)組(zu)裝(zhuang)了人類Y染(ran)(ran)色(se)體(ti)的(de)第(di)一(yi)個完(wan)整(zheng)序(xu)列。這是最后一(yi)個被完(wan)全測序(xu)的(de)人類染(ran)(ran)色(se)體(ti),新序(xu)列填補(bu)了Y染(ran)(ran)色(se)體(ti)長度的(de)一(yi)半以上的(de)空白。兩篇(pian)相關論文于8月(yue)23日發表在《自然(ran)》雜志上。
幾十年來,Y染色(se)(se)體作為人(ren)類兩性染色(se)(se)體之一(yi)(yi),由于其結構(gou)的復雜性,一(yi)(yi)直是基(ji)因(yin)(yin)組學界難啃(ken)的“硬(ying)骨頭”。現在,這一(yi)(yi)難以捉摸(mo)的基(ji)因(yin)(yin)組區域已經被完整測序,這意(yi)味著,人(ren)類泛(fan)基(ji)因(yin)(yin)組的最后(hou)一(yi)(yi)塊“拼圖”被補上了。
這次測序為當前人類參考基因組增(zeng)加了(le)逾3000萬(wan)個(ge)堿基對,揭示了(le)多個(ge)基因家族(zu)的(de)完整結構,并確認(ren)了(le)41個(ge)新的(de)蛋白質編碼基因,為研究生殖、進化和人口變(bian)化相關的(de)重要問題(ti)提供了(le)關鍵信息(xi)。
Y染色體測序困難重重
深圳華大生命(ming)科學研究院(yuan)副院(yuan)長金鑫在接受科技日報記者采訪時說:“人類基(ji)(ji)因(yin)組測序(xu)是理解人類疾病、健(jian)康(kang)和進化的關鍵。通過將個體基(ji)(ji)因(yin)序(xu)列(lie)與參考基(ji)(ji)因(yin)組進行比對,科學家可以找到與疾病相關的基(ji)(ji)因(yin),進而為個體提供更(geng)精準的診斷和治療方案(an)。”
深(shen)圳華大生命(ming)科學研究(jiu)院研究(jiu)員周(zhou)旸介紹說,完整人類基(ji)因組中約有30億(yi)個堿基(ji)對,科學家其實很難(nan)通(tong)(tong)過直接(jie)測(ce)序(xu)把序(xu)列(lie)(lie)測(ce)通(tong)(tong),所以在測(ce)序(xu)的時候(hou),需(xu)要將大片段的DNA進行隨機打斷再進行測(ce)序(xu)。對于(yu)常染(ran)色體是如此,對于(yu)X和(he)Y染(ran)色體亦(yi)然(ran)。所以在測(ce)序(xu)結束后,科學家需(xu)要通(tong)(tong)過對測(ce)序(xu)數據進行拼(pin)接(jie)來得到完整真實的基(ji)因組序(xu)列(lie)(lie)。
1999年,人類首次成(cheng)功完成(cheng)對人體(ti)(ti)染色(se)體(ti)(ti)完整(zheng)基因序列的(de)測(ce)(ce)定。科(ke)學家使(shi)用“短(duan)讀長(chang)”測(ce)(ce)序技術來做(zuo)到這(zhe)一(yi)點,將DNA切成(cheng)大約一(yi)百個堿基的(de)小片段,然后像拼(pin)(pin)拼(pin)(pin)圖一(yi)樣重新組裝它(ta)們。
2022年,最新版人(ren)(ren)(ren)類(lei)(lei)參考基(ji)因(yin)組(zu)(T2T-CHM13)問世(shi)。該(gai)基(ji)因(yin)組(zu)包含22條常染(ran)色體(ti)(ti)和X染(ran)色體(ti)(ti)的(de)(de)(de)無間隙(xi)序列,共有(you)(you)30.55億對堿(jian)基(ji),比之前的(de)(de)(de)人(ren)(ren)(ren)類(lei)(lei)參考基(ji)因(yin)組(zu)(GRCh38)增加(jia)了近2億堿(jian)基(ji)對的(de)(de)(de)遺傳信息,約等于整個(ge)基(ji)因(yin)組(zu)8%的(de)(de)(de)序列信息,達到(dao)了前所未有(you)(you)的(de)(de)(de)完整程度。然而,人(ren)(ren)(ren)類(lei)(lei)參考基(ji)因(yin)組(zu)中的(de)(de)(de)Y染(ran)色體(ti)(ti),仍有(you)(you)約一半序列是缺失的(de)(de)(de)。
Y染色(se)(se)體的測序為(wei)什么(me)如(ru)此棘手?周旸(yang)說:“這些未知(zhi)區(qu)域(yu)主要集中在異染色(se)(se)質區(qu)域(yu)。該(gai)區(qu)域(yu)主要由微衛星序列組成。要通過(guo)測序數據確定其序列是(shi)一件非常困難的事情。”
微衛星序(xu)(xu)(xu)(xu)列(lie)(lie)(lie)通常屬于重(zhong)(zhong)復序(xu)(xu)(xu)(xu)列(lie)(lie)(lie),是一種在基因組中廣泛(fan)存在的特(te)殊DNA序(xu)(xu)(xu)(xu)列(lie)(lie)(lie)重(zhong)(zhong)復單元(yuan)。金鑫表示(shi),由于Y染色(se)體包含(han)大量重(zhong)(zhong)復或“回文”序(xu)(xu)(xu)(xu)列(lie)(lie)(lie),共有(you)多達百萬個堿基對。而“短(duan)讀長”技術無(wu)法跨越這么長的重(zhong)(zhong)復序(xu)(xu)(xu)(xu)列(lie)(lie)(lie),從而無(wu)法確定正確的序(xu)(xu)(xu)(xu)列(lie)(lie)(lie)順(shun)序(xu)(xu)(xu)(xu),也就無(wu)法繪制出完整序(xu)(xu)(xu)(xu)列(lie)(lie)(lie)。
組(zu)裝(zhuang)測序(xu)(xu)數(shu)據就像嘗試閱(yue)讀(du)一本(ben)被切成條(tiao)狀的(de)(de)長(chang)書(shu),每一條(tiao)都(dou)是(shi)書(shu)中的(de)(de)一句(ju)(ju)話。如(ru)(ru)果(guo)書(shu)中的(de)(de)所(suo)有(you)句(ju)(ju)子都(dou)是(shi)唯(wei)一的(de)(de),那(nei)么(me)就更容易確定句(ju)(ju)子的(de)(de)順序(xu)(xu)。但是(shi),如(ru)(ru)果(guo)同(tong)(tong)一句(ju)(ju)話重(zhong)復(fu)了數(shu)千或數(shu)百(bai)萬次,那(nei)么(me)這(zhe)些句(ju)(ju)子的(de)(de)原始(shi)順序(xu)(xu)就沒有(you)那(nei)么(me)清(qing)楚了。Y染色體上(shang)約有(you)3000萬個堿基字母是(shi)重(zhong)復(fu)序(xu)(xu)列,就好像這(zhe)本(ben)書(shu)的(de)(de)一半篇(pian)幅都(dou)重(zhong)復(fu)著同(tong)(tong)樣的(de)(de)幾句(ju)(ju)話。
技術“組合拳”助力測序
如果把染色體比作一本(ben)書,那么被(bei)稱(cheng)為“短(duan)讀(du)(du)長”的(de)(de)DNA測(ce)序(xu)技術(shu)一次只能讀(du)(du)取相對(dui)較(jiao)短(duan)的(de)(de)序(xu)列,但(dan)現在,“長讀(du)(du)長”DNA測(ce)序(xu)技術(shu)可(ke)在不影響準確性的(de)(de)情(qing)況下生(sheng)成更長的(de)(de)DNA序(xu)列讀(du)(du)數,甚至可(ke)一次閱讀(du)(du)整個(ge)“句子(zi)”或“段落”。這樣,研究人員能夠更準確地(di)判斷“句子(zi)”“段落”之(zhi)間的(de)(de)排列順序(xu),從(cong)而更有助于完(wan)成完(wan)整的(de)(de)測(ce)序(xu)。
得(de)益于(yu)“長讀長”DNA測序(xu)技術和創新(xin)的序(xu)列組(zu)裝方法(fa),科學家們終于(yu)實現了(le)對Y染(ran)色體的無間隙讀取。
周旸說:“科(ke)學(xue)家利用‘長讀長’DNA測(ce)序技術(shu),一定程度上降低了(le)組(zu)裝(zhuang)Y染色體的難度。另外,科(ke)學(xue)家也針對新技術(shu)的測(ce)序數據開發了(le)新的組(zu)裝(zhuang)算法進行自動化(hua)組(zu)裝(zhuang),提(ti)升(sheng)了(le)組(zu)裝(zhuang)效率。”
今年2月,美國國立(li)衛生(sheng)研(yan)究院(yuan)研(yan)究人(ren)員發(fa)布了(le)一種創新的(de)軟件工具Verkko,用于(yu)組裝(zhuang)來自各種物種的(de)真正完(wan)整的(de)基(ji)因組序列(lie)(lie)。研(yan)究人(ren)員稱(cheng),有了(le)Verkko,研(yan)究人(ren)員現在(zai)只(zhi)需按下一個按鈕就(jiu)能自動(dong)獲取完(wan)整的(de)基(ji)因組序列(lie)(lie)。
英國《新(xin)科(ke)學家》雜志網站8月23日報道(dao),研(yan)究人員還運(yun)用了英國牛津納(na)米孔公司所開發(fa)的(de)納(na)米孔(Nanopore)測序技術。當單個(ge)(ge)(ge)DNA分(fen)子穿過(guo)一個(ge)(ge)(ge)納(na)米孔時,就能(neng)讀取該分(fen)子的(de)序列,產生數百(bai)萬個(ge)(ge)(ge)DNA堿基(ji)字母的(de)片段(duan),而不僅僅是幾(ji)百(bai)個(ge)(ge)(ge)。
在本次研究中,得益于上(shang)述方(fang)法,團隊能夠應對Y染色體測序中的種種挑戰。
Y染色體上的新發現
此次發表的(de)一篇論文稱,Y染(ran)色體(ti)包含62460029個堿基對序列。該數字比(bi)參考基因組GRCh38里的(de)Y染(ran)色體(ti)數據多了3000萬(wan)個堿基對,標志(zhi)著測序完整性的(de)顯著進步。
通(tong)過(guo)改進GRCh38中的錯誤并闡明DAZ和RBMY等(deng)基因(yin)家(jia)族的結構(這兩個基因(yin)家(jia)族都有助于精子的產生),該團隊(dui)增進了(le)對Y染色體遺傳結構的理解。
此外,這(zhe)條(tiao)完整的(de)(de)Y染色體(ti)(ti)有(you)106個蛋白質編碼(ma)基(ji)因,比(bi)參考基(ji)因組多了41個。但幾乎(hu)所(suo)有(you)這(zhe)些額(e)外的(de)(de)基(ji)因都只是(shi)一種被(bei)稱為TSPY的(de)(de)基(ji)因的(de)(de)副本。他們還辨識出以前被(bei)誤解(jie)為是(shi)細菌DNA的(de)(de)序列(lie)(lie),這(zhe)些序列(lie)(lie)其實是(shi)之前未知的(de)(de)人類Y染色體(ti)(ti)序列(lie)(lie)。
在(zai)另一(yi)篇(pian)論文(wen)中(zhong),包括(kuo)美(mei)國杰克遜基因組(zu)醫學實驗(yan)室(shi)在(zai)內(nei)的聯合(he)團隊(dui)組(zu)裝(zhuang)了代表世界21個不同人(ren)群的43名男性的Y染(ran)(ran)(ran)色(se)(se)體。這些組(zu)裝(zhuang)結(jie)果更詳(xiang)細(xi)地(di)闡釋了Y染(ran)(ran)(ran)色(se)(se)體在(zai)人(ren)類演化歷史中(zhong)的遺傳差異(yi)。研究結(jie)果揭示了新(xin)的DNA序列、保守區域的特征,以及促進Y染(ran)(ran)(ran)色(se)(se)體復(fu)雜結(jie)構的分子機制。
金鑫表示,去年公(gong)布的(de)(de)T2T-CHM13完整基因(yin)組(zu)樣本取自一個(ge)葡萄胎的(de)(de)單倍基因(yin)組(zu)(完全性葡萄胎是一種罕見的(de)(de)妊娠并發癥(zheng),由來源(yuan)于胎盤的(de)(de)細(xi)胞異(yi)常生長引(yin)起),而此(ci)次樣本取自健康的(de)(de)人類個(ge)體。
上海交通大學(xue)長聘教(jiao)軌副教(jiao)授毛亞飛告(gao)訴記者(zhe),目前來看,這個數目的(de)(de)樣本已經(jing)是人類基(ji)因(yin)組(zu)測序上很(hen)大的(de)(de)突破。不過(guo),下一步還應該(gai)選擇更廣泛的(de)(de)樣本,包括(kuo)不同種族(zu)、地理區域和人群,這樣才能(neng)更好(hao)地代表全球人類遺傳(chuan)多樣性(xing),進而有助于揭示人類種群之間(jian)的(de)(de)遺傳(chuan)差異和相似性(xing),從(cong)而提供更準確的(de)(de)基(ji)因(yin)組(zu)參(can)考(kao)。
完整基因測序意義非凡
Y染(ran)色(se)(se)體(ti)(ti)(ti)通常與生理(li)性(xing)別為男(nan)性(xing)的(de)(de)(de)個體(ti)(ti)(ti)相關(guan)聯,但它也可能存在于雌雄(xiong)同體(ti)(ti)(ti)者中。盡管Y染(ran)色(se)(se)體(ti)(ti)(ti)上的(de)(de)(de)基因相對較少(shao),但這些基因復雜且處在動(dong)態變(bian)化(hua)中,并(bing)具有編碼精子生成等重(zhong)要功能。完整的(de)(de)(de)Y染(ran)色(se)(se)體(ti)(ti)(ti)參考(kao)序列將使(shi)科學家能夠(gou)以前(qian)所(suo)未有的(de)(de)(de)方式更(geng)好地研究人(ren)類基因組(zu)中Y染(ran)色(se)(se)體(ti)(ti)(ti)的(de)(de)(de)各種特征(zheng)。
研(yan)究發現,不同個(ge)體(ti)含(han)有(you)(you)10到40個(ge)TSPY基因拷貝(bei)。例如,一(yi)名(ming)男(nan)子(zi)(zi)的Y染色(se)(se)體(ti)有(you)(you)與(yu)精(jing)子(zi)(zi)形成(cheng)有(you)(you)關的TSPY基因的23個(ge)拷貝(bei),而另一(yi)名(ming)男(nan)子(zi)(zi)則有(you)(you)39個(ge)拷貝(bei)。現在,科學(xue)家可以使用新的參考圖譜和(he)已建立的Y染色(se)(se)體(ti)測序(xu)方法更好地(di)研(yan)究這種進(jin)化。這可能是未來體(ti)外受(shou)精(jing)領域或其(qi)他生(sheng)殖和(he)不孕癥領域的研(yan)究焦(jiao)點。
完(wan)整的(de)、無間隙的(de)Y染色體序(xu)列對于研究人類群體進化(hua)和遷移至關重要(yao)。毛(mao)亞飛補充(chong)說:“我們與(yu)猴子(zi)、黑猩猩等有(you)共同的(de)演化(hua)線(xian)索,通過(guo)解(jie)析(xi)基因組變化(hua),可以(yi)了解(jie)人類是如何(he)演化(hua)而(er)來的(de)。”
“此前,人們(men)其實(shi)已經根據(ju)Y染色(se)體(ti)的(de)(de)(de)基因組草(cao)圖定位了許多與雄性發育、精子生(sheng)成等過程相關的(de)(de)(de)基因,也發現(xian)了Y染色(se)體(ti)與諸如癌(ai)癥等疾病(bing)的(de)(de)(de)關聯(lian);而(er)最近發表的(de)(de)(de)Y染色(se)體(ti)完整序列(lie)將(jiang)會為探索這些區域序列(lie)的(de)(de)(de)功能提(ti)供扎實(shi)的(de)(de)(de)數據(ju)基礎。”周旸指(zhi)出,“新研(yan)究(jiu)也進一步揭(jie)示了個體(ti)間Y染色(se)體(ti)的(de)(de)(de)差(cha)異。這些Y染色(se)體(ti)上的(de)(de)(de)變異以及(ji)與人類性狀的(de)(de)(de)關聯(lian)分析將(jiang)有(you)助于(yu)人群演化、遺傳、疾病(bing)等方面(mian)的(de)(de)(de)研(yan)究(jiu)。”
總之(zhi),完整的(de)(de)人類(lei)Y染(ran)(ran)色體將為許(xu)多新(xin)發現打開大門。下一步(bu),研(yan)(yan)究人員計劃通過將Y染(ran)(ran)色體納入未(wei)來(lai)版本(ben)的(de)(de)人類(lei)泛基因(yin)(yin)(yin)組(zu)(zu)參考(kao)圖譜(pu)來(lai)進一步(bu)改善Y染(ran)(ran)色體的(de)(de)研(yan)(yan)究。泛基因(yin)(yin)(yin)組(zu)(zu)是(shi)一種新(xin)的(de)(de)基因(yin)(yin)(yin)組(zu)(zu)參考(kao),它(ta)將來(lai)自不同祖(zu)先背景的(de)(de)多個人的(de)(de)基因(yin)(yin)(yin)組(zu)(zu)信(xin)息(xi)結合起來(lai),最終(zhong)可以實現更客觀(guan)的(de)(de)研(yan)(yan)究和臨床發現,如(ru)幫助診斷疾病、預(yu)測醫療效(xiao)果(guo)和指導治(zhi)療等。
受(shou)訪專家(jia)均相信,目前發(fa)(fa)表的(de)Y染色體的(de)組裝結果(guo)只(zhi)是一個開始。隨著技術的(de)不斷發(fa)(fa)展,總(zong)有一天(tian)全(quan)世(shi)界(jie)的(de)每一個人都可(ke)以(yi)對自(zi)己的(de)基(ji)因進行(xing)測(ce)序。
金鑫展(zhan)望道:“現在,我們(men)去醫院都(dou)是做血常(chang)規、尿常(chang)規等(deng)檢測,未來有了臨(lin)床基(ji)因測序(xu)技術(shu)后,我們(men)可能(neng)要(yao)先做個基(ji)因常(chang)規檢測,把最(zui)主要(yao)的(de)遺傳信(xin)息跟疾病(bing)的(de)關系、藥(yao)物的(de)禁忌都(dou)先了解清(qing)楚,醫生再對(dui)癥下(xia)藥(yao)。所以,基(ji)因組測序(xu)會對(dui)整個人類,尤(you)其(qi)是對(dui)了解我們(men)自身的(de)健康起到非常(chang)重要(yao)的(de)作用。”(記(ji)者(zhe) 張佳欣)
關鍵詞:
責任編輯:Rex_01