2016年,全球新發(fā)癌癥數(shù)量超過1400萬人,并導(dǎo)致了900萬人的死亡。癌癥在發(fā)達(dá)國家中已成為主要死亡原因之一,美國每年逝世的5個人當(dāng)中有一人是因癌癥致死。根據(jù)美國抗癌協(xié)會和國際癌癥協(xié)會數(shù)據(jù),所有的癌癥都是越早治療、治療效果越好。癌癥的早期發(fā)現(xiàn),可以為病理診斷和治療贏取更多的時間,能極大提高治愈率與患者生存周期及質(zhì)量。癌癥的早期篩查是個萬億級別的市場。
資本市場的火爆,得益于近十余年基因測序技術(shù)的迅猛發(fā)展,特別是在腫瘤領(lǐng)域的廣泛應(yīng)用。另一方面,機器學(xué)習(xí)技術(shù)在基因大數(shù)據(jù)處理上的大量應(yīng)用,積累了前所未有的知識。這些全新的知識及組合為醫(yī)療界打開了一扇新世界的大門,使得醫(yī)學(xué)工作者對許多疾病的認(rèn)識、篩查和治療都有了新的渠道和信息。
基因測序技術(shù)的進(jìn)步使得基因分析更加的高效快捷
人可以被看作一臺極其精密的儀器,人的一生,萬億計的細(xì)胞在體內(nèi)不斷復(fù)制更新,每代復(fù)制嚴(yán)格相同,但存在極其微小的錯誤率,造成所謂的基因突變。絕大多數(shù)突變無關(guān)緊要,少量突變造成抑制生長的基因的功能失常,或者激活生長基因,變成癌細(xì)胞。而癌細(xì)胞一旦逃避了免疫系統(tǒng)的監(jiān)控,就造成生長失控變成癌組織。
一條人的基因組序列共有30億位,按正常排版打印在A4紙上,大概有華盛頓紀(jì)念碑那么高。人與人之間會有小于千分之一的差異,癌細(xì)胞與自身的正常細(xì)胞基因組序列也會有細(xì)微的差別。基因測序的進(jìn)步,讓鑒別這些差別成為一件快速、高效、低成本的事。
計算機運算速度和能力的發(fā)展,進(jìn)一步推動了基因分析的進(jìn)步
由于人類基因組的復(fù)雜性,測序數(shù)據(jù)量非常龐大,一個人的全基因組測序數(shù)據(jù)可以達(dá)到上百G。普通的計算機技術(shù)和統(tǒng)計學(xué)方法無法在短時間內(nèi)很好地處理這些信息,而機器學(xué)習(xí)的發(fā)展以及GPU運算的進(jìn)步逐漸為科研工作者解決了這一難題?,F(xiàn)在只需要將基因測序的數(shù)據(jù)輸入經(jīng)過機器學(xué)習(xí)反復(fù)訓(xùn)練的模型中,計算機就可以很快的分析出目標(biāo)區(qū)域是否存在變異,進(jìn)而找到可能變異的基因點位為醫(yī)生提供更多的可用于診斷及治療的信息。正是因為機器學(xué)習(xí)和基因測序技術(shù)的日漸成熟,以癌癥篩查和診斷為首的各類疾病早篩項目漸漸成為科研及創(chuàng)投的熱點。
機器學(xué)習(xí)是近年來非?;馃岬募夹g(shù)方向
簡單來說,機器學(xué)習(xí)就是為計算機提供大量的數(shù)據(jù),而這些數(shù)據(jù)都有他們各自對應(yīng)的標(biāo)簽,例如我們想教會計算機識別圖片中的動物,我們則要提供各種各樣的動物圖片,并且每一張圖片都帶有對應(yīng)的標(biāo)簽,這個是貓,這個是狗等等。機器在分析大量的數(shù)據(jù)之后會在圖片之中找到規(guī)律,例如貓在圖片中大多是獨來獨往,而許多有狗的圖片中還有別的動物或人類。通過這些信息,計算機不斷地調(diào)整,更新它的數(shù)學(xué)模型。
當(dāng)有新的圖片到來時,計算機就可以根據(jù)建立好的模型來判斷哪個是貓,哪個是狗。當(dāng)然,這只是一個非常簡單的機器學(xué)習(xí)的例子,現(xiàn)在的機器學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于自動駕駛,數(shù)據(jù)分析,信息挖掘,治療診斷等等許多在過去只有人類能夠勝任的工作。成百上千的學(xué)習(xí)模型被開發(fā)出來,甚至有許多不需要大量數(shù)據(jù),或者不需要帶標(biāo)簽的數(shù)據(jù)就能學(xué)習(xí)的模型。正如70-80年代計算機開始爆發(fā)一般,這確實是一個機器學(xué)習(xí)的黃金年代。
今天就為大家詳細(xì)的闡述一下機器學(xué)習(xí)是怎樣與基因測序緊密合作完成癌癥早篩的。
ctDNA是什么
想理解基于基因測序的癌癥早篩首先需要理解什么是ctDNA。ctDNA是circulating tumor DNA的縮寫,也稱為循環(huán)腫瘤DNA。是一種存在于血液、尿液、腦脊液等體液中的細(xì)胞外的基因片段,主要來自于壞死或凋亡的腫瘤細(xì)胞。ctDNA是癌癥的特定標(biāo)記物,如果能在血液中檢測出ctDNA通常就意味著體內(nèi)有癌癥正在發(fā)生,這也是癌癥早篩的基本原理。
然而,因為ctDNA和由正常細(xì)胞產(chǎn)生的游離DNA碎片是混合在一起的,只占所有游離DNA(cell-free DNA,cfDNA)含量的0.1%-1%之間,因此準(zhǔn)確檢測出ctDNA的難度相當(dāng)?shù)拇蟆F渲兴婕暗降男盘柦翟?,降低假陽性、假陰性的發(fā)生率等都是難度相當(dāng)高的科研課題。
即使在體液中發(fā)現(xiàn)了ctDNA,由于血液循環(huán),ctDNA可能來源于身體的任意一處,確定腫瘤在體內(nèi)的生長位置也是另一件高難度的事情。得益于近些年腫瘤基因組測序結(jié)果的大量積累,科學(xué)家們發(fā)現(xiàn)了多種具有組織特異性的蹤跡。通過機器學(xué)習(xí)的途徑,結(jié)合這些蹤跡信息,科學(xué)家們就能通過ctDNA來大致判斷組織來源。
當(dāng)然,人工智能的發(fā)展并不代表我們可以輕松地解決問題。盡管在現(xiàn)如今,機器學(xué)習(xí),乃至深度學(xué)習(xí)已經(jīng)擁有了許多開源的算法,哪怕只是一個普通人也可以在一定程度的學(xué)習(xí)后,運用現(xiàn)有的接口去開發(fā)一些簡單的模型。但是也正是因為如此,不同層次的算法人才所做出的產(chǎn)品質(zhì)量和效果也截然不同。正如汽車制造的普及使得人人都可以擁有自己的汽車,但是普通人與賽車手之間車技的差距卻仍然非常明顯。
同樣,也因為這是個高度跨學(xué)科、知識密集型的領(lǐng)域,腫瘤早篩的創(chuàng)業(yè)團隊在機器學(xué)習(xí)方面的專精程度和對腫瘤病理學(xué)的理解導(dǎo)致了產(chǎn)品質(zhì)量和效果的巨大差距。譬如,由于人類基因組的高度復(fù)雜,和當(dāng)前二代測序技術(shù)依然存在一定的錯誤,使得數(shù)據(jù)分析成為極為關(guān)鍵的一環(huán)。團隊需要對測序數(shù)據(jù)的非常熟悉,精通數(shù)據(jù)挖掘的應(yīng)用,以及對腫瘤臨床知識有精準(zhǔn)的理解。
(審核編輯: 林靜)
分享