<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      亚洲的天堂A∨无码视色,尤物久久免费一区二区三区,国产醉酒女邻居在线观看,9AⅤ高清无码免费看大片

      百圖生科AI大模型研發(fā)始末

      沈怡然2023-04-01 10:06

      經(jīng)濟觀察報 記者 沈怡然 “Give me aring-shaped protein”.(給我一個環(huán)形蛋白質(zhì))

      “Generate a drug for ALS”.(研制一款治療漸凍癥的藥物)

      當人類在對話框輸入以上指令,機器就能在一秒內(nèi)生成一個相應(yīng)的生命物質(zhì)。現(xiàn)在,這些科幻電影中的橋段有希望成為現(xiàn)實。就像ChatGPT打開了人機對話的窗口,一批生命科學(xué)AI大模型也在開發(fā)的路上。

      3月23日,生命科學(xué)平臺公司百圖生科對外發(fā)布了一款A(yù)IGP平臺,這也是一款基于其自研的AI大模型“xTri-mo”開發(fā)的、能幫助解決生命科學(xué)問題的工具。簡單說,這就像一個能生成蛋白質(zhì)的ChatGPT,根據(jù)用戶給定的參數(shù)和功能,給出各種蛋白質(zhì)、酶、細胞等的設(shè)計方案。3月30日,百圖生科CEO劉維對記者表示,設(shè)計的初衷是幫助研究者提供一些生命科學(xué)技術(shù)的基礎(chǔ)版本,讓研究者可以在基礎(chǔ)版本上進行創(chuàng)造,節(jié)約了一定的實驗時間和實驗費用。

      2017年前后,大模型的概念開始在業(yè)界流行,2020年劉維做這家公司的一個重要目的,就是嘗試給昂貴又有巨大價值的大模型技術(shù)找一個應(yīng)用場景。

      2021年公司做出了AI大模型“xTrimo”,這是一個多模態(tài)預(yù)訓(xùn)練模型,相當于“大腦”,后來基于改模型研發(fā)了的AIGP平臺,則是一個與用戶交互的窗口,AIGP在2022年開始內(nèi)測,直到2023年發(fā)布會上宣布了AIGP的公測,向海內(nèi)外專業(yè)用戶開放。

      “但是,目前AIGP還很難像Chat-GPT一樣在一秒鐘內(nèi)給出回答,用戶給定的參數(shù)和功能是復(fù)雜和專業(yè)的,AI需要數(shù)小時內(nèi)給出答案”,劉維對記者表示,新技術(shù)還處在初期,目前能在很多問題上有初步能力,但只能在一定概率下給出正確結(jié)果,其中又只有部分能一次性給對結(jié)果。

      “我們今天很像ChatGPT0.5的時代,在技術(shù)和算力資源上具備了一定基礎(chǔ),但數(shù)據(jù)圖譜的建立、實驗?zāi)芰Φ慕⑦^程仍然是從零開始,且復(fù)雜而艱巨的”。團隊的愿景是,將AI在生命科學(xué)研究的最終價值,是幫助解碼、治愈所有的疾病、解決當下難以應(yīng)對的全球公共衛(wèi)生問題、食物能源短缺以及環(huán)境污染等人類可持續(xù)發(fā)展的問題。

      理想和現(xiàn)實是有距離的,劉維表示,中間的過程非常復(fù)雜,算力、數(shù)據(jù)等資源上的支撐能力有限,還要考慮到社會融資的環(huán)境,團隊從改變傳統(tǒng)實驗中的一些細小流程切入,這也是一種革命性變化的開始。

      設(shè)計的初衷

      劉維表示,AI大模型可以處理大量生命科學(xué)數(shù)據(jù),提高數(shù)據(jù)分析的效率和準確性,機器的推理和自學(xué)習(xí)能力還可以將研究結(jié)果進行反向推理和優(yōu)化。團隊最初的設(shè)計是,用AI大模型生成一個個蛋白質(zhì)、酶、細胞等的設(shè)計方案,替代生命科學(xué)研究者的瑣碎工作,并在此基礎(chǔ)上幫助解決高級問題。

      生命科學(xué)是一個廣泛的學(xué)科,而蛋白質(zhì)和酶的研究是理解生命現(xiàn)象、促進生物技術(shù)發(fā)展和應(yīng)用的基礎(chǔ)。研究者通過研究蛋白質(zhì)和酶的結(jié)構(gòu)和功能,可以深入了解生物體內(nèi)化學(xué)反應(yīng)的原理和機制,研究酶的作用條件和抑制劑,可以優(yōu)化生物體內(nèi)的代謝途徑,提高生物體的生產(chǎn)力。

      生命科學(xué)是信息的學(xué)科,研究者通常需要大量的樣本來進行統(tǒng)計分析,但許多樣本往往難以獲取或者成本較高。而生命科學(xué)數(shù)據(jù)具有復(fù)雜性,如基因序列、蛋白質(zhì)結(jié)構(gòu)、表達量等,使得數(shù)據(jù)分析變得困難。

      較長的實驗時間也是痛點之一。劉維團隊所接觸到的一些生命科學(xué)研究者和相關(guān)公司,他們并非專業(yè)搞蛋白質(zhì)設(shè)計,對他們而言,要研發(fā)一個具有基本性能指標和功能的蛋白需要昂貴的時間和資金成本,“傳統(tǒng)的蛋白生成可能要做多輪動物篩選實驗,如小鼠篩選實驗?zāi)壳耙呀?jīng)非常工業(yè)化,但仍要等待動物自己起反應(yīng),過程有時需要數(shù)月時間,而AI在虛擬空間里生成只需要數(shù)小時”,劉維表示。

      劉維表示,研究者的實驗結(jié)果需要建立在過去大量實驗數(shù)據(jù)之上。而有些難成藥靶點很難找到它已有抗體的數(shù)據(jù),AI通過推理和預(yù)測,將全新的問題預(yù)測達到八九不離十,再通過多輪迭代找到疑難問題的答案,可以幫助研究者快速切入一個沒有數(shù)據(jù)的研究難題。

      研發(fā)的壁壘

      AI大模型需要計算資源,數(shù)據(jù)集深度學(xué)習(xí)框架,語料庫等多項能力的支撐。劉維表示,百圖生科在研發(fā)所需的算力方案上的確是站在百度的肩膀上。

      劉維表示,百圖生科的定位是李彥宏和劉維共同創(chuàng)立的一家獨立公司。根據(jù)企業(yè)工商信息資料,百圖生科(北京)智能技術(shù)有限公司中,劉維和李彥宏在股東中,分別占21.6%和1%,劉維還是企業(yè)實控人。

      百度的AI大模型在技術(shù)上有一定參考借鑒之處,團隊和百度自然語言處理的團隊在一些領(lǐng)域合作研發(fā)。百圖生科基于百度云平臺的研發(fā),在算力上也得到了百度的支持。

      劉維表示,訓(xùn)練出一個千億級別參數(shù)的模型版本需要將近1000個GPU跑幾個月時間,如果要將參數(shù)兩極達到萬億級,訓(xùn)練時間則翻十倍。過程中,研發(fā)大模型和推動AIGP迭代所需資金量很大,公司在2020、2021年共獲得上億美元融資,2023年新一輪融資也在推進之中。

      AI大模型需要輸入大量數(shù)據(jù)參數(shù)以增加對問題的理解度。劉維表示,生命科學(xué)作為一個及其垂直的領(lǐng)域,數(shù)據(jù)集的打造難度是很大的。團隊制作了生命科學(xué)的數(shù)據(jù)圖譜,90%來自于公開和半公開數(shù)據(jù)的整理,整理過程很復(fù)雜,很多數(shù)據(jù)散落在不同的數(shù)據(jù)集中,來自論文和專利等,甚至是非結(jié)構(gòu)化的,將一些無關(guān)聯(lián)的數(shù)據(jù)抽取出來并分類需要大量專業(yè)人員的努力。

      僅依靠公開數(shù)據(jù)無法支撐xTrimo的需求,團隊還自建實驗室自研AI/biotech技術(shù)以產(chǎn)生私域數(shù)據(jù),大模型中10%的數(shù)據(jù)來自于此。

      劉維表示,因為生命體的高度復(fù)雜度,目前數(shù)據(jù)量很大,但仍然是有限的。隨著生命科學(xué)領(lǐng)域觀測手段和技術(shù)的發(fā)展,吸收更多的數(shù)據(jù)尤其是垂直類數(shù)據(jù),將使我們能夠更加精細精準地理解進化,理解生命。這意味著,要實現(xiàn)這一目標公司需要不斷吸納新合作伙伴,特別是在體外模擬體系、超精度觀測和特殊驗證體系等方面具有豐富知識和技術(shù)的生命科學(xué)家。

      面對質(zhì)疑

      AI大模型的概念在2017、2018年左右在業(yè)界流行。海外研究機構(gòu)和公司開始很對一些專業(yè)領(lǐng)域開發(fā)AI大模型,Google母公司 Alphabet旗下的DeepMind開發(fā)了一種基于自然語言處理的工具,用于預(yù)測蛋白質(zhì)結(jié)構(gòu)和藥物設(shè)計;IBMResearch也在人工智能和機器學(xué)習(xí)的基礎(chǔ)上,與多家生命科學(xué)企業(yè)合作,開發(fā)了一些基于人工智能的應(yīng)用程序,例如用于藥物篩選和基因組測序的軟件。

      在創(chuàng)辦百圖生科之前,劉維曾做18年早期技術(shù)投資,在10年前以投資人的身份關(guān)注和布局了生命體的數(shù)字化技術(shù)。劉維發(fā)現(xiàn),在這樣的技術(shù)換代時期,一個新的、有能力打造平臺級技術(shù)底座、有決心長期投入做前沿創(chuàng)新藥物的公司,是市場所需要的。“2020年我們做這家公司的一個重要目的,是給昂貴又有巨大價值的大模型技術(shù)找一個應(yīng)用場景”,劉維表示,當時主流互聯(lián)網(wǎng)公司已經(jīng)在自然語言處理方面有一定的語料、技術(shù)積累,作為一個初創(chuàng)公司很難在這個領(lǐng)域競爭,需要在新問題、新模態(tài)上尋找答案,和主流的AI大模型互補,所以要選擇一個專業(yè)領(lǐng)域,而生命科學(xué)是很有價值的場景。

      公司開放AI大模型后,正積極尋求合作伙伴,而劉維發(fā)現(xiàn),對一種新技術(shù)往往有不同的態(tài)度,有的人更相信,有的人更質(zhì)疑。

      對此,劉維表示,技術(shù)在初期的確非常不完美,目前還需要技術(shù)再迭代升級,不斷提高準確和可靠。目前公司所選擇的賽道也充滿技術(shù)挑戰(zhàn),需要傳感器、AI、生物、數(shù)據(jù)等,AI大模型、高通量實驗系統(tǒng)等技術(shù)門檻都很高,小公司完成起來難度較大;另一方面AI大模型會對傳統(tǒng)生命科學(xué)的項目制研究模式構(gòu)成挑戰(zhàn),這使得一些大型藥企難以全面擁抱它。

      劉維表示,即便目前項目還不成熟,也希望開放給業(yè)內(nèi)共同合作創(chuàng)新。因為這涉及到路線選擇的問題,如果AIGP的目標定在設(shè)計一些不那么挑戰(zhàn)的蛋白質(zhì),一些利用行業(yè)現(xiàn)有方法、軟件、實驗技術(shù)就能發(fā)現(xiàn)的蛋白,那么當前的準確性、可靠性要高得多,因為問題簡單、數(shù)據(jù)充沛。總之,既然要做底層技術(shù)創(chuàng)新,還是應(yīng)該瞄準足夠有意義的高難度問題。

       

      版權(quán)聲明:以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán),嚴禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責任。版權(quán)合作請致電:【010-60910566-1260】。
      大科創(chuàng)新聞部記者
      關(guān)注硬科技領(lǐng)域,包括機器人及人工智能、無人機、虛擬現(xiàn)實(VR/AR)、智能穿戴,以及新材料領(lǐng)域。擅長企業(yè)深度報道及上市公司分析報道。發(fā)現(xiàn)前沿技術(shù)、發(fā)展趨勢投資價值。

      熱新聞

      電子刊物

      點擊進入
      亚洲的天堂A∨无码视色
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>