開源模型還是商業(yè)模型？阿里云智能張翅提出金融企業(yè)選擇大模型的6大挑戰(zhàn)

2024-05-27 14:18

大模型發(fā)展背景與趨勢

大模型是DT時代標志性產(chǎn)物

大模型是數(shù)字轉型（DT）時代的產(chǎn)物，標志著人工智能技術的一次重大突破，尤其是在自然語言處理（NLP）、圖像識別、推薦系統(tǒng)等領域。這些大模型，如OpenAI的GPT系列、Meta的Llama、Google的Gemini，基于Transformer架構，通過消化海量數(shù)據(jù)集進行預訓練，獲得了對人類語言、圖像等數(shù)據(jù)的深入理解和處理能力。

AI大模型：人類知識存儲、傳承和使用方式的一次重構

在數(shù)字轉型時代，大模型為企業(yè)提供了前所未有的機遇，使其能夠通過高效的數(shù)據(jù)分析和決策，實現(xiàn)業(yè)務流程的智能化、優(yōu)化客戶體驗和創(chuàng)新產(chǎn)品服務。從金融行業(yè)的智能投顧和欺詐監(jiān)測，到醫(yī)療行業(yè)的智能診斷和藥物發(fā)現(xiàn)，再到零售行業(yè)的個性化推薦，大模型的應用正深刻改變著傳統(tǒng)行業(yè)的運作模式和價值鏈。

在《全域數(shù)據(jù)“觀”》一書中，我們曾斷言：“數(shù)據(jù)的下一站是智能，數(shù)據(jù)最終會走向與業(yè)務系統(tǒng)的數(shù)智融合”，數(shù)據(jù)消費正在由“人”變成“系統(tǒng)”。未來數(shù)據(jù)技術將與云原生和智能化全面融合，形成“云數(shù)智一體化”服務。云原生技術棧，為企業(yè)帶來了資源彈性、異構算力、容器和微服務等技術手段，為業(yè)務創(chuàng)新和系統(tǒng)建設提供了高效、敏捷以及成本低、可擴展的解決方案；數(shù)據(jù)中臺的興起，讓企業(yè)將數(shù)據(jù)庫里“不會說話”的表格，轉換成指標、標簽、因子、特征等數(shù)據(jù)資產(chǎn)形態(tài)，并直接用于分析與業(yè)務決策。現(xiàn)如今，AI大模型正在以驚人的速度重構各行各業(yè)的業(yè)務流程與系統(tǒng)產(chǎn)品，一方面云原生為大模型訓練與推理提供了資源保障，數(shù)據(jù)中臺為大模型應用提供高質量語料和結構化知識；另一方面在大模型全面“智能涌現(xiàn)”能力的驅動下，將傳統(tǒng)偏零散化的數(shù)據(jù)能力進一步體系化和智能化，加快BI+AI的融合，實現(xiàn)從“洞見”到“決策”，推動企業(yè)加速走向“云數(shù)智一體化”的終極形態(tài)，最終為客戶帶來更為全新的產(chǎn)品服務體驗。

大模型發(fā)展的趨勢

趨勢一：“Cloud+AI”大模型與云的結合日益緊密

在信息技術領域，無疑地，云計算和人工智能（AI）大模型的快速發(fā)展正日益成為推動現(xiàn)代社會進步的兩大驅動力。特別是在中國和美國，這兩種技術不僅誕生并蓬勃發(fā)展，還持續(xù)引領著全球技術革命的浪潮。隨著時間的推移，大模型與云計算的結合日益緊密，這種融合在推動著科技界走向新的里程碑。

首先，觀察全球技術發(fā)展格局可以發(fā)現(xiàn)，中國和美國無疑是云技術和AI大模型誕生與創(chuàng)新的兩大中心。這兩個國家不僅擁有領先的技術研發(fā)實力，還具備廣闊的市場應用場景和成熟的產(chǎn)業(yè)生態(tài)，促進了云計算和AI大模型技術的飛速發(fā)展，并在全球范圍內形成了巨大的影響力。

進一步而言，大模型的迭代進化主要發(fā)生在云端。這是因為云計算提供了高度可擴展的計算資源，使得研究人員和開發(fā)者能夠在無需自建龐大物理基礎設施的情況下，進行模型的訓練和部署。云平臺上的彈性資源和高效管理工具為大模型的開發(fā)和優(yōu)化提供了理想的環(huán)境，極大地加速了AI大模型的迭代周期，使得模型能夠更快地進化和優(yōu)化，更好地適應各種復雜的應用需求。

而且，大模型所遵循的scaling laws（規(guī)模定律）正重塑著算力基礎設施。隨著模型規(guī)模的不斷擴大，其對計算資源的需求也呈指數(shù)級增長，這一現(xiàn)象催生了對更高性能、更高效率算力基礎設施的需求。云計算平臺通過部署先進的硬件技術、優(yōu)化計算資源分配和加強數(shù)據(jù)處理能力來應對這一需求，進而推動了算力基礎設施的快速進化。這種進化不僅滿足了當前大模型對算力的高需求，也為未來AI技術的持續(xù)創(chuàng)新和應用提供了堅實的支撐。

大模型與云計算的緊密結合，不僅體現(xiàn)在中國和美國這兩個技術強國的快速發(fā)展上，更在于云端成為大模型迭代進化的主戰(zhàn)場，以及大模型對算力基礎設施的重新塑形。這種趨勢預示著，未來科技的進步將在這樣的融合與互動中繼續(xù)加速，推動人類社會進入一個全新的智能時代。

趨勢二：“AI Everywhere”大模型無處不在，成為企業(yè)數(shù)字化標配

在當今的數(shù)字化時代，大模型技術以其強大的數(shù)據(jù)處理能力和智能化水平，正逐步成為企業(yè)數(shù)字化轉型的標配。其廣泛的應用不僅僅局限于傳統(tǒng)的計算中心，更是與小模型、新終端以及數(shù)據(jù)中臺結合，共同構筑起一個多元化部署與互聯(lián)互通的新生態(tài)，極大地深化了對數(shù)據(jù)資源的挖掘與運用能力。

首先，大模型與小模型的結合體現(xiàn)了模型部署的多元化。大模型因其強大的學習和預測能力，成為許多復雜任務的首選。然而，針對一些對實時性、資源消耗有嚴格要求的場景，小模型以其輕量級、高效率的特性，更為適合。通過將大模型預訓練的強大認知能力與小模型的靈活部署結合，企業(yè)能夠更高效、更經(jīng)濟地解決廣泛的業(yè)務問題，實現(xiàn)智能決策和操作的優(yōu)化。

接著，大模型與新終端的結合拓展了模型鏈接的多元化。隨著物聯(lián)網(wǎng)(IoT)的蓬勃發(fā)展，智能終端遍布生活的每一個角落。大模型不再局限于服務器端的運算，而是通過云計算和邊緣計算下沉至各種智能終端，如智能手機、智能家居、自動駕駛車輛等。這種變化使得大模型的應用場景得到極大拓展，為用戶帶來更加豐富、便捷、個性化的智能服務。

最后，大模型與數(shù)據(jù)中臺的緊密結合，促進了圖像、音視頻、文本等數(shù)據(jù)集的多元化。數(shù)據(jù)中臺作為企業(yè)數(shù)據(jù)管理和運營的核心平臺，為大模型提供了豐富、高質量的數(shù)據(jù)支持。通過有效地聚合和整合企業(yè)內外的各類數(shù)據(jù)資源，大模型可以在更加多元化的數(shù)據(jù)基礎上進行訓練和優(yōu)化，能夠處理和理解更加復雜多變的業(yè)務場景，如圖像識別、語音視頻處理、語言應用等，從而極大地提高了企業(yè)的業(yè)務處理能力和用戶交互體驗。

大模型正逐步滲透到企業(yè)數(shù)字化建設的各個層面，與小模型、新終端以及數(shù)據(jù)中臺等多元化的元素相結合，進一步拓寬了其應用范圍，提升了處理效率和智能水平。大模型無處不在，已經(jīng)成為推動企業(yè)數(shù)字化轉型的關鍵力量。

趨勢三：“AI Native SaaS Rise”大模型企業(yè)級市場崛起，向深度化、產(chǎn)業(yè)化、垂直化方向發(fā)展

大模型技術的崛起已成為推動企業(yè)級市場向深度化、產(chǎn)業(yè)化、垂直化方向發(fā)展的關鍵動力。企業(yè)正越來越傾向于將這一技術作為核心驅動力，深入挖掘其在特定行業(yè)中的應用價值和潛力，進而實現(xiàn)智能化升級與業(yè)務創(chuàng)新。

首先，大模型在企業(yè)級市場中的深度化應用成為一種不可逆轉的趨勢。它們不僅被應用于優(yōu)化傳統(tǒng)的數(shù)據(jù)處理和分析流程，更在預測分析、個性化服務、自動決策制定等領域中展現(xiàn)出強大的能力。這種深度化應用的背后，是企業(yè)對于數(shù)據(jù)價值認知的提升以及對于操作效率和決策質量改進的需求。

“小切口，大縱深”的發(fā)展策略，正加速大模型在特定行業(yè)中的垂直化和產(chǎn)業(yè)化落地。企業(yè)通過聚焦于行業(yè)的細分領域，利用大模型深耕特定的痛點和需求，不僅提升了解決方案的適配性和有效性，也推動了整個行業(yè)的智能化水平。這種策略的實施，充分顯示了大模型在解決復雜行業(yè)問題時的獨特優(yōu)勢，促進了技術與行業(yè)深度融合，實現(xiàn)了產(chǎn)業(yè)升級。

企業(yè)間的開放新形態(tài)，特別是在金融領域涌現(xiàn)的新的Open Banking模式，為大模型技術的應用開辟了更加廣闊的舞臺。Open Banking帶來的數(shù)據(jù)共享和API開放不僅有利于現(xiàn)有金融服務的增值，還為金融科技創(chuàng)新和跨行業(yè)合作打開了大門。這為大模型技術的應用和發(fā)展提供了更加廣闊的舞臺和應用場景。

大模型技術在企業(yè)級市場的崛起，不僅預示著企業(yè)對于數(shù)據(jù)和智能的更深層次應用和挖掘，也引領了向產(chǎn)業(yè)化、垂直化方向的戰(zhàn)略發(fā)展。

趨勢四：“AI API First”大模型功能性能力突破性增長

近段時間以來，大模型正在經(jīng)歷功能性能力的快速增長和重大突破，其中多模態(tài)、Agent模式以及Assistant API成為了推動這一進程的關鍵力量。這些技術革新不僅擴展了大模型在不同領域的應用范圍，還為人機交互和應用開發(fā)帶來了新的可能。

多模態(tài)技術的出現(xiàn)和成熟拓展了大模型的廣度，讓機器能夠同時處理和理解文本、圖像、音頻等多種類型的數(shù)據(jù)，實現(xiàn)了對人類溝通方式的更全面理解。這標志著AI從處理單一類型數(shù)據(jù)向綜合理解不同數(shù)據(jù)類型的重大進步。多模態(tài)大模型在提升信息獲取的全面性和準確性方面展示了巨大潛力，極大地豐富了AI在自動化內容創(chuàng)作、跨媒體信息檢索、以及增強現(xiàn)實等方面的應用場景。

Agent模式的崛起，成為人類與AI協(xié)作的一種重要方式。在這種模式下，AI可以作為一個個體（agent），擁有自我學習和自主決策的能力，在特定的環(huán)境中根據(jù)既定的目標執(zhí)行任務。這不僅表明了AI的工作模式正變得更加智能化和個性化，也為人類提供了強大的助手，從簡單的數(shù)據(jù)分析到復雜的決策制定，AI Agent能夠有效地輔助人類完成各種任務，推動人機協(xié)作進入新的階段。

Assistant API的推出，為開發(fā)者提供了全新的能力，大幅降低了開發(fā)門檻。通過簡單的API調用，開發(fā)者可以輕松地將大模型的強大功能集成到自己的應用或服務中，無需深入了解模型內部的復雜機理，即可搭建出智能化程度高、用戶體驗好的應用產(chǎn)品。這種開放的、低門檻的開發(fā)方式，不僅加速了創(chuàng)新應用的推出，也讓更多企業(yè)和個人能夠享受到AI技術帶來的紅利。

趨勢五：“AI Cyber Security”大模型更重視隱私和數(shù)據(jù)安全

隨著大模型的廣泛應用，對隱私和數(shù)據(jù)安全的重視程度日益增強。企業(yè)和研究機構正在通過實施一系列措施，來加強對用戶數(shù)據(jù)的保護，確保信息安全和隱私被妥善處理。這些措施的核心在于構建一個有效、可靠的數(shù)據(jù)管理及隱私防護框架，確保大模型安全評估體系的全面性，并解決AI工作的可解釋性問題。

有效的數(shù)據(jù)分類分級制度成為奠定數(shù)據(jù)管理及隱私防護框架的基礎。通過對數(shù)據(jù)進行系統(tǒng)的分類和分級，明確不同類別數(shù)據(jù)的處理要求和安全標準，可以更加有針對性地制定保護措施。這種方法不僅有助于提升數(shù)據(jù)處理的效率和精準度，也有利于識別和保護那些最敏感和價值最高的數(shù)據(jù)，從而有效減少數(shù)據(jù)泄露和濫用的風險。

構建一套全面的安全評估體系對于大模型體系至關重要。這套體系應涵蓋大模型訓練、部署、應用生命周期的各個階段，從數(shù)據(jù)的收集、存儲、使用到銷毀等，每個環(huán)節(jié)都應進行嚴格的安全審查和評估。通過定期進行安全審計、漏洞掃描和風險評估等活動，可以及時發(fā)現(xiàn)和修復安全漏洞，強化系統(tǒng)的安全防護能力，減輕外部攻擊和內部泄露的風險。

隨著大模型應用到越來越多的場景，其工作的可解釋性問題越來越受到重視。大模型，特別是transformer的架構被認為是“黑盒”，難以解釋其決策邏輯和過程。增強AI工作的可解釋性不僅有助于建立用戶對AI決策的信任，也是確保模型公平、無偏見的關鍵。通過開發(fā)和應用新的解釋性技術和方法，讓AI的決策過程更加透明，可以有效提升模型的公正性和安全性，減少錯誤決策和偏差帶來的風險。

金融企業(yè)擁抱大模型面臨的挑戰(zhàn)

“科技本質上是工具，其真正價值在于解決我們面臨的各種問題，而非僅限于自我展示的華麗舞臺。”這一觀點在大模型領域同樣適用且更具象化。我們可以定位大模型：“大模型之于問題，恰似鑰匙之于鎖，其存在的意義在于解鎖通往智慧殿堂的大門，而非僅供觀瞻的浮華裝飾。”

大模型在金融領域的廣泛應用并非一片坦途，它在為金融機構帶來顯著價值增益的同時，亦暴露出一系列不容忽視的問題與挑戰(zhàn)。這些問題不僅關乎技術層面的可行性與穩(wěn)定性，更延伸至合規(guī)、安全、倫理等多個關鍵維度，對金融企業(yè)的穩(wěn)健運營與長期發(fā)展構成潛在考驗。因此，深入探討金融企業(yè)采用大模型可能面臨的問題，對于理性評估其戰(zhàn)略價值，制定科學的應對策略，乃至推動整個行業(yè)在技術創(chuàng)新與風險管理之間找到平衡至關重要。

問題1: “有限算力+持續(xù)進化的算力”，雙重制約下的算力資源

“有限算力+持續(xù)進化的算力”，這種雙重制約下的算力資源現(xiàn)狀，體現(xiàn)了大模型時代中一個核心的矛盾和挑戰(zhàn)：如何在當前資源的限制之下，同時規(guī)劃和適應不斷進化和增強的計算能力。這對應用場景選擇、資源投入、大模型部署方式等方面提出了復雜的要求。

1、算力永遠短缺：隨著大模型參數(shù)量的持續(xù)膨脹，其對算力資源的消耗顯著增長。同時，在AI持續(xù)“重塑”業(yè)務流程的過程中，對算力資源的需求也出現(xiàn)了急劇飆升。這兩方面因素相疊加，共同加劇了現(xiàn)有算力資源供不應求的局面，使得算力短缺成為了一個常態(tài)性的挑戰(zhàn)。

2、硬件高速迭代：GPU每18到24個月，迭代出一代新產(chǎn)品，配備更先進的架構和更強大的計算能力，而通常采購周期都以年為單位，使得我們將不得不面對，剛上線的算力資源，就被新一代所淘汰，性價比下降，同時還要面對算力利用率不高，資源極度浪費的情況。

3、資源兼容優(yōu)化配置：國內外的不同廠商GPU算力水平參差不齊，技術框架互不兼容，整合這些異構的資源，管理配置和優(yōu)化算力的使用，將是我們面臨的又一個挑戰(zhàn)。

問題2: “開源模型 vs 商業(yè)模型”，左右互搏的自建大模型之路

在大模型選型之路上，是選擇開源模型還是商業(yè)模型？開源大模型和開源軟件是一回事嗎？

成熟開源軟件與當下開源模型區(qū)別：

1、成熟開源軟件通常是技術和能力相對成熟和穩(wěn)定的軟件應用和系統(tǒng)，分享的是完整的代碼庫和文檔，用戶可以自由地對與自身業(yè)務有關的代碼進行修改，一般以使用核心能力為主定制為輔，版本迭代周期相對比較慢，同時也會規(guī)定了用戶使用軟件的權利和限制條件。

2、當下開源模型是專注于數(shù)據(jù)科學、人工智能和相關領域，作為數(shù)據(jù)處理和分析的關鍵組件，正處于技術迭代的高速發(fā)展期，一般以月或季度為單位進行新版本發(fā)布，并且技術和能力持續(xù)性攀升，一般版本開源是有限的，無法按照客戶業(yè)務進行深度的定制，并且全局能力一般不建議調整。

開源模型與商業(yè)模型的優(yōu)勢與不足：

1、開源模型：通常允許用戶審查和驗證模型的代碼和架構，不需要支付額外的許可費用，能夠通過社區(qū)迭代升級。但需要專業(yè)人才研究和業(yè)務磨合嘗試，周期長見效慢，缺少專門維護和支持，不包含商業(yè)產(chǎn)品中的安全和穩(wěn)定性，文檔和易用性支持較弱，模型升級迭代周期一般6-12個月，業(yè)務集成應用的時間會更長。我們不應該拘泥于對種類繁多參數(shù)的基礎模型進行訓練或微調，模型能力比對和測評，應該把更多精力放在如何讓模型在業(yè)務中產(chǎn)生價值，因為不同的模型因訓練數(shù)據(jù)的差別，業(yè)務適配能力又有不同。

2、商業(yè)模型：提供商雖然提供全面的客戶支持和服務，附帶明確的服務等級協(xié)議（SLA），模型迭代升級非常快，公有云以月為單位小版本迭代，線下以季度訂閱更新，并提供對兼容性、穩(wěn)定性和安全性的保證，能夠滿足金融行業(yè)的法規(guī)和遵從性要求，也提供完整的解決方案，軟硬件產(chǎn)品的良好整合，降低業(yè)務場景落地的風險。但技術透明性較差，長期依賴特定的商業(yè)模型和平臺可能導致供應商鎖定，降低切換供應商的靈活性。

問題3: “大模型 vs 越來越大的模型”，模型size的軍備競賽

OpenAI的研究者在2020年發(fā)現(xiàn)，大語言模型也遵循著規(guī)模定律（Scaling Law），模型參數(shù)數(shù)量的增加常常被看作是提高模型性能的一個關鍵因素。這導致了一種被業(yè)界戲稱為“模型參數(shù)的軍備競賽”的現(xiàn)象，即科研機構和科技公司不斷推出參數(shù)量更大、計算需求更高的模型，以追求在特定任務上的最佳性能。然而，這種軍備競賽帶來了諸多挑戰(zhàn)：

越來越大的模型通常具有更強的學習能力和泛化能力，因為有更多的參數(shù)可以捕捉數(shù)據(jù)中的復雜特征和模式。能夠處理更復雜的任務和數(shù)據(jù)集，通常在各種基準和實際問題上表現(xiàn)更好。隨著參數(shù)數(shù)量的增加，模型通常能夠更好地理解語言的細微差別或更精準地識別圖像中的對象。

但越來越大的模型帶來能力提升的同時，也帶來了海量的算力消耗，如何根據(jù)不同的業(yè)務場景選擇合適的模型將是一個迫在眉睫的問題？

大模型推理運行時，核心消耗的資源是顯存，推理過程中除了要加載對應參數(shù)的模型，還與輸入輸出的參數(shù)量有關，輸入?yún)?shù)越多顯存消耗越大，輸出參數(shù)量越多模型響應越慢，我們根據(jù)一個簡單的估算公式，來評估不同業(yè)務場景的資源消耗：

大模型推理的總顯存占用公式： ≈1.2?

（詳見參考：Transformer Inference Arithmetic | kipply's blog）

以72B參數(shù)的模型，在BF16精度下（浮點數(shù)2個字節(jié)）

≈1.2*（72億*2）≈172.8G

運行一個72B的大模型至少需要3張A100（80G），現(xiàn)以企業(yè)知識庫和智能外呼場景為例進行資源評估：

知識庫檢索場景：典型的RAG增強檢索高并發(fā)場景，輸入少輸出多，每次問題請求處理時間在1-2s，峰值支持50并發(fā)（按照5000人的金融機構有1%的并發(fā)率），需要的GPU卡的數(shù)量在150-300張A100（80G），如果想要更精準的回復，可以選擇200B或更大的模型，但200B大模型算力消耗會有2.7倍的增加。

智能外呼場景：典型的高并發(fā)低延時場景，輸入多輸出少，每次意圖識別響應時間200-300ms，峰值支持1000并發(fā)，需要的GPU卡的數(shù)量在600-900張A100（80G）。

在正式生產(chǎn)業(yè)務應用時，業(yè)務是有典型的波峰波谷的，如果我們按照波峰要求建設算力池，勢必會帶來資源的低效使用，例如：知識庫檢索應用的平均資源利用率在20%-30%；智能外呼應用的平均資源利用率在5%-10%。如何提高算力資源利用率將是一個頗具挑戰(zhàn)的問題？

問題4: “大模型RAG一天入門 vs 365天的持續(xù)優(yōu)化”，RAG系統(tǒng)的修行

Retrieval-Augmented Generation (RAG) 技術巧妙融合了信息檢索與文本生成的雙重優(yōu)勢，為應對復雜查詢和生成任務（如問答系統(tǒng)、內容創(chuàng)造）提供了強有力的支持。盡管RAG技術展現(xiàn)出顯著提升模型效能與拓展應用領域的潛力，它也遭遇了幾點核心挑戰(zhàn)，制約著其性能的極致發(fā)揮：

1、語義檢索難關：實現(xiàn)精準的語義檢索面臨重重障礙，首要在于深入理解用戶查詢與文檔內容的深層含義，并準確評估兩者間的語義契合度。當前普遍采用基于數(shù)據(jù)向量化的手段，在向量空間通過距離或相似度指標來衡量語義接近度，但這種方法難以完美解決語義多義性、信息粒度不匹配、全局與局部相關性的權衡，以及向量空間分布不均帶來的檢索效率與效果問題。

2、信息增強的精細度：整合檢索信息的過程中，若缺乏對上下文的把握，生成的文本容易顯得碎片化，連貫性缺失。特別是在處理來自多個來源、風格迥異的段落時，既要避免內容重復，又要依據(jù)查詢語境對檢索片段精挑細選并合理排序，以確保輸出的一致性和流暢度，這一過程考驗著信息增強機制的智能化水平。

3、延遲挑戰(zhàn)：在即時交互場景，如在線客服對話系統(tǒng)中，檢索與生成的響應時間直接關系到用戶體驗。為了減少延遲，優(yōu)化模型效率與系統(tǒng)架構成為迫切需求，要求RAG技術能在高時效性要求的應用中穩(wěn)定運行。

問題5: “殺手級通用大模型 vs 百花齊放專屬大模型”，企業(yè)級AI應用的價值自證？

企業(yè)在利用大模型進行業(yè)務升級改造時，選擇使用一個殺手級通用大模型，還是百花齊放的專屬大模型，取決于您具體的業(yè)務需求、戰(zhàn)略目標和資源限制。無論選擇哪種模式，都會面臨挑戰(zhàn)和價值自證。

殺手級通用大模型：選擇大參數(shù)的基礎模型，結合企業(yè)的數(shù)據(jù)進行微調，構建企業(yè)級的殺手級通用大模型。其優(yōu)勢在于能快速處理多樣化的任務和應用場景，更快的帶來直接的業(yè)務價值和經(jīng)濟收益；其挑戰(zhàn)在于越大參數(shù)的模型微調需要的數(shù)據(jù)量就越大，算力消耗也更大，而且也較難應對特殊的高并發(fā)低延時場景。

百花齊放的專屬大模型：根據(jù)不同知識域的業(yè)務需要，選擇適合參數(shù)的大模型微調業(yè)務專屬大模型，能夠吸引和滿足更廣泛的客戶群體和個性化定制服務的需要。通常情況越小參數(shù)的大模型，微調的效果越好，越大參數(shù)的模型微調的效果越難保障。多樣化的模型和應用需求，可以快速推動企業(yè)在不同領域進行技術和業(yè)務創(chuàng)新。但多樣化專屬大模型，貴在精不在多，如何決策需要構建哪些專屬大模型呢？又如何解決多個專屬大模型統(tǒng)一運維管理的挑戰(zhàn)？

無論選擇哪種方式，都要確保大模型構建的AI應用能夠與企業(yè)的長期戰(zhàn)略相契合，并在實現(xiàn)業(yè)務目標的同時，提升客戶體驗和企業(yè)運營效率。因企業(yè)的自身特有數(shù)據(jù)量有限，大模型的微調需量力而行，比如當前千億參數(shù)以上的大模型就不適合微調，不僅成本消耗大且能力提升有限，有可能還會影響原有大模型的推理能力。更為重要的是要建立收集反饋和定期評估應用的機制，推動大模型和業(yè)務應用的優(yōu)化，在不斷調整和完善中體現(xiàn)出AI大模型的價值。

問題6: “大模型廣泛應用 vs 應用安全隱患”，大模型面臨的安全挑戰(zhàn)

隨著大模型深入應用，一些因大模型關聯(lián)引發(fā)的安全問題讓大家重視起來，如大規(guī)模數(shù)據(jù)采集和應用帶來的個人隱私泄露和濫用的問題，大模型生成內容可能帶有的偏見歧視、違法違規(guī)、科技倫理類問題，以及利用大模型強大能力用于欺詐等惡意應用場景的問題等。總的來說，大模型在安全方面面臨大模型自身安全和模型應用安全兩個方面的挑戰(zhàn)。

大模型自身安全的挑戰(zhàn)：

1、大模型訓練安全：如何使用數(shù)字加密技術和差分隱私技術在訓練過程中保護敏感數(shù)據(jù)安全？如何清洗訓練數(shù)據(jù)，以避免潛在的惡意數(shù)據(jù)注入或偏差造成的訓練問題？如何定期對訓練數(shù)據(jù)和模型權重進行審計，以檢測潛在的安全隱患或異常模式？

2、大模型生成的風險：涉及敏感知識點的問題不允許答錯：但大模型本身的幻覺問題嚴重，怎樣避免？隱晦風險和多輪對話上下文：傳統(tǒng)的防控手段很難應對這么復雜的風險，怎么辦？復雜的指令對抗：對于層出不窮的誘導、變種等攻擊，怎樣能做到全面的防控？

大模型應用與部署安全的挑戰(zhàn)：

1、大模型部署安全：如何針對模型抵抗對抗性攻擊做強化訓練，例如將對抗性樣本加入訓練集進行魯棒性提升？如何對模型輸入實施嚴格的驗證和過濾機制，以防止惡意輸入？如何實施訪問控制和身份驗證機制，確保只有授權用戶才能訪問和使用模型？

2、模型應用部署安全：如何針對模型應用服務訪問控制和輸入輸出進行安全防控？如何進行防御DDoS攻擊、防范惡意勒索、大促安全風控、遠程辦公安全等風險的實時防護？如何持續(xù)監(jiān)控模型性能和行為，以及它們對輸入反饋的響應，以便及時發(fā)現(xiàn)問題，實施日志記錄和異常檢測系統(tǒng)來追蹤潛在的安全事件？如何構建有效的大模型安全圍欄，制定安全措施和策略，保障大模型應用的完整性、隱私、可控性和抵御外部攻擊？

金融級AI原生的要素與藍圖

金融級AI原生的發(fā)展

講到AI，業(yè)內主要分為生成式AI（Generative AI）與判別式AI（Discriminant AI）這兩種不同類型的機器學習模型，它們在數(shù)據(jù)建模和應用領域上存在顯著差異。

判別式AI，主要關注基于已有數(shù)據(jù)進行分析和預測。它通過學習輸入和輸出之間的關系來建立決策邊界，對新的輸入數(shù)據(jù)進行分類或回歸等任務。常見的判別式AI模型包括邏輯回歸、支持向量機和深度神經(jīng)網(wǎng)絡等。判別式AI在推薦系統(tǒng)、風控系統(tǒng)等領域有廣泛應用。

生成式AI則關注學習輸入數(shù)據(jù)的分布規(guī)律，并模擬出與輸入數(shù)據(jù)類似的新數(shù)據(jù)。它不僅能預測數(shù)據(jù)之間的關系，還能夠生成新的數(shù)據(jù)。

AI原生系統(tǒng)從一開始就被設計成能夠充分利用判別式AI和生成式AI技術，以實現(xiàn)數(shù)據(jù)驅動、智能化決策和服務的自動化。AI原生涵蓋了從數(shù)據(jù)處理、模型訓練、推理應用到迭代優(yōu)化的全過程，目的是讓AI技術如同操作系統(tǒng)一樣成為日常業(yè)務運行的基礎。

AI原生是一種全新的技術架構和思維方式，將AI技術作為一種基礎能力，深度整合到企業(yè)的基礎設施、業(yè)務流程、產(chǎn)品設計和服務模式中。

金融機構作為國民經(jīng)濟的中樞支柱，其運作效能、風險管控及服務質量對社會經(jīng)濟的整體穩(wěn)定與發(fā)展具有深遠影響。金融級AI原生（Financial-Grade AI Native）是一個綜合性概念，旨在描述那些專為滿足金融行業(yè)最嚴格需求而設計和優(yōu)化的AI系統(tǒng)和應用。這些系統(tǒng)不僅在技術層面上高度先進，還在安全性、可靠性、可擴展性和合規(guī)性等方面達到了金融行業(yè)的高標準。

金融級AI原生的六大要素

AI技術在金融行業(yè)中扎根生長并深入應用，必須嚴格遵循金融行業(yè)的業(yè)務規(guī)則與標準，這就催生了專為金融領域打造的金融級AI原生。綜合考慮金融級行業(yè)要求、AI原生核心技術，我們將金融級AI原生總結為如下6大要素：

要素1：可靠性和穩(wěn)定性

當前金融行業(yè)隨著數(shù)字化、智能化的轉型，越來越多的金融級AI原生應用涌現(xiàn)，大規(guī)模智算資源的統(tǒng)籌管理和編排調度，對于確保金融基礎設施的連續(xù)性與穩(wěn)定性成為至關重要的能力基石。下面從訓練態(tài)和推理態(tài)兩個方面來說明智算平臺需要提供怎樣的能力來保證應用的可靠性和穩(wěn)定性。

訓練態(tài)：

智算平臺需要大規(guī)模集群調度管理，洞察集群狀態(tài)與性能變化，掌控系統(tǒng)全貌。通過訓練引擎自動容錯來屏蔽底層錯誤，提升任務穩(wěn)定性和魯棒性。通過實時保存模型文件，大幅度提高訓練任務的整體效率。通過云原生性能測試平臺，完成一鍵測試系統(tǒng)性能，及時發(fā)現(xiàn)隱藏的瓶頸。

推理態(tài)：

目前大模型的推理部署還沒有一個事實標準，一方面不斷有新的模型發(fā)布，另一方面也不斷有新的訓練和推理方法被提出，再者國產(chǎn)化GPU硬件和軟件生態(tài)也在快速迭代，這給大模型推理服務生產(chǎn)上落地帶來不小挑戰(zhàn)。為了應對上述挑戰(zhàn)在模型準備和部署階段，我們建議遵從以下原則：

分層設計：由于模型本身文件較大，模型加載和啟動時間往往以分鐘甚至小時計。在模型準備階段，將運行依賴環(huán)境、模型文件、推理代碼分層設計統(tǒng)一驗證并推送到合適的存儲服務層；在模型部署階段，通過云平臺存算分離，共享掛載、緩存加速等方式實現(xiàn)模型的快速部署和加速啟動；

統(tǒng)一調度：基于K8S 對IaaS 云服務或者客戶 IDC 內各種異構的計算（如CPU，GPU，NPU）、存儲（OSS，NAS， CPFS，HDFS）、網(wǎng)絡（TCP， RDMA）資源進行抽象，統(tǒng)一管理、運維和分配，通過彈性和軟硬協(xié)同優(yōu)化，持續(xù)提升資源利用率。

云化部署：借助K8S調度框架和云化基礎設施，實現(xiàn)對大模型應用的多實例高可用部署和故障自動切換。

要素2：低延時與高并發(fā)

大模型在實現(xiàn)低延時和高并發(fā)處理方面是AI原生應用的重大挑戰(zhàn)之一，尤其是在需要實時響應和服務大量用戶的應用場景中。

實時交易的場景下，系統(tǒng)需要幾乎實時地處理和響應用戶的查詢或請求。如銀行行業(yè)客戶通話的場景中，需要應用大模型實時識別用戶意圖，并實時反饋相應的話術，這個場景對大模型的時延要求非常高，需要在很短的時間來做出相應的應答。同樣在保險行業(yè)中，利用大模型處理車險、健康險等理賠案件，需要迅速分析上傳的圖片、視頻及其他證據(jù)材料，快速準確地完成初步定損工作。當前，推理優(yōu)化、加速主要有幾種方式，如模型架構（使用MoE架構）優(yōu)化、模型本身（剪枝、量化、知識蒸餾等）優(yōu)化，和利用多機多卡環(huán)境進行數(shù)據(jù)并行、模型并行，分散模型負載，加速計算過程。

高并發(fā)場景是指在短時間內有大量用戶請求涌入系統(tǒng)，要求系統(tǒng)能快速響應并處理這些請求，保證服務的穩(wěn)定性和用戶體驗。如紅包發(fā)放的促銷活動期間，大量用戶同時進行請求，在紅包領取的同時需要應用大模型做實時推薦。高并發(fā)可以通過調度優(yōu)化來支撐，調度系統(tǒng)可以根據(jù)請求狀態(tài)的動態(tài)變化對調度決策進行適應性調整，并以此實現(xiàn)如負載均衡、碎片整理、請求優(yōu)先級、高效的實例擴縮容等一系列調度特性和優(yōu)化。

我們來看一個實際的案例：一家互聯(lián)網(wǎng)金融企業(yè)，在外呼過程中，通過大模型識別客戶意愿，完成多輪客戶對話交互。

從當前業(yè)務模式觀察，存在顯著的忙閑周期：在需求高峰時段，必須確保充足計算能力以維持業(yè)務運營，確保客戶享受到優(yōu)質的外呼體驗；而到了低谷期，則需釋放這些資源，以便供給其他業(yè)務利用。然而，當這些釋放的計算資源無其他業(yè)務承接時，便會造成極大的資源閑置。專為某特定業(yè)務保有大量計算資源是不切實際的，因為通常情況下，這些資源的使用效率極低，僅能達到約10%。因此，尋找一種既能應對峰值需求，又能高效利用資源的策略顯得尤為重要。而混合云架構可以較好地解決這個問題，利用金融云的彈性資源來滿足波峰波谷的業(yè)務需求。

要素3：擴展性與多樣性

大模型的擴展性與多樣性是確保其在未來可持續(xù)發(fā)展和適應新需求的關鍵屬性。這兩個概念在大模型的設計、開發(fā)、部署和維護過程中扮演著重要角色。

擴展性是指為了滿足業(yè)務發(fā)展的需求，需要一種彈性的伸縮架構，滿足大模型應用對不斷增長算力的需求。通過這種彈性的伸縮架構，來解決了前面提到的“有限算力”的問題。

對于金融客戶來說，目前有三種算力資源擴展的形態(tài)可以選擇：

一、直接使用金融云的公共資源池。對于數(shù)據(jù)可以上云的客戶來說，企業(yè)無需自行構建復雜的算力基礎設施或大模型開發(fā)平臺，而是直接利用公共資源池來進行模型推理和高效微調。金融云提供了簡便的應用開發(fā)平臺，開發(fā)完畢的應用能夠便捷地通過API接口進行業(yè)務集成與調用，在金融云環(huán)境中，可以按需隨意進行算力資源的擴縮容，從而極大地提升了效率和靈活性。

二、金融云客戶VPC方式。對于有數(shù)據(jù)安全管控需求的客戶，建議采用VPC方式。大模型應用及知識庫部署在金融云客戶VPC環(huán)境中，確保推理過程中產(chǎn)生的數(shù)據(jù)及微調所用的數(shù)據(jù)均存儲在客戶VPC的區(qū)域內，以此加強數(shù)據(jù)的隱私性和安全性。應用的開發(fā)工作在公共資源池的平臺進行，同時該平臺支持大模型的微調及推理等功能。一旦應用開發(fā)完成，便部署到客戶VPC區(qū)域，并通過API接口無縫對接公共資源池中的大模型服務，實現(xiàn)高效、安全的資源調用與協(xié)同作業(yè)。在客戶VPC方式中，同樣可以根據(jù)需要對算力資源進行動態(tài)擴縮容。

三、線下IDC與金融云混合方式。對于私有數(shù)據(jù)不能出域的客戶，可以采用線下數(shù)據(jù)中心(IDC)與金融云混合的方式。企業(yè)在其內部的IDC中構建智能計算集群，部署大模型及應用開發(fā)平臺。應用的開發(fā)全程在IDC內完成，并在IDC環(huán)境中部署運行。在面對業(yè)務高峰或IDC資源緊張的情況下，企業(yè)可以采取靈活策略，將大模型擴展到金融云的資源池中，實現(xiàn)流量的智能分配，將部分業(yè)務負載轉移到金融云上進行高效的模型推理，以應對高并發(fā)需求。同時，根據(jù)實際需要，可以選擇性地將微調數(shù)據(jù)遷移至金融云，利用其強大算力進行模型的微調，進一步優(yōu)化性能和服務能力。

混合云解決方案支持大模型在私有云和公共云之間無縫遷移和部署，用戶可以通過統(tǒng)一的云管理平臺對分布在不同環(huán)境下的計算資源進行集中管理和調度，簡化運維復雜性。在網(wǎng)絡互聯(lián)上，通過先進的混合云網(wǎng)絡技術，實現(xiàn)網(wǎng)絡的高速穩(wěn)定互聯(lián)。

我們來看一個實際的案例：某證券公司通過大模型將咨詢、公告、年報、研報、路演、業(yè)績通告視頻等多模態(tài)信息納入知識庫，滿足內部分析師和機構用戶的知識問答、觀點總結生成。應用大模型準確理解用戶搜索意圖并提供邏輯分析能力、歸納總結能力。

1、客戶線下IDC進行大模型微調，對微調好后的模型在線下IDC和金融云兩套環(huán)境進行模型部署；

2、業(yè)務調用時，分為兩種情況：

1）業(yè)務流程正常的情況下，直接使用線下IDC的資源，為業(yè)務提供在線推理服務。

2）當業(yè)務流量高峰期間，如果線下IDC資源不足以應對業(yè)務調用，采用分流的方式，將用戶請求調撥至金融云，從而實現(xiàn)高效的SLA保障。在這種調用方式下，考慮到私有數(shù)據(jù)不能出域的情況下，需要在線下IDC完成敏感信息處理工作，將脫敏后的內容調用金融云上的大模型。

大模型的多樣性體現(xiàn)在多個方面，包括模型尺寸的多樣性、多模態(tài)、模型部署形態(tài)的多樣性、和應用場景的適配性。為順應不同場景用戶的需求，有不同參數(shù)規(guī)模橫跨5億到1100億的多款大語言模型。在模型的部署形態(tài)上，小尺寸模型可便捷地在手機、PC等端側設備部署。在應用場景的適配性上，大尺寸模型如千億能支持企業(yè)級和科研級的應用；中等尺寸如30B左右的在性能、效率和內存占用之間找到最具性價比的平衡點。

正是因為大模型的多樣性，使得在具體的業(yè)務場景，可以采用大小模型相結合，既能充分利用大模型的優(yōu)點，又能保持成本效益。通過將任務分解，用大模型處理那些需要高準確性的復雜分析，用小模型則快速處理那些對時效性要求高的任務。

以我們在財管領域的一個客戶為例，通過大模型來進行問題規(guī)劃和任務分解，通過小模型來構建各種Agent，實現(xiàn)了跟螞蟻支小寶相似的效果。通過大小模型相結合的方式，既滿足了需要，也降低應用成本。

大小模型相結合構建理財機器人

要素4：安全性與合規(guī)性

2023 年 8 月 15 日，國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務管理暫行辦法》開始正式施行，辦法對大模型訓練數(shù)據(jù)、數(shù)據(jù)標注、內容生成規(guī)范、內容生成標識、算法備案機制、監(jiān)督和責任都提供了相應的指引和要求。

生成式人工智能的安全管理需要貫穿產(chǎn)品的全生命周期，包括模型訓練、服務上線、內容生成、內容傳播各階段。

● 在模型訓練階段，奠定了模型的能力基礎，也決定了模型自身的安全性；這個階段會涉及到數(shù)據(jù)和模型，不會和用戶發(fā)生關聯(lián)。相應的風險治理工作包括：訓練數(shù)據(jù)的篩選和過濾、模型安全評測、模型對齊與內生安全增強、算法機制機理審核。

● 在算法服務上線階段，服務提供者需要選擇安全有效的模型作為基座構建完整的算法服務。在這個階段并不涉及模型的訓練、使用的數(shù)據(jù)，但是會決定對模型的核驗、對模型的使用方式、調用的工具集等。

● 在內容生成階段，大模型生成的內容是用戶和模型交互的結果。用戶的輸入，以及模型對用戶之前輸入的反饋，都影響到模型當前的生成。用戶使用生成式人工智能服務的目的、是否主觀上給出惡意輸出和誘導，很大程度上決定了模型輸出內容的安全性。

● 在內容傳播階段，內容的傳播方式和途徑、范圍是風險的決定性因素之一。在傳播環(huán)節(jié)出現(xiàn)的風險，需要建立相應的風險治理技術手段和工作機制。

在整個產(chǎn)品的全生命周期中，其中的模型安全和內容安全是兩個最關鍵的點。模型安全關乎技術底層的堅固與防御能力，是支撐系統(tǒng)運行的根基；而內容安全則側重于對外交互的信息質量與合法性，是保障用戶體驗和社會影響的表層防護。兩者相輔相成，共同構建AI產(chǎn)品全生命周期的安全體系。

模型安全：通過自動發(fā)現(xiàn)大模型有害的行為（red teaming）和安全增強（Safety Enhancement）來不斷增強模型安全。

內容安全：采用知識計算的風險防控模式（采用人機協(xié)同的方式定義計算框架），主要涉及到數(shù)據(jù)層、知識層、算子層三個層面的能力。

● 數(shù)據(jù)層匯聚了涉及內容風險的原始數(shù)據(jù)，以及針對不同風險領域精煉加工的結構化數(shù)據(jù)；

● 知識層包含預訓練模型和知識圖譜，預訓練模型用于實現(xiàn)對通用數(shù)據(jù)的歸納，知識圖譜實現(xiàn)對風控專業(yè)知識的組織與沉淀，解決知識碎片化、數(shù)據(jù)獲取難的問題；

● 算子層拆解出目標更明確的簡單任務，構建端到端的神經(jīng)算子，實現(xiàn)風險復雜判定邏輯簡化解耦。

大模型的合規(guī)性關乎遵守相關法律、法規(guī)和內部政策，確保大模型的應用不違反任何法律規(guī)定，并保護消費者的利益。

數(shù)據(jù)隱私與保護，語言大模型的主要功能是模擬人類的思維活動方式生成人類可以理解和使用的內容，模型的訓練對語料庫這一類知識性內容有強烈的需求，但不依賴和使用用戶行為數(shù)據(jù)。

透明度和可解釋性，金融等行業(yè)的監(jiān)管機構要求理解AI模型的決策過程，尤其在關系到重大決定如貸款審批或保險索賠時。因此提高模型的透明度和可解釋性是一個重要的合規(guī)要求。

偏見和公平，消除這些偏見并確保模型對所有人群公平是模型合規(guī)性的重要部分。

持續(xù)監(jiān)管和審計，合規(guī)性不是一次性的任務，而是需要持續(xù)監(jiān)管和審計。金融機構等需要確保使用的大模型在整個生命周期內都符合監(jiān)管要求，并能適應法規(guī)的變化。

大模型的合規(guī)性是一個多層面的、涉及多個利益相關者的挑戰(zhàn)，需要綜合技術、法律和道德考慮來處理。金融機構在使用大模型時需要密切關注相關法律法規(guī)的發(fā)展，并且可能需要專門的法律和技術專家團隊來確保模型遵循所有適用的合規(guī)要求。

要素5：準確性與嚴肅性

大模型的“準確性”與“嚴肅性”是兩個評估模型性能和適用性的關鍵維度，特別是在涉及專業(yè)場景和重要決策時尤為重要。

準確性是衡量大模型輸出結果與預期目標或實際情況相符的程度。模型在處理給定任務時，例如回答問題、分類文檔、翻譯文本或者識別圖像時，其輸出與真實答案或標準標簽的匹配程度。嚴肅性在大模型的語境下，更多指模型生成內容的專業(yè)性、可靠性、責任性和道德規(guī)范性。在金融這個高度專業(yè)化和監(jiān)管嚴格的領域，大模型產(chǎn)出的信息必須是經(jīng)過嚴格篩選、無誤導性且遵循行業(yè)規(guī)范的。嚴肅性還包括模型不得濫用或傳播不實、不恰當或有害的信息。

為了保證大模型的準確性和嚴肅性，不僅要在技術層面提升模型的泛化能力和知識完備性，還要在訓練數(shù)據(jù)、模型設計、后處理步驟等方面進行嚴格控制，并結合領域專家知識、實時監(jiān)控和用戶反饋進行持續(xù)優(yōu)化和修正。同時，對于可能出現(xiàn)的倫理和社會影響問題，也要有相應的政策和機制來預防和應對。

下面是某證券公司的實施案例：

1、構建知識庫：基于咨詢信息、專業(yè)內容、投教百科研報、投研框架、指標信息等，構建基礎投研知識庫。并將以往歷史問答、專家經(jīng)驗以投研框架的方式進行回流，實現(xiàn)持續(xù)性的知識生產(chǎn)和知識庫運營。

2、知識加工：將各種知識，經(jīng)過以下的步驟進行處理，文本分段（chunking）、類目標簽、實體抽取、質量分、向量表示、item的時效性等，形成相應的向量。

3、知識檢索：用戶的query進來，經(jīng)過Query改寫、向量召回和相關性模型打分等幾個步驟，把得分高的知識送到大模型。

4、觀點打分：對與大模型生成觀點，由專家進行打分。作為RLHF的訓練樣本，從而不斷優(yōu)化模型。

要素6：開放性與兼容性

金融級AI原生開放性的核心，在于確保安全合規(guī)的基礎之上，借助先進的技術架構與廣泛的生態(tài)合作力量，驅動金融服務向智能化方向轉型升級，加快創(chuàng)新步伐，滿足日益增長的市場需求。而大模型的開源實踐，則成為了實現(xiàn)這一開放性愿景最為直接且高效的戰(zhàn)略路徑。

開源對于創(chuàng)新活力、產(chǎn)業(yè)生態(tài)、行業(yè)發(fā)展、模型優(yōu)化都具有重大意義。開源模型可以降低技術門檻，使得更多的研究者和開發(fā)者能夠訪問最先進的AI工具，受到啟發(fā)，提升創(chuàng)新活力。開源大模型通過社區(qū)的方式，吸引開發(fā)者和研究人員共同改進模型，以及在模型的基礎上構建各種工具，推動模型的深度應用，打造產(chǎn)業(yè)生態(tài)。促進行業(yè)發(fā)展，一方面，企業(yè)間開放共享可以減少重復開發(fā)相同功能的模型所浪費的資源，使得企業(yè)能夠集中精力在差異性的研究上；另一方面，開源允許任何人在代碼級別檢查模型的行為和性能，增強了大模型的代碼透明度。最后，開源社區(qū)的使用者往往具有較高的技術水平，開源模型可以讓企業(yè)獲得來自社區(qū)的寶貴反饋，有助于改進模型的性能和功能。

通過開源模型+商業(yè)版模型組合方式的積極實踐，得益于開源社區(qū)的生態(tài)支持和開發(fā)者反饋，使得模型可以在性能及能力上不斷優(yōu)化和增強，另外商業(yè)版模型提供了持續(xù)的技術支持與咨詢服務，以及企業(yè)級的安全與隱私保護，所以金融企業(yè)在商業(yè)化大模型應用時，往往采購商業(yè)版本的基礎模型。

大模型相較于傳統(tǒng)深度學習模型，在規(guī)模上實現(xiàn)了顯著的擴容，隨之而來的是對計算資源的大幅增長需求。在各種GPU資源出現(xiàn)時，推理平臺能兼容各種芯片，成為了亟待解決的基本問題。與此同時，開源領域的創(chuàng)新勢頭迅猛，不僅涌現(xiàn)出Llama、Qwen、Mistral/Mixtral、ChatGLM、Falcon等諸多新型模型，還在模型優(yōu)化方面不斷突破，例如發(fā)展出有損與無損的Attention算法、多種量化技術革新、投機采樣及LookAhead等新穎采樣策略，要能適應算法的更新發(fā)展。推理層面上，主流的推理框架如vLLM、HuggingFace TGI (Text Generation Inference)、FasterTransformer以及DeepSpeed，引領了推理特性的新變革，對推理提出了新的要求。

針對上述挑戰(zhàn)，一個綜合模型、系統(tǒng)、集群與應用層面的協(xié)同優(yōu)化、兼容異構GPU、各種大模型、推理框架的平臺顯得尤為重要，旨在實現(xiàn)卓越的性能與成本效益比。

模型層面：MQA（Multi Query Attention）和GQA（Group-Query Attention）是許多大模型推理優(yōu)化的核心探索方向，以及模型的MOE（Mixture-of-Experts）架構。

系統(tǒng)層面：聚焦于高性能計算算子的開發(fā)，優(yōu)化模型并行執(zhí)行、顯存管理與執(zhí)行框架，同時強化請求調度能力，確保系統(tǒng)運行的高效與流暢。

集群層面：通過智能的請求調度機制，最大化集群處理能力，有效整合異構資源，提升資源利用率至最優(yōu)狀態(tài)。

應用層面：深入分析LLM的工作負載特性，將Prompt緩存等針對性優(yōu)化措施融入系統(tǒng)設計，進一步增強應用的響應速度與用戶體驗。

構建金融級AI原生的藍圖

AI原生，特別是大模型的發(fā)展對資源管理與調度、訓練、推理提出了全方位的新要求。首先，在資源管理與調度層面，由于大模型訓練所需的計算資源量龐大且計算密集，要求系統(tǒng)具備高效能計算資源的精細化管理和動態(tài)調度能力，以適應大規(guī)模訓練任務和異構硬件環(huán)境。這包括合理分配和調整計算資源、優(yōu)化存儲策略以降低存儲成本和提高數(shù)據(jù)訪問效率、支持異構計算、實現(xiàn)彈性伸縮以應對任務需求變化，以及關注能源效率以實現(xiàn)綠色計算。

其次，在模型訓練環(huán)節(jié)，大模型訓練需要強大的大規(guī)模分布式訓練能力，妥善處理數(shù)據(jù)并行、模型并行、流水線并行等策略下的通信開銷與數(shù)據(jù)同步問題，確保訓練的穩(wěn)定性和收斂速度。同時，混合精度訓練、自適應學習率調整技術的應用有助于降低計算和內存開銷，提高訓練效率。對于超大規(guī)模模型，模型并行化與規(guī)模化的要求使得模型架構設計、通信優(yōu)化、梯度聚合等方面面臨更高挑戰(zhàn)。

最后，在推理階段，大模型應用對實時性、低延遲響應有嚴格要求，推理系統(tǒng)需配備高效的推理引擎，通過模型優(yōu)化、硬件加速等手段減少推理時間。推理服務化與部署靈活性是另一重要需求，要求模型易于部署到多種環(huán)境并支持服務化接口，同時具備模型版本管理、灰度發(fā)布等運維功能。

金融級AI原生的平臺架構

金融級AI原生的平臺架構分為：智算設施、智算平臺、模型服務和應用服務等4個領域。

智算設施（IaaS）：提供大模型所需的底層計算資源和基礎架構的服務層，這些資源包括但不限于服務器、存儲、網(wǎng)絡以及相關的數(shù)據(jù)中心設施。對于運行大模型來說，IaaS層提供了彈性伸縮性、靈活、高可靠性和安全性的基礎設施解決方案，可以大幅簡化模型開發(fā)和部署的過程，加快創(chuàng)新速度。

智算平臺（PaaS）：提供資源調度與任務管理、訓練框架、推理框架以及數(shù)據(jù)服務。資源調度與任務管理通過拓撲感知調度、多級配額資源模型、多種隊列策略、配額間資源共享等一系列核心能力，讓物理算力集群利用率逼近理論上限。模型訓練包括訓練快照、訓練時自動容錯和作業(yè)的重啟、訓練加速等功能。推理框架提供了模型兼容、推理加速、推理對抗和推理監(jiān)控等一系列功能。數(shù)據(jù)服務提供了向量數(shù)據(jù)庫、圖數(shù)據(jù)庫和云原生數(shù)據(jù)庫等數(shù)據(jù)服務。

模型服務（MaaS）：一站式大模型生產(chǎn)平臺，提供從大模型開發(fā)、訓練到應用的全套解決方案。

全鏈路的模型訓練及評估工具：全鏈路模型服務覆蓋數(shù)據(jù)管理、模型訓練、評估和部署等關鍵環(huán)節(jié)。數(shù)據(jù)管理整合了離線和在線數(shù)據(jù)集，確保訓練數(shù)據(jù)的質量和完備性。模型訓練允許用戶選擇各類開源大模型、多模態(tài)模型，并通過透明化工具監(jiān)控模型狀態(tài)。模型評估提供多種資源，包括單模型和多模型對比，以對標行業(yè)標準。并提供一鍵化的模型部署功能。

集成豐富多樣的應用工具：強調了開箱即用的特性，包括預置檢索增強、流程編排、Prompt模板應用、插件中心支持接入企業(yè)系統(tǒng)、

基于大模型快速構建業(yè)務應用agent：智能體中心，并為企業(yè)和開發(fā)者提供智能體API的調用。其中，智能體應用包含支持RAG、分析、創(chuàng)作等鏈路。同時，為保持開放性，整合并優(yōu)化了開源框架如LlamaIndex，提供封裝的原子級服務和SDK。插件中心預設了多樣插件，并支持企業(yè)和開發(fā)者自定義插件，以提升大模型的調用效率。

應用服務（SaaS）：在應用層上，考慮到金融領域的多方位需求，將應用劃分為兩大類別以實現(xiàn)廣泛適用性與行業(yè)特異性。一類是通用應用場景，跨越整個金融行業(yè)，涵蓋諸如智能客服來提升服務體驗、智能營銷以增強市場觸達，以及工作助手以提高日常辦公效率。另一類則專注于金融細分市場的獨特需求，例如銀行業(yè)專注于信貸報告自動化生成與嚴謹?shù)暮弦?guī)性審查；證券業(yè)則側重投資研究與顧問服務的智能化；而在保險業(yè)，致力于通過“保險數(shù)字生產(chǎn)力”提升業(yè)務效能，具體體現(xiàn)為智能核保流程的優(yōu)化以及代理人培訓系統(tǒng)的智能化。

智能客服：大模型憑借其強大的自然語言理解和生成能力，可以作為智能客服系統(tǒng)的核心組件，提供24/7全天候在線服務。用于客戶的咨詢、外呼和客戶交互過程中，識別客戶意圖，進行更好的、貼心的服務。

智能營銷：大模型能夠根據(jù)不同的客戶群體特征和營銷目標，自動生成具有吸引力的營銷文案、廣告創(chuàng)意、郵件推送、營銷視頻等個性化內容。

工作助手：大模型可以集成到日常工作中，提供咨詢服務、編程輔助服務、數(shù)據(jù)分析、內部公共助手、以及用于法律法規(guī)方面的審核工作，在減輕員工負擔的同時，也可以提升工作效率。比如，知識助手、開發(fā)助手、用數(shù)助手、會議助手和審查助手。

信貸報告生成：大模型能夠自動讀取和整合來自多個來源的數(shù)據(jù)，包括財務報表、征信記錄、市場數(shù)據(jù)等，進行快速而全面的信息分析。這不僅限于數(shù)值數(shù)據(jù)，也包括文本信息，如征信報告、企業(yè)年報、行業(yè)報告等，從而形成一個綜合的信用視圖。

合規(guī)審核：大模型可以被訓練來識別和分析各類交易、合同、報告中的合規(guī)風險點。通過模式識別和自然語言處理技術，模型能夠迅速掃描文檔，比對監(jiān)管要求，自動標記潛在的不合規(guī)內容。

投研投顧：在投資研究領域，大模型能夠分析海量的經(jīng)濟數(shù)據(jù)、新聞報道、社交媒體情緒等信息，輔助投資者識別市場趨勢，為投資策略提供數(shù)據(jù)支持。在投顧領域，大模型能根據(jù)個人投資者的風險偏好、資產(chǎn)狀況和投資目標，提供定制化的投資建議，優(yōu)化資產(chǎn)配置，提升投資組合的表現(xiàn)。

保險數(shù)字生產(chǎn)力：通過分析保險申請中的文本描述、圖片，大模型能基于保險規(guī)則，自動判斷核保申請，輔助保險員加速申請審核流程，提升客戶滿意度。保險公司利用大模型創(chuàng)建“數(shù)字員工”，來模擬不同的角色，幫助代理人快速上崗，提升工作效率。

金融級AI原生應用實踐

1、應用場景與技術架構選型

知識密集型數(shù)字化應用

金融行業(yè)因其高度的專業(yè)性和對精確度的嚴格要求，成為一個知識密集型的領域。它涵蓋了廣泛的子領域，包括銀行業(yè)務、投資、保險、資產(chǎn)管理等，每個領域都有其獨特的術語、規(guī)則和業(yè)務流程。在銀行行業(yè)，理財產(chǎn)品經(jīng)理需要在充分理解監(jiān)管合規(guī)政策的前提下，設計有市場競爭力的產(chǎn)品；在證券行業(yè)，投研人員需要閱讀大量的研報和資訊，做出對市場的判斷，給客戶提供有價值的投資建議；在保險行業(yè)，大量復雜的核保/核賠規(guī)則，業(yè)務員需要熟記于心并在展業(yè)時能高效查閱。

而大語言模型作為一個參數(shù)化的知識容器，其最突出的能力就是構建世界模型、理解人類知識，并以自然語言的方式進行交互。大模型通過學習廣泛的語料，能夠積累和反映不同領域的知識，包括金融行業(yè)特有的概念、術語和邏輯關系。這使得大模型能夠在上述金融行業(yè)各類知識密集型場景中，提供自然語言理解和生成、知識檢索與問答、信息總結摘要等能力。

以保險行業(yè)為例，核保是一個非常重要的業(yè)務流程，保司有大量的業(yè)務員在外面做拓客，為C端用戶設計保險方案。在這個過程中，還有一類角色叫核保員，在投保階段幫助業(yè)務員判斷是否能出保單，并給出建議方案。這里面涉及到大量的核保規(guī)則業(yè)務知識，我們希望能讓大模型學會理解這些并運用在業(yè)務流程當中，提高核保員工作效率。

典型的用大模型來重構核保的業(yè)務流程，如上圖示意：

原始核保規(guī)則：核保規(guī)則源于保險公司內部的核保政策，有集團級別的、每個省市分公司也有自己特定的規(guī)則，需結合起來用，這是核保決策的依據(jù)。這類知識的特點是，內容多、邏輯復雜、還有很多行業(yè)術語，一般核保員上崗后學習6個月，才能開展核保業(yè)務。

大模型核保知識構建：核保政策的格式和來源非常多樣，有pdf、word，甚至是某分公司發(fā)的一封全員郵件。這些知識需要被構建成一種層次化的知識體系，便于更新、維護，以及被大模型理解與應用。在業(yè)務流程中，大模型需要從與業(yè)務員的對話中提取出核保要素，例如：年齡、地域、工種。當要素不完備時，以反問等方式讓業(yè)務員提供，直到收集完整下一步推理決策所需信息。

大模型推理決策：基于上一步構建的知識，大模型進行不同的邏輯處理。簡單分有三種：a）準入性判斷，一些關鍵要素若不符合，可直接拒保；b）條件性推理，依據(jù)各種核保規(guī)則，逐條檢查客戶提供的要素是否滿足；c）推薦投保方案，若有不符合的要素，大模型給業(yè)務員調整的建議，改變核保要素，直至承保。

在上述業(yè)務流程重構過程中，面臨最大的兩個技術挑戰(zhàn)是：核保規(guī)則量多質差、推理邏輯復雜。因此，在方案上采用金融知識增強+Multi-Agents框架來解決，如下圖所示：

金融知識增強：原始核保政策來源非常多，上千頁的Word、復雜單元格結構的Excel、甚至是一封核保政策調整的郵件。面對此類多源異構數(shù)據(jù)，需要先做格式和內容的治理，形成一種分類、分級、分塊的立體化通用知識表示，便于長期維護更新，以及被下游大模型Agent理解與使用。在過程中，還需要引入金融領域專有知識做增強，例如：對行業(yè)和工種的分級分類、專對保單版面的內容識別算法。

Multi-Agents分治：在試驗過程中我們發(fā)現(xiàn)，大模型的能力也是有上限的，面對的知識太多或規(guī)則太復雜，也會有不穩(wěn)定輸出的情況。因此在通用知識表示之上，按任務類型把整個核保過程拆解到不同角色的Agent上完成，并由中控協(xié)調Agent統(tǒng)一協(xié)調和路由。最終面向業(yè)務員，大模型扮演“核保員”，以多輪會話的方式提提供推理決策和承保方案推薦。

全鏈路數(shù)字化應用

大模型在金融業(yè)務的全流程中扮演了重要角色，其支撐作用體現(xiàn)金融行業(yè)的不同業(yè)務場景。如客戶服務與關懷方面，大模型能夠提供24小時不間斷的客戶服務，包括咨詢解答、產(chǎn)品介紹、客戶關懷、投訴處理等，提升用戶體驗。風險管理與信貸評估方面，大模型幫助金融機構進行信用報告生成、欺詐檢測和風險評估，提高貸款審批的準確性和效率，減少人為錯誤和潛在的信用風險。精準營銷與客戶洞察方面，創(chuàng)造多樣化、創(chuàng)新且風格連貫的跨媒體營銷內容變得輕松自如，這包括社交媒體帖文、廣告標語、宣傳海報、創(chuàng)意視頻劇本等，確保每項內容都能精準對接目標受眾。通過對客戶數(shù)據(jù)的深度分析，大模型能夠構建精準的用戶畫像，幫助金融機構設計個性化營銷策略，提升營銷活動的轉化率和客戶滿意度。投資咨詢與資產(chǎn)管理方面，大模型能夠分析市場數(shù)據(jù)、新聞資訊和經(jīng)濟指標，生成投資建議和資產(chǎn)配置方案，輔助投資者做出決策。對于機構投資者，它還能提供復雜的財務模型分析和投資策略優(yōu)化。自動搜集、整理并分析大量研究報告、公司公告和宏觀經(jīng)濟數(shù)據(jù)，為分析師和投資者生成深度研究報告，提高研究質量和速度。運營優(yōu)化與自動化方面，在后臺運營中，大模型可以自動化處理交易結算、合規(guī)審查、文檔管理等工作，減少人工操作，提升運營效率并降低成本。

風控作為金融的基石，正遭遇多元化的挑戰(zhàn)，這些挑戰(zhàn)隨技術演進、市場波動及欺詐策略的迭代而日新月異。以下是當前尤為突出的幾個難題：

1. 業(yè)務冷啟動沒經(jīng)驗，上線周期長：新業(yè)務上線，缺少相關的冷啟動經(jīng)驗和數(shù)據(jù)。上線周期長，容易錯過商機。

2. 風險變化快，風險決策響應慢：數(shù)據(jù)分析周期慢，業(yè)務人員給技術人員提需求經(jīng)常需要等排期。策略/模型構建和迭代周期慢，無法跟上快速變化的風險

3. 模型的敏捷性與深度構建：金融市場瞬息萬變，欺詐手段層出不窮，要求風控模型不僅要具備高度的適應力和靈活性，還需迅速掌握新興風險模式，同時維持對既有風險的嚴密監(jiān)控。這一挑戰(zhàn)促使模型復雜度與更新速度的需求不斷攀升。

通過大模型的風控多agent體系，可以很好縮短風險決策周期，提升風控人效，響應快速變化的風險。

智能策略助手集成了專家的風控策略知識庫，可以幫助業(yè)務實現(xiàn)快速冷啟動。通過自然語言的形式，可以輕松進行策略分析、上線測試、部署和生成報告，及時響應快速變化的風險環(huán)境。

智能數(shù)據(jù)助手通過內嵌的報表知識以及NL2SQL能力，使得用戶無需復雜的編程過程，只需通過自然語言的交互就能快速構建所需的報表，進行指標查找和數(shù)據(jù)診斷。

智能建模助手提供建模功能、深度變量分析報告和一鍵部署功能，能夠大大提升工作效率和模型的準確性。

多模態(tài)數(shù)字化應用

隨著大模型技術的高速發(fā)展，尤其OpenAI發(fā)布“Sora”后，加速從自然語言向多模態(tài)大模型的演進。多模態(tài)大模型不僅能夠進行圖像、視頻的要素識別和場景提取，還可以根據(jù)提取的信息創(chuàng)作出更多原創(chuàng)圖片和視頻；同時多模態(tài)在語音上支持人機交互語言接口，不需要轉文字，就可以在語境中識別復雜和抽象概念，加速智能客服擬人化服務和定制化服務效果。多模態(tài)大模型已經(jīng)開始在各種業(yè)務領域進行探索，例如：智能催收、智能客服、智能推薦和智能運營等領域，隨著多模態(tài)大模型與業(yè)務創(chuàng)新場景的持續(xù)性融合，展現(xiàn)其更高的用戶粘性和商業(yè)價值，必將開啟了企業(yè)構建多模態(tài)數(shù)字化應用的新時代。

智能提醒：企業(yè)通過多模態(tài)大模型，將外呼語音通話進行識別和數(shù)據(jù)抽取，構建用戶意圖和客服話術的知識庫，同時通過語音特征分析，識別用戶的個性化特征，并與用戶特征知識庫進行比對和更新。在實時和離線語音交互過程中，通過規(guī)則質檢和風控，確保人工或機器人的回復符合領域規(guī)范，如果存在輿情風險，會提交人工復審，再進行知識庫信息更新。如果符合規(guī)范，將進入新一輪的智能語音交互，通過大模型判斷歷史交流的用戶意圖，結合用戶特征，進行個性化語音話術播報（例如：方言定制化），直至達到本通外呼目的為止。

智能客服：企業(yè)可以通過多模態(tài)大模型，將語音客服、私域咨詢和售后交流的文字、圖片和視頻信息進行識別和數(shù)據(jù)抽取，例如：將用戶提交的保單、病例等進行識別和數(shù)字化，存儲到專屬客服知識庫和用戶特征知識庫，通過智能質檢和風控，確保提交和回復數(shù)據(jù)的準確性和安全性。同時根據(jù)客戶意圖識別和個性化生成，滿足用需要的回復或報告，再根據(jù)用戶個性化特征生成專屬文字或語音和視頻回復，最后根據(jù)用戶評價和人工抽檢，收納知識語料。

智能推薦：根據(jù)企業(yè)業(yè)務場景和市場規(guī)劃目標，通過多模態(tài)大模型快速生成文案，在公域或私域傳播，比如廣告語、微博文章、微信公眾號文章和抖音視頻等，同時與多模態(tài)圖片或視頻AI工具相結合，自動生成宣傳海報、宣傳視頻等視覺內容，提升營銷素材的生成效率。通過自然語言交互或私域數(shù)據(jù)運營，為客戶提供個性化的產(chǎn)品推薦和購買建議。根據(jù)用戶特征數(shù)據(jù)分析客戶的需求、偏好、風險承受能力等信息，快速準確地推薦適合客戶的產(chǎn)品，提高保險銷售效率和客戶滿意度。

智能運營：在企業(yè)和商戶私域運營中，通過多模態(tài)數(shù)字化應用方案能夠解決全鏈路高效運營。在商戶入駐時，通過多模態(tài)場景和內容識別能力，完成攤位門頭照自動化審核，同時識別商戶和銷售商品及價格；在商戶運營中，通過多模態(tài)識別和生成能力，進行菜單初始化和商品效果圖生成，降低門檻和成本；在日常運營中，通過多模態(tài)營銷文案、圖片和視頻的生成能力，根據(jù)時節(jié)定制化營銷文案和營銷海報，以及宣傳視頻等，增加商戶的收益和訂單成交量。

多模態(tài)數(shù)字化應用基于企業(yè)外呼、客服、推薦、運營等多模態(tài)業(yè)務場景，與多模態(tài)技術的豐富和靈活的AI服務進行結合，快速實現(xiàn)業(yè)務效果。通常調用這類多模型API可以分為三步驟：準備和優(yōu)化輸入提示（Prompt）、使用API進行模型調用、處理和展示結果。

Prompt優(yōu)化：明確通過多模態(tài)大模型實現(xiàn)什么樣的任務，基于任務需求構建有效的提示信息。對于文本任務，這可能意味著撰寫清晰、具體的指令或問題；對于圖像相關任務，則可能包括選擇適當?shù)膱D像作為輸入。通過實驗和反復測試，找到最能引導模型輸出期望結果的Prompt表達方式。調整文本提示的措辭或添加關鍵信息，改變圖像輸入的尺寸和質量。

Assistant-API調用：

選擇API：確定適合你任務的API服務。不同的多模態(tài)大模型可能通過不同的API提供服務，選擇合適的API是關鍵。

準備請求：遵循所選API的文檔準備請求。這通常涉及設置合適的HTTP請求頭、選擇正確的API端點、準備必要的認證信息以及構建請求體。

發(fā)送請求：將準備好的請求發(fā)送給API服務。這可以通過編程方式使用HTTP客戶端庫或使用命令行工具完成。

處理響應：對API返回的結果進行處理。這可能包括解析JSON格式的響應內容、錯誤處理以及轉換模型輸出以便進一步使用。

結果召回展示：分析模型返回的數(shù)據(jù)，對結果進行質量評估。根據(jù)需要，可能還要進行后處理，比如圖像的裁剪或調整大小，文本的清理等。將處理過的結果以用戶友好的方式展示出來。根據(jù)應用場景，這可能包括在網(wǎng)頁上顯示生成的文本或圖像、在應用程序內部展示音頻播放控件等。

2、AI原生應用實施路徑

大模型技術仍在飛速發(fā)展，國內外大模型廠商的產(chǎn)品快速推陳出新，在商業(yè)化大模型和開源大模型社區(qū)，每個月、每周、甚至每天都有新的模型和框架出現(xiàn)。同時，算力資源短期內將持續(xù)緊張，大規(guī)模應用的鋪開，直接導致對模型推理資源的需求持續(xù)上漲，而金融機構不僅要解決資源的供給問題，還需要持續(xù)提升算力的使用效率，支撐企業(yè)大模型場景的全面落地。

金融機構一直是IT技術的先行者，在數(shù)字化轉型和技術創(chuàng)新方面不斷尋求突破。如何能跟上大模型技術的快速發(fā)展，不掉隊，客觀理解新技術，快速識別合適場景，驗證大模型的技術與業(yè)務價值，成為了企業(yè)面臨的首要問題。“百舸爭流，奮楫者先”，我們提出一條可行的路徑，在解決算力資源短缺的同時，又能保障金融機構用上最新的大模型技術，為業(yè)務與客戶帶去價值。

“云上試航”：快速完成大模型可行性與價值驗證

大語言模型橫空出世，帶來的不僅僅是單點技術的創(chuàng)新，更是全套技術棧的革新。GPU服務器、大模型全周期管理平臺、推理加速框架、RAG知識增強、Multi-Agent智能體，這些新的事物在不停地刷新技術從業(yè)者的認知。以上種種技術，要在客戶IDC完整搭建一套，難度極高成本極大，尤其是在大模型的價值尚未被完全驗證與挖掘的前提下。

這個階段，金融云成為了企業(yè)的最佳選擇。算力層面，云廠商資源儲備充足，為客戶提供了多樣化的算力選擇，且彈性按需付費；模型層面，主流云廠商不僅提供商業(yè)化大模型，還提供業(yè)界優(yōu)秀的開源大模型服務，客戶可按需自由選擇，以MaaS API的方式調用；平臺工具層面，更是為客戶提供了極大的選擇空間，從大模型全周期管理平臺到智能體應用，從檢索引擎到向量數(shù)據(jù)庫，以上這些，企業(yè)都可以靈活組合使用，快速驗證新技術的價值，避免前期無謂的投入和時間浪費。

“小步快跑”：大模型應用試點的選擇與落地

過去一年，大模型在金融機構的應用，也經(jīng)歷了快速的發(fā)展。最初期的嘗鮮者們，都從RAG知識問答場景開始，通過構建企業(yè)級知識庫，引入大模型技術，充分感受其在語言理解與生成上的能力。隨著大模型自身變得更加成熟，以及從業(yè)者對大模型的技術掌控力增強，大模型的應用已經(jīng)從最初的“問答機器人”，開始滲透到金融行業(yè)的核心業(yè)務流程當中，并開始扮演Copilot（輔助駕駛）的角色，提升員工工作效率，提升客戶服務效果。

在銀行行業(yè)智能客服領域，大模型被用于識別客戶意圖和情緒，為客服人員提供話術輔助與推薦；在證券行業(yè)投研投顧領域，大模型被用于讀取海量的研報、資訊，以自然語言的方式提供觀點問答和內容摘要等服務；在保險行業(yè)核保領域，大模型被用于理解復雜的核保政策，針對客戶提交的材料做合規(guī)性審核與保險計劃生成。這些被驗證過的場景，都適合處于大模型建設初期的金融機構作參考，選擇2-3個相對有容錯性、投入產(chǎn)出比高的作為試點。

在這個階段，可暫不考慮太多平臺化的事情，宜采用“以用帶建”的思路，選定場景后，引入一個經(jīng)過驗證的商業(yè)化大模型，提供持續(xù)穩(wěn)定的服務和安全合規(guī)方面的保障。工程上可以在大模型應用層面，選擇輕量化的RAG、Agent產(chǎn)品，配合商業(yè)化大模型，對外提供MaaS API的調用以及Workflow編排能力，快速支撐業(yè)務場景的落地。

“平臺筑基”：建設LLMOps技術棧，實現(xiàn)中臺化管理

走過試點階段后，企業(yè)內大模型應用將會全面鋪開，這時就不再適合從某幾個應用出發(fā)單獨建設了，技術團隊需要在平臺層面做整體規(guī)劃，基于業(yè)界領先的LLMOps理念，圍繞大模型的構建與應用流程，構建大模型全周期管理平臺，實現(xiàn)基礎能力的中臺化管理與服務，支撐大模型在多業(yè)務場景的快速落地。

具體來講，大模型全周期管理平臺主要包含兩個部分。模型中心，主要承載模型層面相關工作，語料管理、模型微調、推理加速、模型評測等；應用中心，在模型之上，提供RAG知識庫、Multi-Agent框架、Prompt工程、Workflow編排等能力，支撐業(yè)務快速基于大模型的能力，構建起應用鏈路。

企業(yè)在小步快跑階段會使用一些主流開源框架做快速落地，例如：LlamaIndex、OpenAI的Assistants API。到了平臺化階段，不僅要考慮低代碼大模型開發(fā)范式的支持，同時要考慮全代碼開發(fā)范式，面向技術人員提供高效的開發(fā)與集成框架，并兼容主流開源框架，實現(xiàn)原有應用的平滑遷移到平臺上。

“云端融合”：大模型混合云架構，充分利用云上資源

隨著大模型應用全面鋪開，場景從服務內部為主，轉向直面外部C端客戶，對大模型推理資源的需求會呈指數(shù)級增加。從當前大模型技術發(fā)展趨勢和落地案例來看，未來推理服務會成為大模型資源需求的絕對主力。

正如前文例子，部署一個72B大模型推理實例，需要3張A100（80G）的資源。當業(yè)務上需要50并發(fā)時，需要的GPU卡的數(shù)量在200張左右A100（80G）。無論從供給資源還是采購成本來講，這都是一筆不小的成本。在這個階段，算力資源會再度成為制約企業(yè)全面擁抱AI大模型的瓶頸。通過構建混合云架構，在安全合規(guī)的前提下，把本地算力作為固定資源池，同時把云上充足的彈性資源使用起來，成為金融機構在大模型時代的最佳選擇。

結語

正在本文截稿之時，OpenAI在春季新品發(fā)布會上搬出了新一代旗艦生成模型GPT-4o，一系列新的能力讓我們無比堅信，AI大模型技術勢必會顛覆和重塑未來產(chǎn)品的形態(tài)。而當大模型在金融行業(yè)落地，重塑金融企業(yè)應用時，我們必須考慮金融行業(yè)獨特性的要求。在與眾多金融客戶進行大模型應用聯(lián)合共創(chuàng)之后，我們對金融客戶面臨的主要挑戰(zhàn)進行了剖析，定義了金融級AI原生的藍圖和六大要素，并挑選了知識密集型、全鏈路數(shù)字化、多模態(tài)數(shù)字化等三類具備較大業(yè)務價值的場景，闡述其技術架構的選擇和落地路徑，旨為金融企業(yè)的數(shù)智化創(chuàng)新提速。

版權與免責：以上作品（包括文、圖、音視頻）版權歸發(fā)布者【阿里巴巴】所有。本App為發(fā)布者提供信息發(fā)布平臺服務，不代表經(jīng)觀的觀點和構成投資等建議