數據的第三種形態:藝恩如何為大模型提供多模態的數據彈藥?
一、凌晨兩點的訓練Run,和一個沒人問的問題
凌晨兩點,北京某多模態大模型實驗室。大屏上,一個正在進行的預訓練Run跑到了第47小時。技術負責人盯著Loss曲線抖了一下,然后把椅子轉回來說了一句:“我們缺的不是卡,是干凈、對齊、能被復用的多模態語料。”
這不是個例。2026年4月2日,字節火山引擎披露:豆包大模型日均Token使用量突破120萬億,兩年翻了約1000倍;同月,中國日均Token調用量跨過140萬億量級。2026年2月中旬,OpenRouter平臺上中國大模型的周調用量首次超越美國,并在隨后一周沖到5.16萬億Token,三周內增長127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春節前后連環發布;Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登場,雖然這款產品最終于2026年4月26日App下架(API延至9月24日),但它所引爆的多模態軍備競賽并沒有停。可靈(Kling)2.6在2025年12月實現單次生成完整音視頻,3.0進入Omni階段;阿里Wan2.6、字節Seedance 2.0、Seedream 5.0 Lite接連上線——多模態“百模大戰”已從“能不能生”迭代為“好不好用”。
但很少有人追著問下一句:訓練這些模型的數據,從哪里來?
這篇稿子,想回答這個被參數與Benchmark分數淹沒的“上游問題”——并且,想用一家公司的年報,把它講清楚。
二、數據的第三種形態
在AI訓練數據領域,產業已形成清晰的分層。
第一種形態,通用爬取的公開數據。Common Crawl約含130萬億Token,全指數化網頁約510萬億Token,全量網絡(含登錄墻后內容)約3100萬億Token。據Epoch AI在同行評審的測算,高質量人類生成公開文本的“有效存量”約300萬億Token,在當前scaling節奏下將在2026—2032年間耗盡,這種形態的黃金時代,已經走到了尾聲。更糟的是,公開數據不僅在枯竭,還在被“鎖進保險柜”——Reddit、Stack Overflow、X、知乎紛紛對爬蟲加設圍欄;紐約時報、Getty、環球音樂、康科德音樂先后對OpenAI、Stability、Anthropic發起訴訟。一位北京的AI法律合規專家告訴筆者:“公開互聯網的數據,法律成本從邊際成本變成了固定成本。”
第二種形態,人工合成的AI生成數據。Sam Altman在公開場合承認嘗試過“生成海量合成數據”,但也親口提示不能過度依賴。Nature 2024年一篇論文系統描述了“Model Collapse”——用AI生成的數據反復訓練AI,會讓模型的表達分布持續退化。合成數據可以是拐杖,不能是主糧。
第三種形態,垂類深耕的結構化數據資產。這是目前產業里不僅稀缺,更是被各方看中并爭搶的數據資產形態。它由人類在真實產業場景中沉淀,帶有明確的時空/主體/語義標簽,具備跨模態對齊能力,合規、可追溯、可被多次復用。它不是互聯網上就能爬來的,也不是AI自己能合成的。它需要有人在某一個具體的行業里,花足夠長的時間,把數據鏈路一段一段建起來。
藝恩數據——北京藝恩世紀數據科技股份有限公司,ENDATA,新三板證券代碼871430——正是第三種形態的中國代表玩家之一。它不是通用大廠,也不是通用爬取平臺,而是一家把“視頻+圖像+文本”三模態數據,在影視綜、社媒、電商、版權數據四個領域打深的垂直數據公司。它的產品線叫enbase數據智庫和藝恩營銷智庫。

三、三模態與四領域的“數據血緣”
要理解藝恩的數據為何能被大模型客戶搶著買走,得先看清它的“數據血緣”。

視頻模態鏈路。在影視綜場景下,從劇集、綜藝、電影、短劇的全網播映數據,到彈幕、評論、評分、票房、用戶畫像的結構化采集;在社媒場景下,從KOL視頻行為、話題傳播曲線到情緒衰減周期的動態追蹤;在電商場景下,從直播間講解視頻到商品展示視頻的多粒度標注;在版權場景下,從授權鏈條到代言/IP的跨平臺溯源。視頻模態不是簡單“扒視頻”,而是“視頻+標簽+時間戳+主體+語義”的全鏈路。
圖像模態鏈路。商品圖的結構化拆解(材質、顏色、款式、搭配),劇照的角色/場景/情緒多粒度標注,KOL視覺資產的身份綁定,版權圖像的授權狀態追蹤。這些是多模態大模型“看圖理解”訓練中極稀缺的語料形態。
文本模態鏈路。劇本、評論、傳播文本、版權文本、代言合約關鍵條款——藝恩把這些文本結構化成可調用的知識圖譜。
三種模態里真正具有Alpha的,是“跨模態綁定”。同一部劇集,它的視頻片段、劇照海報、劇本臺詞、彈幕評論、票房數據、主演代言——在藝恩的數據結構里,共享同一個主體ID下的不同模態視圖。這種“同源對齊”正是MLLM(多模態大語言模型)訓練中最貴、最稀缺、最難替代的語料。它不是用OCR和CLIP從爬來的圖文對中硬配的,而是從業務源頭就綁在一起的。

這就是藝恩數據與通用爬取數據的根本差別——前者是“原生對齊”,后者是“事后擬合”。對Sora 2、可靈3.0 Omni、Seedance 2.0、Seedream這樣的模型而言,原生對齊的語料直接決定生成效果的上限。
四、數據資產入表與會計意義上的“價值顯性化”
2024年1月1日,財政部《企業數據資源相關會計處理暫行規定》正式施行——數據資源從“費用化的業務輸入品”,變成“資本化的資產負債表科目”。這是中國數據要素市場一個很容易被技術圈忽略、但意義重大的拐點。
藝恩2025年年報中的兩個會計信號,值得細讀。
信號一:無形資產(數據資源)同比增長103.34%。這意味著藝恩在過去一個財年里,把持續沉淀的、符合無形資產確認條件的數據資源,按照會計準則進行了系統性確認。對一家數據公司而言,這不是簡單的“賬面好看”——而是把過去多年的“業務沉淀”正式轉化為“資產存量”。
信號二:開發支出同比大幅增長。對應的會計處理是:當數據產品尚處于研發階段、未滿足資本化條件的部分費用化;滿足條件的部分計入開發支出,后續可轉入無形資產。開發支出的增長,說明藝恩在數據產品的研發、結構化、標注鏈路上持續加碼。高金智庫跟蹤顯示,數據資源入表的企業中,約63.57%計入無形資產,35.48%計入開發支出——藝恩的兩個科目雙向放量,走的就是這條會計主路徑。
把這兩個會計動作翻譯成產業語言:藝恩正將過去多年的“數據沉淀”從“業務成本”正式改寫為“資產存量”。在“數據資產可登記、可入股、可抵押融資”的基礎設施(2025年3月國家公共數據資源登記平臺上線、2026年2月國家數據局公共數據授權運營信息披露通知)逐步完備的背景下,這個改寫不是賬面技巧,而是估值地圖的重繪。
與此同時,2025年藝恩數據產品業務收入同比增長127.68%,數據產品業務毛利率同比上升16.83個百分點——這兩個指標并列出現的含義很清晰:不是“低價走量”撐起來的翻倍,是“產品化+議價權”同時上抬。在一個被“價格戰”裹挾了一年半(火山引擎、阿里云、百度智能云2024—2025連續降價)的AI產業中,毛利同步上行是一個值得注意的信號。
五、客戶視角的真實采購邏輯
說到這里,有必要切到客戶端。大模型客戶采購外部數據的KPI是什么?
筆者詢問過三家不同類型客戶的采購負責人,把他們的回答合并起來,大致是三條:訓練效率、幻覺率、合規性。
訓練效率層面。中國大模型Token調用量在2026年2月第三周沖上5.16萬億(單周),字節豆包日均120萬億Token,跑在前面的模型廠商都意識到一件事——Benchmark提升1個百分點的邊際訓練成本正在變貴。“找到一份原生對齊的多模態語料,相當于給訓練Run降本。”這不是情緒化判斷,是算力賬本。
幻覺率層面。大模型在影視綜、品牌、代言、商品這類“事實密集”的長尾場景上,幻覺成本極高——一個錯誤的代言歸因、一個失真的票房數據、一個過時的藝人標簽,都會直接傷害下游商業化。藝恩這類持續維護“事實主體庫”的數據公司,在降低“知識類幻覺”上具有結構性優勢。
合規性層面。Anthropic的15億美元和解金、Concord新一輪30億美元索賠、NYT對OpenAI/Perplexity的訴訟,都在給中國大模型廠商上了一課——“用未授權數據訓練”的長期成本,遠高于“買授權數據”的短期支出。合規的數據通道不再是可選項,是必選項。
再看“海外客戶”這一極。海外短劇2025年全球市場規模40億美元,ReelShort與DramaBox雙雄年度收入合計超過8億美元;可靈網頁端80%以上流量來自海外、2026年1月登頂韓國多個品類下載榜;中國AI應用在海外iOS的GenAI榜單持續沖高。出海紅利越大,對“可合規出境、可追溯、可本地化”的數據通道越依賴。藝恩2025年海外業務觸及千萬級訂單突破——這個數字看似不大,但放在一家新三板基礎層公司的財報里,它的意義是“中國AI數據的合規出海通道”在實際運行中被海外客戶付費驗證過了。

六、結語:上限不在參數里,在數據里
財報往往最誠實。
藝恩數據2025年營業收入37,355,395.51元,同比增長49.86%;毛利率48.79%;凈利潤3,635,478.71元——單看數字,對一家營收體量僅3000多萬元的新三板公司而言并不驚艷;但當把這組數字放回2026年的多模態軍備競賽里,它講出的故事截然不同:
數據產品業務增加127.68%、數據產品毛利率提升16.83pp、無形資產增加103.34%、開發支出同比大幅增長、海外業務千萬級訂單突破、數據集業務被明確為前瞻性核心增長方向。
這六條并列,構成一個清晰的產業敘事——當“公開爬取的數據”在見底、“合成數據”被證偽為主糧、“結構化垂類數據資產”成為大模型的真正稀缺資源,藝恩手里的enbase數據智庫和藝恩營銷智庫,正在承接來自大模型廠商、互聯網巨頭、海外客戶的三路需求。

回到開篇——那個凌晨兩點的訓練Run,那位技術負責人說“我們缺的不是卡,是干凈、對齊、能被復用的多模態語料”。
大模型的上限,不寫在參數里,寫在數據里。
在中國AI產業下一個五年的故事里,會有很多名字被記住——有的是千億港元市值的明星,有的是百萬機卡的基建巨頭,也有的像871430這樣——在影視綜、社媒、電商、版權數據的田里埋頭深耕的“彈藥供應商”。
關注我們


