蜜臀av中文人妻系列,中文字幕人妻系列人妻有码,日本少妇被黑人xxxxx

泡泡網新聞頻道 PCPOP首頁 / 新聞頻道 / 動態 / 正文

數據的第三種形態：藝恩如何為大模型提供多模態的數據彈藥？

2026年05月12日 17:00作者：網絡編輯：雎鳩

數據的第三種形態：藝恩如何為大模型提供多模態的數據彈藥？

一、凌晨兩點的訓練Run，和一個沒人問的問題

凌晨兩點，北京某多模態大模型實驗室。大屏上，一個正在進行的預訓練Run跑到了第47小時。技術負責人盯著Loss曲線抖了一下，然后把椅子轉回來說了一句：“我們缺的不是卡，是干凈、對齊、能被復用的多模態語料。”

這不是個例。2026年4月2日，字節火山引擎披露：豆包大模型日均Token使用量突破120萬億，兩年翻了約1000倍；同月，中國日均Token調用量跨過140萬億量級。2026年2月中旬，OpenRouter平臺上中國大模型的周調用量首次超越美國，并在隨后一周沖到5.16萬億Token，三周內增長127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春節前后連環發布；Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登場，雖然這款產品最終于2026年4月26日App下架（API延至9月24日），但它所引爆的多模態軍備競賽并沒有停。可靈（Kling）2.6在2025年12月實現單次生成完整音視頻，3.0進入Omni階段；阿里Wan2.6、字節Seedance 2.0、Seedream 5.0 Lite接連上線——多模態“百模大戰”已從“能不能生”迭代為“好不好用”。

但很少有人追著問下一句：訓練這些模型的數據，從哪里來？

這篇稿子，想回答這個被參數與Benchmark分數淹沒的“上游問題”——并且，想用一家公司的年報，把它講清楚。

二、數據的第三種形態

在AI訓練數據領域，產業已形成清晰的分層。

第一種形態，通用爬取的公開數據。Common Crawl約含130萬億Token，全指數化網頁約510萬億Token，全量網絡（含登錄墻后內容）約3100萬億Token。據Epoch AI在同行評審的測算，高質量人類生成公開文本的“有效存量”約300萬億Token，在當前scaling節奏下將在2026—2032年間耗盡，這種形態的黃金時代，已經走到了尾聲。更糟的是，公開數據不僅在枯竭，還在被“鎖進保險柜”——Reddit、Stack Overflow、X、知乎紛紛對爬蟲加設圍欄；紐約時報、Getty、環球音樂、康科德音樂先后對OpenAI、Stability、Anthropic發起訴訟。一位北京的AI法律合規專家告訴筆者：“公開互聯網的數據，法律成本從邊際成本變成了固定成本。”

第二種形態，人工合成的AI生成數據。Sam Altman在公開場合承認嘗試過“生成海量合成數據”，但也親口提示不能過度依賴。Nature 2024年一篇論文系統描述了“Model Collapse”——用AI生成的數據反復訓練AI，會讓模型的表達分布持續退化。合成數據可以是拐杖，不能是主糧。

第三種形態，垂類深耕的結構化數據資產。這是目前產業里不僅稀缺，更是被各方看中并爭搶的數據資產形態。它由人類在真實產業場景中沉淀，帶有明確的時空/主體/語義標簽，具備跨模態對齊能力，合規、可追溯、可被多次復用。它不是互聯網上就能爬來的，也不是AI自己能合成的。它需要有人在某一個具體的行業里，花足夠長的時間，把數據鏈路一段一段建起來。

藝恩數據——北京藝恩世紀數據科技股份有限公司，ENDATA，新三板證券代碼871430——正是第三種形態的中國代表玩家之一。它不是通用大廠，也不是通用爬取平臺，而是一家把“視頻+圖像+文本”三模態數據，在影視綜、社媒、電商、版權數據四個領域打深的垂直數據公司。它的產品線叫enbase數據智庫和藝恩營銷智庫。

三、三模態與四領域的“數據血緣”

要理解藝恩的數據為何能被大模型客戶搶著買走，得先看清它的“數據血緣”。

視頻模態鏈路。在影視綜場景下，從劇集、綜藝、電影、短劇的全網播映數據，到彈幕、評論、評分、票房、用戶畫像的結構化采集；在社媒場景下，從KOL視頻行為、話題傳播曲線到情緒衰減周期的動態追蹤；在電商場景下，從直播間講解視頻到商品展示視頻的多粒度標注；在版權場景下，從授權鏈條到代言/IP的跨平臺溯源。視頻模態不是簡單“扒視頻”，而是“視頻+標簽+時間戳+主體+語義”的全鏈路。

圖像模態鏈路。商品圖的結構化拆解（材質、顏色、款式、搭配），劇照的角色/場景/情緒多粒度標注，KOL視覺資產的身份綁定，版權圖像的授權狀態追蹤。這些是多模態大模型“看圖理解”訓練中極稀缺的語料形態。

文本模態鏈路。劇本、評論、傳播文本、版權文本、代言合約關鍵條款——藝恩把這些文本結構化成可調用的知識圖譜。

三種模態里真正具有Alpha的，是“跨模態綁定”。同一部劇集，它的視頻片段、劇照海報、劇本臺詞、彈幕評論、票房數據、主演代言——在藝恩的數據結構里，共享同一個主體ID下的不同模態視圖。這種“同源對齊”正是MLLM（多模態大語言模型）訓練中最貴、最稀缺、最難替代的語料。它不是用OCR和CLIP從爬來的圖文對中硬配的，而是從業務源頭就綁在一起的。

這就是藝恩數據與通用爬取數據的根本差別——前者是“原生對齊”，后者是“事后擬合”。對Sora 2、可靈3.0 Omni、Seedance 2.0、Seedream這樣的模型而言，原生對齊的語料直接決定生成效果的上限。

四、數據資產入表與會計意義上的“價值顯性化”

2024年1月1日，財政部《企業數據資源相關會計處理暫行規定》正式施行——數據資源從“費用化的業務輸入品”，變成“資本化的資產負債表科目”。這是中國數據要素市場一個很容易被技術圈忽略、但意義重大的拐點。

藝恩2025年年報中的兩個會計信號，值得細讀。

信號一：無形資產（數據資源）同比增長103.34%。這意味著藝恩在過去一個財年里，把持續沉淀的、符合無形資產確認條件的數據資源，按照會計準則進行了系統性確認。對一家數據公司而言，這不是簡單的“賬面好看”——而是把過去多年的“業務沉淀”正式轉化為“資產存量”。

信號二：開發支出同比大幅增長。對應的會計處理是：當數據產品尚處于研發階段、未滿足資本化條件的部分費用化；滿足條件的部分計入開發支出，后續可轉入無形資產。開發支出的增長，說明藝恩在數據產品的研發、結構化、標注鏈路上持續加碼。高金智庫跟蹤顯示，數據資源入表的企業中，約63.57%計入無形資產，35.48%計入開發支出——藝恩的兩個科目雙向放量，走的就是這條會計主路徑。

把這兩個會計動作翻譯成產業語言：藝恩正將過去多年的“數據沉淀”從“業務成本”正式改寫為“資產存量”。在“數據資產可登記、可入股、可抵押融資”的基礎設施（2025年3月國家公共數據資源登記平臺上線、2026年2月國家數據局公共數據授權運營信息披露通知）逐步完備的背景下，這個改寫不是賬面技巧，而是估值地圖的重繪。

與此同時，2025年藝恩數據產品業務收入同比增長127.68%，數據產品業務毛利率同比上升16.83個百分點——這兩個指標并列出現的含義很清晰：不是“低價走量”撐起來的翻倍，是“產品化+議價權”同時上抬。在一個被“價格戰”裹挾了一年半（火山引擎、阿里云、百度智能云2024—2025連續降價）的AI產業中，毛利同步上行是一個值得注意的信號。

五、客戶視角的真實采購邏輯

說到這里，有必要切到客戶端。大模型客戶采購外部數據的KPI是什么？

筆者詢問過三家不同類型客戶的采購負責人，把他們的回答合并起來，大致是三條：訓練效率、幻覺率、合規性。

訓練效率層面。中國大模型Token調用量在2026年2月第三周沖上5.16萬億（單周），字節豆包日均120萬億Token，跑在前面的模型廠商都意識到一件事——Benchmark提升1個百分點的邊際訓練成本正在變貴。“找到一份原生對齊的多模態語料，相當于給訓練Run降本。”這不是情緒化判斷，是算力賬本。

幻覺率層面。大模型在影視綜、品牌、代言、商品這類“事實密集”的長尾場景上，幻覺成本極高——一個錯誤的代言歸因、一個失真的票房數據、一個過時的藝人標簽，都會直接傷害下游商業化。藝恩這類持續維護“事實主體庫”的數據公司，在降低“知識類幻覺”上具有結構性優勢。

合規性層面。Anthropic的15億美元和解金、Concord新一輪30億美元索賠、NYT對OpenAI/Perplexity的訴訟，都在給中國大模型廠商上了一課——“用未授權數據訓練”的長期成本，遠高于“買授權數據”的短期支出。合規的數據通道不再是可選項，是必選項。

再看“海外客戶”這一極。海外短劇2025年全球市場規模40億美元，ReelShort與DramaBox雙雄年度收入合計超過8億美元；可靈網頁端80%以上流量來自海外、2026年1月登頂韓國多個品類下載榜；中國AI應用在海外iOS的GenAI榜單持續沖高。出海紅利越大，對“可合規出境、可追溯、可本地化”的數據通道越依賴。藝恩2025年海外業務觸及千萬級訂單突破——這個數字看似不大，但放在一家新三板基礎層公司的財報里，它的意義是“中國AI數據的合規出海通道”在實際運行中被海外客戶付費驗證過了。

六、結語：上限不在參數里，在數據里

財報往往最誠實。

藝恩數據2025年營業收入37,355,395.51元，同比增長49.86%；毛利率48.79%；凈利潤3,635,478.71元——單看數字，對一家營收體量僅3000多萬元的新三板公司而言并不驚艷；但當把這組數字放回2026年的多模態軍備競賽里，它講出的故事截然不同：

數據產品業務增加127.68%、數據產品毛利率提升16.83pp、無形資產增加103.34%、開發支出同比大幅增長、海外業務千萬級訂單突破、數據集業務被明確為前瞻性核心增長方向。

這六條并列，構成一個清晰的產業敘事——當“公開爬取的數據”在見底、“合成數據”被證偽為主糧、“結構化垂類數據資產”成為大模型的真正稀缺資源，藝恩手里的enbase數據智庫和藝恩營銷智庫，正在承接來自大模型廠商、互聯網巨頭、海外客戶的三路需求。

回到開篇——那個凌晨兩點的訓練Run，那位技術負責人說“我們缺的不是卡，是干凈、對齊、能被復用的多模態語料”。

大模型的上限，不寫在參數里，寫在數據里。

在中國AI產業下一個五年的故事里，會有很多名字被記住——有的是千億港元市值的明星，有的是百萬機卡的基建巨頭，也有的像871430這樣——在影視綜、社媒、電商、版權數據的田里埋頭深耕的“彈藥供應商”。

特別提醒：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

0人已贊

數據的第三種形態：藝恩如何為大模型提供多模態的數據彈藥？

關注我們