1. <blockquote id="lwgwu"></blockquote>
    2. <kbd id="lwgwu"><samp id="lwgwu"></samp></kbd>
    3. <abbr id="lwgwu"><tt id="lwgwu"></tt></abbr>
      免费专区丝袜调教视频,亚洲午夜无码极品久久,亚洲乳大丰满中文字幕,乱乱网,两个人看的www视频中文字幕,中文字幕日韩精品无码内射,欧美成aⅴ人高清免费,女人被爽到高潮视频免费国产
      泡泡網新聞頻道 PCPOP首頁      /      新聞頻道     /      動態    /    正文

      數據的第三種形態:藝恩如何為大模型提供多模態的數據彈藥?

      數據的第三種形態:藝恩如何為大模型提供多模態的數據彈藥?

      數據的第三種形態:藝恩如何為大模型提供多模態的數據彈藥?

      數據的第三種形態:藝恩如何為大模型提供多模態的數據彈藥?

      一、凌晨兩點的訓練Run,和一個沒人問的問題

      凌晨兩點,北京某多模態大模型實驗室。大屏上,一個正在進行的預訓練Run跑到了第47小時。技術負責人盯著Loss曲線抖了一下,然后把椅子轉回來說了一句:“我們缺的不是卡,是干凈、對齊、能被復用的多模態語料。”

      這不是個例。2026年4月2日,字節火山引擎披露:豆包大模型日均Token使用量突破120萬億,兩年翻了約1000倍;同月,中國日均Token調用量跨過140萬億量級。2026年2月中旬,OpenRouter平臺上中國大模型的周調用量首次超越美國,并在隨后一周沖到5.16萬億Token,三周內增長127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春節前后連環發布;Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登場,雖然這款產品最終于2026年4月26日App下架(API延至9月24日),但它所引爆的多模態軍備競賽并沒有停。可靈(Kling)2.6在2025年12月實現單次生成完整音視頻,3.0進入Omni階段;阿里Wan2.6、字節Seedance 2.0、Seedream 5.0 Lite接連上線——多模態“百模大戰”已從“能不能生”迭代為“好不好用”。

      但很少有人追著問下一句:訓練這些模型的數據,從哪里來?

      這篇稿子,想回答這個被參數與Benchmark分數淹沒的“上游問題”——并且,想用一家公司的年報,把它講清楚。

      二、數據的第三種形態

      在AI訓練數據領域,產業已形成清晰的分層。

      第一種形態,通用爬取的公開數據。Common Crawl約含130萬億Token,全指數化網頁約510萬億Token,全量網絡(含登錄墻后內容)約3100萬億Token。據Epoch AI在同行評審的測算,高質量人類生成公開文本的“有效存量”約300萬億Token,在當前scaling節奏下將在2026—2032年間耗盡,這種形態的黃金時代,已經走到了尾聲。更糟的是,公開數據不僅在枯竭,還在被“鎖進保險柜”——Reddit、Stack Overflow、X、知乎紛紛對爬蟲加設圍欄;紐約時報、Getty、環球音樂、康科德音樂先后對OpenAI、Stability、Anthropic發起訴訟。一位北京的AI法律合規專家告訴筆者:“公開互聯網的數據,法律成本從邊際成本變成了固定成本。”

      第二種形態,人工合成的AI生成數據。Sam Altman在公開場合承認嘗試過“生成海量合成數據”,但也親口提示不能過度依賴。Nature 2024年一篇論文系統描述了“Model Collapse”——用AI生成的數據反復訓練AI,會讓模型的表達分布持續退化。合成數據可以是拐杖,不能是主糧。

      第三種形態,垂類深耕的結構化數據資產這是目前產業里不僅稀缺,更是被各方看中并爭搶的數據資產形態。它由人類在真實產業場景中沉淀,帶有明確的時空/主體/語義標簽,具備跨模態對齊能力,合規、可追溯、可被多次復用。它不是互聯網上就能爬來的,也不是AI自己能合成的。它需要有人在某一個具體的行業里,花足夠長的時間,把數據鏈路一段一段建起來。

      藝恩數據——北京藝恩世紀數據科技股份有限公司,ENDATA,新三板證券代碼871430——正是第三種形態的中國代表玩家之一。它不是通用大廠,也不是通用爬取平臺,而是一家把“視頻+圖像+文本”三模態數據,在影視綜、社媒、電商、版權數據四個領域打深的垂直數據公司。它的產品線叫enbase數據智庫和藝恩營銷智庫。

      三、三模態與四領域的“數據血緣”

      要理解藝恩的數據為何能被大模型客戶搶著買走,得先看清它的“數據血緣”。

      視頻模態鏈路。影視綜場景下,從劇集、綜藝、電影、短劇的全網播映數據,到彈幕、評論、評分、票房、用戶畫像的結構化采集;在社媒場景下,從KOL視頻行為、話題傳播曲線到情緒衰減周期的動態追蹤;在電商場景下,從直播間講解視頻到商品展示視頻的多粒度標注;在版權場景下,從授權鏈條到代言/IP的跨平臺溯源。視頻模態不是簡單“扒視頻”,而是“視頻+標簽+時間戳+主體+語義”的全鏈路。

      圖像模態鏈路。商品圖的結構化拆解(材質、顏色、款式、搭配),劇照的角色/場景/情緒多粒度標注,KOL視覺資產的身份綁定,版權圖像的授權狀態追蹤。這些是多模態大模型“看圖理解”訓練中極稀缺的語料形態。

      文本模態鏈路。劇本、評論、傳播文本、版權文本、代言合約關鍵條款——藝恩把這些文本結構化成可調用的知識圖譜。

      三種模態里真正具有Alpha的,是“跨模態綁定”。同一部劇集,它的視頻片段、劇照海報、劇本臺詞、彈幕評論、票房數據、主演代言——在藝恩的數據結構里,共享同一個主體ID下的不同模態視圖。這種“同源對齊”正是MLLM(多模態大語言模型)訓練中最貴、最稀缺、最難替代的語料。它不是用OCR和CLIP從爬來的圖文對中硬配的,而是從業務源頭就綁在一起的。

      這就是藝恩數據與通用爬取數據的根本差別——前者是“原生對齊”,后者是“事后擬合”。對Sora 2、可靈3.0 Omni、Seedance 2.0、Seedream這樣的模型而言,原生對齊的語料直接決定生成效果的上限。

      四、數據資產入表與會計意義上的“價值顯性化”

      2024年1月1日,財政部《企業數據資源相關會計處理暫行規定》正式施行——數據資源從“費用化的業務輸入品”,變成“資本化的資產負債表科目”。這是中國數據要素市場一個很容易被技術圈忽略、但意義重大的拐點。

      藝恩2025年年報中的兩個會計信號,值得細讀。

      信號一:無形資產(數據資源)同比增長103.34%。這意味著藝恩在過去一個財年里,把持續沉淀的、符合無形資產確認條件的數據資源,按照會計準則進行了系統性確認。對一家數據公司而言,這不是簡單的“賬面好看”——而是把過去多年的“業務沉淀”正式轉化為“資產存量”。

      信號二:開發支出同比大幅增長。對應的會計處理是:當數據產品尚處于研發階段、未滿足資本化條件的部分費用化;滿足條件的部分計入開發支出,后續可轉入無形資產。開發支出的增長,說明藝恩在數據產品的研發、結構化、標注鏈路上持續加碼。高金智庫跟蹤顯示,數據資源入表的企業中,約63.57%計入無形資產,35.48%計入開發支出——藝恩的兩個科目雙向放量,走的就是這條會計主路徑。

      把這兩個會計動作翻譯成產業語言:藝恩正將過去多年的“數據沉淀”從“業務成本”正式改寫為“資產存量”。在“數據資產可登記、可入股、可抵押融資”的基礎設施(2025年3月國家公共數據資源登記平臺上線、2026年2月國家數據局公共數據授權運營信息披露通知)逐步完備的背景下,這個改寫不是賬面技巧,而是估值地圖的重繪。

      與此同時,2025年藝恩數據產品業務收入同比增長127.68%,數據產品業務毛利率同比上升16.83個百分點——這兩個指標并列出現的含義很清晰:不是“低價走量”撐起來的翻倍,是“產品化+議價權”同時上抬。在一個被“價格戰”裹挾了一年半(火山引擎、阿里云、百度智能云2024—2025連續降價)的AI產業中,毛利同步上行是一個值得注意的信號。

      五、客戶視角的真實采購邏輯

      說到這里,有必要切到客戶端。大模型客戶采購外部數據的KPI是什么?

      筆者詢問過三家不同類型客戶的采購負責人,把他們的回答合并起來,大致是三條:訓練效率、幻覺率、合規性。

      訓練效率層面。中國大模型Token調用量在2026年2月第三周沖上5.16萬億(單周),字節豆包日均120萬億Token,跑在前面的模型廠商都意識到一件事——Benchmark提升1個百分點的邊際訓練成本正在變貴。“找到一份原生對齊的多模態語料,相當于給訓練Run降本。”這不是情緒化判斷,是算力賬本。

      幻覺率層面。大模型在影視綜、品牌、代言、商品這類“事實密集”的長尾場景上,幻覺成本極高——一個錯誤的代言歸因、一個失真的票房數據、一個過時的藝人標簽,都會直接傷害下游商業化。藝恩這類持續維護“事實主體庫”的數據公司,在降低“知識類幻覺”上具有結構性優勢。

      合規性層面。Anthropic的15億美元和解金、Concord新一輪30億美元索賠、NYT對OpenAI/Perplexity的訴訟,都在給中國大模型廠商上了一課——“用未授權數據訓練”的長期成本,遠高于“買授權數據”的短期支出。合規的數據通道不再是可選項,是必選項。

      再看“海外客戶”這一極。海外短劇2025年全球市場規模40億美元,ReelShort與DramaBox雙雄年度收入合計超過8億美元;可靈網頁端80%以上流量來自海外、2026年1月登頂韓國多個品類下載榜;中國AI應用在海外iOS的GenAI榜單持續沖高。出海紅利越大,對“可合規出境、可追溯、可本地化”的數據通道越依賴。藝恩2025年海外業務觸及千萬級訂單突破——這個數字看似不大,但放在一家新三板基礎層公司的財報里,它的意義是“中國AI數據的合規出海通道”在實際運行中被海外客戶付費驗證過了。

      六、結語:上限不在參數里,在數據里

      財報往往最誠實。

      藝恩數據2025年營業收入37,355,395.51元,同比增長49.86%;毛利率48.79%;凈利潤3,635,478.71元——單看數字,對一家營收體量僅3000多萬元的新三板公司而言并不驚艷;但當把這組數字放回2026年的多模態軍備競賽里,它講出的故事截然不同:

      數據產品業務增加127.68%、數據產品毛利率提升16.83pp、無形資產增加103.34%、開發支出同比大幅增長、海外業務千萬級訂單突破、數據集業務被明確為前瞻性核心增長方向。

      這六條并列,構成一個清晰的產業敘事——當“公開爬取的數據”在見底、“合成數據”被證偽為主糧、“結構化垂類數據資產”成為大模型的真正稀缺資源,藝恩手里的enbase數據智庫和藝恩營銷智庫,正在承接來自大模型廠商、互聯網巨頭、海外客戶的三路需求。


      回到開篇——那個凌晨兩點的訓練Run,那位技術負責人說“我們缺的不是卡,是干凈、對齊、能被復用的多模態語料”。

      大模型的上限,不寫在參數里,寫在數據里。

      在中國AI產業下一個五年的故事里,會有很多名字被記住——有的是千億港元市值的明星,有的是百萬機卡的基建巨頭,也有的像871430這樣——在影視綜、社媒、電商、版權數據的田里埋頭深耕的“彈藥供應商”。


      特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。
      0人已贊

      關注我們

      泡泡網

      手機掃碼關注
      主站蜘蛛池模板: 最近免费中文字幕大全| 国产精品毛片app| 久久本道综合久久伊人| 欧美二区视频| 在线视频不卡在线亚洲| 久久天堂综合亚洲伊人hd| 精品熟妇av一区二区三区四区 | 亚洲?欧美?中文?字幕| 69国产成人综合久久精品| 久久中文字幕日韩精品| 久热爱精品视频线路一| 精品乱人码一区二区二区| 日韩a在线| 在线高清理伦片a| A毛片终身免费观看网站| 欧美精品亚洲精品日韩专区| 国产精品怡红院在线观看| 99在线国产| va精品在线| 亚洲综合无码明星蕉在线视频 | 一区二区日本在线| 国产成人精品午夜福利在线观看| 国产成人综合在线视频| 亚洲精品国产高清不卡在线| 久久久久人妻精品一区三寸蜜桃 | 日韩av一区二区精品不卡| 国产一区二区三区不卡自拍| 制服丝袜无码视频| 香港午夜三级A国产精品三级A| 好男人在在线社区www在线影院| 亚洲天堂人妻| 亚洲AV永久精品无码桃色| 国产成人久久av免费看| 中文无码精品a∨在线观看| 亚洲国产精品美女| 亚洲欧洲制服| 日本中文字幕不卡在线一区二区| 亚洲欧洲无码一区二区三区| 国产在线精品一区二区夜色| 区二区欧美性插b在线视频网站| 国产精品爽爽v在线观看无码|