每日經濟新聞 2024-10-16 22:16:16
10月15日,火山引擎在視頻云技術大會上發布大模型訓練視頻預處理方案。對于目前AI視頻產品的“爆發”,北京市社會科學院副研究員王鵬表示,國內AI視頻產品正處于快速發展和不斷迭代的階段,主要因為市場需求旺盛、應用場景廣泛和商業化模式多樣等。
每經記者 楊昕怡 每經編輯 魏官紅
自Sora橫空出世開辟了AI視頻的新紀元以來,國內外各大玩家陸續加入AI視頻的競逐賽。但是,當進入這一更交互、更沉浸的視頻新時代,又該如何應對成本、質量和性能方面的挑戰?
10月15日,火山引擎聯合英特爾共同在視頻云技術大會上發布了大模型訓練視頻預處理方案?!睹咳战洕侣劇酚浾咴诎l布會現場了解到,目前該技術方案已應用于豆包視頻生成模型。
發布會上,Bytedance Research負責人李航介紹,豆包視頻生成模型PixelDance在訓練過程中采用了火山引擎的大模型訓練視頻預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐。
此外,抖音集團視頻架構負責人王悅透露了字節自研視頻編解碼芯片的最新進展:經過抖音集團內部的實踐驗證,該芯片在同等視頻壓縮效率下,成本節省了95%以上。
“首先,超大規模視頻訓練數據集導致計算和處理成本激增。”王悅指出大模型廠商在預處理過程中面臨諸多挑戰,“其次是視頻樣本數據參差不齊,然后是處理鏈路環節多、工程復雜,最后還面臨著對GPU、CPU、ARM等多種異構算力資源的調度部署。”
圖片來源:每經記者 楊昕怡 攝
在9月24日的火山引擎AI創新巡展上,豆包視頻生成-PixelDance和豆包視頻生成-Seaweed兩款大模型一并發布,吸引業內外人士關注。其實,字節跳動在視頻生成模型上下的功夫不止于此。
10月15日,火山引擎發布了大模型訓練視頻預處理方案,致力于解決視頻大模型訓練的成本、質量和性能等方面的技術挑戰。
據介紹,對訓練視頻進行預處理是保障大模型訓練效果的重要前提。預處理過程可以統一視頻的數據格式、提高數據質量、實現數據標準化、減少數據量以及處理標注信息,從而使模型能更高效地學習視頻中的特征和知識,提升訓練效果和效率。
在視頻生成模型的訓練中,算力成本無疑是首屈一指的挑戰。
一位國內視頻生成模型的算法工程師在接受《每日經濟新聞》記者采訪時表示,在擁有高質量數據后,視頻模型會比大語言模型更難訓練,有更多的算力需求,“目前已知的開源視頻模型沒有特別大,主要是目前很多視頻模型處于不知道如何使用數據的階段,(用于訓練的)高質量數據也沒有特別多。”
計算機科學家Matthias Plappert的研究也顯示,Sora的訓練對算力規模的要求巨大,在訓練環節大約需要在4200~10500張NVIDIA H100上訓練1個月,且當模型生成到推理環節以后,計算成本將迅速超過訓練環節。
為了解決降本難題,火山引擎借助Intel的CPU等資源,將大模型訓練視頻預處理方案依托于自研的多媒體處理框架。王悅表示,該方案還在算法和工程方面進行了調優,可以對海量視頻數據高質量預處理,短時間內實現處理鏈路的高效協同,提高模型訓練效率。
對于該方案的應用,李航在發布會現場透露,豆包視頻生成模型PixelDance在訓練過程中已采用該方案。同時,火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產的視頻提供了從編輯、上傳、轉碼、分發、播放的全生命周期一站式服務,讓模型的商業化應用有了保障。
此外,在此次發布會上,火山引擎還發布了跨語言同聲復刻直播方案、多模態視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案,從視頻的生產端、交互端到消費端,全鏈路融入AI能力。
AI正全方位重塑著人們生產、傳播和接受信息的路徑。其中,不斷涌現的視頻新技術將人們從流暢、高清的數據世界帶入了更加智能、更具交互體驗的AI世界。
今年7月,商湯推出了首個面向C端用戶的可控人物視頻生成大模型Vimi;8月,“AI六小龍”之一的MiniMax發布了視頻生成模型video-1;9月,可靈AI完成第9次迭代,發布“可靈1.5模型”,阿里云在云棲大會上推出全新的視頻生成模型,字節也發布了2款視頻生成模型??AI視頻產品的誕生和迭代幾乎是以月來計時的。
對于AI視頻產品的“爆發”,北京市社會科學院副研究員王鵬在接受《每日經濟新聞》記者采訪時表示,國內AI視頻產品正處于快速發展和不斷迭代的階段,主要因為市場需求旺盛、應用場景廣泛和商業化模式多樣等。
目前市場上AI視頻產品的落地大多在影視、電商營銷等領域,例如今年7月,即夢AI和博納影業合作推出了全國首部AIGC生成式連續性敘事科幻短劇集《三星堆:未來啟示錄》;今年9月,快手聯合賈樟柯、李少紅等9位知名導演啟動“可靈AI”導演共創計劃。
與此同時,工信部信息通信經濟專家委員會委員盤和林向《每日經濟新聞》記者指出,如今部分AI視頻產品處于導入期,因為技術或合規性,很難在市場上鋪開,“目前感覺開源(AI視頻產品)比閉源的更受歡迎,因為AI視頻生成的成本很高,而視頻制作者往往缺少資金,所以利用開源的、下載到終端的AI算法可以更好地制作生成視頻。”
在他看來,現階段AI視頻產品主要有算力和合規風險兩方面的主要障礙。“算法、算力和數據方面都需要企業投入較多的資源和時間;另一難點在于合規風險,如今對隱私越來越重視,合規是繞不過去的話題,而AI視頻有時可能會侵犯個人隱私。”他解釋。
此外,易觀分析研究合伙人陳晨也在接受《每日經濟新聞》記者采訪時表達了對視頻生成大模型短期變現能力的擔憂,“由于AI大模型高昂的模型訓練與推理成本,加之C端用戶對AI工具的需求相對分散,付費意愿不足,視頻大模型在C端市場的商業化仍然會面臨一個較長的培育期。”
AI視頻的時代來到了,但這注定是一個長坡厚雪的賽道,如何降本增效、拿下更多市場也將成為互聯網大廠和科技企業面對的不變命題。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP