近日,云從科技從容大模型在多模態方面取得重要進展,商品基礎大模型在MUGE、Product1M 兩個規模最大的開源中文多模態商品檢索數據集上從百度、快手、京東和OPPO等多家知名高校、企業與研究機構脫穎而出,刷新了世界紀錄。
目前,云從商品基礎大模型在Product1M數據集上Top10的平均精度均值(Mean Average Precision,mAP)達到87.68%,比此前最好成績(State Of The Art,SOTA)高出2%。
Table 1.從容多模態大模型在Product1M上的表現
在MUGE電商圖文檢索任務上的平均查全率(meanRecall)達到90.77%,比此前最好成績高出0.76%,模型僅基于平均長度為5的查詢文本對商品圖片進行檢索召回。
Table 2. 從容多模態大模型在MUGE-Retrieval上的表現
技術行業領先 無需標注即可高效訓練
現有多模態圖文預訓練方案的訓練數據主要為圖文對數據,但真實場景中的多模態數據不僅限于簡單的圖文對,更有多維度的信息來源,即多源信息。以商品搜索場景為例,多源信息就包括文本模態(搜索輸入、場景文字、文本標題、類目標簽)、視覺模態(商品圖、同款標簽)的多維多模態信息。多源蘊含豐富的語義關聯,具有極大的挖掘利用潛力與應用價值。但是,多源商品信息通常存在模態信息缺失的問題,是多源信息模態建模應用面臨的重要挑戰。
通用多模態大模型的出現讓大家看到多模態大模型強大的理解能力和對任意場景的泛化能力。云從科技通過大量商品數據的積累和海量互聯網商品數據的整合,搭建起10億級別庫商品數的大規模商品數據集。
基于大規模商品數據集,利用對比學習和自監督學習范式,云從科技提出支持商品文本模態(類別標簽、屬性標簽、搜索描述)和視覺模態(高清商品圖、購物商品圖)的商品多模態大模型,實現多種模態的對齊和商品的多模態表征,既擁有零售復雜場景下對相似商品的細粒度區分能力,也擁有推薦場景下以圖搜文或者以文搜圖的檢索能力。
針對具體的業務應用,云從商品大模型在不使用對應場景真實數據的情況下也能有較好的商品識別能力,只需使用少量標注或無標注數據,就能高效實現下游商品視覺檢索、細粒度識別、多模態檢索,對產品預研和任務遷移十分友好,有助于項目快速迭代。
效率優勢明顯 從容大模型廣泛落地
數據顯示,我國無人零售市場規模年均復合增長率為31.23%。商品作為零售市場主體,以商品為中心的感知任務,一直是人工智能算法落地的研究熱點?;诨ヂ摼W上海量的商品圖文信息和實際生產環境大量的商品數據,云從科技研發以商品為中心的多模態預訓練大模型,專注于商品相關的各類下游任務,實踐和貫徹“人機協同”理念。
通過對零售行業全流程的深入調研,云從科技利用商品基礎大模型對零售行業全流程進行智能升級,提供滿足不同職責和場景的AI店員。
例如,云從科技近年來在智能零售領域提出的智能貨柜綜合解決方案,一方面,在商品管理上全方位幫助企業實現了運營效率的提升和服務質量的整體優化;另一方面,利用動態視覺商品識別算法技術,對消費者購買過程視頻進行分析,整體達到99.48%的綜合識別準確率,同時可以將購物時間縮短50倍,通過秒級識別實時返回購買結果,實現“即拿即走,自動結算”的智能購物流程,極大提升消費者的購物體驗。