大模型發展風起云涌,使得AI應用又成為了市場熱點。但這場創新運動和上一輪AI熱潮的背景不同,如今行業不缺技術、也不乏商業模式健康的玩家,最稀缺的資源,已然變成了高質量數據。大模型的模型從何而來?本質上,就靠海量數據的“喂養”。
不過,這個過程絕非輸入輸出那么簡單,而是要從收集數據做起,經過系統性工程,在不斷的訓練微調中形成最終的成果,還要將其與應用場景進行適配,融入真實應用。通過“人工”的持續努力實現“智能”,其難度可想而知。
正因為如此,人工智能領域,才有越來越明顯的“得數據者得天下”的特征。考慮到這一工作的投入與難度,普通企業顯然難以自主完成建設。大模型時代,企業需要的新生產力,大概率得向專業人工智能數據服務商要答案。
今年9月,云測數據攜“面向垂直行業大模型AI數據解決方案”亮相2023年中國國際服務貿易交易會(簡稱“服貿會”),為行業大模型的發展落地,帶來了專業解法。
高質量AI模型,靠好數據“養”出來
OpenAI攜GPT驚艷世界,對話式AI令許多用戶耳目一新。但大模型的生產力并不只如此,從國內大廠的通用大模型上線,到海外市場涌現的營銷、金融等領域的專業大模型,這輪熱潮顯然有著類似產業革命的味道,用曾經流行過的話術講:千行百業或許都值得用大模型“重做一遍”。
不過,行業用大模型“重做”意味著,通用大模型并不適合企業直接應用,只有轉化為行業大模型才更容易發揮生產力。大模型仍然構筑于“算力+數據”的底座上,算力可外購,數據則不是好邁的門檻。
一方面,各行各業的發展與AI大模型概念碰撞,落地的核心仍然是算法,而算法的質量又取決于數據的質量。對普通企業來說,配置專門的隊伍進行AI數據工作難度大且性價比不高,且專業性并不一定能滿足大模型建設的需求。沒有高質量的AI數據養料,場景化AI應用將無從談起。
同時,要處理的數據規模也是一大難點。信通院數據顯示,OpenAI自 2020年推出GPT-3以來,超大預訓練模型參數數量、訓練數據規模每年增長300倍,普通企業顯然很難擁有這樣的能力。
但另一方面,像外購算力一樣采購AI數據服務,也沒有那么容易。
比如,行業大模型的AI數據來自應用場景,采集能力影響著最終的準確程度,這就要求服務商必須有豐富的場景化意識,了解行業需求;大模型更看重人機協作,需要在預訓練后進行持續微調再融入場景,所以針對大模型進行的預訓練環節,含有大量的垂直行業數據,考驗服務商在不同環節的處理能力;而在整個過程中,為了提升把通用大模型轉化為行業大模型的能力,數據服務商必定要有一整套完備的工具、系統和平臺。
這樣一來,無論是在收集標注等環節的效率,還是垂直行業海量數據集對質量的要求,都對大模型發展趨勢下的AI數據服務提出了新的要求。行業的厲兵秣馬,開啟的是更深度的競爭。
據媒體披露,OpenAI成立8年來,花費高達10億美元用于模型訓練,可見要落地于垂直行業更會難上加難。預訓練、強化學習、人工反饋,無一不是費時費力費資源的工作。只有真正專精的AI數據服務商,才能靠對業務的深入理解、對工具和能力的長期建設,形成規模、效率等多方面優勢。也只有這樣的第三方平臺,才能貼合企業的垂直需求,做到高效、適用性強。
如今,專業AI數據服務商,已經成為破局大模型數據養料問題的關鍵角色。
全鏈條、多行業,云測數據深度護航行業大模型
對AI數據服務的質量、效率、場景化等方面的要求,本質上是因為AI技術需要深入行業。在深入行業的過程中,大模型所需要的行業數據更多,而面對于行業數據,有許多現實的要求必須滿足。在數據處理環節,機器處理數據與人工處理兩者如何結合確保質量與效率并行;在技術支持方面,數據處理工具的先進性、易用性、豐富性是否可能達到AI項目要求;在企業經營層面,科學的流程管理、完善的交付體系等能力建設是否具備先進性。
所以,市場要求AI數據服務商既要有專門的工具、能力和解決方案,又要能夠提供千人千面且富有行業深度的數據解決方案,滿足不同層次的需求。
云測數據去年發布了“面向AI工程化的數據解決方案”,今年則在延續既有優勢的基礎上,面向行業大模型建設中存在的普遍性問題,升級發布了面向垂直行業大模型AI數據解決方案。為行業大模型的發展提供從持續預訓練、任務微調、評測聯調測試到應用發布的端到端過程中的高質高效數據,從基礎設施層面,打牢行業大模型的根基。
這種全鏈條能力,來自云測數據長期積累的經驗與技術。一方面,云測數據長期深耕智能駕駛、智能家居、電商、智慧金融等領域,對場景的理解十分深入,而這大大提升了構建行業大模型、應用于場景的能力。
比如在智能駕駛領域,云測數據作為唯一一家訓練數據服務代表廠商,參與《智能網聯汽車場景數據圖像標注要求與方法》《智能網聯汽車激光雷達點云數據標注要求及方法》的編制工作,同為共同編制單位多為中國科學院自動化研究所、中國汽車技術研究中心、北京汽車研究總院等單位,可見云測數據的專業水平。
除了對專業場景的深入理解,云測數據的優勢還在于擁有面向行業場景的數據采集能力和豐富數據集積累,通過其采集場景實驗室可提供生物認證、智能座艙、家庭場景、語音交互等豐富的場景數據樣本,覆蓋圖像、語音、文本等多模態類型,可以在廣泛、持續的基礎上,為行業大模型預訓練提供賦能。
另一方面,云測數據在長期服務實踐中,逐漸對需求進行解構,可以通過不同維度、不同形式的數據觸點,基于客戶需求進行定制化數據服務。并且,由于具有多維度的數據采集工具,以及豐富的數據交付經驗,云測數據擁有與數據內容更新頻率相匹配的訂閱式采集能力,這就為適應場景的變化、適配用戶需求的迭代打下了基礎。
總結而言,作為專業AI數據服務商,云測數據已形成一套針對多模態、多任務需求,進行標準化、工程化數據服務的模式。在大模型深入千行百業的過程中,用高質量AI數據服務,促成高質量行業大模型的誕生。
用更高質量的數據服務,助力產業跑出加速度
無論哪種大模型,要轉化為企業生產力,就要先具備融入生產流程、融合企業能力底座的條件。從“面向垂直行業大模型AI數據解決方案”的發展環節看,也就是全環節都要與企業需求契合,把數據的高質量作為一種標準去執行。
在持續預訓練環節,云測數據通過前文提到的定制化場景化數據采集能力,以及持續訂閱服務能力,在金融、電商、智能駕駛等領域,根據企業要求完成數據的采集、清洗、分類,做到數據的優中選優。其中,云測數據標注平臺、工具支持集成API接口能力和科學的作業協同能力,在保證數據處理精度的前提下大大提高了數據流轉效率。
在下游任務微調階段,也就是對人機協作的優化上,云測數據始終堅持用更完善、靈活的標注工具,對多模態數據進行細致的微調,適配人機耦合的需求,讓大模型更精準。公開數據顯示,云測數據的標注平臺最高交付精準度達到99.99%,并提供包含QA-instruct、prompt等文本類任務項目和多模態大模型的相關能力支持,竭力保證數據處理的成效。
而在聯調灰度發布環節,云測數據充分展示了對專業化、場景化和業務系統集成的關注。
云測數據特定領域的專家池,對家居、駕艙等各類垂直場景具備深度了解,能夠根據實際場景提出獨特有效的交互內容。在RLHF(Reinforcement Learning from Human Feedback)過程中,靠人工專業性帶來更高質量的反饋,提升最終的數據質量,放大模型價值。與此同時,通過對企業需求的解讀,云測數據可以搭建真實場景實驗室、基于特定場景的樣本資源池,對行業大模型進行垂直領域的深度測試。
最后,云測數據提供標準API接口,通過以集成數據底座為核心的數據標注平臺,一邊輸出經過多輪質檢的數據,一邊收集難例數據以回流完成清洗標注,讓模型調優成為一個持續的進程,并對接各類業務系統,成為最終可以正式發布的產品。
據此,我們也可以認為,云測數據本質上已為有需求的用戶打造了一套“保姆式”服務——有場景化數據采集能力和高精度專業數據標注能力,有針對多模態任務處理的先進數據處理平臺,有嵌入用戶業務系統的API工具和項目管理體系。落地行業大模型應用,從此不再可望不可及。
正如云測數據總經理賈宇航所說:“AI數據質量,決定著算法的精度,AI算法精度決定產品質量。”人工智能領域的頂尖學者吳恩達也表達過此觀點,即人工智能的價值需要吸收標注的高質量數據而釋放,高質量數據的增加,會催化人工智能更快發展。中國市場數據規模不可估量,市場前景廣闊,競爭因此更重視質量。云測數據堅持的場景化、標準化、工程化,就像在幫助AI數據服務走向工業時代,讓數據價值的釋放像泉水一樣,源源不斷。
此前,“數據二十條”等政策層面激發數據要素活力、豐富數據應用場景優勢的綱領,讓數據市場如烈火烹油。大模型一出,更讓企業視數據為新時代的“石油”。大模型發展的窗口期,自然也成為了AI數據服務突飛猛進的窗口期。
但最后,誰能在這條賽道跑得更遠,最終要看能否為客戶創造價值,跑通正循環。當前談最終勝利還為時過早,但有一點可以肯定,對已經形成成熟解決方案的云測數據來說,紅利期,已經開啟了。
來源:松果財經