大數據市場亂象 | 用人工智能講故事 低質虛假數據大量倒賣
時間:2017-09-13 17:00:00 閱(yue)讀:3917 整理:廣州市場調查公司
大數據公司受資本(ben)追捧,本(ben)質上(shang)是因(yin)為,物以稀為貴,但真(zhen)正能(neng)融(rong)到資的在市(shi)場上(shang)其(qi)實并不多(duo),很多(duo)用人(ren)工智能(neng)講故(gu)事、單純擁有多(duo)少億數量級(ji)數據的公司是很難獲(huo)得資本(ben)青睞的。
大(da)數(shu)(shu)據行業(ye)看上(shang)去似乎并沒(mei)有受資本(ben)寒冬(dong)的影響。僅今年4月以來,大(da)數(shu)(shu)據行業(ye)就(jiu)(jiu)有7家公司獲(huo)得融資,其中國(guo)外4家、國(guo)內3家,金額總計約11億元人民幣。而這一(yi)情況已經持續了很久,2016年僅上(shang)半年就(jiu)(jiu)有22起與大(da)數(shu)(shu)據相(xiang)關的企(qi)業(ye)獲(huo)得融資,從天(tian)使輪(lun)到C輪(lun)均有。
伴隨著資本大量進入大數(shu)據(ju)行業,出現了創(chuang)業公司估(gu)值過高的現象,好(hao)像只要打上(shang)(shang)大數(shu)據(ju)的標簽,一些公司的估(gu)值動輒翻番好(hao)幾倍。企業信用數(shu)據(ju)服務商上(shang)(shang)海斯睿德信息技術(shu)有(you)限公司出現在上(shang)(shang)述7家公司名單中,其(qi)不僅(jin)近(jin)期剛獲得由東方海富領(ling)投的數(shu)千萬元融(rong)資,且最近(jin)18個月已經成功完(wan)成了3輪融(rong)資。而另一家2015年8月剛成立的大數(shu)據(ju)公司鼎復數(shu)據(ju)也(ye)在一年多的時間內完(wan)成了2輪1.07億元的融(rong)資。
就(jiu)此現象,上海(hai)斯睿德信息技術(shu)有限公(gong)司CEO趙杰在(zai)接受第一財(cai)經采訪時表示,大(da)數(shu)(shu)據(ju)公(gong)司受資(zi)本追捧,本質上是因為,物以稀為貴。雖然國(guo)內這兩年大(da)數(shu)(shu)據(ju)企業融(rong)(rong)資(zi)速度快、頻率高,但(dan)真正(zheng)能融(rong)(rong)到(dao)資(zi)的(de)(de)(de)在(zai)市場上其(qi)實并不多(duo),很多(duo)用人工智(zhi)能講故事(shi)、單純擁有多(duo)少(shao)億數(shu)(shu)量級數(shu)(shu)據(ju)的(de)(de)(de)公(gong)司是很難(nan)獲(huo)得資(zi)本青睞的(de)(de)(de)。
人工智能是個好“故事”
市場(chang)調查(cha)研究(jiu)員在(zai)(zai)查(cha)閱上述新近完(wan)成(cheng)融資的(de)大數據公司資料時發現,各(ge)家企(qi)業無一例外都在(zai)(zai)自己(ji)的(de)宣傳介紹中提到了人工智能(neng)。而不(bu)僅(jin)是大數據公司,一些(xie)征信(xin)公司和互聯網金(jin)融公司也都會說(shuo)自己(ji)在(zai)(zai)利用人工智能(neng)識別(bie)信(xin)用風險或者反欺(qi)詐。
但實(shi)際上,人(ren)工智(zhi)能并不是高不可攀的東(dong)西。
“我認為大(da)家沒(mei)有必要(yao)把人工(gong)智(zhi)(zhi)能(neng)給(gei)神話了,過去(qu)十年在大(da)數(shu)據行業的(de)(de)帶(dai)動下(xia),深度學習、自然語(yu)言處理等技術得(de)到快(kuai)速發(fa)展,為今天人工(gong)智(zhi)(zhi)能(neng)的(de)(de)爆發(fa)奠定了堅實的(de)(de)基礎。但是(shi)如何把掌握的(de)(de)技術落地成(cheng)產品,挖掘數(shu)據資源(yuan),幫(bang)助企業用戶更(geng)高效、更(geng)低成(cheng)本地解決風控(kong)問題,才是(shi)我們努力的(de)(de)方向。”趙(zhao)杰表(biao)示。
就(jiu)拿(na)機器(qi)學習的(de)(de)建模環節來說,在(zai)(zai)過往的(de)(de)很多場(chang)景中其實都是需(xu)要建模的(de)(de)。例如,去銀行貸(dai)款買房(fang)或者申請信(xin)用卡,銀行給你(ni)授信(xin),一個剛(gang)畢(bi)業的(de)(de)學生和在(zai)(zai)職場(chang)工(gong)作很多年(nian)的(de)(de)高級白領(ling),額(e)度必然(ran)是不一樣的(de)(de),這里(li)就(jiu)會涉及到模型的(de)(de)設立。在(zai)(zai)此(ci)模型中,會有很多個維度的(de)(de)數據(ju),學歷、收入水平、婚姻狀況、過往信(xin)貸(dai)記錄(lu)等。過去往往會采用專家法和計量分(fen)析等方法建模,通(tong)過人工(gong)網查獲取各類(lei)信(xin)息。
現在(zai)(zai),伴隨(sui)各類(lei)智能技術的(de)(de)發(fa)展,機(ji)器可以在(zai)(zai)分(fen)秒(miao)內處(chu)理上(shang)十億次的(de)(de)數據(ju),于(yu)是就(jiu)開始引入機(ji)器學習。機(ji)器學習本(ben)(ben)質上(shang)是先找一些數據(ju)樣(yang)(yang)本(ben)(ben),這些樣(yang)(yang)本(ben)(ben)有(you)好有(you)壞(huai)。隨(sui)后(hou)將全(quan)量(liang)數據(ju)放入模型(xing)中,讓系統(tong)自(zi)己識(shi)別(bie),如果發(fa)現在(zai)(zai)好的(de)(de)樣(yang)(yang)本(ben)(ben)中90%都(dou)具備某一共同特(te)(te)征例如“受過(guo)高(gao)等(deng)教(jiao)(jiao)育”,則系統(tong)就(jiu)會自(zi)動認為(wei)受過(guo)高(gao)等(deng)教(jiao)(jiao)育的(de)(de)人(ren)信(xin)用佳。反之,當(dang)系統(tong)發(fa)現壞(huai)的(de)(de)樣(yang)(yang)本(ben)(ben)具備“擁有(you)五張以上(shang)信(xin)用卡”的(de)(de)特(te)(te)征,它便(bian)會將此認定為(wei)信(xin)用差的(de)(de)特(te)(te)征。隨(sui)著樣(yang)(yang)本(ben)(ben)數據(ju)的(de)(de)增多(duo),系統(tong)識(shi)別(bie)出的(de)(de)特(te)(te)征維度就(jiu)越全(quan)面(mian),得出的(de)(de)結論也(ye)就(jiu)越準確。
在當前(qian)的(de)(de)(de)(de)技術條件下(xia),機器學(xue)習(xi)(xi)也不是(shi)萬(wan)能(neng)的(de)(de)(de)(de),如果是(shi)機器沒(mei)有學(xue)習(xi)(xi)過的(de)(de)(de)(de)數據,它便無法自(zi)主做出(chu)正確的(de)(de)(de)(de)應對(dui)。從1997年IBM的(de)(de)(de)(de)“深藍”戰(zhan)勝了(le)卡斯(si)帕(pa)羅夫到20年后(hou)AlphaGo以4:1的(de)(de)(de)(de)成績戰(zhan)勝李世石(shi),驗證了(le)人工(gong)智能(neng)技術的(de)(de)(de)(de)趨于成熟,隨著樣本數據的(de)(de)(de)(de)增多,系統(tong)識別出(chu)的(de)(de)(de)(de)特(te)征維度(du)就(jiu)越(yue)全面(mian),得(de)出(chu)的(de)(de)(de)(de)結論也就(jiu)越(yue)準(zhun)確。但(dan)是(shi)AlphaGO輸掉的(de)(de)(de)(de)這一局卻是(shi)因(yin)為遇(yu)到了(le)從沒(mei)有學(xue)習(xi)(xi)過的(de)(de)(de)(de)“怪棋”,價值網絡瞬(shun)間崩潰。
至于(yu)神(shen)經網絡(luo)(luo)、決策樹、隨機森林(lin)、機器學習等“高大(da)(da)(da)上”的(de)(de)名(ming)詞(ci),實(shi)際上也無需(xu)夸大(da)(da)(da)它們的(de)(de)作用(yong)。“像多(duo)元神(shen)經網絡(luo)(luo)這樣的(de)(de)算法模型早就是非常成熟(shu)(shu)的(de)(de)多(duo)元數(shu)(shu)學統計方(fang)法,很(hen)早就應用(yong)于(yu)物理(li)學、力學以及(ji)工業領域,但并未被大(da)(da)(da)眾所熟(shu)(shu)知(zhi)。也是因為這兩年大(da)(da)(da)數(shu)(shu)據市場火爆,才把(ba)這些名(ming)詞(ci)帶到大(da)(da)(da)眾視野(ye)內。”趙杰對(dui)市場調查研究員(yuan)表(biao)示。
有關人工智能的(de)(de)故事(shi)常(chang)常(chang)還會引申到“團隊成員為國(guo)(guo)(guo)際(ji)高(gao)端人才”上,在趙杰看來,掌握(wo)國(guo)(guo)(guo)外先(xian)進的(de)(de)算(suan)法技術只是(shi)一個(ge)方面,有些技術在國(guo)(guo)(guo)外的(de)(de)應用(yong)環境(jing)下是(shi)適(shi)用(yong)的(de)(de),但如(ru)果直接照(zhao)搬到國(guo)(guo)(guo)內,不結合國(guo)(guo)(guo)內的(de)(de)實際(ji)情況,也無(wu)法提供(gong)符合國(guo)(guo)(guo)內應用(yong)場景的(de)(de)解(jie)決方案。
好算法不如好數據
“Better data beats better algorithm(好(hao)數據能打敗好(hao)算法(fa)),有(you)一(yi)套厲害的算法(fa)模(mo)型不如有(you)一(yi)套靠譜的數據。”
棱鏡大(da)數據研究(jiu)院首席(xi)科學(xue)家廖辰瀚(han)博士對第一財經(jing)市場調查研究(jiu)員表示。
“實際(ji)上(shang)在整個(ge)解決實際(ji)問(wen)題的(de)(de)(de)(de)過程中,人(ren)工(gong)智能(neng)建(jian)模(mo)所花費的(de)(de)(de)(de)精力只占(zhan)30%,而70%的(de)(de)(de)(de)精力都(dou)花費在信息(xi)(xi)的(de)(de)(de)(de)獲(huo)取(qu)和處(chu)理數據(ju)上(shang)。用人(ren)工(gong)智能(neng)做風控和模(mo)型(xing)的(de)(de)(de)(de)切入點,首先是自動化(hua),即用人(ren)的(de)(de)(de)(de)思維和方(fang)式獲(huo)取(qu)數據(ju),提煉數據(ju),第(di)二(er)步才(cai)用到機器學(xue)習的(de)(de)(de)(de)算法(fa)將獲(huo)取(qu)的(de)(de)(de)(de)信息(xi)(xi)進行(xing)關聯。”廖辰瀚稱。
對(dui)于大(da)數據(ju)公(gong)司而言(yan),高(gao)質量(liang)的(de)數據(ju)是根本。“目前對(dui)大(da)數據(ju)市(shi)場造成困擾(rao)的(de)還(huan)有一(yi)個主要方面就是,各家公(gong)司都在說自己有上億(yi)數量(liang)級(ji)的(de)數據(ju),但卻常(chang)常(chang)忽(hu)略(lve)這些(xie)數據(ju)的(de)質量(liang)。”趙杰表示。
市(shi)場調查研究員從(cong)一位征信業內人(ren)(ren)士處獲悉,近兩(liang)年大數據(ju)(ju)(ju)市(shi)場給人(ren)(ren)太(tai)多負面印象的(de)(de)(de)原因(yin)在(zai)于,真正擁(yong)有高質量數據(ju)(ju)(ju),且擁(yong)有數據(ju)(ju)(ju)分(fen)析能力(li)和產品研發能力(li)的(de)(de)(de)公(gong)司(si)數量非(fei)常有限。目前市(shi)場上有很多所(suo)謂的(de)(de)(de)大數據(ju)(ju)(ju)公(gong)司(si),都是(shi)通過(guo)倒(dao)賣數據(ju)(ju)(ju)賺取差價(jia)的(de)(de)(de)公(gong)司(si),而這(zhe)些(xie)公(gong)司(si)的(de)(de)(de)數據(ju)(ju)(ju)來源,很多來自數據(ju)(ju)(ju)黑市(shi)。
“一(yi)些(xie)數(shu)(shu)據販(fan)子(zi)由于(yu)沒有(you)任何(he)加(jia)(jia)工能力,通過一(yi)些(xie)關系,掌(zhang)握(wo)某類(lei)數(shu)(shu)據源,在不(bu)做任何(he)加(jia)(jia)工的(de)情況下,直接賣裸數(shu)(shu)據,賺取(qu)差(cha)(cha)價。由于(yu)這些(xie)數(shu)(shu)據通常都會不(bu)斷更新,不(bu)斷會有(you)新的(de)數(shu)(shu)據加(jia)(jia)入,也同時(shi)會有(you)過期(qi)的(de)數(shu)(shu)據失效,因此,只要稍加(jia)(jia)修改,又會變成(cheng)一(yi)套全新的(de)數(shu)(shu)據庫,販(fan)子(zi)們重復販(fan)賣,從中賺取(qu)差(cha)(cha)價。”上述(shu)征信業內人(ren)士表示(shi)。
該人(ren)士稱,“在販賣(mai)的數(shu)(shu)據(ju)(ju)(ju)(ju)中,有(you)(you)(you)些數(shu)(shu)據(ju)(ju)(ju)(ju)是合(he)法的,有(you)(you)(you)些數(shu)(shu)據(ju)(ju)(ju)(ju)是違法的。線上消(xiao)費的、網銀的、pos機的、信用卡(ka)的、運營(ying)商的、甚(shen)至是工商的數(shu)(shu)據(ju)(ju)(ju)(ju)都有(you)(you)(you)人(ren)賣(mai)。除了一些企業(ye)本身(shen)會打(da)包賣(mai)一些數(shu)(shu)據(ju)(ju)(ju)(ju),也會有(you)(you)(you)企業(ye)內部人(ren)員(yuan)與外人(ren)勾結聯手倒賣(mai)數(shu)(shu)據(ju)(ju)(ju)(ju),即使是BAT里也有(you)(you)(you)人(ren)出來賣(mai)數(shu)(shu)據(ju)(ju)(ju)(ju)。”
市場調(diao)查(cha)研(yan)究(jiu)員(yuan)(yuan)還(huan)從相關知情人士處了解(jie)到,數(shu)(shu)據(ju)販子倒賣的(de)(de)(de)數(shu)(shu)據(ju)很(hen)多都是(shi)臟數(shu)(shu)據(ju),由(you)于數(shu)(shu)據(ju)通常按量(liang)(liang)出(chu)(chu)售,為了把量(liang)(liang)做上去,里面往往只有30%的(de)(de)(de)數(shu)(shu)據(ju)是(shi)真(zhen)實的(de)(de)(de),而70%都是(shi)造假(jia)充量(liang)(liang)的(de)(de)(de)假(jia)數(shu)(shu)據(ju)。“如果底層的(de)(de)(de)數(shu)(shu)據(ju)都是(shi)虛假(jia)、不(bu)準確的(de)(de)(de)數(shu)(shu)據(ju),再好、再先進的(de)(de)(de)分析(xi)模(mo)型也(ye)不(bu)可能解(jie)析(xi)出(chu)(chu)正確的(de)(de)(de)結果。”趙杰(jie)對市場調(diao)查(cha)研(yan)究(jiu)員(yuan)(yuan)表示。
Maxent猛犸反欺詐CEO張克此前在接受第(di)一財經采訪時(shi)也表(biao)示,做數據(ju)能(neng)夠(gou)有優勢(shi)的(de)企業,一定(ding)是(shi)(shi)控制(zhi)了流(liu)量(liang)的(de)公司,因(yin)為所謂的(de)線(xian)上數據(ju)的(de)來源(yuan)都需要依靠線(xian)上流(liu)量(liang),沒(mei)(mei)有流(liu)量(liang)就(jiu)沒(mei)(mei)有數據(ju)源(yuan)。而依靠買賣(mai)數據(ju)是(shi)(shi)肯定(ding)行不通的(de),只是(shi)(shi)在表(biao)層包了一個殼。
關注公眾號:
華夏經緯數據科技
更多調研資訊>>
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。