“在未來,為什么說大數(shù)據(jù)非常非常重要,因?yàn)樗械墓径际菙?shù)據(jù)公司,太武斷或者太絕對(duì)?回想50年前,說今天計(jì)算機(jī)無所不在,也沒有人信。”6月27日,《浪潮之巔》作者、Google科學(xué)家、硅谷風(fēng)險(xiǎn)投資人吳軍在顛覆式創(chuàng)新研習(xí)社的精彩分享,帶來他在大數(shù)據(jù)時(shí)代的前沿思考。以下是吳軍演講實(shí)錄!
大數(shù)據(jù)會(huì)在30年徹底改變世界
50年前,英特爾創(chuàng)始人之一戈登·摩爾提出來摩爾定律:當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,約每隔18-24個(gè)月便會(huì)增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個(gè)月翻一倍以上。
這一定律揭示了信息技術(shù)進(jìn)步的速度,開啟了IT非常快速發(fā)展的50年。
摩爾定律帶來的結(jié)果是:所有的硬件公司,每18個(gè)月必須實(shí)現(xiàn)產(chǎn)品更新。而且,以前我們說,社會(huì)需求帶動(dòng)科技發(fā)展,現(xiàn)在不是了,一個(gè)東西出來之后會(huì)產(chǎn)生新的社會(huì)需求。各個(gè)公司都要針對(duì)開發(fā)未來的市場(chǎng)。
為什么說今年是一個(gè)轉(zhuǎn)折點(diǎn)呢?因?yàn)橛辛舜髷?shù)據(jù),雖然他今天沒有產(chǎn)生那么大的GDP,但以后30年內(nèi)會(huì)徹底改變這個(gè)世界,而且改變我們的思維方式。
把摩爾定律反過來看,你如果不能18個(gè)月把性能翻一番,你就被這個(gè)行業(yè)淘汰了。或者我干脆不跟你玩了,我去從事一個(gè)遠(yuǎn)離18個(gè)月翻一番的行業(yè),就出現(xiàn)什么呢?轉(zhuǎn)型,就是IBM。他說與其我做硬件利潤(rùn)越來越薄,不如我賣給聯(lián)想去玩,我做IT服務(wù)。
于是我們有了很多的服務(wù)業(yè),過去,我們理解的服務(wù)業(yè)是什么呢?旅游?家政?今天不是,是IT服務(wù),光在美國(guó)這個(gè)市場(chǎng)差不多是一萬億美元。
所以創(chuàng)業(yè)時(shí)有一個(gè)選擇,你到底是做什么? IT產(chǎn)業(yè)第一代基本上就是做硬件,都是在摩爾定律出來之前誕生的,估值很低。摩爾定律出來以后,誕生了一流的軟件公司,比如說微軟公司、甲骨文。所以不同的時(shí)代要做不同的事情,而不在于說你的專長(zhǎng)在那兒。
未來30年的趨勢(shì)是什么?
未來三十年是什么樣的呢?大概分成三部分,一是云計(jì)算和移動(dòng)互聯(lián)網(wǎng)。二是大數(shù)據(jù)和機(jī)器智能。三是生物醫(yī)療,它的核心是大數(shù)據(jù)。
大數(shù)據(jù)為什么如此重要?它有三個(gè)很明顯的特征,并不僅僅是數(shù)據(jù)量大,因?yàn)樗鼛砹藱C(jī)器智能,而這個(gè)機(jī)器智能非常可怕。
什么是機(jī)器智能?計(jì)算機(jī)老祖宗阿蘭圖靈提出來判定機(jī)器是否跟人有樣智能的方式,叫做圖靈測(cè)試,這個(gè)圖靈測(cè)試怎么說的呢?大屏幕背后放上一臺(tái)計(jì)算機(jī),再坐上一個(gè)人,你問他一個(gè)問題,答案你無法判斷到底是機(jī)器給出來的,還是人給出來的,這時(shí)候我們就認(rèn)為機(jī)器和人有同等的智能。
解決這個(gè)問題要幾個(gè)東西,首先要大量的數(shù)據(jù),并且開始產(chǎn)生數(shù)據(jù)驅(qū)動(dòng)。當(dāng)時(shí)沒有互聯(lián)網(wǎng)數(shù)據(jù),但是IBM因?yàn)橛泻芏嗟纳虡I(yè)客戶電傳數(shù)據(jù)。利用這些數(shù)據(jù),IBM實(shí)現(xiàn)了語音識(shí)別系統(tǒng),當(dāng)時(shí)能識(shí)別大概100多個(gè)英文單詞,識(shí)別的錯(cuò)誤率30%,這不可用,更何況只能識(shí)別100多個(gè)字。
而數(shù)據(jù)驅(qū)動(dòng)能識(shí)別2.2萬字,這是差別。錯(cuò)誤率從30%降到10%,這是劃時(shí)代的事。大家會(huì)發(fā)現(xiàn)原來看上去很復(fù)雜的機(jī)器智能問題,好象還有另外一條路可以走,不是來模擬人,是用數(shù)據(jù)驅(qū)動(dòng)的方法。
什么是大數(shù)據(jù)呢?大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,它常常是雜亂無章的多維度的。
舉一個(gè)例子,大概兩年前百度公布了一個(gè)很簡(jiǎn)單報(bào)告,他從百度知道里面做了一些大數(shù)據(jù)的分析,然后得出一些中國(guó)各個(gè)地方飲食習(xí)慣的調(diào)查。這里面有多少呢?大概有7700萬條跟吃有關(guān)的問題,他根據(jù)IP知道你是什么地方人,問什么問題。他不是做問卷調(diào)查,你到百度知道去看數(shù)據(jù)雜亂無章的很,你通過IP地址看你問什么問題,他實(shí)際上很多數(shù)據(jù)不公布,公布以后會(huì)發(fā)現(xiàn)你的隱私被拿走了。而這個(gè)7700萬條數(shù)據(jù)還是歷史上不同時(shí)期收集來的,維度非常多。
還有一條,大數(shù)據(jù)必須具備完備性,才是有意義的。
綜上,大數(shù)據(jù)這三條要注意,一個(gè)是數(shù)據(jù)量足夠大,一個(gè)是多維度,還有一個(gè)是數(shù)據(jù)的完備性。在結(jié)束之前,再講一個(gè)很重要的,大數(shù)據(jù)為叫BIG DATA,不叫l(wèi)arge,這其實(shí)還是有細(xì)微的差別,這不僅僅是強(qiáng)調(diào)數(shù)據(jù)量本身大,他是強(qiáng)調(diào)說這是一個(gè)思維方式的改變,所以BIG DATA本身有這樣一個(gè)深層的含義。
這件事本身很可怕,可怕在那兒呢?我們回到IBM深藍(lán)和國(guó)際象棋世界冠軍卡斯帕羅夫下象棋贏了的例子。IBM不僅把卡斯帕羅夫下所有象棋的結(jié)果搜集起來了,他還把世界上好多好多的象棋高手當(dāng)時(shí)對(duì)弈結(jié)果搜集起來了,以至于說在每一步棋的時(shí)候,就像做預(yù)測(cè)的時(shí)候有一個(gè)數(shù)據(jù)的完備性,你每走一步,他實(shí)際上根據(jù)歷史結(jié)果,他對(duì)你有一個(gè)預(yù)測(cè)。當(dāng)時(shí)還沒有大數(shù)據(jù)的概念,某種程度上是變成了一個(gè)大數(shù)據(jù)的問題。
大數(shù)據(jù)發(fā)展很好的一個(gè)機(jī)遇是移動(dòng)互聯(lián)網(wǎng),PC互聯(lián)網(wǎng)是機(jī)器和機(jī)器聯(lián)網(wǎng),在移動(dòng)互聯(lián)網(wǎng)時(shí)代,是人的連網(wǎng),以前我們說手機(jī)可以讓你利用碎片時(shí)間,現(xiàn)在是說你根本就沒有整的時(shí)間,時(shí)間全變成碎片時(shí)間。你如果有可穿戴設(shè)備,你一天24小時(shí)某種程度上都掛在互聯(lián)網(wǎng)上,這也使得數(shù)據(jù)的完備性成為可能。
還有一個(gè)傳感器的技術(shù), RFID,這是什么東西呢?大概瓶子蓋這么大的東西,零售價(jià)四美分,芯片帶一個(gè)天線,當(dāng)你走過他讀寫器的時(shí)候,把里面數(shù)據(jù)傳到讀寫器上了。舉一個(gè)例子,我們買礦泉水需要排隊(duì)掃碼,然后支付。有了這個(gè)RFID傳感器以后,你把購(gòu)物車推出去就完了,然后選擇移動(dòng)支付,根本不用那么麻煩,因?yàn)閭鞲衅鲿?huì)記錄你買下的所有東西。
所以我們給出今天的第一個(gè)結(jié)論,就是說我們今天是一個(gè)從摩爾定律到數(shù)據(jù)為王的年代。而這件事并不是說僅僅是增加幾億,幾十億或者多少億的市場(chǎng)或者說這么一個(gè)產(chǎn)業(yè)問題。這整個(gè)是幾萬億,幾十萬億的故事,未來的世界,在現(xiàn)有的公司中什么公司占比較有利的位置,已經(jīng)擁有這些大數(shù)據(jù)和有能力處理大數(shù)據(jù)的,這是兩個(gè)不同的概念。
擁有大數(shù)據(jù)和已經(jīng)有能力處理大數(shù)據(jù)的公司,他們會(huì)變得非常強(qiáng)大。傳統(tǒng)的數(shù)據(jù)公司,因?yàn)樗季S方式的變化,他固定的模式使得他可能反而落伍。
在未來,為什么說大數(shù)據(jù)是非常非常重要的,因?yàn)樗械墓径际菙?shù)據(jù)公司,有人說是不是下得太武斷或者太絕對(duì)的。你如果今天回想50年前,說計(jì)算機(jī)無所不在,這個(gè)也沒有人信。
大數(shù)據(jù)不是IT界專利,傳統(tǒng)行業(yè)也需要
舉三個(gè)例子,這是一個(gè)中國(guó)公司例子,風(fēng)能發(fā)電設(shè)備的上市公司。風(fēng)力發(fā)電機(jī)有一個(gè)葉片,能用十到十五年,為什么是10到15年,這是從平均值得到的。因?yàn)槟銢]有辦法知道某一個(gè)具體的點(diǎn)具體的產(chǎn)品實(shí)際情況。
但是,這家公司裝了一些傳感器,就能監(jiān)控到每一個(gè)地方葉片情況,有一些地方風(fēng)大,風(fēng)又不均,葉片老化快,可能要八年。過去這家公司光制造這個(gè)利潤(rùn)并不高,為了競(jìng)爭(zhēng)壓價(jià)很厲害。現(xiàn)在有了大數(shù)據(jù)以后,他可以通過一些無線的聯(lián)網(wǎng),把這些東西送回來,每一臺(tái)發(fā)電機(jī)具體運(yùn)行情況知道,賣到什么地方,這個(gè)地方風(fēng)力是大是小,一年四季哪天有風(fēng)哪天沒有風(fēng)都知道。
其實(shí)到以后,每一個(gè)產(chǎn)品,以后可以從貼一個(gè)RFID,你從出廠到運(yùn)輸,每經(jīng)過一個(gè)地方,最后到了誰手里,你都可以知道。也就是說在過去想都不敢想的事,在大數(shù)據(jù)時(shí)代,我們可以精細(xì)到每一件產(chǎn)品。
第二個(gè)例子,prada。我跟chanel聊過怎么設(shè)計(jì)專賣店,他說擺放很有講究,怎么擺放好,根據(jù)老板的經(jīng)驗(yàn)確定。
prada做了一個(gè)什么事呢?很簡(jiǎn)單,他把衣服加了一個(gè)芯片,在試衣間加了一個(gè)傳感器,這個(gè)東西從貨架上拿下來,你試了多少次就知道了。他不能解決所有問題,但是至少解決一個(gè)問題,如果這個(gè)衣服大家不斷試就是不買,你肯定知道不是第一眼看上去不舒服,可能穿在模特身上好看,在我身上不好看。
第三個(gè)例子,TARGET是美國(guó)第二大百貨連鎖店,他有一次找來一個(gè)學(xué)統(tǒng)計(jì)的碩士到百貨店,干什么呢?他通過收集每個(gè)人的購(gòu)物清單,分析用戶習(xí)慣。你光知道賣了多少貨還不行,還要知道誰在買。
之后碩士生做一些研究發(fā)現(xiàn)人買東西有一些規(guī)律,比如說孕婦在不同的階段買東西是不一樣的,大家基本上按照這個(gè)規(guī)律來,你買不同階段預(yù)測(cè)你下面買什么給你送優(yōu)惠卷。
突然有一天接到了一個(gè)非常憤怒的爸爸打來電話說,我女兒才14歲,你們就給他寄嬰兒的用品廣告,這個(gè)經(jīng)理一想數(shù)據(jù)好象也會(huì)出錯(cuò),大概一個(gè)星期回訪,他又打電話問這個(gè)父親,這個(gè)父親說對(duì)不起上次是我搞錯(cuò)了,我女兒真懷孕了。
說明什么呢?大數(shù)據(jù)時(shí)代,有可能這些店家,這些商家比你更了解你自己的需求,淘寶可能比你更知道你下面要買什么東西。或者說為什么我講說,未來所有的公司可能都是大數(shù)據(jù)公司。我剛才講的這三個(gè)例子和我們傳統(tǒng)講的IT沒有關(guān)系。
面對(duì)大數(shù)據(jù),我們能做什么?
我們能做什么,或者需要做什么呢?第一個(gè)是數(shù)據(jù)的搜集,谷歌兩年前買了一個(gè)公司NEST30億美元,才100萬的用戶量,為什么呢?這是一個(gè)號(hào)稱智能空調(diào)的,在你房頂上裝一些東西,會(huì)提供家里WIFI功能,平時(shí)什么生活習(xí)慣知道,谷歌買了它,不是真正為了省那點(diǎn)電,他通過這個(gè)為了采集數(shù)據(jù)。
第二,數(shù)據(jù)的存儲(chǔ),別小看這個(gè)。以前我們處理數(shù)據(jù),想象的數(shù)據(jù),文本的數(shù)據(jù),圖象的數(shù)據(jù),視頻的數(shù)據(jù),其實(shí)相對(duì)來講都是還算是小的。你數(shù)據(jù)量大了以后怎么辦,怎么檢索,怎么存儲(chǔ),都是一個(gè)挑戰(zhàn)。
當(dāng)然還有一個(gè)很關(guān)鍵的,剛才我已經(jīng)反復(fù)講了隱私性,還有一個(gè)數(shù)據(jù)的安全。數(shù)據(jù)安全又有兩個(gè)概念,第一個(gè)概念就是說數(shù)據(jù)最好不要泄露。你不能丟,我們將來說大數(shù)據(jù),我們存在百度云盤上,這個(gè)丟了怎么辦或者說損壞了還能不能恢復(fù),這些都是挑戰(zhàn)。
機(jī)器智能的三足鼎立
下面我們要講機(jī)器智能,產(chǎn)生機(jī)器智能三個(gè)要素第一個(gè)是摩爾定律,計(jì)算機(jī)多快,存儲(chǔ)量多大。大數(shù)據(jù),我們思維方式變了。還有一個(gè)要有數(shù)學(xué)模型。因?yàn)橛?jì)算機(jī)解決智能的方法和人不一樣,他不是思考,他是算,要算要有數(shù)學(xué)模型,機(jī)器智能將來是三足鼎立,你做其中任何一個(gè),你可能將來在今后20年里都會(huì)是一個(gè)不錯(cuò)的立足點(diǎn)。
比如說谷歌大腦,其實(shí)和人腦一毛錢關(guān)系沒有,這就是一個(gè)人工神經(jīng)網(wǎng)絡(luò),以前人工神經(jīng)網(wǎng)絡(luò)在一臺(tái)機(jī)器上實(shí)現(xiàn)可能幾百個(gè)節(jié)點(diǎn)不錯(cuò)了,現(xiàn)在一百萬臺(tái)機(jī)器上實(shí)現(xiàn)可以有幾萬個(gè)節(jié)點(diǎn)。把這個(gè)模型訓(xùn)練的更加準(zhǔn)確,計(jì)算機(jī)顯得比以前聰明了。
這個(gè)像語音識(shí)別的錯(cuò)誤,大概從15%-16%,大概能夠降到12-13%,沒有改變方法,沒有改變數(shù)據(jù)量,只是機(jī)器學(xué)習(xí)這個(gè)東西做了一個(gè)改變,就有了提高。
有了這些東西,我們回頭看一開始我提出的圖靈測(cè)試的問題,讓計(jì)算機(jī)回答問題。這個(gè)事解決了,計(jì)算機(jī)跟人類同等智能了。2012年的時(shí)候我從騰訊回谷歌,我的老板,管整個(gè)谷歌搜索的高級(jí)副總裁,說你做什么事隨你,只有一個(gè)要求,這個(gè)事做完了以后,讓微軟要花五年時(shí)間來追趕我們。
后來我想了想這個(gè)事好象能做,這個(gè)事過去歷史上還沒有人做成功,讓計(jì)算機(jī)回答問題。比如天為什么是藍(lán)的?我們做了一年半,給出一個(gè)結(jié)果,你可以讀一下。這實(shí)際上是一個(gè)數(shù)據(jù)的完備性的問題。其實(shí)很多時(shí)候,這個(gè)答案在類似于某個(gè)網(wǎng)頁里面,我們只是做了什么事呢?把互聯(lián)網(wǎng)上所有的網(wǎng)頁,不是說跟我們問題有關(guān)的,而是所有的網(wǎng)頁都拿下來做語法的分析,這個(gè)計(jì)算量很大,這必須在谷歌才能完成。
之后拼湊答案,還有一些數(shù)學(xué)模型,保證拼出來的句子讀起來像英文句子。就是這樣幾件事,把一個(gè)所謂智能問題變成一個(gè)大數(shù)據(jù)的問題,這是一個(gè)很重要的一點(diǎn),并不是說我們比別人聰明,而是完全換了一個(gè)思維方式。你不再按照人的方式要求他去解決這個(gè)智能問題,而是讓機(jī)器的方式來解決智能問題。
第二個(gè)例子,谷歌自動(dòng)駕駛汽車,你可以看成是一個(gè)機(jī)器人,跑了將近20萬公里,沒有出一次交通事故。實(shí)際上不是當(dāng)成一個(gè)智能問題,他是當(dāng)成一個(gè)大數(shù)據(jù)問題,這個(gè)項(xiàng)目是谷歌街景項(xiàng)目一個(gè)延伸,這個(gè)車能去的地方是谷歌掃過街的地方。他實(shí)際上把開車問題,變成了大數(shù)據(jù)問題。
講到這里引發(fā)一個(gè)問題,智能的機(jī)器無所不在的,未來的世界是人在主宰還是機(jī)器來主宰,大家可能會(huì)有這樣一個(gè)問題。舉兩個(gè)例子,一是富士康有很多裝配工人,郭臺(tái)銘已經(jīng)講了,不當(dāng)血汗工廠,要研制機(jī)器人,讓機(jī)器替代人。
可能有人會(huì)說,反正我們不是生產(chǎn)線裝配工人,波及不到我們,我們就講兩個(gè)高大上職業(yè)。第一個(gè)是放射科醫(yī)生,這在美國(guó)是非常高大上職業(yè),但未來放射科醫(yī)生可能是一個(gè)機(jī)器。比如說識(shí)別癌細(xì)胞的機(jī)器,準(zhǔn)確率在很多地方已經(jīng)超過醫(yī)生,而且他有一個(gè)非常大得好處,識(shí)別水平非常穩(wěn)定。
未來的社會(huì),由于機(jī)器智能和大數(shù)據(jù),不僅僅是郭臺(tái)銘的生態(tài)線工人受影響,我們所有高大上職業(yè)也受影響。
未來的世界是什么樣的世界呢?第一條,機(jī)器其實(shí)是不會(huì)控制人類的,制造智能機(jī)器的公司和這些人,他們實(shí)際上是通過機(jī)器在控制人。這些人可能占人口很少數(shù)量,他們實(shí)際上是機(jī)器智能時(shí)代的受益者,其他人怎么辦呢?要不加入他們,要不然你成為98%,被2%的人控制。沒有選擇,你必須站在這個(gè)行業(yè),而且你的思維方式一定是有變化的。
大數(shù)據(jù)思維——全面性+互聯(lián)互通
總結(jié)一下大數(shù)據(jù)的思維。大數(shù)據(jù)思維第一點(diǎn),一個(gè)是全面性,他將來可以在大數(shù)據(jù)時(shí)代做任何事可以細(xì)到每一個(gè)人,每一個(gè)商品,每一筆交易。
這畫了一個(gè)酒吧臺(tái),這是一個(gè)創(chuàng)業(yè)公司。他把前一家公司賣掉以后,花了兩年時(shí)間走訪了美國(guó)100多家酒吧,他就做這個(gè)調(diào)查,他發(fā)現(xiàn)了一個(gè)很有意思的事,這個(gè)酒吧的酒有24%是被偷喝掉了,什么意思呢?比如說研習(xí)社汪洋是我的朋友,他來找我,我說小子今天沒有事,來給你來兩杯酒不算你錢,倒了兩杯喝了。
他做了什么事呢?他把酒架子改造了,每一個(gè)酒瓶子下面貼一個(gè)特殊的傳感器,傳感器本身三毛錢,然后每一次倒出來,倒多少盎司,什么時(shí)候倒的,和移動(dòng)互聯(lián)網(wǎng)是連著的,老板躺在家里看手機(jī)都知道什么交易。這就是大數(shù)據(jù)思維。
我們對(duì)比講過去的互聯(lián)網(wǎng)思維,這個(gè)很重要的是什么呢?實(shí)際上是一個(gè)互聯(lián)互通,不是簡(jiǎn)單的把電子商務(wù),說把商品原來在實(shí)體店,現(xiàn)在放到網(wǎng)上去。原來賣硬件的,也開始賣服務(wù),事實(shí)上小米今天賣小配件掙的利潤(rùn)比他賣手機(jī)要高的多,這是一個(gè)大數(shù)據(jù)思維,要把整個(gè)的商業(yè)模式都改過來。
版權(quán)聲明