
前言:第四次工業革命是人工智能之前我們一直判斷美國經濟會進入衰退,但美國經濟沒有衰退,美國搞出了ChatGPT,相當于一次真正的工業革命。之前我們對工業革命有個二次判斷失誤,一次失誤是以德國為主的工業4.0,搞機器聯網;第二次判斷失誤是搞iot物聯網,物聯網代表代表第四次工業革命,代表未來趨勢,但真正的工業革命可能是AI。所以目前大家不敢創業、創新了呢,當前進入一個什么了一個無IP不商業,無AI不創業時代,今天如果不搞AI,拿到投資都不可能。 可以大言不慚地說,我們是業內最早在網上發文給工業4.0潑冷水的(參見舊文《給4.0潑冷水:制造企業應該如何正確看待和開展工業4.0項目》,《工業4.0的冷處理》,《2021,和工業4.0說拜拜》),而且在各種場合和工業4.0的主流觀點唱反調,并建議企業謹慎投資工業4.0概念相關的項目。我們反對工業4.0的非常重要的原因之一,就是它名不配位。把大數據,物聯網,數字孿生之類的技術說成是第四次工業革命,和蒸汽機(蒸汽革命),發電機(電力革命),計算機(信息革命)比肩過于牽強。就好比說四大發明有造紙術,印刷術,指南針和充電寶;四大美女有西施,貂蟬,王昭君和李小璐;四大天王有劉德華,張學友,郭富城和黃曉明... ...就像是三句半表演的第四位,承擔了全場的笑點。所以我們一直認為工業4.0絕算不上第四次工業革命,最有希望成為第四次工業革命導火索的技術是人工智能,其次是離我們還有些遙遠的量子計算機。我們看來,前兩次工業革命都是動力革命:工業1.0時代最主要的動力設備是水輪機(其實水力在人類制造業發展史中占有極其重要的地位,參見《工業0.0,一個被我們忽略的水力時代》)和蒸汽機;工業2.0之后,主要的動力源就變成了內燃機和電動機。之后盡管出現了蒸汽輪機,燃氣輪機,沖壓發動機,核反應堆等,但都不足以改變世界。下一次科技革命如果是動力革命,那么標志性技術肯定非核聚變莫屬。工業3.0的標志性技術是計算機和互聯網,工業4.0的標志性技術是人工智能和呼之欲出的量子計算機,后兩次科技革命我稱之為“算力革命”。即便量子計算機一時半會兒還出不來,但也絕不妨礙人工智能引領本輪科技革命。 ChatGPT的橫空出世意味著初代人工智能已經實現。經過實測的人都會認為ChatGPT說的是人話,認為ChatGPT完全可以通過圖靈測試(即盲測聊天時讓人類無法分辨聊天對象是自己的同類還是和機器),即便有些問題受到人為的限制,在解除算法約束條件后,ChatGPT的表現只會更加出色。所以既然ChatGPT能夠通過圖靈測試,那么說明人工智能已經實現,這意味著第二次算力革命已經開始,它將直接影響到包括工業和制造業在內的各個領域。 應該說ChatGPT是專門針對語言邏輯這類范式問題的人工智能。除了自然語言的組織已經看不出和人類的區別,ChatGPT真正厲害的地方是對機器語言的組織和生成。只要是標準的機器代碼它都可以生成于是我繼續循循善誘繼續引導,而ChatGPT似乎也馬上理解了,而且用中文給出了非常正確且清晰的原因描述。 目前ChatGPT的聊天能力已經空前強大,既然可以按照人類自然語言的描述生成計算機代碼,那么就可以自動運行這些代碼,進而控制機器,實現信息自動化。 信息化的主要作用是解決繁瑣流程問題,比如各種審批流程,整理財務報表等等。如果工作流程比較復雜繁瑣,那么就需要上信息化軟件。現代企業的業務因為都比較復雜,所以信息系統幾乎是必須的。所以說數字化轉型是智能制造的基礎這句話一點沒錯。 對于智能化的定義大家的分歧都很大,我的看法是:能夠用人工智能的方式解決決策問題的系統才算是智能化系統。 既然我可以用Chat GPT生成數控機床的G代碼,就說明AI已經作為一個通用性的工具,影響到工業領域了。按照我之前的定義,工業領域的人工智能才算得上第四次工業革命,所以Chat GPT的成功意味著工業4.0的開始。人類的思維實際上就體現在語言上。思考就是自己和自己的對話。想明白一件事其實就是被自己頭腦里的那個聲音說服了。接受某個人的思想或認同某個人的觀念,表現形式就是同意這個人說過的話和寫過的文字。 因此,語言即思想。

人工智能引領的第四次科技和工業革命已經到來。掌握ChatGPT,對個人有什么好處,首先人人都可以成為程序員,你不需要在去學習各種編程語言,機器代碼,ChatGPT智慧會把人類的語言,要求變成機器語言。從用戶直達機器,省去中間產品經理,程序員。一個不懂編程的人,也可以自己開發需要的網站。 你不用在擔心全球旅游語言不通,AI人工智能翻譯軟件,可以無障礙讓你與任何國家的人交流; 你也不用費力再考駕照了,未來所有路上行駛的人工智能駕駛汽車,不是按照計算機導航指令行駛,而是模仿人類神經網絡,快速學習能力,根據實際路況預判,超過人類任何老司機實現絕對的安全行駛;
甚至你可以不懂繪畫、音樂、影視編輯,ChatGPT可以幫你做出任何超過你預期的作品。 當然ChatGPT可以做很多需要超強學習力的事情,目前已經進化到了GPT4,馬上到了GPT5,已經超過人力目前最強大腦,大家可以想象下,未來包括宇宙探索,飛碟制造,生物醫藥,新能源、新材料創新,創造都可以成為人類最佳助手,但他永遠代替不了人類的選擇與責任擔當。

正文
我們即將進入第四次工業革命時代,其規模之大不可想象——任正非
我們正處于傳統信息技術時代的黃昏,和人工智能時代的黎明。
在過去的260年間,人類社會經歷了三次巨大的科技創新浪潮,蒸汽機、電力和信息技術,將全球GDP提升了近千倍。每一次科技浪潮都通過某一項先進生產力要素的突破,進而引起大多數行業的變革:比如蒸汽機的出現推動了汽車、火車、輪船、鋼鐵等行業的巨大發展,140年前美國鐵路行業的惡性競爭史,就如同現今互聯網行業BAT之間的競爭。而鐵路行業發展、兼并所需的巨額金融資本,又驅動了華爾街的發展,逐漸成為全球的金融中心。
二戰之后以信息技術為核心的第三次科技革命迄今已逾70年,將全球GDP提升約60倍。其中可分為兩段:1950年-1990年,是半導體產業迅猛發展的時代,推動了大型計算機向個人PC的小型化;1990年至今是近30年的互聯網全球化時代,而互聯網時代又細分為桌面互聯網和移動互聯網兩段。
但隨著摩爾定律的失效和信息技術紅利徹底用盡,加上疫情黑天鵝影響,全球GDP衰退,引發并加劇了全球地緣政治和軍事沖突,開始向逆全球化發展。
所以未來到底屬于web3、元宇宙,還是碳中和?到底什么樣的革命性技術可以引領人類社會走出經濟衰退、疫情和戰爭的影響,并將全球經濟體量再向上推動增長下一個50倍?
我們的答案是,我們早已處于人工智能時代之中。就像直到2010年iphone4發布,絕大多數人也并未意識到移動互聯網革命早已開始一樣,如今人工智能其實也已廣泛應用,比如到處遍布的攝像頭和手機人臉識別,微信語音和文本轉換,抖音動態美顏特效、推薦算法,家庭掃地機器人和餐廳送餐機器人,背后都是人工智能核心技術在過去十年不斷取得的巨大突破。
互聯網已經是傳統行業。
互聯網技術作為過去30年最先進的生產力要素,改變了全球的所有人、所有產業、社會經濟,甚至是政治、軍事、宗教。
雖然互聯網的技術紅利已基本用盡,但我們仍可通過研究其歷史規律,來預測未來新技術發展的可能路徑。
30年的互聯網發展歷程總體可分為桌面互聯網和移動互聯網兩個時代,按產業滲透規律,又可分為信息互聯網、消費互聯網和產業互聯網三大階段。
系統硬件都是最先起步,包括底層芯片、操作系統、聯網通信、整機等,進而初步向媒體工具、文娛游戲行業滲透,因為這些領域最易受新技術的影響。當2002年中國網民達到6000萬人,2012年中國智能手機出貨量達到2億部之后 ,互聯網和移動互聯網開始全面開花,滲透變革了直接to C的眾多行業,如零售消費、交通出行、教育、金融、汽車、居住、醫療等。而當用戶量進一步上漲、新技術的滲透進一步加深,企業服務、物流、制造、農業、能源等to B產業被影響。
而這個過程中可以發現,移動互聯網時代對產業的滲透深度比桌面互聯網更深,桌面互聯網介入行業基本停留在信息連接層面,而到移動互聯網時代,眾多掌握先進技術要素的公司開始自己下場開超市、組車隊、重構教育內容和金融機構,甚至是賣房、造車。也有些公司雖然誕生在桌面時代,但成功抓住移動爆發紅利殺出重圍,比如美團、去哪兒、支付寶。
抖音的崛起是中國移動互聯網時代的最大變數,也是數據通信傳輸技術不斷提升的必然,引發了用戶流量結構的重組,進而催生了一大批抓住抖音流量紅利崛起的消費品牌,如完美日記、花西子等等。但最終都逃不過被平臺收割的命運,就像當年淘品牌的結局一樣。微信支付、支付寶的普及極大推動了線下連鎖零售的數字化程度和管理半徑,減少了上下游現金收款產生的風險,促使其在資本市場被重新認可,連鎖化率進一步提升,比如喜茶、瑞幸、Manner等等。這兩條邏輯共同構成了過去幾年的消費投資熱潮主線。
如何評判一個新技術是否能引領未來的發展方向?
我們要看它能否從本質上解放生產力、發展生產力。
蒸汽機之所以推動了第一次科技革命,是因為其極大的提升了勞動生產力,并將大量勞動人口從第一產業農業的低級勞動中解放出來,進入第二產業工業。電力加速了這一過程,并推動了第三產業服務業的出現和發展。信息技術將更多的人口從第一、二產業中釋放,進入第三產業(如大量年輕人不再進廠而去送外賣、跑滴滴),于是形成了如今全球第三產業GDP占比55%,中國第三產業勞動人口占比50%的格局。
機器人即是人工智能技術的硬件形態,在可見的未來,將第一二三產業的勞動人口從低級勞動中大比例釋放和替代,并在這個過程中推動全球GDP繼續百倍增長。
同時可大膽預言,以創新為職業的第四產業將會出現,而這個職業在人類的歷史長河中其實一直存在于第一二三產業的邊緣,不斷用突破性創新推動著人類技術的進步,且社會生產力的提升促使該職業人群不斷擴大。這大約能證明劉慈欣的技術爆炸假說來源。
人工智能從模塊上可分為感知、計算和控制三大部分,由表及里可分為應用層、數據層、算法層、算力層,而隨著2012年芯片進入28nm制程后的量子隧穿效應導致摩爾定律失效,“每提升一倍算力,就需要一倍能源”的后摩爾定律或將成為人工智能時代的核心驅動邏輯,算力的發展將極大受制于能源,當前全球用于制造算力芯片的能源占全球用電量的約1%,可以預測在人工智能大規模普及的未來數十年后,該比例將會大幅提升至50%甚至90%以上。而全球如何在減少化石能源、提升清潔能源占比,從而確保減少碳排放遏制全球升溫的同時,持續提升能源使用量級,將推動一系列能源技術革命。關于該方向的研究可參考我們的另一篇報告《碳中和:能源技術新革命》。
早在第一次科技革命之前260年,哥倫布地理大發現就使西班牙成為了第一個全球化霸主。蒸汽機驅動英國打敗西班牙無敵艦隊,電力和兩次世界大戰使美國超過英國,信息技術又讓美國贏得和蘇聯的冷戰對抗,全球過了30年相對和平的單極霸權格局。
因此中國如果僅在現有技術框架中與歐美競爭,只會不斷被卡脖子,事倍功半。只有引領下一代人工智能和碳中和能源技術科技革命浪潮,才能從全球競爭中勝出。
盡管中國已經躋身人工智能領域的大國,但是我們必須認識到中美之間在AI領域仍然有著明顯的差距。從投資金額和布局上看,從2013年到2021年,美國對人工智能公司的私人投資是中國的2倍多。當前美國AI企業數量領先中國,布局在整個產業鏈上,尤其在算法、芯片等產業核心領域積累了強大的技術創新優勢。更關鍵的是,盡管近年來中國在人工智能領域的論文和專利數量保持高速增長,但中國AI研究的質量與美國仍然有較大差距(集中體現在AI頂會論文的引用量的差距上)。
2013-2021年中美在AI領域私有部門(如風險投資、個人投資等)投資金額上差距逐漸拉大
中國在AI頂會上發表的文章數量已經反超美國,但影響力上仍然與美國有較大差距
因此,中國需要持續加大在AI領域的研發費用規模,特別是加大基礎學科的人才培養,吸引全世界優秀的AI人才。只有這樣,中國才能有朝一日趕超美國,在基礎學科建設、專利及論文發表、高端研發人才、創業投資和領軍企業等關鍵環節上的擁有自己的優勢,形成持久領軍世界的格局。
一、AI發展簡史
人工智能的概念第一次被提出是在1956年達特茅斯夏季人工智能研究會議上。當時的科學家主要討論了計算機科學領域尚未解決的問題,期待通過模擬人類大腦的運行,解決一些特定領域的具體問題(例如開發幾何定理證明器)。
那么到底什么是人工智能?目前看來,Stuart Russell與Peter Norvig在《人工智能:一種現代的方法》一書中的定義最為準確:人工智能是有關“智能主體(Intelligent agent)的研究與設計”的學問,而“智能主體”是指一個可以觀察周遭環境并做出行動以達致目標的系統。這個定義既強調了人工智能可以根據環境感知做出主動反應,又強調人工智能所做出的反應必須達成目標,同時沒有給人造成“人工智能是對人類思維方式或人類總結的思維法則的模仿”這種錯覺。
到目前為止,人工智能一共經歷了三波浪潮。
第一次AI浪潮與圖靈和他提出的“圖靈測試”緊密相關。圖靈測試剛提出沒幾年,人們似乎就看到了計算機通過圖靈測試的曙光:1966年MIT教授Joseph Weizenbaum發明了一個可以和人對話的小程序——Eliza(取名字蕭伯納的戲劇《茶花女》),轟動世界。但是Eliza的程序原理和源代碼顯示,Eliza本質是一個在話題庫里通過關鍵字映射的方式,根據人的問話回復設定好的答語的程序。不過現在人們認為,Eliza是微軟小冰、Siri、Allo和Alexa的真正鼻祖。圖靈測試以及為了通過圖靈測試而開展的技術研發,都在過去的幾十年時間里推動了人工智能,特別是自然語言處理技術(NLP)的飛速發展。
第二次AI浪潮出現在1980-1990年代,語音識別(ASR)是最具代表性的幾項突破性進展之一。在當時,語音識別主要分成兩大流派:專家系統和概率系統。專家系統嚴重依賴人類的語言學知識,可拓展性和可適應性都很差,難以解決“不特定語者、大詞匯、連續性語音識別”這三大難題。而概率系統則基于大型的語音數據語料庫,使用統計模型進行語音識別工作。中國學者李開復在這個領域取得了很大成果,基本上宣告了以專家系統為代表的符號主義學派(Symbolic AI)在語音識別領域的失敗。通過引入統計模型,語音識別的準確率提升了一個層次。
第三次AI浪潮起始于2006年,很大程度上歸功于深度學習的實用化進程。深度學習興起建立在以Geoffrey Hinton為代表的科學家數十年的積累基礎之上。簡單地說,深度學習就是把計算機要學習的東西看成一大堆數據,把這些數據丟進一個復雜的、包含多個層級的數據處理網絡(深度神經網絡),然后檢查經過這個網絡處理得到的結果數據是不是符合要求——如果符合,就保留這個網絡作為目標模型;如果不符合,就一次次地、鍥而不舍地調整網絡的參數設置,直到輸出滿足要求為止。本質上,指導深度學習的是一種“實用主義”的思想。實用主義思想讓深度學習的感知能力(建模能力)遠強于傳統的機器學習方法,但也意味著人們難以說出模型中變量的選擇、參數的取值與最終的感知能力之間的因果關系。
需要特別說明的是,人們往往容易將深度學習與“機器學習”這一概念混淆。事實上,在1956年人工智能的概念第一次被提出后,Arthur Samuel就提出:機器學習研究和構建的是一種特殊的算法而非某一個特定的算法,是一個寬泛的概念,指的是利用算法使得計算機能夠像人一樣從數據中挖掘出信息;而深度學習只是機器學習的一個子集,是比其他學習方法使用了更多的參數、模型也更加復雜的一系列算法。簡單地說,深度學習就是把計算機要學習的東西看成一大堆數據,把這些數據丟進一個復雜的、包含多個層級的數據處理網絡(深度神經網絡),然后檢查經過這個網絡處理得到的結果數據是不是符合要求——如果符合,就保留這個網絡作為目標模型,如果不符合,就一次次地、鍥而不舍地調整網絡的參數設置,直到輸出滿足要求為止。本質上,指導深度學習的是一種“實用主義”的思想。實用主義思想讓深度學習的感知能力(建模能力)遠強于傳統的機器學習方法,但也意味著人們難以說出模型中變量的選擇、參數的取值與最終的感知能力之間的因果關系。
二、AI的三大基石解析
如前所述,人工智能由表及里可分為應用層、數據層、算法層和算力層。
1.算力
算力層包括具備計算能力硬件和大數據基礎設施。回顧歷史我們就會發現,歷次算力層的發展都會顯著推動算法層的進步,并促使技術的普及應用。21世紀互聯網大規模服務集群的出現、搜索和電商業務帶來的大數據積累、GPU和異構/低功耗芯片興起帶來的運算力提升,促成了深度學習的誕生,促成了人工智能的這一波爆發。而AI芯片的出現進一步顯著提高了數據處理速度:在CPU的基礎上,出現了擅長并行計算的GPU,以及擁有良好運行能效比、更適合深度學習模型的現場可編程門陣列(FPGA)和應用專用集成電路(ASIC)。
當前,人工智能的算力層面臨巨大的挑戰。隨著2012年芯片28nm的工藝出現,原先通過在平面上增加晶體管的數量來提升芯片性能的思路因為量子隧穿效應而不再可取,摩爾定律開始失效。晶體管MOSFET這個芯片里最基礎的單元,由平面結構變成立體結構(由下圖中的Planar結構轉向FinFET結構,2018年之后進一步從FinFET結構轉向GAAFET結構)。
三代MOSFET的柵極結構演化。其中灰色代表電流流經區域,綠色代表充當閘門的柵極
芯片結構的改變直接導致了芯片制造步驟的增加,最終體現為成本的上升。在2012年28nm工藝的時候,處理器的生產大概需要450步。到了2021年的5nm工藝時,生產環節已經增加到了1200步。對應到每1億個柵極的制造成本上,我們從圖中可以清楚地看到,從90 nm 工藝到7nm工藝,生產成本先下降后上升。這就使得摩爾定律的另一種表述形式——“同樣性能的新品價格每18-24個月減半”不再成立。未來我們很可能見到的情況是,搭載了頂級技術和工藝生產出來的芯片的電子產品或設備價格高昂,超過了一般消費者的承受力度。
每 1 億個柵極的制造成本
圖片來源:Marvell Technology, 2020 Investor Day
不過算力層的這個變化讓半導體制造企業受益最大,因為只要需求存在,臺積電、三星、英特爾等幾家掌握先進工藝的廠商就會持續投入資金和人力,不斷設計和制造新一代芯片,然后根據自身成本給產品定價。
想要徹底解決摩爾定律失效的問題,需要跳出當前芯片設計的馮·諾依曼結構。類腦芯片、存算一體、尋找基于硅以外的新材料制造芯片,甚至量子計算等等都是潛力巨大的解決方案,但是這些方案距離成熟落地還非常遙遠(最樂觀地估計也需要幾十年的時間),無法解決當下芯片行業的困局。在這段時期內,行業內為了提升芯片性能,開始廣泛應用Chiplet技術,或者使用碳基芯片、光芯片等等。
Chiplet技術
Chiplet技術的原理有點類似搭積木,簡單來說就是把一堆小芯片組合成一塊大芯片。這種技術能夠以較低的成本制造過于復雜的芯片,并且保證足夠優秀的良率,從2012年開始就逐步被使用。當前Chiplet技術已經能夠在二維平面上實現用不同的材料和工藝加工拼接的小核心,Intel等公司正在把Chiplet技術引入新的階段發展:在垂直方向上堆疊多層小核心,進一步提升芯片的性能(例如Intel于2018年開發的Foveros 3D Chiplet)。不過Chiplet技術路線面臨的最大問題來源于芯片熱管理方面:如果在三維結構上堆疊多層小核心,傳統的通過CPU頂部銅蓋一個面散熱的方案將無法解決發熱問題,因此可能需要在芯片的內部嵌入冷卻裝置來解決發熱功率過高的問題。
碳納米管技術
使用碳納米管可能是另一個短期解決方案。這項技術屬于碳基芯片領域,具體來說就是用碳納米管承擔芯片里基礎元件開關的功能,而不是像傳統芯片一樣使用摻雜的半導體硅來傳輸電子。這種技術的優勢在于導電性好、散熱快、壽命長,而且由于其本質上仍然保留了馮·諾依曼架構,當前的生產工藝、產業鏈等匹配設施都不需要做出太大的調整。但是目前碳納米管的大規模生產和應用還有一些困難,距離把碳納米管按照芯片設計的要求制造出來可能還需要幾十年。
短期內,圍繞Chiplet技術在熱管理方面的探索,和碳納米管技術的靈活生產制造突破是算力層面上我們重點關注的機會。當然,我們也要了解目前類腦芯片、存算一體和量子計算等終局解決方案的相關情況。這里為大家簡單介紹如下:
類腦芯片
類腦芯片的靈感源于人腦。類腦芯片和傳統結構的差異體現在兩方面:第一,類腦芯片中數據的讀取、存儲和計算是在同一個單元中同時完成的,也即“存算一體”;第二,單元之間的連接像人類神經元之間的連接一樣,依靠“事件驅動。
目前,類腦芯片的相關研究分為兩派。一派認為需要了解清楚人腦的工作原理,才能模仿人類大腦設計出新的結構。但是目前人類對人腦的基本原理理解得仍然很粗淺,因此這一派取得的進展相當有限。另外一派則認為,可以先基于當前已有的生物學知識,比照人腦的基礎單元設計出一些結構,然后不斷試驗、優化、取得成果,實現突破。目前這一派的研究人員依照神經元的基礎結構,給類腦芯片做了一些數學描述,也搭建了模型,并且做出了不少可以運行的芯片。
存算一體
存算一體可以簡單被概括為“用存儲電荷的方式實現計算”,徹底解決了馮諾依曼結構中“存儲”和“計算”兩個步驟速度不匹配的問題(事實上,在以硅為基礎的半導體芯片出現之后,存算速度不匹配的情況就一直存在)。存算一體機構在計算深度學習相關的任務時表現突出,能耗大約是當前傳統計算設備的百分之一,能夠大大提升人工智能的性能。除此之外,這種芯片在VR和AR眼鏡等可穿戴設備上有廣闊的應用前景,也能推動更高分辨率的顯示設備價格進一步降低。
目前,存算一體仍然有兩個問題沒有突破:第一是基礎單元(憶阻器)的精度不高,其次是缺少算法,在應對除了矩陣乘法以外的計算問題時表現遠不如馮·諾依曼結構的芯片。
量子計算
量子計算是用特殊的方法控制若干個處于量子疊加態的原子,也叫作“量子”,通過指定的量子態來實現計算。量子計算機最適合的是面對一大堆可能性的時候,可以同時對所有可能性做運算。為了從所有的結果中找一個統計規律,我們需要使用量子計算機進行多次計算。不過由于退相干的問題,量子計算很容易出錯。目前量子計算的糾錯方法有待突破,只有解決了這個問題量子計算才可能被普遍使用。
當前量子計算機體積過大、運行環境嚴苛、造價昂貴。目前來看量子計算與經典計算不是取代與被取代的關系,而是在對算力要求極高的特定場景中發揮其高速并行計算的獨特優勢。中科大的量子物理學家陸朝陽曾總結道,“到目前為止,真正可以從量子計算中受益的實際問題仍然非常有限,享受指數級加速的就更少了——其他的僅有更有限的加速”。
總體而言,量子計算機的相關成果都只停留在科學研究的階段,距離實際應用還很遙遠。
2.算法
算法層指各類機器學習算法。如果根據訓練方法來分類,機器學習算法也可以分成“無監督學習”、“監督學習”和“強化學習”等。按照解決問題的類型來分,機器學習算法包括計算機視覺算法(CV)、自然語言處理算法(NLP)、語音處理和識別算法(ASR)、智慧決策算法(DMS)等。每個算法大類下又有多個具體子技術,這里我們為大家簡單介紹:
2.1 計算機視覺
計算機視覺的歷史可以追溯到1966年,當時人工智能學家Minsky要求學生編寫一個程序,讓計算機向人類呈現它通過攝像頭看到了什么。到了1970-1980年代,科學家試圖從人類看東西的方法中獲得借鑒。這一階段計算機視覺主要應用于光學字符識別、工件識別、顯微/航空圖片的識別等領域。
到了90年代,計算機視覺技術取得了更大的發展,也開始廣泛應用于工業領域。一方面是由于GPU、DSP等圖像處理硬件技術有了飛速進步;另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特征描述符的引入。進入21世紀,以往許多基于規則的處理方式,都被機器學習所替代,算法自行從海量數據中總結歸納物體的特征,然后進行識別和判斷。這一階段涌現出了非常多的應用,包括相機人臉檢測、安防人臉識別、車牌識別等等。
2010年以后,深度學習的應用將各類視覺相關任務的識別精度大幅提升,拓展了計算機視覺技術的應用場景:除了在安防領域應用外,計算機視覺也被應用于商品拍照搜索、智能影像診斷、照片自動分類等場景。
再細分地來看,計算機視覺領域主要包括圖像處理、圖像識別和檢測,以及圖像理解等分支:
圖像處理:指不涉及高層語義,僅針對底層像素的處理。典型任務包括圖片去模糊、超分辨率處理、濾鏡處理等。運用到視頻上,主要是對視頻進行濾鏡處理。這些技術目前已經相對成熟,在各類P圖軟件、視頻處理軟件中隨處可見; 圖像識別和檢測:圖像識別檢測的過程包括圖像預處理、圖像分割、特征提取和判斷匹配,可以用來處理分類問題(如識別圖片的內容是不是貓)、定位問題(如識別圖片中的貓在哪里)、檢測問題(如識別圖片中有哪些動物、分別在哪里)、分割問題(如圖片中的哪些像素區域是貓)等。這些技術也已比較成熟,圖像上的應用包括人臉檢測識別、OCR(光學字符識別)等,視頻上可用來識別影片中的明星; 圖像理解:圖像理解本質上是圖像與文本間的交互,可用來執行基于文本的圖像搜索、圖像描述生成、圖像問答(給定圖像和問題,輸出答案)等。圖像理解任務目前還沒有取得非常成熟的結果,商業化場景也正在探索之;
2.2 語音識別

前端信號處理:語音的前端處理涵蓋說話人聲檢測、回聲消除、喚醒詞識別、麥克風陣列處理、語音增強。 語音識別:語音識別的過程需要經歷特征提取、模型自適應、聲學模型、語言模型、動態解碼等多個過程。 語音合成:語音合成的幾個步驟包括文本分析、語言學分析、音長估算、發音參數估計等。基于現有技術合成的語音在清晰度和可懂度上已經達到了較好的水平,但機器口音還是比較明顯。目前的幾個研究方向包括如何使合成語音聽起來更自然、如何使合成語音的表現力更豐富,以及如何實現自然流暢的多語言混合合成。
2.3 自然語言處理

知識圖譜:知識圖譜基于語義層面,對知識進行組織后得到的結構化結果,可以用來回答簡單事實類的問題,包括語言知識圖譜(詞義上下位、同義詞等)、常識知識圖譜(“鳥會飛但兔子不會飛”)、實體關系圖譜(“劉德華的妻子是朱麗倩”)。知識圖譜的構建過程其實就是獲取知識、表示知識、應用知識的過程。 語義理解:核心問題是如何從形式與意義的多對多映射中,根據當前語境找到一種最合適的映射。以中文為例,需要解決歧義消除、上下文關聯性、意圖識別、情感識別等困難。 對話管理:為了讓機器在與人溝通的過程中不顯得那么智障,還需要在對話管理上有所突破。目前對話管理主要包含三種情形:閑聊、問答、任務驅動型對話。
2.4 規劃決策系統

2.5 算法的發展趨勢和面臨的瓶頸
從解決凸優化問題到解決非凸優化問題
從監督學習向非監督學習、強化學習的演進
從“堆數據”到研發低訓練成本的算法


3.數據
收集數據:數據的數量和質量直接決定了模型的質量。 數據準備:在使用數據前需要對數據進行清洗和一系列處理工作。 模型選擇:不同的模型往往有各自擅長處理的問題。只有把問題抽象成數學模型后,我們才能選擇出比較適合的模型,而這一步往往也是非常困難的。 訓練:這個過程不需要人來參與,機器使用數學方法對模型進行求解,完成相關的數學運算。 評估:評估模型是否較好地解決了我們的問題。 參數調整:可以以任何方式進一步改進訓練(比如調整先前假定的參數)。 預測:開始使用模型解決問題。
產業招商專業自媒體【園區產業招商】
超過24000園區招商人關注了我們!
↑ 關注公眾號:園區產業招商
↑ 加入行業交流群(如群滿,請關注公眾號后加入)
本平臺提供產業園招商代理服務
【中南高科招商品牌:燈塔瓴科】
是全國領先的招商運營平臺,成功運營86城市、近200產業園區,以高效專業著稱。項目去化最快1個月,正常12個月。現向全國產業園區提供專業招商運營代理服務。利用我們強大招商團隊和數字化平臺招商,確保高質量、快速完成招商。
【重點承接上海、蘇州、無錫、嘉興、杭州、寧波等區域產業園區項目】
園區代理業務對接 葛毅明 13524678515 微信同號
