在互聯網紅利基本散盡的時代,未來到底屬于web3、元宇宙,還是碳中和?到底什么樣的革命性技術可以引領人類社會走出經濟衰退、疫情和戰爭的影響,并將全球經濟體量再向上推動數十倍?
我們的答案是,我們早已處于人工智能時代之中。
我們正處于傳統信息技術時代的黃昏,和人工智能時代的黎明。
在過去的260年間,人類社會經歷了三次巨大的科技創新浪潮,蒸汽機、電力和信息技術,將全球GDP提升了近千倍。每一次科技浪潮都通過某一項先進生產力要素的突破,進而引起大多數行業的變革:比如蒸汽機的出現推動了汽車、火車、輪船、鋼鐵等行業的巨大發展,140年前美國鐵路行業的惡性競爭史,就如同現今互聯網行業BAT之間的競爭。而鐵路行業發展、兼并所需的巨額金融資本,又驅動了華爾街的發展,逐漸成為全球的金融中心。
二戰之后以信息技術為核心的第三次科技革命迄今已逾70年,將全球GDP提升約60倍。其中可分為兩段:1950年-1990年,是半導體產業迅猛發展的時代,推動了大型計算機向個人PC的小型化;1990年至今是近30年的互聯網全球化時代,而互聯網時代又細分為桌面互聯網和移動互聯網兩段。
但隨著摩爾定律的失效和信息技術紅利徹底用盡,加上疫情黑天鵝影響,全球GDP衰退,引發并加劇了全球地緣政治和軍事沖突,開始向逆全球化發展。
所以未來到底屬于web3、元宇宙,還是碳中和?到底什么樣的革命性技術可以引領人類社會走出經濟衰退、疫情和戰爭的影響,并將全球經濟體量再向上推動增長下一個50倍?
我們的答案是,我們早已處于人工智能時代之中。就像直到2010年iphone4發布,絕大多數人也并未意識到移動互聯網革命早已開始一樣,如今人工智能其實也已廣泛應用,比如到處遍布的攝像頭和手機人臉識別,微信語音和文本轉換,抖音動態美顏特效、推薦算法,家庭掃地機器人和餐廳送餐機器人,背后都是人工智能核心技術在過去十年不斷取得的巨大突破。
互聯網已經是傳統行業。
互聯網技術作為過去30年最先進的生產力要素,改變了全球的所有人、所有產業、社會經濟,甚至是政治、軍事、宗教。
雖然互聯網的技術紅利已基本用盡,但我們仍可通過研究其歷史規律,來預測未來新技術發展的可能路徑。
30年的互聯網發展歷程總體可分為桌面互聯網和移動互聯網兩個時代,按產業滲透規律,又可分為信息互聯網、消費互聯網和產業互聯網三大階段。
系統硬件都是最先起步,包括底層芯片、操作系統、聯網通信、整機等,進而初步向媒體工具、文娛游戲行業滲透,因為這些領域最易受新技術的影響。當2002年中國網民達到6000萬人,2012年中國智能手機出貨量達到2億部之后 ,互聯網和移動互聯網開始全面開花,滲透變革了直接to C的眾多行業,如零售消費、交通出行、教育、金融、汽車、居住、醫療等。而當用戶量進一步上漲、新技術的滲透進一步加深,企業服務、物流、制造、農業、能源等to B產業被影響。
而這個過程中可以發現,移動互聯網時代對產業的滲透深度比桌面互聯網更深,桌面互聯網介入行業基本停留在信息連接層面,而到移動互聯網時代,眾多掌握先進技術要素的公司開始自己下場開超市、組車隊、重構教育內容和金融機構,甚至是賣房、造車。也有些公司雖然誕生在桌面時代,但成功抓住移動爆發紅利殺出重圍,比如美團、去哪兒、支付寶。
抖音的崛起是中國移動互聯網時代的最大變數,也是數據通信傳輸技術不斷提升的必然,引發了用戶流量結構的重組,進而催生了一大批抓住抖音流量紅利崛起的消費品牌,如完美日記、花西子等等。但最終都逃不過被平臺收割的命運,就像當年淘品牌的結局一樣。微信支付、支付寶的普及極大推動了線下連鎖零售的數字化程度和管理半徑,減少了上下游現金收款產生的風險,促使其在資本市場被重新認可,連鎖化率進一步提升,比如喜茶、瑞幸、Manner等等。這兩條邏輯共同構成了過去幾年的消費投資熱潮主線。
如何評判一個新技術是否能引領未來的發展方向?
我們要看它能否從本質上解放生產力、發展生產力。
蒸汽機之所以推動了第一次科技革命,是因為其極大的提升了勞動生產力,并將大量勞動人口從第一產業農業的低級勞動中解放出來,進入第二產業工業。電力加速了這一過程,并推動了第三產業服務業的出現和發展。信息技術將更多的人口從第一、二產業中釋放,進入第三產業(如大量年輕人不再進廠而去送外賣、跑滴滴),于是形成了如今全球第三產業GDP占比55%,中國第三產業勞動人口占比50%的格局。
機器人即是人工智能技術的硬件形態,在可見的未來,將第一二三產業的勞動人口從低級勞動中大比例釋放和替代,并在這個過程中推動全球GDP繼續百倍增長。
同時可大膽預言,以創新為職業的第四產業將會出現,而這個職業在人類的歷史長河中其實一直存在于第一二三產業的邊緣,不斷用突破性創新推動著人類技術的進步,且社會生產力的提升促使該職業人群不斷擴大。這大約能證明劉慈欣的技術爆炸假說來源。
人工智能從模塊上可分為感知、計算和控制三大部分,由表及里可分為應用層、數據層、算法層、算力層,而隨著2012年芯片進入28nm制程后的量子隧穿效應導致摩爾定律失效,“每提升一倍算力,就需要一倍能源”的后摩爾定律或將成為人工智能時代的核心驅動邏輯,算力的發展將極大受制于能源,當前全球用于制造算力芯片的能源占全球用電量的約1%,可以預測在人工智能大規模普及的未來數十年后,該比例將會大幅提升至50%甚至90%以上。而全球如何在減少化石能源、提升清潔能源占比,從而確保減少碳排放遏制全球升溫的同時,持續提升能源使用量級,將推動一系列能源技術革命。關于該方向的研究可參考我們的另一篇報告《碳中和:能源技術新革命》。
早在第一次科技革命之前260年,哥倫布地理大發現就使西班牙成為了第一個全球化霸主。蒸汽機驅動英國打敗西班牙無敵艦隊,電力和兩次世界大戰使美國超過英國,信息技術又讓美國贏得和蘇聯的冷戰對抗,全球過了30年相對和平的單極霸權格局。
因此中國如果僅在現有技術框架中與歐美競爭,只會不斷被卡脖子,事倍功半。只有引領下一代人工智能和碳中和能源技術科技革命浪潮,才能從全球競爭中勝出。
盡管中國已經躋身人工智能領域的大國,但是我們必須認識到中美之間在AI領域仍然有著明顯的差距。從投資金額和布局上看,從2013年到2021年,美國對人工智能公司的私人投資是中國的2倍多。當前美國AI企業數量領先中國,布局在整個產業鏈上,尤其在算法、芯片等產業核心領域積累了強大的技術創新優勢。更關鍵的是,盡管近年來中國在人工智能領域的論文和專利數量保持高速增長,但中國AI研究的質量與美國仍然有較大差距(集中體現在AI頂會論文的引用量的差距上)。
因此,中國需要持續加大在AI領域的研發費用規模,特別是加大基礎學科的人才培養,吸引全世界優秀的AI人才。只有這樣,中國才能有朝一日趕超美國,在基礎學科建設、專利及論文發表、高端研發人才、創業投資和領軍企業等關鍵環節上的擁有自己的優勢,形成持久領軍世界的格局。
一、AI發展簡史
人工智能的概念第一次被提出是在1956年達特茅斯夏季人工智能研究會議上。當時的科學家主要討論了計算機科學領域尚未解決的問題,期待通過模擬人類大腦的運行,解決一些特定領域的具體問題(例如開發幾何定理證明器)。
那么到底什么是人工智能?目前看來,Stuart Russell與Peter Norvig在《人工智能:一種現代的方法》一書中的定義最為準確:人工智能是有關“智能主體(Intelligent agent)的研究與設計”的學問,而“智能主體”是指一個可以觀察周遭環境并做出行動以達致目標的系統。這個定義既強調了人工智能可以根據環境感知做出主動反應,又強調人工智能所做出的反應必須達成目標,同時沒有給人造成“人工智能是對人類思維方式或人類總結的思維法則的模仿”這種錯覺。
到目前為止,人工智能一共經歷了三波浪潮。
第一次AI浪潮與圖靈和他提出的“圖靈測試”緊密相關。圖靈測試剛提出沒幾年,人們似乎就看到了計算機通過圖靈測試的曙光:1966年MIT教授Joseph Weizenbaum發明了一個可以和人對話的小程序——Eliza(取名字蕭伯納的戲劇《茶花女》),轟動世界。但是Eliza的程序原理和源代碼顯示,Eliza本質是一個在話題庫里通過關鍵字映射的方式,根據人的問話回復設定好的答語的程序。不過現在人們認為,Eliza是微軟小冰、Siri、Allo和Alexa的真正鼻祖。圖靈測試以及為了通過圖靈測試而開展的技術研發,都在過去的幾十年時間里推動了人工智能,特別是自然語言處理技術(NLP)的飛速發展。
第二次AI浪潮出現在1980-1990年代,語音識別(ASR)是最具代表性的幾項突破性進展之一。在當時,語音識別主要分成兩大流派:專家系統和概率系統。專家系統嚴重依賴人類的語言學知識,可拓展性和可適應性都很差,難以解決“不特定語者、大詞匯、連續性語音識別”這三大難題。而概率系統則基于大型的語音數據語料庫,使用統計模型進行語音識別工作。中國學者李開復在這個領域取得了很大成果,基本上宣告了以專家系統為代表的符號主義學派(Symbolic AI)在語音識別領域的失敗。通過引入統計模型,語音識別的準確率提升了一個層次。
第三次AI浪潮起始于2006年,很大程度上歸功于深度學習的實用化進程。深度學習興起建立在以Geoffrey Hinton為代表的科學家數十年的積累基礎之上。簡單地說,深度學習就是把計算機要學習的東西看成一大堆數據,把這些數據丟進一個復雜的、包含多個層級的數據處理網絡(深度神經網絡),然后檢查經過這個網絡處理得到的結果數據是不是符合要求——如果符合,就保留這個網絡作為目標模型;如果不符合,就一次次地、鍥而不舍地調整網絡的參數設置,直到輸出滿足要求為止。本質上,指導深度學習的是一種“實用主義”的思想。實用主義思想讓深度學習的感知能力(建模能力)遠強于傳統的機器學習方法,但也意味著人們難以說出模型中變量的選擇、參數的取值與最終的感知能力之間的因果關系。
需要特別說明的是,人們往往容易將深度學習與“機器學習”這一概念混淆。事實上,在1956年人工智能的概念第一次被提出后,Arthur Samuel就提出:機器學習研究和構建的是一種特殊的算法而非某一個特定的算法,是一個寬泛的概念,指的是利用算法使得計算機能夠像人一樣從數據中挖掘出信息;而深度學習只是機器學習的一個子集,是比其他學習方法使用了更多的參數、模型也更加復雜的一系列算法。簡單地說,深度學習就是把計算機要學習的東西看成一大堆數據,把這些數據丟進一個復雜的、包含多個層級的數據處理網絡(深度神經網絡),然后檢查經過這個網絡處理得到的結果數據是不是符合要求——如果符合,就保留這個網絡作為目標模型,如果不符合,就一次次地、鍥而不舍地調整網絡的參數設置,直到輸出滿足要求為止。本質上,指導深度學習的是一種“實用主義”的思想。實用主義思想讓深度學習的感知能力(建模能力)遠強于傳統的機器學習方法,但也意味著人們難以說出模型中變量的選擇、參數的取值與最終的感知能力之間的因果關系。
二、AI的三大基石解析
如前所述,人工智能由表及里可分為應用層、數據層、算法層和算力層。
1.算力
算力層包括具備計算能力硬件和大數據基礎設施。回顧歷史我們就會發現,歷次算力層的發展都會顯著推動算法層的進步,并促使技術的普及應用。21世紀互聯網大規模服務集群的出現、搜索和電商業務帶來的大數據積累、GPU和異構/低功耗芯片興起帶來的運算力提升,促成了深度學習的誕生,促成了人工智能的這一波爆發。而AI芯片的出現進一步顯著提高了數據處理速度:在CPU的基礎上,出現了擅長并行計算的GPU,以及擁有良好運行能效比、更適合深度學習模型的現場可編程門陣列(FPGA)和應用專用集成電路(ASIC)。
當前,人工智能的算力層面臨巨大的挑戰。隨著2012年芯片28nm的工藝出現,原先通過在平面上增加晶體管的數量來提升芯片性能的思路因為量子隧穿效應而不再可取,摩爾定律開始失效。晶體管MOSFET這個芯片里最基礎的單元,由平面結構變成立體結構(由下圖中的Planar結構轉向FinFET結構,2018年之后進一步從FinFET結構轉向GAAFET結構)。
三代MOSFET的柵極結構演化。其中灰色代表電流流經區域,綠色代表充當閘門的柵極
芯片結構的改變直接導致了芯片制造步驟的增加,最終體現為成本的上升。在2012年28nm工藝的時候,處理器的生產大概需要450步。到了2021年的5nm工藝時,生產環節已經增加到了1200步。對應到每1億個柵極的制造成本上,我們從圖中可以清楚地看到,從90 nm 工藝到7nm工藝,生產成本先下降后上升。這就使得摩爾定律的另一種表述形式——“同樣性能的新品價格每18-24個月減半”不再成立。未來我們很可能見到的情況是,搭載了頂級技術和工藝生產出來的芯片的電子產品或設備價格高昂,超過了一般消費者的承受力度。
不過算力層的這個變化讓半導體制造企業受益最大,因為只要需求存在,臺積電、三星、英特爾等幾家掌握先進工藝的廠商就會持續投入資金和人力,不斷設計和制造新一代芯片,然后根據自身成本給產品定價。
想要徹底解決摩爾定律失效的問題,需要跳出當前芯片設計的馮·諾依曼結構。類腦芯片、存算一體、尋找基于硅以外的新材料制造芯片,甚至量子計算等等都是潛力巨大的解決方案,但是這些方案距離成熟落地還非常遙遠(最樂觀地估計也需要幾十年的時間),無法解決當下芯片行業的困局。在這段時期內,行業內為了提升芯片性能,開始廣泛應用Chiplet技術,或者使用碳基芯片、光芯片等等。
Chiplet技術
Chiplet技術的原理有點類似搭積木,簡單來說就是把一堆小芯片組合成一塊大芯片。這種技術能夠以較低的成本制造過于復雜的芯片,并且保證足夠優秀的良率,從2012年開始就逐步被使用。當前Chiplet技術已經能夠在二維平面上實現用不同的材料和工藝加工拼接的小核心,Intel等公司正在把Chiplet技術引入新的階段發展:在垂直方向上堆疊多層小核心,進一步提升芯片的性能(例如Intel于2018年開發的Foveros 3D Chiplet)。不過Chiplet技術路線面臨的最大問題來源于芯片熱管理方面:如果在三維結構上堆疊多層小核心,傳統的通過CPU頂部銅蓋一個面散熱的方案將無法解決發熱問題,因此可能需要在芯片的內部嵌入冷卻裝置來解決發熱功率過高的問題。
碳納米管技術
使用碳納米管可能是另一個短期解決方案。這項技術屬于碳基芯片領域,具體來說就是用碳納米管承擔芯片里基礎元件開關的功能,而不是像傳統芯片一樣使用摻雜的半導體硅來傳輸電子。這種技術的優勢在于導電性好、散熱快、壽命長,而且由于其本質上仍然保留了馮·諾依曼架構,當前的生產工藝、產業鏈等匹配設施都不需要做出太大的調整。但是目前碳納米管的大規模生產和應用還有一些困難,距離把碳納米管按照芯片設計的要求制造出來可能還需要幾十年。
短期內,圍繞Chiplet技術在熱管理方面的探索,和碳納米管技術的靈活生產制造突破是算力層面上我們重點關注的機會。當然,我們也要了解目前類腦芯片、存算一體和量子計算等終局解決方案的相關情況。這里為大家簡單介紹如下:
類腦芯片
類腦芯片的靈感源于人腦。類腦芯片和傳統結構的差異體現在兩方面:第一,類腦芯片中數據的讀取、存儲和計算是在同一個單元中同時完成的,也即“存算一體”;第二,單元之間的連接像人類神經元之間的連接一樣,依靠“事件驅動。
目前,類腦芯片的相關研究分為兩派。一派認為需要了解清楚人腦的工作原理,才能模仿人類大腦設計出新的結構。但是目前人類對人腦的基本原理理解得仍然很粗淺,因此這一派取得的進展相當有限。另外一派則認為,可以先基于當前已有的生物學知識,比照人腦的基礎單元設計出一些結構,然后不斷試驗、優化、取得成果,實現突破。目前這一派的研究人員依照神經元的基礎結構,給類腦芯片做了一些數學描述,也搭建了模型,并且做出了不少可以運行的芯片。
存算一體
存算一體可以簡單被概括為“用存儲電荷的方式實現計算”,徹底解決了馮諾依曼結構中“存儲”和“計算”兩個步驟速度不匹配的問題(事實上,在以硅為基礎的半導體芯片出現之后,存算速度不匹配的情況就一直存在)。存算一體機構在計算深度學習相關的任務時表現突出,能耗大約是當前傳統計算設備的百分之一,能夠大大提升人工智能的性能。除此之外,這種芯片在VR和AR眼鏡等可穿戴設備上有廣闊的應用前景,也能推動更高分辨率的顯示設備價格進一步降低。
目前,存算一體仍然有兩個問題沒有突破:第一是基礎單元(憶阻器)的精度不高,其次是缺少算法,在應對除了矩陣乘法以外的計算問題時表現遠不如馮·諾依曼結構的芯片。
量子計算
量子計算是用特殊的方法控制若干個處于量子疊加態的原子,也叫作“量子”,通過指定的量子態來實現計算。量子計算機最適合的是面對一大堆可能性的時候,可以同時對所有可能性做運算。為了從所有的結果中找一個統計規律,我們需要使用量子計算機進行多次計算。不過由于退相干的問題,量子計算很容易出錯。目前量子計算的糾錯方法有待突破,只有解決了這個問題量子計算才可能被普遍使用。
當前量子計算機體積過大、運行環境嚴苛、造價昂貴。目前來看量子計算與經典計算不是取代與被取代的關系,而是在對算力要求極高的特定場景中發揮其高速并行計算的獨特優勢。中科大的量子物理學家陸朝陽曾總結道,“到目前為止,真正可以從量子計算中受益的實際問題仍然非常有限,享受指數級加速的就更少了——其他的僅有更有限的加速”。
總體而言,量子計算機的相關成果都只停留在科學研究的階段,距離實際應用還很遙遠。
2.算法
算法層指各類機器學習算法。如果根據訓練方法來分類,機器學習算法也可以分成“無監督學習”、“監督學習”和“強化學習”等。按照解決問題的類型來分,機器學習算法包括計算機視覺算法(CV)、自然語言處理算法(NLP)、語音處理和識別算法(ASR)、智慧決策算法(DMS)等。每個算法大類下又有多個具體子技術,這里我們為大家簡單介紹:
2.1 計算機視覺
計算機視覺的歷史可以追溯到1966年,當時人工智能學家Minsky要求學生編寫一個程序,讓計算機向人類呈現它通過攝像頭看到了什么。到了1970-1980年代,科學家試圖從人類看東西的方法中獲得借鑒。這一階段計算機視覺主要應用于光學字符識別、工件識別、顯微/航空圖片的識別等領域。
到了90年代,計算機視覺技術取得了更大的發展,也開始廣泛應用于工業領域。一方面是由于GPU、DSP等圖像處理硬件技術有了飛速進步;另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特征描述符的引入。進入21世紀,以往許多基于規則的處理方式,都被機器學習所替代,算法自行從海量數據中總結歸納物體的特征,然后進行識別和判斷。這一階段涌現出了非常多的應用,包括相機人臉檢測、安防人臉識別、車牌識別等等。
2010年以后,深度學習的應用將各類視覺相關任務的識別精度大幅提升,拓展了計算機視覺技術的應用場景:除了在安防領域應用外,計算機視覺也被應用于商品拍照搜索、智能影像診斷、照片自動分類等場景。
再細分地來看,計算機視覺領域主要包括圖像處理、圖像識別和檢測,以及圖像理解等分支:
圖像處理:指不涉及高層語義,僅針對底層像素的處理。典型任務包括圖片去模糊、超分辨率處理、濾鏡處理等。運用到視頻上,主要是對視頻進行濾鏡處理。這些技術目前已經相對成熟,在各類P圖軟件、視頻處理軟件中隨處可見;
圖像識別和檢測:圖像識別檢測的過程包括圖像預處理、圖像分割、特征提取和判斷匹配,可以用來處理分類問題(如識別圖片的內容是不是貓)、定位問題(如識別圖片中的貓在哪里)、檢測問題(如識別圖片中有哪些動物、分別在哪里)、分割問題(如圖片中的哪些像素區域是貓)等。這些技術也已比較成熟,圖像上的應用包括人臉檢測識別、OCR(光學字符識別)等,視頻上可用來識別影片中的明星;
圖像理解:圖像理解本質上是圖像與文本間的交互,可用來執行基于文本的圖像搜索、圖像描述生成、圖像問答(給定圖像和問題,輸出答案)等。圖像理解任務目前還沒有取得非常成熟的結果,商業化場景也正在探索之;
總體而言,計算機視覺已經達到了娛樂用、工具用的初級階段。未來,計算機視覺有望進入自主理解、甚至分析決策的高級階段,真正賦予機器“看”的能力,從而在智能家居、無人車等應用場景發揮更大的價值。
2.2 語音識別
第一個真正基于電子計算機的語音識別系統出現在1952年。1980年代,隨著全球性的電傳業務積累了大量文本可作為機讀語料用于模型的訓練和統計,語音識別技術取得突破:這一時期研究的重點是大詞匯量、非特定人的連續語音識別。1990年代,語音識別技術基本成熟,但識別效果與真正實用還有一定距離,語音識別研究的進展也逐漸趨緩。
隨著深度神經網絡被應用到語音的聲學建模中,人們陸續在音素識別任務和大詞匯量連續語音識別任務上取得突破。而隨著循環神經網絡(RNN)的引入,語音識別效果進一步得到提升,在許多(尤其是近場)語音識別任務上達到了可以進入人們日常生活的標準。以Apple Siri為代表的智能語音助手、以Echo為首的智能硬件等應用的普及又進一步擴充了語料資源的收集渠道,為語言和聲學模型的訓練儲備了豐富的燃料,使得構建大規模通用語言模型和聲學模型成為可能。
與語音識別緊密關聯的是語音處理。語音處理為我們提供了語音轉文字、多語言翻譯、虛擬助手等一系列軟件。一個完整的語音處理系統,包括前端的信號處理、中間的語音語義識別和對話管理(更多涉及自然語言處理),以及后期的語音合成。
前端信號處理:語音的前端處理涵蓋說話人聲檢測、回聲消除、喚醒詞識別、麥克風陣列處理、語音增強。
語音識別:語音識別的過程需要經歷特征提取、模型自適應、聲學模型、語言模型、動態解碼等多個過程。
語音合成:語音合成的幾個步驟包括文本分析、語言學分析、音長估算、發音參數估計等?;诂F有技術合成的語音在清晰度和可懂度上已經達到了較好的水平,但機器口音還是比較明顯。目前的幾個研究方向包括如何使合成語音聽起來更自然、如何使合成語音的表現力更豐富,以及如何實現自然流暢的多語言混合合成。
2.3 自然語言處理
早在1950年代,人們就有了自然語言處理的任務需求,其中最典型的就是機器翻譯。到了1990年代,隨著計算機的計算速度和存儲量大幅增加、大規模真實文本的積累產生,以及被互聯網發展激發出的、以網頁搜索為代表的基于自然語言的信息檢索和抽取需求出現,自然語言處理進入了發展繁榮期。在傳統的基于規則的處理技術中,人們引入了更多數據驅動的統計方法,將自然語言處理的研究推向了一個新高度。
進入2010年以后,基于大數據和淺層、深層學習技術,自然語言處理的效果得到了進一步優化,出現了專門的智能翻譯產品、客服機器人、智能助手等產品。這一時期的一個重要里程碑事件是IBM研發的Watson系統參加綜藝問答節目Jeopardy。機器翻譯方面,谷歌推出的神經網絡機器翻譯(GNMT)相比傳統的基于詞組的機器翻譯(PBMT),在翻譯的準確率上取得了非常強勁的提升。
自然語言處理從流程上看,分成自然語言理解(NLU)和自然語言生成(NLG)兩部分,這里我們簡單為大家介紹知識圖譜、語義理解、對話管理等研究方向。
知識圖譜:知識圖譜基于語義層面,對知識進行組織后得到的結構化結果,可以用來回答簡單事實類的問題,包括語言知識圖譜(詞義上下位、同義詞等)、常識知識圖譜(“鳥會飛但兔子不會飛”)、實體關系圖譜(“劉德華的妻子是朱麗倩”)。知識圖譜的構建過程其實就是獲取知識、表示知識、應用知識的過程。
語義理解:核心問題是如何從形式與意義的多對多映射中,根據當前語境找到一種最合適的映射。以中文為例,需要解決歧義消除、上下文關聯性、意圖識別、情感識別等困難。
對話管理:為了讓機器在與人溝通的過程中不顯得那么智障,還需要在對話管理上有所突破。目前對話管理主要包含三種情形:閑聊、問答、任務驅動型對話。
2.4 規劃決策系統
真正基于人工智能的規劃決策系統出現在電子計算機誕生之后。1990年代,硬件性能、算法能力等都得到了大幅提升,在1997年IBM研發的深藍(Deep Blue)戰勝國際象棋大師卡斯帕羅夫。到了2016年,硬件層面出現了基于GPU、TPU的并行計算,算法層面出現了蒙特卡洛決策樹與深度神經網絡的結合。人類在完美信息博弈的游戲中已徹底輸給機器,只能在不完美信息的德州撲克和麻將中茍延殘喘。人們從棋類游戲中積累的知識和經驗,也被應用在更廣泛的需要決策規劃的領域,包括機器人控制、無人車等等。
2.5 算法的發展趨勢和面臨的瓶頸
近年來。處在機器學習也產生了幾個重要的研究方向,例如從解決凸優化問題到解決非凸優化問題,以及從監督學習向非監督學習、強化學習的演進:
從解決凸優化問題到解決非凸優化問題
目前機器學習中的大部分問題,都可以通過加上一定的約束條件,轉化或近似為一個凸優化問題。凸優化問題是指將所有的考慮因素表示為一組函數,然后從中選出一個最優解。而凸優化問題的一個很好的特性是局部最優就是全局最優。這個特性使得人們能通過梯度下降法尋找到下降的方向,找到的局部最優解就會是全局最優解。
然而在現實生活中,真正符合凸優化性質的問題其實并不多,目前對凸優化問題的關注僅僅是因為這類問題更容易解決。人們現在還缺乏針對非凸優化問題的行之有效的算法。
從監督學習向非監督學習、強化學習的演進
目前來看,大部分的AI應用都是通過監督學習,利用一組已標注的訓練數據,對分類器的參數進行調整,使其達到所要求的性能。但在現實生活中,監督學習不足以被稱為“智能”。對照人類的學習過程,許多都是建立在與事物的交互中,通過人類自身的體會、領悟,得到對事物的理解,并將之應用于未來的生活中。而機器的局限就在于缺乏這些“常識”。
無監督學習領域近期的研究重點在于“生成對抗網絡”(GANs),而強化學習的一個重要研究方向在于建立一個有效的、與真實世界存在交互的仿真模擬環境,不斷訓練,模擬采取各種動作、接受各種反饋,以此對模型進行訓練。
從“堆數據”到研發低訓練成本的算法
MIT Digital Lab的研究者聯合韓國的相關機構在2020年發表了一項基于1058篇深度學習的論文和數據的研究。在分析了現有的深度學習論文成果后,研究人員提出了一個悲觀的預言:深度學習會隨著計算量的限制,在到達某個性能水平后停滯不前,因為在深度學習領域有這樣一條規律:想提升 X 倍的性能,最少需要用 X^2倍的數據去訓練模型,且這個過程要消耗X^4倍的計算量。即便是10倍性能提升和1萬倍計算量的提升,這樣失衡的比例關系也僅僅是理論上最優的。在現實中,提升10倍性能往往要搭上10億倍的運算量。以今天地球資源的狀況看,想把一些常用的模型錯誤率降低到人們滿意的程度,代價高到人類不能承受。因此,在深度學習領域非常值得關注的是可大幅降低訓練成本的新算法創新。
圖像分類、物體識別、語義問答等多個領域AI算法準確率及對應所需算力(Gflops)、碳排放量和經濟成本
3.數據
數據層指的是人工智能為不同的行業提供解決方案時所采集和利用的數據。事實上,使用人工智能解決問題的步驟絕不僅僅包括搜集和整理數據。這里我們簡單介紹一下完整的流程和思路:
收集數據:數據的數量和質量直接決定了模型的質量。
數據準備:在使用數據前需要對數據進行清洗和一系列處理工作。
模型選擇:不同的模型往往有各自擅長處理的問題。只有把問題抽象成數學模型后,我們才能選擇出比較適合的模型,而這一步往往也是非常困難的。
訓練:這個過程不需要人來參與,機器使用數學方法對模型進行求解,完成相關的數學運算。
評估:評估模型是否較好地解決了我們的問題。
參數調整:可以以任何方式進一步改進訓練(比如調整先前假定的參數)。
預測:開始使用模型解決問題。
如果我們想利用人工智能解決的問題被限定在足夠小的領域內,那么我們就更容易活動具體場景下的訓練數據,從而更高效、更有針對性地訓練模型。在金融、律政、醫療等行業的細分場景下,人工智能已經逐步被應用,且已經實現了一定的商業化。
一、為什么是機器人
1.機器人的外延及框架
雖然機器人產業已有超過60年發展史,在傳統【工業機器人】及【服務機器人】分析框架下,全球機器人產業僅有300-400億美元行業規模,但我們認為,在智能化加持下,機器人的外延及邊界已被數倍擴大,新物種的誕生及傳統設備的智能化將共同驅動“機器人”產業十倍及百倍增長。
概括來講,機器人普遍存在的意義是“為人類服務”的可運動智能設備,包括機器人對于人類勞動的替代、完成人類所無法完成任務的能力延伸以及情感陪伴等價值。
面對人類對于物質及精神永不停止的需求增長,相對于元宇宙,機器人將會是“現實宇宙”中的最佳供給方案。
2.AI將會帶給機器人怎樣的質變
?。?)智能化大幅提升
可軟件升級:傳統機器人無法實現軟件算法在線升級,智能化機器人能夠通過軟件算法的迭代持續提升性能;這讓機器人的能力理論上是沒有上限的
規模效應:機器人應用規模越大,收集數據越多,算法迭代越完善,機器人越好用
可適用性大幅增加:機器人智慧程度線性增加,可適用的場景及價值將會指數增加
?。?)智能化帶來的場景適用性提升
AI技術將會是機器人全面爆發的最大變量,機器人產業的爆發極有可能是新物種引領;例如近三年全面爆發的機器人項目,在10年前幾乎不存在(例如九號公司、石頭科技、普渡、擎朗、云跡、高仙、梅卡曼德、極智嘉等)。
二、為什么是現在?
1.勞動力替代及升級趨勢不可逆
在人口老齡化趨勢下,2015-2020年,我國勞動力人口減少約1700萬人,我國人均收入從4.97萬元增至7.15萬元,在用工難及用工貴的不可逆趨勢下,智能化機器人的補充成為最重要的生產力增長點。
2021年我國人均GDP已超1.2萬美元,在我國將成為全球人口最多的高收入國家(門檻為人均1.25萬美元)的進程中,作為全球最大的制造業大國轉型升級,將會帶來全世界體量最大的機器人用工需求。
2.成熟的技術與產業基礎
我們認為,智能手機及智能汽車產業的發展,實質上為現階段智能機器人產業爆發奠定了大量技術基礎:
感知層面:視覺模組、激光雷達、毫米波雷達的逐漸發展,成本降低到可用的程度;數據采集、算法訓練及軟件在線迭代為智能機器人未來持續升級提供了借鑒范式;
決策層面:智能SoC芯片提供了足夠的算力基礎,汽車自動駕駛與移動機器人在底層技術上亦有相通之處;
控制層面:近十年鋰電技術提升了電池續航能力,同時有線及無線充電技術快速進步,5G及WIFI技術發展為機器人提供了通訊控制基礎;
環境基礎:我國擁有全世界最適合機器人產業發展的土壤,例如低成本敏捷供應鏈、低成本清潔能源供給、工程師紅利、最廣大數據收集場景;現階段創造一款機器人新品的零配件采購難度要遠低于十年前;
三、如何判斷未來十年新機遇
1.從職業場景出發 —— 尋找未被滿足的大賽道
我們認為投資機構在機器人領域投的并不單純是智能硬件或國產替代,而是押注未來數個萬億級、數十個千億級、上百個百億級工作場景的無人化;未來機器人公司主流定價方式很可能取決于可替代的必要勞動價值,機器人公司直接提供高粘性持續的收費服務(Robot as a Service),而非按照傳統的“BOM成本+一定的毛利空間”去定價。
我們收集了不同職業場景的從業人數及人均收入數據,得出不同職業勞動力成本總和,制作了機器人領域潛在替代場景圖譜。
未來機器人對于人工的替代將從大場景、低復雜度入手,逐步向中小型場景、高復雜度滲透;未來10年最有潛力的投資方向將會是現階段供給基本空白的大場景。
?。?)制造業:焊接、自動搬運、防爆物品生產、分揀、包裝、協作生產、打磨、裝配等工作
?。?)建筑業:建筑部件智能化生產、測量、材料配送、鋼筋加工、混凝土澆筑、樓面墻面裝飾裝修、構部件安裝、焊接等工作
?。?)農業:可進一步拆分為果園除草、精準植保、果蔬剪枝、采摘收獲、分選,以及用于畜禽養殖業的喂料、巡檢、清淤泥、清網衣附著物、消毒處理等工作
(4)礦業:采掘、支護、鉆孔、巡檢、重載輔助運輸等工作
(5)醫療康復:手術、護理、檢查、康復、咨詢、配送等工作
(6)養老助殘:助行、助浴、物品遞送、情感陪護、智能假肢等應用
?。?)家用場景:家務勞動、教育、娛樂、安防監控等工作
(8)公共場所:講解導引、餐飲、配送、代步等工作
?。?)水下場景:水下探測、監測、作業、深海礦產資源開發等工作
?。?0)安防場景:安保巡邏、緝私安檢、反恐防暴、勘查取證、交通管理、邊防管理、治安管控等工作
?。?1)危險環境作業:消防、應急救援、安全巡檢、核工業操作、海洋捕撈等工作
?。?2)衛生防疫:檢驗采樣、消毒清潔、室內配送、輔助移位、輔助巡診查房、重癥護理輔助操作等工作
2.從技術可行性出發 —— 細分場景的實現難度
?。?)從【場景是否單一】及【工作復雜度】兩個維度進行分析
分析一項職業被機器人替代的難度,我們認為可以落入以下四個象限進行分析;其中場景維度指該項工作是否需要適應多變的環境,是否需要轉移;復雜度指完成該項工作需要的知識儲備多少及解決問題的難度
A. 單一場景、低復雜度:例如簡單的加工制造工序、搬運、安保、清潔、農業養殖等勞動更容易率先實現機器替代
B. 單一場景、高復雜度:例如繪畫、音樂演奏、作家、醫生、教育、財務、銷售、廚師等場景
C. 多場景、低復雜度:例如應對不同場景下的無人駕駛,不同種類的家務勞動
D. 多場景、高復雜度:例如警察、外交官、企業管理人員、研發創新等工作
?。?)從機器與人類的思維長處分析
機器智能在大規模數據與信息處理、細節分析等方面具備天然優勢
在需要情感、綜合推理、想象力、創造力等方面的職業,人類被機器人替代的難度較大
3.從經濟性出發 —— 替代人效比
如何判斷某個細分場景下,是否已經到達了機器人應用拐點?我們認為核心指標是替代人效比,即機器人的購買及維護成本相對于同崗位人力成本的回本周期
ROI < 48個月時,該細分賽道會有產品出現,客戶開始考慮嘗試
ROI < 24個月時,該細分賽道客戶開始批量購買測試
ROI < 12個月時,市場開始全產爆發
經濟性逐漸提升背后的因素:人員成本上漲、人力緊缺、上游零配件成本下降、規模量產降低了成本、AI技術發展使得功能實現的成本降低等
四、機器人智能化三要素解析
什么樣的機器人能夠稱得上是智能機器人?目前世界范圍內還沒有一個統一定義
我們認為如果對智能機器人進行抽象化解析,往往需要具備三大要素——即感知、決策和控制。
感知要素:用來認識周圍環境狀態,包括能感知視覺、接近、距離等的非接觸型傳感器和能感知力、壓覺、觸覺等的接觸型傳感器。這些要素實質上就是相當于人的眼、鼻、耳等五官,功能可以利用諸如攝像機、像傳感器、超聲波傳成器、激光器、導電橡膠、壓電元件、氣動元件、行程開關等機電元器件來實現。
決策要素:也稱為思考要素,根據傳感器收集的數據,思考出采用什么樣的動作。智能機器人的思考要素是三個要素中的關鍵。思考要素包括有判斷、邏輯分析、理解等方面的智力活動。這些智力活動實質上是一個信息處理過程,而計算機則是完成這個處理過程的主要手段。
控制要素:也稱為運動要素,對外界做出反應性動作;對運動要素來說,智能機器人需要有一個無軌道型的移動機構,以適應諸如平地、臺階、墻壁、樓梯、坡道等不同的地理環境。它們的功能可以借助輪子、履帶、支腳、吸盤、氣墊等移動機構來完成。在運動過程中要對移動機構進行實時控制,這種控制不僅要包括有位置控制,而且還要有力度控制、位置與力度混合控制、伸縮率控制等。
從商業機會的角度來講,三大要素并不是獨立割裂的,例如做視覺傳感器的玩家往往要配套相應的軟件算法,服務于各細分場景的廠商需要極強的多傳感器融合、多機型控制及面向行業的智能決策能力。
三大要素中既有專精于某一環節的零部件或軟件供應商機會(如核心零部件、操作系統、關鍵控制算法等),也有整合了其中2-3個環節的關鍵技術要素,為細分場景提供全套服務的應用機會(例如在清潔、配送、交通等場景的機器人服務商)。
1.感知 —— 機器人感覺器官
?。?)傳感器分類
內部傳感器:內部傳感器是用于測量機器人自身狀態的功能元件,其功能是測量運動學量和力學量,用于機器人感知自身的運動狀態,使得機器人可以按照規定的位置、軌跡和速度等參數運動;包括位置傳感器、速度傳感器、加速度傳感器、力傳感器、壓力傳感器、力矩傳感器、姿態傳感器等。
外部傳感器:外部傳感器主要是感知機器人自身所處環境以及自身和環境之家的相互信息,包括視覺、力覺等。包括激光雷達、嗅覺傳感器、視覺傳感器、語音合成、語音識別、可見光和紅外線傳感器等。
(2)傳感器在智能機器人的應用
視覺和接近傳感器:類似于自動駕駛車輛所需的傳感器,包括攝像頭、紅外線、聲納、超聲波、雷達和激光雷達。某些情況下可以使用多個攝像頭,尤其是立體視覺。將這些傳感器組合起來使用,機器人便可以確定尺寸,識別物體,并確定其距離。
觸覺傳感器:微型開關是接觸傳感器最常用型式,另有隔離式雙態接觸傳感器(即雙穩態開關半導體電路)、單模擬量傳感器、矩陣傳感器(壓電元件的矩陣傳感器、人工皮膚——變電導聚合物、光反射觸覺傳感器等)。
射頻識別(RFID)傳感器:可以提供識別碼并允許得到許可的機器人獲取其他信息。
聲學傳感器(麥克風):幫助機器人接收語音命令并識別熟悉環境中的異常聲音。如果加上壓電傳感器,還可以識別并消除振動引起的噪聲,避免機器人錯誤理解語音命令。先進的算法甚至可以讓機器人了解說話者的情緒。
濕溫度傳感器:是機器人自我診斷的一部分,可用于確定其周遭的環境,避免潛在的有害熱源。利用化學、光學和顏色傳感器,機器人能夠評估、調整和檢測其環境中存在的問題。
運動穩定性感知:對于可以走路、跑步甚至跳舞的人形機器人,穩定性是一個主要問題。它們需要與智能手機相同類型的傳感器,以便提供機器人的準確位置數據。在這些應用采用了具有3軸加速度計、3軸陀螺儀和3軸磁力計的9自由度(9DOF)傳感器或慣性測量單元(IMU)。
傳感器微型化趨勢:過去傳感器的性能與體積往往成正比,限制了其在機器人領域應用。芯片制程技術提升使微型傳感器的制造成為可能,從而廣泛應用于機器人領域。
?。?)多傳感器融合是未來趨勢
多傳感器信息融合技術是近年來十分熱門的研究課題,指綜合來自多個傳感器的感知數據, 經過融合的多傳感器系統能夠更加完善、精確地反映檢測對象的特性, 消除信息的不確定性 ,提高信息的可靠性。融合后的多傳感器信息具有以下特性 : 冗余性、互補性、實時性和低成本性。
多傳感器信息融合方法主要有貝葉斯估計、Dempster-Shafer 理論、卡爾曼濾波 、神經網絡 、小波變換等。
2.決策 —— 機器人大腦
機器人決策我們認為是最具場景差異化的部分,因為不同職業場景下的工作方式、思維邏輯是大相徑庭的;在機器人算法與決策方面的創業團隊需要非常熟悉場景需求,提煉出標準化的操作流程,然后應用于機器人軟硬件控制中。
想要讓機器人解決問題我們需要完成三個步驟:第一,明確問題的方向和邊界;第二,建立數學模型;最后,找到合適的算法解決問題。這里我們重點討論將復雜的現實問題轉化為數學語言的“建模”過程和選擇算法的過程。
建模的第一步需要確定假設。我們需要先明確想讓機器人做出什么樣精度的決策,以及能否實現,從而確定需要考慮和舍棄哪些要素。在確定了重要變量和核心關系后,我們就把復雜的現實問題轉化成計算機可以理解、算法可以處理的數學問題。確定假設后,常識能幫助我們驗證模型,但是多數情況下需要我們不斷地將模型和現實問題作比較,從而把現實問題盡可能無損地映射進計算機里面。
在建立了模型后,我們需要選擇合適的算法來解決不同模型對應的具體現實問題。在進行算法選擇的時候需要具體問題具體分析,兼顧“質量”與“效率”。比如同樣是讓計算機處理圖像數據,家庭場景下的掃地機器人和專門用來處理天文觀測數據的計算機對算法要求就不一樣:前者要求在較快的時間內完成對圖像精準度適中的處理,而后者對時間則無感,對精準度有極高的要求。也正是因為絕大多數問題不存在唯一解或者絕對正確的解,算法工程師需要根據機器人工作的場景和目標做出最合適的取舍。
在機器人決策環節中,讓機器人自身的硬件處理多少計算任務是一個關鍵的問題。通常情況下,如果任務的執行依賴于多個機器人采集的多點數據,那么計算任務就更可能在多點數據匯集起來后,被放在遠端的云服務器上進行處理。比如,如果有大量的機器人在特定的街區內追捕嫌犯,那么我們就需要所有機器人把采集到的圖像等信息上傳到云端處理,在一個“大腦中樞”規劃了每一個機器人的路徑后,每個機器人執行自己所接收到的指令。當然,多數情況下應用云計算的場景是,每個機器人自身的芯片算力不足或者單位能耗過大。云計算提供了一種更加經濟的算力解決方案,幫助機器人解決所面臨的問題。在此基礎上,為了避免網絡帶寬不足、處理時間過長等問題,人們還會使用邊緣計算、霧計算等方案。
以上是機器人決策部分所需要考慮的共性問題。當然,不同場景下機器人所面臨的的決策問題非常不同,我們認為這也是機器人應用中最具場景差異化的部分。不過站在更高的維度上進行抽象后,我們依然能夠發現大多數機器人都需要面對三大類決策問題:按照什么規則移動位置——移動決策、按照什么規則調整自身——機械臂運動決策,以及如何保障貫徹人類指令——人機交互決策。
?。?)平面移動能力
定位導航技術需要機器人的感知能力,需要借助視覺傳感器(如激光雷達)來幫助機器人完成周圍環境的掃描,并配合相應的算法,構建有效的地圖數據,以完成運算,最終實現機器人的自主定位導航。
同步定位:主要涉及激光SLAM以及視覺SLAM。前者主要采用2D或3D激光雷達進行數據搜集,后者主要有兩種技術路徑——基于RGBD的深度攝像機和基于單目、雙目或魚眼攝像頭。
地圖構建:機器人學中的地圖構建主要有4種:柵格地圖、特征點地圖、直接表征法以及拓撲地圖。
路徑規劃:路徑規劃是導航研究中的一個重要環節,主要方法有3種:基于事例的學習方法、基于環境模型的規劃方法、基于行為的路徑規劃方法。
?。?)三維空間運動能力
空間機械臂操控過程中涉及的 5 項關鍵技術,包括:交會對接與捕獲技術、自主規劃與智能控制技術、傳感與感知技術、智能協同與操控技術及系統安全保障技術。
視覺系統的是智能機械臂三維運動最重要的組成部分,主要由計算機、攝影設備及圖像采集設備構成。機器人視覺系統工作過程主要有圖像采集、圖像分析、圖像輸出等,其中,圖像特征分析、圖像辨別、圖像分割均為關鍵任務,視覺信息的壓縮和濾波處理、特定環境標志識別、環境和故障物檢測等是視覺信息處理中難度最大、最核心的過程。
(3)人機交互能力
語音交互:結合語音人機交互過程,人機交互中的關鍵技術中包含了自然語音處理、語義分析和理解、知識構建和學習體系、語音技術、整合通信技術以及云計算處理技術。
視覺交互:機器人如果需要理解人類的感情,就會涉及人臉識別技術,包括特征提取及分類。
手勢交互:目前,常用的手勢識別方法主要包括基于神經網絡的識別方法、基于隱馬爾可夫模型的識別方法和基于幾何特征的識別方法。
3.控制 —— 機器人運動能力
(1)常見的運動控制部件
機器人三大核心零部件為減速器、伺服電機、控制器,三大部件成本占機器人成本70%左右,其中減速器占成本構成35%左右,伺服電機占23%左右,控制器占12%左右。
我國工業機器人零部件目前仍處于追趕者,核心零部件主要依賴進口,但國產廠商(如埃斯頓、匯川技術、綠的諧波等)目前正在由守轉攻的轉折點,市占率即將超過50%,正在開始獲得國外頭部客戶訂單;我們認為機器人核心零部件進口只是短期問題,未來3-5年我國在制造水平及成本上有望全面趕超國外水平。
在服務機器人領域(如餐飲、清潔、遞送等機器人),我國零部件及本體制造已達到全球領先水平;在供應鏈優勢下,技術及成本上有望進一步突破。
?。?)機器人運動如何進一步發展
與其他形態的機器人(如履帶式、輪式等)相比,腿足式機器人在移動范圍和靈活性上有巨大優勢。但是實現行走乃至跑跳對腿足式機器人來說并不容易,除了Boston Dynamics研發的腿足式機器人(如Atlas)之外,我們很少看到其他公司研發出靈活的、具有優秀平衡感腿足式機器人
要想讓機器人像人一樣靈巧、平穩地移動,并在此基礎上完成復雜的任務,機器人的每一步都需要動態平衡,需要對瞬間的不穩定性有極強的適應能力。這包括需要快速調整腳的著地點,計算出突然轉向需要施加多大的力,更重要的是還要在極短的時間內向足部實施非常大而又精準的力。這對控制理論、系統集成和工程實現等多個維度都提出了極高的要求。這里我們先討論兩個控制理論相關的問題——機器人柔順控制和機器人攀爬步態規劃,然后再介紹控制系統相關的探索成果。
a. 機器人柔順控制
機器人單腿運動方面的研究是機器人全身柔順控制的基礎。機器人單腿柔順控制的關鍵是研究不同控制方法下的腿部對外界沖擊的響應,探究減小機器人與外界環境交互力的方法,以提高腿足式機器人運動的平穩性。具體來說可以細化為如下兩部分:
位置控制:位置控制即根據規劃完成的腿部足端的運動軌跡,通過逆運動學求解出期望的關節角度,并進一步將期望關節角度映射為關節執行器的期望長度;
阻抗控制:在位置控制的基礎上,將腿部足底力引入控制閉環中,通過調節系統的柔順特性。在拉壓力傳感器讀取相關信息后,經過一系列計算求得腿部足底力,從而控制機器人調整腿部關節,達到減小足端對環境沖擊的效果。
在單腿柔順控制的基礎上,結合機器人軀干姿態控制和運動軌跡規劃等方案,我們才能在未來實現腿足式機器人在平坦地面、崎嶇地面、臺階與坡面的穩定運動。
b. 機器人攀爬步態規劃
在腿足機器人的各種步態中,使用靜步態可以大大增加機器人自身的穩定性,通過崎嶇度較高的地形。圍繞間歇靜步態規劃方法的改進是腿足式機器人攀爬步態規劃領域的熱點問題,主要研究方向包括:改變邁步順序(從多達24種不同的靜步態中進行選擇)和調整機器人重心(在移動速度和機器人穩定性中尋找平衡)。
c. 控制系統的整合與設計
要想讓機器人具備優秀的平衡能力、像人一樣靈巧地運動,需要把控制理論方面的成果與優秀的系統設計和工程能力結合起來。
在這方面,Boston Dynamics走在前列,在Altas機器人的設計中引入液壓系統進行動作控制,這樣可以保證瞬時更大的控制動力輸出和更精確的力傳遞。Atlas機器人還引入了仿生的整體集成結構設計概念,有像骨骼和關節一樣的支撐結構及油缸,還有像血管和神經一樣的油路和電路。
當然,腿足式機器人本身的形態也會在某些場景下限制其應用。我們還需要關注機器人形態相關創新,因為這些突破能夠把機器人的適應力提升到新的層次。
隨著液態金屬控制技術、基于肌電信號的控制技術等在內的前沿科技發展,越來越多的新材料開始在機器人領域內被使用和普及。加之剛柔耦合結構和仿生新材料領域的突破,我們看到在機器人力學設計驗證、運動控制等方向上,逐步打破了傳統的機械的多關節模式,從而不斷提升機器人對環境的適應能力。例如,哈爾濱工業大學的郭斌教授和賀強教授團隊成功研制出世界首例具有變形和融合能力的液態金屬游動納米機器人,從而在機器人控制領域讓人們有了更多想象的空間。
五、產業圖譜及值得關注的方向
1.智能機器人產業圖譜
我們從機器人智能化的三大要素及機器人可替代的勞動場景入手,梳理了智能機器人產業圖譜(僅列出部分企業示意),我們認為基于此框架下,在現有及未知的細分領域將會不斷有智能機器人解決方案涌現
2.值得關注的細分方向
(1)清潔等服務場景機器人
我國家政勞動人員在3000萬人以上,整體呈老齡化趨勢,是勞動力成本最大的用人場景之一(年工資規模在2萬億以上);其中景吾智能創新性開發了立體空間清潔機器人,能夠代替人工實現立體空間的復雜擦拭等工作;麥巖智能從商用室內清潔機器人入手,專注于未來社區智能服務機器人,在社區、商業、文旅、會展、康養多場景全面提升服務效率
?。?)建筑場景機器人
建筑體量是最大的幾萬億級用人換場景之一,招人困難,建筑工人有老齡化趨勢,但場景較為復雜,過去幾年未有大規模解決方案;目前部分玩家已從局部工種開始切入,在部分場景上已實踐數倍提升其中蔚建科技、大界機器人、筑橙科技、大方智等公司段在成本及效率上逐漸替代人力的同時效,同時在精細度上高于人工
海外發達國家的工價是國內的6-10倍,施工效率更遠低于國內,因此海外市場對建筑機器人的需求非常強烈,同時海外客戶習慣購買機械設備,而國內以租賃為主
?。?)農業場景機器人
我國農業勞動人口達1.7億人,每年勞動人力成本在3萬億以上,但我國農業機械化、數字化及智能化水平遠低于發達國家;發展農業機器人有利于緩解農業勞動力短缺,同時在部分場景下具有提高農作物產量及質量,減少農業碳排放等間接價值
?。?)空中巡檢及水下等特殊場景機器人
除人力勞動的替代外,未來更多的機遇來自于人類能力的延伸工作,例如船體清潔、無人機巡檢、水下探測等場景,例如納百機器人通過對貨輪船體的檢測與清洗,運用 AI 技術對貨輪燃油消耗進行預測性分析,最大限度地優化貨輪的燃油消耗水平,有效降低二氧化碳排放
(5)機器人感知技術
我們認為具備視覺感知是實現機器人智能化的核心要素,伴隨的視覺傳感器及相關軟件算法不僅在機器人領域有較高通用性,同時可廣泛應用于AI視覺檢測、工業、交通等多個場景
外相對于下游做本體及解決方案的廠家,上游的傳感器零部件更容易標準化、容易大規模上量
(6)機器人運動控制技術
運動關節及控制部件是智能機器人實現復雜功能的基礎,其中運動關節的小型化、精度、壽命等要素是持續創新的關鍵點;此外在復雜的運動控制、柔性抓取等復雜場景的實現也將帶來持續的創新機會
核心結論匯總
1.人工智能開啟第四次科技革命,在傳統三大產業勞動力大幅替代及釋放的前提下,以創新為職業的“第四產業”勞動者將成為主流,推動全球GDP繼續百倍增長。
2.作為人工智能的實體化,智能機器人將重塑生產協作關系,包括“勞動”在生產要素中的變革、全球制造業的格局重構、人類在物質世界及虛擬世界的精力分配……除經濟外,甚至對軍事、政治、文化產生深遠影響。
3.在全球十億量級的智能手機、百萬量級的智能汽車產業引路的前提下,電池、5G、算力、智能駕駛、感知等通用性技術日趨成熟,當前十萬量級的智能機器人將成為下一代爆發的超級終端。
4.機構在智能機器人領域投的不只是智能硬件或國產替代,而是在押注未來數個萬億級、數十個千億級、上百個百億級職業場景的無人化。在未來,機器人還將推動專業、細分領域的服務普及化,例如讓更多人低成本、便捷地享受到高質量的情感陪伴、心理干預治療等服務。
5.在勞動力無人化邏輯下,未來機器人即服務(RaaS,Robot as a Service)將成為主流模式,機器人項目服務粘性可能會堪比SaaS行業。在特定場景獲得先發優勢的企業有望憑借“數據采集→算法迭代→性能提升”的飛輪,進一步擴大其在該領域的領先地位。
6.對于未來新場景的挖掘:可將現有細分職業與無人化解決方案按圖索驥分析未被滿足的場景,智能機器人對于人工的替代將從大場景、低復雜度入手,逐步向中小型場景、高復雜度滲透。
7.對于細分場景技術實現難度:可從機器人勞動的場景多變性及工作復雜度兩個維度來判斷;此外也需要結合人類及機器人固有的思維長處。
8.對于商業可行性:通常機器人成本vs人工月成本的 ROI < 48個月時,該細分賽道會有產品出現,客戶開始考慮嘗試;ROI < 24個月,客戶開始批量購買測試;ROI < 12個月,市場開始全面爆發。
(鈦媒體網)