IT運維(ITOM)在國外是一個成熟的領域,過去曾成長出不少獨角獸公司,有大名鼎鼎千億美金市值的ServiceNow,也有后起之秀DataDog、Splunk。
相較之下,中國IT運維市場也在兩年進入到一個快速發展階段。據前瞻產業研究院數據顯示,2012-2019年,中國IT運維市場規模呈現波動趨勢。從增速來看,2014年達到近年來最高增速17.34%,達到了1121.2億元的市場規模。2019年,中國IT運維市場規模達到2324.3億元,同比增長15.73%,2020年我國中國IT運維市場規模達到2690億元左右。
中國的創業者也在用過去十多年的實踐對外傳遞這樣一個信號:無論是主打應用性能監控(APM)、日志分析、CMDB(運維管理平臺),還是構建智能運維服務(AIOps),當下基于國內云原生應用不斷增長的勢頭,IT運維領域的競爭焦點也開始轉變為:從單點同質化的產品,到面向傳統及政企行業,以用戶為中心,為用戶提供全生命周期的全棧IT產品。
這個格局中,既以有云智慧、擎創科技、聽云為代表的創新企業,也有阿里巴巴、騰訊、百度、平安科技等企業內部研發的產品線。
那么,如何打造全棧IT運維的技術“范本”?實現這一解決方案的難點又會有哪些?
一次銀行投訴引發的反思
2018年,某銀行的VIP客戶在使用其系統時處理一筆資金轉賬業務操作時,出現了異常崩潰,無法登陸的問題,這次略有不快的經歷,讓該VIP直接將投訴遞給了當時銀行里的高層。但經過內部的調查結果反饋是,IT部門在監控過程中并未發現任何異常。
實際上,由于用戶手機型號、系統版本帶來的兼容性問題,用戶入網問題、內存問題等等,都有可能是導致應用崩潰的罪魁禍首。
但這種對引發應用崩潰諸多可能性“茫然不知所措”的感觸讓IT部門當即決定,一定要確立個KPI:將應用崩潰率降到千分之五。
后來,該銀行客戶通過第三方服務商給出的解決方案,構建出具備用戶視角的監控平臺,以SDK嵌入的方式,進行真實用戶完整會話的全量采集和分析,如會話開始時間、設備機型、OS、地區、城市、IP地址、設備ID等維度,定位問題根因。最終,App崩潰率從2018年合作之初的8%,降低到一年后的0.4‰,再到如今下降到萬分之3。
對于金融行業來講,它們本身已經具備十分成熟的數字化實踐體系,不乏對自身業務理解和適用性更強的IT運維管理系統。但從代碼到用戶構建以最終用戶為視角的應用監控平臺,類似的場景和應用實踐在此之前卻并不成熟。
首先是孤島式監控。企業數字化推進的過程中,在不同階段構建了各種類型的監控平臺,由于又沒有體系化的規劃,導致一系列工具無法形成有機的結合,這往往導致,系統一旦出現問題,就很難第一時間發現問題的原因。
其次是IT建設與業務目標脫節。企業業務的發展往往是以業務、用戶價值為導向,但IT建設初期卻往往以資源、服務器的可用性層面進行構建的。這導致,IT運維在后臺做了很多用戶體驗優化,卻沒有直觀的數據和指標進行衡量。
三是AIOps的不成熟,目前來看很多企業做了很多承諾,但是真正落地時卻發現效果非常差。一類是交互算法廠商,卻并不掌握數據采集以及數據關聯的能力;二是工具式的監控廠商,只能在局部落地,對實際業務的效果產生是比較少的。
四是對新技術監控的可見性不足。以云原生微服務技術為例,該技術對底層技術設施進行封裝,導致系統運維所關注的信息不可見,此時業務只能往上層走,以用戶視角作為運維體系。
五是敏捷性不足。不同于產品研發需求的迭代速度,運維是追求系統穩定、盡量少變更的,這導致IT監控系統與DevOps的敏捷理念產生了極大沖突。
實際上,當前工具式的監控體系已經無法滿足企業的運維需求。
一體化運維已在進行時
博睿數據成立于2008年,2020年8月在上交所科創板上市,作為一家企業監測應用性能(APM)服務商,已經服務了騰訊、阿里巴巴、招商銀行、華為、中國移動、平安等公司等諸多客戶。
目前博睿數據與阿里云、騰訊云也保持著一定的合作背景,但問題在于,包括金融行業也是云廠商滲透的主要領域,客戶業務都在云上,直接使用云廠商的運維監控服務或許更為絲滑,或者會成為云廠商銷售時的一個配套服務。此外,也會有客戶擔心供應商鎖定的問題,不太希望自身的技術棧與某個供應商鎖定。
博睿數據產品部高級總監孫麗告訴鈦媒體App,“云廠商本身的監控方案目前并不完善與成熟,基本上還是以底層的metric為主,且相關的監控能力還是以多產品組合拼湊為主,體系性較差。除非客戶全部基于某一家的云自上而下的搭建自己的服務體系,才能使用云的監控產品。一旦涉及到混合云、多云管理,監控的孤立性會進一步增加。”
不久前,博睿數據推出了一體化智能可觀測平臺ONE,是基于去年數據鏈DNA+的再度升級,也是博睿數據自2020年企業上市后最大的一次戰略發布。
據了解,ONE平臺從ITOM統一監控、AIOps智能運維、BizOps業務運營、DevOps效能提升四個應用場景出發,通過代碼到客戶的全數據鏈DNA采集能力,結合大數據及AI能力,實現傳統的產品工具到平臺+架構的轉型,構建以用戶為中心的新運維體系。
在孫麗看來,“ONE平臺的跨平臺、云無關的屬性恰恰是我們的優勢。一旦客戶要做云的遷移需要重建運維監控體系,成本和代價巨大,甚至會影響業務穩定性。基于中立的產品可以做到一次部署隨處運行,不受底層環境的限制。”
目前,博睿數據主要聚焦于互聯網、金融、政企等大B客戶,主要以定制化、能力共建的方式提供服務,而針對中小企業客戶,基于其IT成熟度及實際業務體量,博睿數據則更希望ONE平臺能夠推進到中小企業客戶對一體化工具的訴求。
云原生時代的可觀測性機遇
不同于以往所講的監控技術,云原生時代基于微服務、容器化應用部署方式的改變,對底層技術設施進行封裝,盡量不讓客戶感知底層的資源環境,只關注向上的業務發展,導致系統運維所關注的信息不可見。這也給監控技術有了一個新名詞:可觀測性技術。
企業對于可觀測的視野不再局限于應用程序,而是需要從全局的角度洞察混合IT基礎設施、數據源、網絡、云和邊緣端的應用狀況,更加主動化、自動化和智能化地提升企業運維的效率。
作為一項新興技術理念,可觀測性技術難免存在其落地應用的諸多困難,但不可否認的是,它已經成為各大創業廠商乃至云計算大廠重點關注的方向,如阿里云的ARMS、騰訊云的TAPM、字節火山的APMPlus等。
Gartner 預測,到2024年,將有30%的企業會通過可觀測技術來提升數字化業務的運行性能,相比2020年的10%提升了3倍。
在這場技術押注的背后,都在暗自努力搶灘下一階段云原生時代紅利。
(鈦媒體網)