選擇開放架構
云雖然已經到達了可實際部署階段,但是云平臺架構、計算虛擬化技術、網絡虛擬化技術、云與大數據的配合等技術依然發展迅速。為保障云運維的持續發展,應該優先選擇正在不斷演進的開放平臺作為基礎架構。
CMDB作用愈加明顯
在私有云和混合云應用場景中,高度集中的業務、高度集中的設施、廣泛應用的虛擬化技術、眾多的云設施和軟件供應商、多樣的云服務消費者,以上這些因素組合在一起,使云運維的復雜度成指數級增長。云數據中心的設備信息、應用信息、策略信息、維保信息、組織信息、負責人等各維度的信息交織成復雜的關系網,實際運維時如果能從這張關系網中將所關注的信息抽絲撥繭,將大幅提升云運維的效率。反之如果沒有有效手段管理這些關系,云運維可能會變得混亂和無序,運維效率低下,使云服務體驗大打折扣。設計合理的CMDB(配置管理數據庫)恰恰是解決這個問題的最佳途徑。CMDB自動同步配置項信息,將割裂的各維度信息關聯在一起,幫助云運維人員全面、準確和及時地了解業務相關的組織、資源、環境和服務等不同維度信息,使運維人員快速準確地了解事件影響范圍,作出正確的決策。
使用必要手段全局監控業務質量
在混合云應用場景中,部分開放的業務會部署到公有云上,企業運維人員無法有效的監控到公有云的基礎設施,在這種情況下,公有云的服務等級SLA就成了一個黑盒,無從監控。所以必須要有有效的手段全局監控業務質量,從而間接評價公有云服務等級SLA。
明確云架構下各機構的責任主體
由于企業組織架構是按照傳統的網絡、應用、計算來劃分的,而在混合云場景中,云服務商與企業運維人員也不屬于同一組織機構,所以當部署在云上的業務出現故障時,容易出現組織間的推卸責任的問題,從而延長了問題的定位和解決周期。因此企業運維人員要有手段基于業務按照網絡、計算、應用等不同維度的出具資源健康度報告,明確問題責任主體。
云場景下如何有效控制開銷
云應用場景中還有另外一個問題,就是如何使用最小的開銷(公有云資源),最大限度地保障業務的質量。為了保障業務的穩定運行,企業運維人員通常為每個業務申請一定的資源余量,然而過多的余量會增加財務成本,如何確定這個量,就成企業運維人員關注的問題。一份能將業務運行時所需要的CPU、內存、磁盤等歷史信息進行有效分析的可度量的業務容量分析報告,將對企業運維人員非常有用。如果在資源不足發生前,有工具能夠提前預警,給企業運維人員充分時間調整資源分配策略,將有效節省公有云開銷。
使用可控的自動化手段提升管理效率
云數據中心的資源規模、業務規模、組織規模遠遠超過傳統數據中心。新設備的快速部署、快速上線、納管監控、資源編排、定期巡檢、升級和配置變更這些原本就頗為復雜的工作在規模和速度的雙重壓力下都變得更加艱巨。傳統的手工方式效率低下,出錯風險高,自動化手段逐步成為云運維的首選。隨著虛擬化、PXE、SDN、Overlay、服務鏈等技術不斷廣泛應用,自動部署、自動編排、自動巡檢、自動升級等自動化手段越來越多應用于云運維。然而自動化仍然要在可控、可跟蹤、可審計、可回退的前提下進行,避免單個錯誤的擴大化。雖然自動化還存在一定風險,云運維的自動化趨勢已經不可逆轉。