引言
隨著社會發展和科技進步,企業信息系統面臨的風險和威脅越來越大,保證信息系統的業務連續運營是IT人員在建設企業IT架構中首先要考慮的問題。信息系統要保持業務連續,最大的威脅不是來自于火災、地震等小概率、大影響的災難,更多地受到諸如人為錯誤、流程缺陷等事件的威脅。這些威脅時刻潛伏在企業的周圍,隨時一觸即發,會影響信息系統的業務連續性,使企業造成重大損失。
本文從保證業務連續的視角出發,對信息系統的業務連續性框架和關鍵技術進行研究,以期指導信息系統的業務連續性建設。
一 風險分析
影響信息系統業務連續性的風險有許多,圖1列出了主要的風險。
根據風險可能造成破壞的程度不同,將風險分為兩大類:一類是災難,即可能會對數據中心產生巨大破壞的風險;另一類是故障,不會對數據中心產生巨大破壞,但是會影響信息系統的正常運行。保證信息系統的業務連續性,要有應對這兩類風險自動調整和快速反應的能力。
二 業務連續性框架
考慮災難和故障這兩類風險,為信息系統提供業務連續性應該包括以下兩個方面:
2.1 高可用性:是指提供在本地故障情況下能繼續訪問應用的能力,不論這個故障是業務流程、物理設施、IT軟/硬件的故障。另外,當所有設備無故障時應能保持業務連續運行,用戶不需要僅僅因為正常的備份或維護而需要停止應用。
2.2 災難恢復:是指當災難破壞數據中心時在不同地點、不同硬件設備上恢復數據的能力。
上述兩個方面不是相互孤立的,而是相互關聯、有交叉的。為保證信息系統的業務連續性,高可用性和災難恢復要映射到信息系統的各個層面,從用戶終端到服務器、存儲器,甚至包括機房環境。在映射時,不能僅僅從技術的角度出發,還要考慮管理因素。
圖2為信息系統業務連續性框架,包括管理、技術和IT系統3個域,管理和技術域映射到IT系統域。
三 IT系統域
首先從高可用和災難恢復兩個方面出發對信息系統的各個層次進行分析。
3.1 高可用
3.1.1 用戶終端
用戶終端的故障風險主要有硬件故障、操作系統故障、病毒攻擊等。目前應對上述風險常用的技術是用戶數據異地存儲,通過數據可靠來保證用戶終端高可用性。另外,可采用用戶終端安全管理措施和安全技術(例如病毒防護),以抵御用戶終端的安全風險。
3.1.2 業務系統
例如ERP(企業資源計劃),一般可以分為服務器端和數據端兩個方面。在業務系統層面,為了保持業務連續性,可從這兩個方面考慮:
(1)服務器端:IT應用系統的關鍵部分是服務器端應用程序,如果服務器端應用程序出現故障或軟件升級,需要實時切換到備份服務器端應用程序。
(2)數據端:數據是業務系統的核心,為避免數據出現問題,需要進行數據備份與恢復。
同時,業務系統也需要安全措施來保障業務的高可用,例如進行訪問控制和數據加密。
3.1.3 中間件、數據庫、服務器
業務連續性要求服務器、中間件、數據庫必須具備高可用性。數據中心的服務器(包括上面部署的中間件和數據庫)建設需要采用集群(單機出錯,群集中的備機也能迅速接管)、負載均衡等辦法,保證服務器的高可用性。隨著業務需求的變化,服務器性能需要滿足不斷增長的業務需要,數據中心服務器資源設計上,可將服務器集中放置管理,并通過虛擬化的思想動態地調整服務器的資源,使各種服務與應用都能得到所需資源,保障各項服務與應用的順利完成。安全措施包括訪問控制、用戶權限管理以及訪問審計等。
3.1.4 網絡
核心交換機應分布于物理位置不同的地點,互為冗余備份,以避免單點故障或者意外災害而引起的網絡癱瘓。不同的接人層可以就近掛接到距離較近的核心交換機,而且為了鏈路冗余,接入層可以上聯到多臺核心交換機,鏈路路徑是不同的,不再處于共享風險組中,進一步提高了可靠性和安全性。安全措施主要有網絡接人控制、防火墻和病毒防護等。
3.1.5 存儲
應充分考慮數據保護,構建快速可靠的數據備份系統,通過SATA磁盤和磁帶構建多級數據保護機制。在備份系統方面需要引入新的技術,實現快速備份,避免長時間備份工作對核心業務系統運行的影響。針對核心業務,必須保證在發生嚴重故障時也能夠快速恢復業務的正常運行,因此需要考慮使用應用容災手段,實現高水平的業務連續性能力。
存儲系統需要支持FC、ISCSI和NAS等多種存儲訪問方式,但數據應集中存儲以簡化容災備份的結構。備份系統除傳統的備份軟件加備份設備的方式外,還應該采用快照、塊級增量備份、數據防改寫等新的手段,提供備份/恢復的性能,提高數據保護效果,減少對生產系統的影響。可以考慮在磁盤陣列復制技術的基礎上,建立應用容災系統。存儲通過冗余鏈路分別連接在光纖交換機(SAN)和千兆IP網絡(通過NAS設備)交換機上,實現存儲連接的虛擬化。
3.1.6 機房
機房的基礎環境包括配電、空調等系統,需要保證這些系統的高可用性,可采用設備冗余的方法,例如雙路配電以及UPS。機房的安全措施主要是針對環境安全,例如采取電子門控實現身份鑒別。
3.2 災難恢復
為了保證當災難發生時,信息系統能夠連續運行,需要備用的數據處理系統、備用網絡系統、數據備份系統、備用基礎設施、運行維護管理能力、專業技術支持能力以及災難恢復預案。需要做出的第一個決策是選擇一個與數據中心同樣可用的物理環境,為災難恢復提供備用物理場所。
四 管理域
管理域是從IT服務管理以及安全管理的角度來考慮IT系統業務連續性。依據的標準主要是信息技術-服務管理標準ISO/IEC 20000、IT服務管理信息技術基礎設施庫ITIL、信息系統安全保密標準BMB17-2006、BMB 20-2007等。
IT業務連續性管理主要負責:評估在一次災難發生后IT服務被中斷的風險和影響;確認需要制定額外的預防措施、對業務有關鍵性影響的服務;確定服務恢復的時間限定;采取措施來預防、檢測和應對災難的發生,從而減緩或減輕災難的影響;確定恢復服務的方法;制定、測試和維持一個足夠詳細的恢復計劃,從而保證能夠承受災難的發生并在規定的時間內恢復正常的服務運作。其中的核心組成部分為:
(1)日常運維管理的制度
流程構建合理的日常維護流程,使日常維護和事故處理成為支撐運維體系重要的環節,是提供優質服務、簽訂服務級別協議的基礎。日常維護流程包括日常巡檢、性能分析、系統優化、安全加固流程。日常維護與變更管理、配置管理有接口,一些日常維護流程將觸發變更流程,變更的內容將在配置庫中體現。根據運維體系人員分工,制定日常維護策略,指定責任人和日常維護職責。日常維護應形成維護報告,用于對系統狀況等的評估。
(2)故障處理的預案
相關人員在發現信息系統相關故障發生或將要發生時,應首先判斷故障的類別,然后參照對應的故障處理預案進行處理。
經過完整測試和演練的故障處理預案應主要包括以下組成部分:目標和范圍、組織和職責、聯絡和通信、具體的故障處理流程、預案的保障條件和預案附錄。具體的故障處理流程是故障處理預案的重要組成部分。
(3)災難恢復的預案
經過完整測試和演練的災難恢復預案主要包括以下組成部分:目標與范圍、組織和職責、聯絡與通信、災難恢復流程、預案的保障條件以及預案附錄。災難恢復流程又包括突發事件響應流程、恢復及重續運行流程,是災難恢復預案的重要組成部分。
突發事件響應流程為:
(a)事件通告:任何人員在發現信息系統相關突發災難事件發生或即將發生時,應按預定的流程報告相關人員,并由相關人員進行初步判斷、通知和處置。
(b)人員疏散:提供指定的集合地點和替代的集合地點,還包括通知人員撤離的辦法、撤離的組織和步驟等。
(c)損害評估:在突發事件發生后,應由應急響應組的損害評估人員確定事態的嚴重程度。由災難恢復責任人召集相應的專業人員對突發事件進行慎重評估,確定突發事件對信息系統造成的影響程度,確定下一步將要采取的行動。一旦系統的影響被確定,應將最新信息按照預定的通告流程通知給相應的團隊。
(d)災難宣告:應預先制定災難恢復預案啟動的條件。當損害評估的結果達到一項或多項啟動條件時,組織將正式發出災難宣告,宣布啟動災難恢復預案,并根據宣告流程通知各有關部門。
(e)恢復:按照業務影響分析中確定的優先順序,在災難備份中心恢復支持關鍵業務功能的數據、數據處理系統和網絡系統。描述時間、地點、人員、設備和每一步的詳細操作步驟,同時還包括特定情況發生時各團隊之間進行協調的指令,以及異常處理流程。
(f)重續運行:災難備份中心的系統替代主系統,支持關鍵業務功能的提供。這一階段包含主系統運行管理所涉及的主要工作,包含重續運行的所有操作流程和規章制度。
(4) 安全管理
業務連續性管理與安全管理具有密切的聯系。安全管理中3個基本的問題是保密性、完整性、可用性。安全管理主要包括安全保密策略、組織人員管理、技術管理、場地管理以及應急響應計劃。
五 技術域
為保證IT系統的高可用性,技術域中提出以下幾項關鍵技術。
(1) 虛擬化技術虛擬化技術的應用遠不止虛擬機和虛擬內存,到目前已經有了網絡虛擬化、服務器虛擬化、微處理器虛擬化、文件虛擬化和存儲虛擬化等技術。通過服務器虛擬化技術將服務器資源分配到多個虛擬機,支持不同的應用、甚至不同的操作系統在同一企業級服務器上同時運行。利用虛擬技術,管理員可以在服務器之間移動正在運行的虛擬機,保證系統的高可用。
(2) 集群及負載均衡技術高可用集群采用集群技術來實現計算機系統的高可用性,致力于提供高度可靠的服務。高可用集群通常又可分為以下兩種工作方式:
(a)容錯集群:通常是主從服務器方式。從服務器檢測主服務器的狀態,當主服務工作正常時,從服務器并不提供服務。但是一旦主服務器失效,從服務器就開始代替主服務器向客戶提供服務。
(b)負載均衡集群:集群中所有的節點都處于活動狀態,它們分攤系統的工作負載。一般Web服務器集群、數據庫集群和應用服務器集群都屬于這種類型。
(3) 數據備份和復制技術
數據備份和復制技術是容災系統的關鍵技術。按對系統的保護程度,容災系統可分為數據容災和應用容災。數據容災是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個可用復制。該數據可以是與本地生產數據的完全實時復制,也可以比本地數據略微落后,但一定是可用的。采用的主要技術是數據備份和數據復制。數據復制按模式可分為同步復制、異步復制、周期性復制;按復制技術可分為磁盤卷鏡像、硬件復制、數據庫復制和基于主機的復制、應用復制。應用容災是在數據容災的基礎上,在異地建立一套完整的與本地生產系統相當的備份應用系統。建立這樣一個系統是相對比較復雜的,不僅需要一份可用的數據復制,還要有包括網絡、主機、應用、甚至IP等資源,以及各資源之間的良好協調。采用的主要技術包括上面提到的集群及負載均衡技術。
(4) 安全技術
通過安全域劃分以及安全防護手段以保證IT系統的安全性。主要防護手段包括:安全域邊界防護系統、漏洞掃描、統一身份鑒別系統、計算機病毒與惡意代碼防護系統、審計系統、服務器加固系統、電子文檔安全保密系統、安全管理系統。
六 結束語
當今企業業務的正常運作越來越依賴信息系統,因此構建一個可連續運行的信息系統是IT人員面臨的重要問題。本文從業務連續的視角出發,提出了信息系統業務連續性通用框架,并分別對該框架中的IT系統域、管理域和技術域進行了分析研究,通過映射到IT系統域的管理措施和技術手段相結合來保證信息系統的業務連續性。
轉載請注明出處:拓步ERP資訊網http://www.hanmeixuan.com/
本文標題:信息系統的業務連續性研究
本文網址:http://www.hanmeixuan.com/html/consultation/1083954641.html