客戶買了多台Sophos防火牆,並將其中四台以兩組A/S的HA來串接,以期在跨樓層的條件下,還能維持HA的高可用性。

那麼問題來了,每台設備的兩條串接線究竟是要用LACP還是LAG的方式組成群組呢?
其實不論是LACP或LAG,它都是以網卡的硬體狀況來判斷網卡meber是好還是壞。
以LACP來說,它是以Active/Active的方式來運作,

所以若以LACP來串接4台防火牆,那麼對任何一台Primary node而言,
它對接的兩張網卡都有回應,都是好的,
它在傳送時就會透過兩張網卡去做load sharing,以提高網路速度。
然而對端的實際情形卻是只有一台在正常運作(A/S HA狀態下),
導致了只有一半的封包會通,另一半失敗,造成防火牆運作上的異常!
那麼改成Active/Standby的LAG不就好了?
LAG member中只有一條會運作,這樣不就沒有問題∼

理論上是如此,
但客戶在MA或韌體升時後,卻又發現不會通的狀況!
需要在LAG的進階設定中,指定“主要介面”到目前連接的介面才會通,
不過一旦HA failovder後,又不通了!這是怎麼回事?
順子猜測是MA/韌體升級後,兩端防火牆的線路是同一時間接上,
而LAG純粹就網卡介面的up/down來判斷哪一張是active,哪一張又是standby,
而在這個當下,判斷先後的時間差,造成了LAG的active網卡無法對在正確的對端網卡上,完成通路。

【解決方式如下】 - 先將兩端的Auxiliary node都下線,
讓Primary node以Standalone的角色運作.

在這條件下,由於Auxiliary node不在,兩端勢必將正確的網卡標記為active完成連線。
- 網路通了後,把一台Auxiliary node上線,恢復HA組態。

- 最後再把另一台Auxiliary node上線,恢復兩端的HA組態。

- 由於LAG member網卡已正確的標記了active/standby的角色,
在其中一組HA發生failover後,Primary node會變成failed角色短暫離線,而Auxiliary node則接手變成Primary node,
這時因為failed角色離線,網卡失聯,而接手的Primary node網卡正常運作,
所以會觸發對端LAG member中的active/standby角色對調,而與新的Primary node建立連線;反之亦然∼
所以問題的核心並不是指定“主要介面”這件事,
而是LAG member能否在第一時間與對端建立正確的關係。
若關係建立錯誤,請依照上述方式,讓LAG的member能成功的跟對端建立正確的角色關係。
指定“主要介面”這件事,就保留預設值即可,不需要動它。
經客戶反覆多次切換防火牆測試,驗證LAG member的關係,
兩端網路都能順利的在斷一個ping的情況下順利連線,異常狀況排除∼

♥順子老婆的網拍,請多關照∼
If you don't like something, change it.
If you can't change it, change your attitude.
Don't complain!
|