Microsoft/Cluster

왜 Resource가 다른 Node로 Failover되었나?

로멘틱가이 2014. 4. 1. 19:47

Cluster Cluster 운영 시 고객이 가장 많이 하는 질문은 다음과 같습니다.

“왜 Resource가 다른 node로 Failover된 거죠”

특히 Windows 2003이나 이전 버전의 경우 시간 소모가 많습니다.

그런 경우 가장 많이 처리하는 방법이 여기에 있습니다.

  • Cluster의 MPS Report를 수집합니다. 이 방법은 CSS팀으로 데이터를 보내 일차 분석하는 경우 자주 쓰입니다.
  • 모든 Node에서 Event Log를 확인합니다. 일반적으로 에러가 발생할 때(일반적으로 Event ID 1069) 부근을 바탕으로 System Event Log를 확인합니다. 그 시간과 비교하여 Application Event Log도 같이 확인합니다.(여기서 핵심은 처음에 발생한 오류가 대부분 그 주 원인입니다.)
  • Cluster Log를 확인합니다.(실력이 되면;; )

Note : Cluster Log 분석 시 시간은 GMT 기반 시간이므로 확인 시 반영하여야 합니다. Default Log Size가 8MB이므로 History가 많은 경우 Log Size를 늘려줍니다.(Cluster.exe 를 사용하여 변경 가능)

다음으로 Cluster Log와 관련하여 일반적으로 많이 나타나는 항목에 대해 알아보겠습니다. 이슈가 되는 Log는 일반적으로 ERR / Warn에서 나타납니다.

  • Status 170 : 일반적으로 해당 Resource가 사용중인 경우 발생합니다. 이것은 영구적인 예약 문제일 가능성이 높습니다. MPIO, Fibre/HBA Driver, Lower Level의 File System, Anti Virus, Quota 관리와 같은 Software, Back Program에서 발생하는 경우가 많습니다.

00000c94.000008d4::<date and time>.585 INFO Physical Disk <Disk Q:>: [DiskArb] Issuing Reserve on signature 33af636f. 00000c94.000008d4::<date and time>.616 ERR Physical Disk <Disk Q:>: [DiskArb] Reserve completed, status 170.
00000c94.000008d4::<date and time>.616 INFO Physical Disk <Disk Q:>: [DiskArb] Arbitrate returned status 170.

  • Status 1117 : ERROR_IO_DEVICE(I/O 장치 오류로 인해 요청을 수행할 수 없다.)인 경우에 발생합니다. 일반적으로 Event ID 1123을 함께 발생합니다.

000015a0.000014a8::<date and time>.511 WARN IP Address <IP Address resource name>: IP Interface 4 (address 10.101.160.65) failed LooksAlive check, status 1117, address 0x10119e0, instance 0xf74d6fb8.
000015a0.000014a8::<date and time>.511 WARN IP Address <IP Address resource name>: IP Interface 4 (address 10.101.160.65) failed IsAlive check, status 1117, address 0x10119e0, instance 0xf74d6fb8.

  • Status 5 : 일반적으로 Permission 관련 문제로 발생합니다. 일반적으로 Node간 Cluster Service Account(CSA)의 Username / Password가 맞지 않는 경우에 발생합니다. 또는 CSA 인증을 위해 통신하는 DC와의 Secure Channel이 깨진 경우에도 발생합니다. 또는 Domain GPO or Local Policy 객체 중 하나에 CSA가 적절하게 작동하기 위해 필요한 User Rights Assignment가 누락된 경우에 발생합니다.

(역자 주 : 2008 부터 CNO 개념으로 변경되어 해당 내용은 발생하지 않습니다.)

000014a0.00001460::::<date and time>.629 WARN [JOIN] JoinVersion data for sponsor <Cluster Name> is invalid, status 5.
000014a0.000017d0::::<date and time>.629 WARN [JOIN] Unable to get join version data from sponsor 10.7.47.100 using NTLM package, status 5.
000014a0.000017d0::::<date and time>.629 WARN [JOIN] JoinVersion data for sponsor 10.7.47.100 is invalid, status 5.
000014a0.00000438::::<date and time>.629 WARN [JOIN] Unable to get join version data from sponsor 192.101.2.1 using NTLM package, status 5.
000014a0.00000438::::<date and time>.629 WARN [JOIN] JoinVersion data for sponsor
192.101.2.1 is invalid, status 5.

  • 3rd Party Driver가 있는지 확인합니다. 일반적으로 NIC, Fibre/HBA, MPIO, NIC Teaming Software나 Hardware에서 서명된 Driver가 아닌 경우 문제를 일으킬 수 있습니다.

Cluster Failover와 관련하여 다음과 같은 유용한 Site가 있습니다.

Techniques for Tracking the Source of a Problem
http://www.microsoft.com/technet/prodtechnol/windows2000serv/reskit/distrib/dsdg_icl_lrwh.mspx?mfr=true


Anatomy of a Cluster Log Entry
http://www.microsoft.com/technet/prodtechnol/windows2000serv/reskit/distrib/dsdg_icl_fved.mspx?mfr=true

Interpreting the Cluster log
http://www.microsoft.com/technet/prodtechnol/windows2000serv/reskit/distrib/dsdg_icl_nnti.mspx?mfr=true

다음과 같은 Microsoft Knowledge Base가 있습니다.

286052  The meaning of state codes in the Cluster log


168801 How to turn on cluster logging in Microsoft Cluster Server

892422 Overview of event ID 1123 and event ID 1122 logging in Windows 2000-based and Windows Server 2003-based server clusters

914458 Behavior of the LooksAlive and IsAlive functions for the resources that are included in the Windows Server Clustering component of Windows Server 2003

242450 How to query the Microsoft Knowledge Base by using keywords and query words

926079 Frequently asked questions about the Microsoft Support Diagnostic Tool (MSDT)

 

해당 내용은 다음 Site의 내용을 해석한 내용입니다.

(참고 사이트 : http://blogs.technet.com/b/askcore/archive/2008/02/06/troubleshooting-cluster-logs-101-why-did-the-resources-failover-to-the-other-node.aspx)