교착상태(deadlock)를 프로세스 상태와 디버거를 사용해서 찾아내기

교착상태(deadlock)를 프로세스 상태와 디버거를 사용해서 찾아내기

Programmer/Programming 2017. 1. 6. 15:37

멀티미디어(multimedia) 소스를 수신 받아서 가공하고 송출하는 프로그램을 개선하고 있었다.
에이징 테스트(aging test)에서 얼마간 프로그램이 동작하다가 미디어를 송출하지 못하는 버그를 발견했다.
로그를 살펴보니 송출이 멈추기 전에 수신부터 진행이 되지 않는 것을 발견했다.
UDP로 입력 데이터는 들어오는데 읽지 못하고 있었다.

기능이 멈춰있으면 있으면 두가지를 의심할 수 있다.
하나는 무한루프, 나머지 하나는 교착상태(deadlock)이다.
무한루프에 빠지거나 교착 상태에 진입하면 다음 단계로 나아가지 못한다.

무한 루프인지 교착 상태인지 간단하게 판단하는 방법은 프로세스의 CPU 점유율과 상태를 확인하는 것이다.
`ps -u`나 top 유틸리티로 확인한다.

무한 루프는 CPU를 과도하게 점유하는지 여부로 알 수 있다.^[각주:1]
이 상황에서는 프로세스의 상태는 계속 'R'^[각주:2]로 나타난다.

아래는 무한 루프에 빠진 프로세스의 사례이다.
infloop 프로세스는 과도하게 CPU를 사용하고 있고 'R' 상태이다.

$ ps -u
USER   PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
user 23840  0.1  0.1  21716  5408 pts/0    Ss   12:33   0:00 -bash
user 23862  0.0  0.0  36072  3388 pts/0    R+   12:33   0:00 ps -u
...
user 24029  101  0.0   4376   820 pts/1    R+   12:40   9:10 infloop

반면, 교착상태는 CPU 점유율이 정상보다 더 낮고,
프로세스의 상태가 장시간 'S'^[각주:3]임을 보여준다.

아래 deadlock 프로세스는 CPU를 거의 사용하지 않으며 'S' 상태이다.

$ ps -u
USER   PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
user 23840  0.1  0.1  21716  5408 pts/0    Ss   12:33   0:00 -bash
user 23862  0.0  0.0  36072  3388 pts/0    R+   12:33   0:00 ps -u
...
user 24359  0.0  0.0  88620   876 pts/2    Sl+  12:40   9:10 deadlock

문제의 미디어 처리 프로세스는 교착상태의 프로세스 정보를 보여주고 있었다.

문제의 상태에 진입한 프로세스를 gdb에 붙여서 상태를 확인한다.
아래 명령으로 gdb에 붙이고, 'Ctrl+C'로 gdb 프롬프트를 얻는다.

$ gdb -p <PID>

교착상태에 빠진 쓰레드(thread)를 찾아야 한다.
그러기 위해서는 먼저 쓰레드의 목록을 얻는다.

- 쓰레드 목록 얻기 :

(gdb) info thread

각 쓰레드를 이동하며 콜스택(call stack)을 살펴본다.

- 쓰레드 이동 하기 :

(gdb) thread <THREAD-ID>

콜스택을 보면, 잠그려고 대기 중인지 아닌지 확인이 가능하다.

- 콜스택 보기 :

(gdb) bt

콜스택에서 xxx_lock_wait_xxx, XxxWaitForSingleObjectXxx 함수를 찾는다.
이런 함수에서 멈춰있는 쓰레드는 데드락이 걸린 것으로 의심할 수 있다.
위 함수를 호출하는 소스 코드를 찾아서 잠금 핸들러를 확인한다.

어딘가에서 잠금하고 풀지 않았기 때문에 무한 대기중에 걸린 것이다.
잠긴 곳을 찾은 방법을 살펴보자.

로그와 소스코드, 대기중인 함수의 핸들러를 이용해서 찾는다.
멈춤 시점부터 이전으로 로그를 거슬러 올라가며 연관된 코드를 살펴본다.
특히, 로그 부근에서 아까 확인했던 잠금 핸들러를 사용한 코드가 있는지 조사한다.
이 핸들러를 잠그기만 했는지를 확인하면 절반 정도 해결했다.

왜 잠그기만 하고 풀지 못했는지 원인을 찾는다.
그 원인이 단순하지 않을 가능성이 많다.
문제의 미디어 프로세스도 그러하였다.
문제의 핸들러를 잠그고 트랜잭션을 호출하고 더 이상 진행이 되지 않은 것을 발견했다.
다음으로 트랜잭션이 멈춘 이유를 찾아들어갔다.
근본 원인을 찾을 때까지 원인의 원인을 찾는 과정을 반복했다.

이와 같이 근본 원인이 상당히 멀리 떨어져 있는 경우가 허다하다.
이것을 찾는 것은 각자의 몫으로 하겠다.
대신에 근본 원인을 찾아서 해결하는 원칙을 링크로 소개한다.
- 대기 상태의 원인 파악 없이 타임아웃 같은 핵을 쓰면 안된다.
- 원인의 이유 찾기를 근본 원인을 찾을 때까지 반복한다.

이와같이 교착상태의 이유를 프로세스 상태와 디버거를 사용해서 찾아낸다.
원인의 이유를 파고들어 근본 원인을 찾아내서 문제를 해결한다.
코드 변경 전과 후를 같은 재현 조건에서 반복 테스트 해서 문제를 정확히 해결했음을 검증한다.

루프 내에 sleep이나 timed I/O가 사용된 경우는 이 방법으로는 쉽게 확인할 수 없다. [본문으로]
running or runnable [본문으로]
waiting for an event to complete [본문으로]

저작자표시 변경금지

'Programmer > Programming' 카테고리의 다른 글

public, private, const 키워드가 필요한 이유 (1)	2017.02.08
C언어에서 struct 정의 그대로 이진 데이터로 만들기 (0)	2017.01.13
버젼 관리 시스템을 사용하여 문제를 해결하기 (0)	2017.01.06
Common Lisp으로 구현한 트리(Tree)를 중위 순회(In-order Traversal)하는 반복자(Iterator) (0)	2016.05.17
Lisp에서 클로저(closures) (0)	2016.02.18

인기포스트 MORE POST

ABOUT ME

개똥이야기 개똥이야기

'Programmer > Programming' 카테고리의 다른 글

티스토리툴바

인기포스트 MORE POST

ABOUT ME

'Programmer > Programming' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바