고객이 전화와서 데이터가 한개도 안올라 온다고.. 쩝..
확인해 보니 이런 에러가..
어딘가 시스템이 트랜젝션이 제대로 안먹고 있나본데.. 쯧..
시스템을 첨부터 일일이 뜯어볼수도 없고.. 젠장.. 쯧...
">
다른 database를 이용하지 않는 local transaction이, 비정상 종료시 자동으로 rollback되는 것과는 달리, 분산 트랜잭션의 경우 2 phase commit수행 단계중에 fail이 발생하게 되면 관여된 일부 database에서는 rollback 혹은 commit이 되고, 일부는 distributed lock이 걸린 상태로 계속 지속될 수 있다.
이렇게 pending된 transaction에 대해서는 기본적으로 Oracle의 background process인 RECO process가 자동으로 정리하여 주나, 경우에 따라 자동으로 정리가 되지 못하는 상황이 발생할 수 있다.
이렇게 정리가 되지 않아, distributed lock이 걸린 경우에는, 이후 관계된 table을 조회나 변경시 ora-1591 오류가 발생할 수 있으므로, distributed transaction이 실패한 경우 db admin이 관여하여 pending된 transaction을 정리하여 줄 필요가 있다.
distributed transaction이 오류가 발생하거나, 혹은 이후에 ora-1591이 발생하는 경우, 조치 방법을 9단계의 STEP으로 정리하였다.
*** distributed transaction의 2 phase commit에 대한 개념 및 자세한 절차는
[참고 1] 문서의 이해를 위해서 분산 환경에 포함된 node를 V817LOC와 V817REM으로 예를 들고, V817LOC node에서 transaction을 수행하였다고 가정한다.
[참고 2] 아래에 언급되는 dbms_transaction package는 기본적으로 catproc.sql script에 의해 생성되나 만약 존재하지 않는다면,
cd $ORACLE_HOME/rdbms/admin directory의 dbmsutil.sql, prvtutil.plb script를 sys user에서 수행하도록 한다.
(svrmgrl에서 connect internal에서 수행하는것이 일반적)
그리고 이 package는 항상 transaction의 맨 처음에 수행되어야 한다.
즉, 새로 session을 연결하여 수행하거나, 혹은 앞에 dml에 있었다면, commit이나 rollback을 수행 후 이 package를 수행하여야 한다.
아래의 STEP중 STEP 1 ~ 3까지는 문제 해결을 위해 필수적인 단계는 아니므로 바로 문제를 시급히 해결해야 하는 경우 4번부터 확인하도록 한다.
STEP 1: alert.log file을 check한다.
bdump directory의 alert.log에는 분산 트랜잭션 fail시 관계된 오류 메시지등 log가 항상 남게 된다. 예를 들면 다음과 같은 형태인데, rollback/commit되었는지, in-doubt 상태인지와 그 외에 transaction id등 정보를 확인할 수 있다.
Tue Dec 12 16:23:25 2000
ORA-02054: transaction 1.8.238 in-doubt
ORA-02063: preceding line from V817REM
Tue Dec 12 16:23:25 2000
DISTRIB TRAN V817LOC.WORLD.89f6eafb.1.8.238
is local tran 1.8.238 (hex=01.08.ee)
insert pending prepared tran, scn=194671 (hex=0.0002f86f)
STEP 2: network 환경을 확인한다.
listener가 떠 있는지, database link가 모두 정상적인지 확인해 본다.
STEP 3: RECO process가 떠 있는지 확인한다.
os상에서 RECO process가 떠 있는지 확인하려면 다음과 같이 한다.
os> ps -ef | grep reco
RECO process는 db가 startup되면서 자동으로 구동되는 background process로 distributed recovery를 disable시키면 사라지게 된다. distributed recovery를 enable/disable시키는 방법은 아래와 같다.
SQL>alter system enable distributed recovery;
SQL>alter system disable distributed recovery;
아래의 조치사항 중에서 STEP 9번을 제외하고는 기본적으로 RECO process가 자동으로 처리하는 작업과 동일하다. 그러나 여러가지 문제로 인해 RECO가 자동으로 정리하지 못한 경우 이 문서의 방법대로 manual하게 정리하여 주어야 한다.
STEP 4: DBA_2PC_PENDING을 조회해 본다.
sqlplus system/manager
SQL>select local_tran_id, global_tran_id, state, mixed, host, commit#
from dba_2pc_pending;
이 조회로 인해 여러개의 row가 나오는 경우 ora-1591이나 distributed fail에 관련된 오류시 나타나는 local transaction id값과 return된 LOCAL_TRAN_ID값을 비교하여 일치하는 row를 확인하면 된다. 이때 LOCAL_TRAN_ID 값과 GLOBAL_TRAN_ID의 뒷부분의 숫자가 동일하다면 이것은 이 node가 global coordinator임을 의미한다.
STEP 5: DBA_2PC_NEIGHBORS view를 조회해 본다.
sqlplus system/manager
SQL>select local_id, in_out, database, dbuser_owner, interface
from dba_2pc_neighbors;
여기에 나타난 row들이 해당 분산 트랜잭션에 관여한 database 정보이다. 이때 DATABASE column 부분이 null로 나타나는 것은 현재 조회하고 있는 local database를 의미하며, IN_OUT이 OUT으로 나타나는 경우 참조하는 node정보인데, DATABASE 컬럼의 값이 해당 database를 가리키는 database link name이 된다.
이 database link name을 이용하여 다음과 같이 remote db의 DBA_2PC_PENDING을 다시 조사하여 관계된 node들의 상태를 확인할 수 있다.
SQL>select local_tran_id, global_tran_id, state, mixed, host, commit#
from dba_2pc_pending@v817rem;
각 node의 DBA_2PC_PENDING의 return된 row들이 같은 분산 트랜잭션에 포함된 정보인지는 GLOBAL_TRAN_ID 값을 이용하여 확인할 수 있다.
STEP 6: commit point site를 확인한다.
commit point site에 대해서는
이 예의 경우 COMMIT_POINT_STRENGTH를 지정하지 않았기 때문에 default로 global coordinator가 아닌 V817REM이 commit point site가 된다. 일반적으로 commit point site는 global coordinator의 DBA_2PC_NEIGHBORS의 IN_OUT field가 OUT으로 나타나고 INTERFACE 부분이 C로 나타나게 된다.
commit point site가 중요한 이유는 이 node의 local transaction부분은 prepared상태를 거치지 않아 in-doubt 상태가 되는 일이 없고, 그러므로 distributed lock에 의해 조회나 DML시 오류가 발생하는 없게 된다.
이러한 이유로 제일 중요한 data를 포함하는 중심이 되는 node를 commit point site로 지정하는 것이 바람직하다.
STEP 7: DBA_2PC_PENDING의 MIXED column을 확인한다.
- MIXED값이 NO인 경우 : STEP 8 수행
- MIXED값이 YES인 경우: STEP 9 수행
DBA_2PC_PENDING에서 MIXED column을 YES나 NO의 값으로 지정하는 것은 RECO process가 결정하여 변경하게 된다. MIXED가 YES가 되는 대표적인 경우는, commit point site가 이미 commit을 수행한 상태에서 분산 트랜잭션이 fail된 경우, non-commit point site에서 prepared 상태의 transaction을 rollback force시켜 분산 트랜잭션의 consistency가 깨진 상태이다.
(STATE column의 경우 commit point site는 COMMITTED로 non-commit point site는 FORCED ROLLBACK으로 나타난다)
[참고] commit point site가 아직 commit을 수행하기 전에 분산 트랜잭션이 fail되어 commit point site가 rollback된 경우, non-commit point site에서 prepared 상태의 transaction을 commit force 하면 이것도 논리적으로는 consistency가 지켜지지 않은 것은 동일하나 이때는 MIXED column이 no인 상태가 된다. 그 이유는 commit point site가 rollback되어 DBA_2PC_PENDING view에 entry가 남지 않기 때문에 RECO가 명시적으로 mixed 상태로 인식하는 것이 불가능하기 때문으로 파악된다.
STEP 8: DBA_2PC_PENDING의 STATE column의 값을 확인한다.
CASE 8-1: STATE field값이 COMMITTED인 경우
만약 STATE가 COMMITTED인 경우는 이 local database(V817LOC)에서는 transaction이 성공적으로 commit 되었음을 나타내므로, 이 node에서는 어떠한 작업도 수행할 필요가 없다. 이 entry는 RECO process에 의해 자동으로 지워질 것이며, 만약 RECO가 어떠한 이유로 이 row를 지우지 못했다면 다음과 같이 db admin이 직접 지워도 된다. 괄호 안의 값은 local_tran_id값이다.
sqlplus sys/manager (반드시 sys로 접속한다)
SQL>exec dbms_transaction.purge_lost_db_entry('1.8.238');
이렇게 V817LOC의 STATE부분이 COMMITTED인 경우는, 이미 commit point site인 V817REM은 commit된 후임을 나타낸다. 그러므로 V817REM은 STATE가 COMMITTED로 나타나거나 아니면 commit후 이미 정보가 지워져 DBA_2PC_PENDING에 정보가 나타나지 않을 수 있다. 그러므로 V817REM에 대해서는 필요한 경우 V817LOC의 앞의 조치 방법과 동일하게 DBA_2PC_PENDING의 내용만 정리하여 주면 된다.
만약 V817REM이 아닌 별도의 다른 node가 분산 트랜잭션에 관여했다고 가정하고 V817LOC가 COMMITTED인 상태에서 그 node의 STATE가 PREPARED로 나타난다면 그 node에 대해서는 아래의 CASE 8-2를 참조하여 해결하도록 한다.
CASE 8-2: STATE field값이 PREPARED인 경우
STATE값이 PREPARED인 경우는 이 node(V817LOC)에서 변경된 data가 속한 block에 distributed lock이 걸린 상태이며, 이런 경우 변경된 data가 있는 block에 대한 모든 read/write가 ora-1591을 발생시키므로 trouble shooting에서 제일 중요한 부분이라 할 수 있다.
먼저 STEP 4와 STEP 5를 참조하여 관계된 모든 node들의 DBA_2PC_PENDING view를 조회하여 본다. 이때 다른 node(V817REM)의 DBA_2PC_PENDING에 정보가 없다면 V817REM이 commit point site이고 이미 data는 rollback되었음을 나타낸다.
이때는 V817LOC의 prepared 상태의 transaction을 다음과 rollback force 시켜준다.
즉, V817LOC에서,
SQL>rollback force '1.8.238';
만약 V817REM node에 해당 정보가 있고 상태가 COMMITTED라면 V817LOC도 다음과 같이 commit을 해 주어야 한다.
SQL>commit force '1.8.238';
이때 local_tran_id 뒤에 SCN을 지정할 수 있는데 이것은 관여된 node 중 제일 큰 SCN을 지정하도록 한다. 이 SCN 값은 DBA_2PC_PENDING의 COMMIT# field에서 값을 확인할 수 있으며 이렇게 하는 이유는 이후 분산 database중 한 database에서 incomplete recovery가 필요한 경우, 다른 database 들도 일관성을 맞추기 위해 incomplete recovery를 이용할 수 있게 하기 위한 것이다.
SQL>commit force '1.8.238', '194671'
CASE 8-3: STATE field값이 COLLECTING인 경우
STATE field가 collecting인 경우는 아직 distributed lock을 걸기 전단계에서 transaction이 비정상 종료됨을 나타내며, 이 단계에서는 distributed lock이 걸리기 전이어서 변경된 data는 이미 rollback된 상태이다. 이 경우는 DBA_2PC_PENDING에서 해당 entry를 지워 주면 된다.
sqlplus sys/manager (반드시 sys로 접속한다)
SQL>exec dbms_transaction.purge_lost_db_entry('1.8.238');
CASE 8-4: STATE field값이 FORCED ROLLBACK/FORCED COMMIT 인 경우
이미 RECO나 db admin이 rollback force나 commit force 명령을 시도하여 STATE가 FORCED ROLLBACK이나 FORCED COMMIT으로 변경된 경우는 추가적으로 수행할 작업은 없으며, RECO가 자동으로 이 entry를 지워 줄 것이다. 그러나 RECO가 작업하기를 기다리지 않고 다음과 같이 직접 삭제할 수 있다.
sqlplus sys/manager (반드시 sys로 접속한다)
SQL>exec dbms_transaction.purge_lost_db_entry('1.8.238');
STEP 9: 불일치 사항을 파악하고 DBA_2PC_PENDING을 정리한다.
어떠한 경우에 DBA_2PC_PENDING의 MIXED column이 YES가 되는지는 이미 STEP 7 에서 설명하였다. 이렇게 잘못된 조치에 의해 STEP 7에서 설명한 것과 같은 분산 데이타베이스간의 불일치가 발생한 경우는 간단한 operation을 통해 일치성을 맞추는 것은 불가능하다.
분산 트랜잭션의 consistency가 무엇보다 중요한 경우라면 관계된 node의 database를 모두 문제의 분산 트랜잭션이 수행되기 이전 상태로, incomplete recovery를 수행하거나 할 수 있다. 분산 데이타베이스간의 일관성을 위한 incomplete recovery에 대해서는 여기에서는 다루지 않는다. 한가지 언급한 말한 것은 앞에서 설명한 분산 트랜잭션의 commit시 이용하는 commit SCN을 관계된 모든 node들의 최대 SCN으로 이용하는 것이 바로 이러한 recovery를 위한 것이다.
이렇게 일부 database에서 SCN값이 이전 SCN에서 1씩 증가하는 것이 아니라 큰 값으로 건너뛰어 다른 database와 같은 SCN을 유지하게 함으로써, 이후에 incomplete recovery시에 관계된 node들이 서로 동일한 SCN으로 recovery를 수행하면, 모두 분산 트랜잭션 적용 이전이 되거나 혹은 모두 이후가 되어 일관성을 유지할 수 있도록 해준다.
MIXED가 YES인 상태에서, inconsistency를 받아들이고 DBA_2PC_PENDING view를 정리하려면 다음과 같이 수행한다.
sqlplus sys/manager (반드시 sys user로 수행한다)
SQL>exec dbms_transaction.purge_mixed('1.8.238');