본문 바로가기
cs/면접을 위한 CS 전공지식 노트

4-3. 트랜잭션과 무결성

by 이쟝 2022. 10. 31.
더보기

2022.09.19 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 1-1. 디자인 패턴(1)

2022.09.20 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 1-1. 디자인 패턴(2)

2022.09.20 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 1-2. 프로그래밍 패러다임(함수형,객체지향,절차적프로그래밍)

2022.09.22 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 2-1. 네트워크의 기초(토폴로지&성능분석 명령어)

2022.09.23 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 2-2. TCP/IP 4계층 모델

2022.09.27 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 2-3. 네트워크 기기(스위치 등)/IP주소

2022.10.02 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 2-4.HTTP

2022.10.04 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 3-1. 운영체제의 구조와 역할 및 컴퓨터의 구조

2022.10.07 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 3-2. 메모리계층 및 메모리 관리

2022.10.10 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 3-3. 프로세스와 스레드(1): 프로세스의 컴파일과정, 상태, 메모리 구조, PCB

2022.10.14 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 3-3. 프로세스와 스레드(2): 멀티프로세싱

2022.10.24 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 3-4. CPU 스케줄링 알고리즘

2022.10.27 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 4-1. 데이터베이스의 기본(엔터티의 관계, 데이터 타입 최적화, 관계, 키)

2022.10.28 - [소소한 CS 지식/면접을 위한 CS 전공지식 노트] - 4-2. ERD와 정규화 과정

3-1. 트랜잭션

데이터베이스에서 하나의 논리적 기능을 수행하기 위한 작업의 단위, 여러 개의 쿼리들을 하나로 묶는 단위

질의(query)를 하나의 묶음 처리해서 만약 중간에 실행이 중단됐을 경우,

처음부터 다시 실행하는 Rollback을 수행하고, 오류없이 실행을 마치면 commit을 하는 실행 단위를 의미합니다.

즉, 한 번 질의가 실행되면 질의가 모두 수행되거나 모두 수행되지 않는 작업수행의 논리적 단위

  • 트랜잭션의 특징: 원자성(Atomicity), 일관성(Consistency), 독립성(Isolation, 격리성), 지속성(Durability) => 한 꺼번에 ACID 특징이라고 한다. 
쿼리: 데이터베이스에 접근하는 방법
- 웹 서버에 특정한 정보를 웹 클라이언트 요청에 의해 처리하는 것이며, 검색된 결과를 자유로이 조회할 수 있는 기능을 지원하는 것

트랜잭션 사용 이유

트랜잭션은 DB 서버에 여러 개의 클라이언트가 동시에 액세스 하거나 응용프로그램이 갱신을 처리하는 과정에서 중단될 수 있는 경우 등 데이터 부정합을 방지하고자 할 때 사용한다.

부정합이 발생하지 않으려면 프로세스를 병렬로 처리하지 않도록 해서 한 번에 하나의 프로세스만 처리하도록 하면 되는데, 이는 효율이 너무 떨어진다. 

즉, 병렬로 처리할 수 밖에 없는 현실적인 상황으로 인해 부정합을 방지하고자 트랜잭션을 사용한다.


1. 원자성(Atomicity) "All or Nothing"

트랜잭션과 관련된 일이 모두 수행되었거나 되지 않았거나를 보장하는 특징

트랜잭션을 커밋했는데, 문제가 발생해 롤백하는 경우 그 이후에 모두 수행되지 않음을 보장하는 것

  1. 1000만 원을 가진 철수가 0원을 가진 규영이에게 500만원을 이체한다고 한다.
  2. 결과는 철수가 500만원, 규영이는 500만원을 가진다.
  3. 해당 결과는 다음과 같은 operation 단위들로 이루어진 과정을 거친다.
철수의 잔고를 조회한다. -> 철수에게서 500만 원을 뺀다. -> 규영에게 500만 원을 넣는다.
  1. 여기서 데이터베이스 사용자는 이 세가지의 과정을 볼 수도 참여할 수도 없고, 이 과정이 모두 끝난 이후의 상황인 철수 500만 원, 규영 500만 원 상황만 보게 된다.
  2. 여기서 이 작업을 '취소'한다고 했을 때 철수는 다시 1000만 원, 규영이는 0원을 가져한다. 
  3. 일부 operation만 적용된 철수는 500만 원, 규영이는 0원이 되지 않는 것을 의미한다.
  4. 그래서 all or nothing

트랜잭션 단위로 여러 로직들을 묶을 때 외부 API를 호출하는 것이 있으면 안되는데 만약 있다면 롤백이 일어났을 때 어떻게 해야 할 것인지에 대한 해결 방법이 있어야 하고 트랜잭션 전파를 신경 써서 관리해야 한다.

커밋과 롤백

커밋(COMMIT): 여러 쿼리가 성공적으로 처리되었다고 확정하는 명령어로 단위로 수행되며 변경된 내용이 모두 영구적으로 저장되는 것

COMMIT을 수행하면, 하나의 작업단위인  TRANSACTION, 곧 INSERT, UPDATE, DELETE와 같은 작업 내용을 DB에 저장하게된다. 이전 데이터가 완전히 UPDATE되고 모든 사용자가 변경한 데이터의 결과를 볼 수 있다.

"커밋이 수행되었다." == "하나의 트랜잭션이 성공적으로 수행되었다."라고도 말한다.

커밋

롤백(ROLLBACK): 트랜잭션으로 처리한 하나의 묶음 과정을 일어나기 전으로 돌리는 일(취소), 에러나여러 이슈 때문에 트랜잭션 전으로 돌려야 할 때 사용하는 것

COMMIT 한 곳 까지 TRANSACTION(INSERT, UPDATE, DELETE)작업 내용 취소 및 복구 가능

롤백

COMMIT, ROLLBACK 명령어의 장점

  1. 커밋과 롤백 덕에 데이터의 무결성이 보장된다.
  2. 데이터 변경 전에 변경 사항을 쉽게 확인할 수 있고 해당 작업(논리적으로 연관된 작업)을 그룹화 할 수 있다

트랜잭션 전파 

트랜잭션을 수행할 때 커넥션 단위로 수행하기 때문에 커넥션 객체를 넘겨서 수행해야 하지만 이를 매번 넘겨주기가 어렵기도 하고 귀찮기도 하기 때문에 이를 넘겨서 수행하지 않고 여러 트랜잭션 관련 메서드의 호출을 하나의 트랜잭션에 묶이도록 하는 것


2. 일관성(Consistency) 

'허용된 방식'으로만 데이터를 변경해야 하는 것, 즉 트랜잭션이 성공적으로 완료되면 일관적인 DB상태를 유지하는 것

  • 데이터베이스에 기록된 모든 데이터는 여러 가지 조건, 규칙에 따라 유효함을 가져야 한다. 
  • ex) Movie와 Video 테이블이 있을 때 Video 테이블에 Movie 테이블의 primary key인 movie_id가 외래키로 존재하는데, 만약 movie_id의 제약조건이 Movie 테이블에서 변경되면,Video 테이블에서도 movie_id가 변경되는 것 => 한 쪽의 테이블에만 데이터 변경사항이 이루어지면 안되는 것

3. 격리성(Isolation)

트랜잭션 수행 시 다른 트랜잭션의 작업이 서로 끼어들지 못하는 것

복수의 병렬 트랜잭션은 서로 격리되어 마치 순차적으로 실행되는 것처럼 작동되어야 하고, 데이터베이스는 여러 사용자가 같은 데이터에 접근할 수 있어야 한다. 

격리성은 여러 개의 격리 수준으로 나뉘어 격리성을 보장한다.

트랜잭션 격리 수준: 동시에 여러 트랜잭션이 처리될 때 특정 트랜잭션이 다른 트랜잭션에서 변경하거나 조회하는 데이터를 볼 수 있도록 허용할지 말지를 결정하는 것

트랜잭션 격리 수준

위로 갈수록 동시성이 강해지지만 격리성은 약해지고, 아래로 갈수록 동시성은 약해지고 격리성은 강해진다.

  • ex) SERIALIZABLE은 격리성이 강하지만 동시성이 약하다.
REPEATABLE READ는 팬텀 리드 READ COMMITTED는 팬텀리드, 반복 가능하지 않은 조회 발생
READ_UNCOMMITTED 팬텀 리드, 반복 가능하지 않은 조회, 더티 리드 발생

격리 수준에 따라 발생하는 현상

팬텀 리드(phantom read)

한 트랜잭션 내에서 동일한 쿼리를 보냈을 때 해당 조회 결과가 다른 경우

  1. 사용자 A가 회원 테이블에서 age가 12 이상인 회원들을 조회하는 쿼리를 보낸다. 
  2. 이 결과로 세 개의 테이블이 조회된다. 
  3. 그 다음 사용자 B가 age가 15인 회원 레코드를 삽입한다.
  4. 그러면 그다음 세 개가 아닌 네 개의 테이블이 조회된다.

반복 가능하지 않은 조회(non-repeatable read)

하나의 트랜잭션 내에서 동일한 SELECT 쿼리를 실행했을 때 항상 같은 결과를 보장해야 한다는 REPEATABLE READ 정합성에 어긋나는 것 즉, 한 트랜잭션 내의 같은 행에 두 번 이상 조회가 발생했는데, 그 값이 다른 경우

  1. 사용자 A가 큰돌의 보석 개수가 100개라는 값을 가진 데이터를 가지고 있다.
  2. 그 이후 사용자 B가 그 값을 1로 변경해서 커밋했다고 하면 사용자 A는 100이 아닌 1을 읽게 된다.

팬텀 리드와 다른 점은 반복 가능하지 않은 조회는 행 값이 달라질 수도 있는데, 팬텀 리드는 다른 행이 선택될 수도 있다는 것을 의미한다. 

더티리드(dirty read)

반복 가능하지 않은 조회와 유사하며 한 트랜잭션이 실행 중일 때 다른 트랜잭션에 의해 수정되었지만 아직 '커밋되지 않은'행의 데이터를 읽을 수 있을 때 발생(즉, 다른 트랜잭션에서 처리한 작업이 완료되지 않았음에도 불구하고 다른 트랜잭션에서 볼 수 있게 되는 현상)

  1. 사용자 A가 큰돌의 보석 개수 100을 1로 변경한 내용이 '커밋되지 않은' 상태라도 그 이후 사용자 B가 조회한 결과가 1로 나오는 경우

격리 수준(Isolation level)

SERIALIZABLE(직렬화 기능)

트랜잭션을 순차적으로 진행시키는 것

여러 트랜잭션이 동시에 같은 행에 접근할 수 없다. 이 수준은 매우 엄격한 수준으로 해당 행에 대해 격리시키고, 이후 트랜잭션이 이 행에 대해 일어난다면 기다려야 한다. 

그래서 교착 상태가 일어날 확률도 많고 가장 성능이 떨어지는 격리 수준이다.

REPEATABLE_READ(반복 가능한 읽기) 👍
하나의 트랜잭션이 수정한 행을 다른 트랜잭션이 수정할 수 있도록 막아주지만 새로운 행을 추가하는 것은 막지 않는다. 따라서 이후에 추가된 행이 발견될 수도 있다.

  • Non-Repeatable Read 부정합이 발생하지 않지만, Phantom Read 부정합이 발생한다.

READ_COMMITTED(커밋된 읽기)👍
가장 많이 사용되는 격리 수준으로 커밋 완료된 데이터에 대해서만 조회를 허용한다.

  • MySQL8.0, PostgreSQL, SQL Server, 오라클에서 기본값으로 설정되어 있다.
  • READ_UNCOMMITTED와 달리 다른 트랜잭션이 커밋하지 않은 정보는 읽을 수 없다.
  • 하지만 어떤 트랜잭션이 접근한 행을 다른 트랜잭션이 수정할 수 있다.
  • ex) 트랜잭션 A가 수정한 행을 트랜잭션 B가 수정할 수도 있다. 이 때문에 트랜잭션 A가 같은 행을 다시 읽을 때 다른 내용이 발견될 수 있다.

READ_UNCOMMITTED(커밋되지 않은 읽기)

가장 낮은 격리 수준으로, 하나의 트랜잭션이 커밋되기 이전에 다른 트랜잭션에 노출되는 문제가 있지만 가장 빠르다. 

  • 이는 데이터 무결성을 위해 되도록이면  사용하지 않는 것이 이상적이지만, 몇몇 행이 제대로 조회되지 않더라도 괜찮은 거대한 양의 데이터를 '어림잡아' 집계하는 데는 사용하면 좋다. 

"READ_UNCOMMITTED는 일반적인 데이터베이스는 거의 사용하지 않고, SERIALIZABLE 또한 동시성이 중요한 데이터베이스에서는 거의 사용되지 않는다."


4. 지속성(durability) 

성공적으로 수행된 트랜잭션은 영원히 반영되는 것

  • 데이터베이스에 시스템 장애가 발생해도 원래 상태로 복구하는 회복 기능이 있어야 한다.(만약 런타임 오류나 시스템 오류가 발생하더라도, 해당 기록은 영구적이어야 한다는 뜻)
  • 데이터베이스는 이를 위해 체크섬, 저널링, 롤백 등의 기능을 제공한다. 
체크섬: 중복 검사의 한 형태, 오류 정정을 통해 송신된 자료의 무결성을 보호하는 단순한 방법
저널링: 파일 시스템 또는 데이터베이스 시스템에 변경 사항을 반영(commit)하기 전에 로깅하는 것, 트랜잭션 등 변경 사항에 대한 로그를 남기는 것

4-2. 무결성(Data Integrity)

데이터의 정확성, 일관성, 유효성을 유지하는 것

무결성이 유지되어야 데이터베이스에 저장된 데이터 값과 그 값에 해당하는 현실 세계의 실제 값이 일치하는지에 대한 신뢰가 생긴다. 

무결성 종류
개체 무결성(Entity Integrity) 모든 테이블은 기본키를 가져야 하고, 기본기로 선택된 필드는 빈 값을 허용하지 않는다.
참조 무결성(Referential Integrity) 서로 참조 관계에 있는 두 테이블의 데이터는 항상 일관된 값을 유지해야 한다.
도메인 무결성(Domain Integrity) 테이블에 존재하는 필드의 무결성을 보장하기 위한 것으로 필드의 타입, Null 값 허용 등에 대한 사항을 정의하고 올바른 데이터가 입력되었는지 확인하는 조건(ex. 주민번호 필드에 문자가 입력되는 경우엔 도메인의 무결성이 깨졌다.)
NULL 무결성(Null Integrity) 특정 속성 값에 NULL이 올 수 없다는 조건이 주어진 경우 그 속성 값은 NULL이 될 수 없다는 제약조건
고유 무결성(Unique Integrity) 특정 속성에 대해 고유한 값을 가지도록 조건이 주어진 경우 그 속성 값은 모두 고유한 값을 가진다.

데이터베이스- COMMIT, ROLLBACK

트랜잭션과 격리수준

트랜잭션과 ACID 특성

트랜잭션 격리 수준

데이터 무결성

데이터 무결성이란?