부호 2 (Code 2)

2022. 9. 10. 22:41

1. 부호에 대해

컴퓨터상에서 전기가 흐른다(1)와 흐르지 않는다(0)의 나열만으로는 사람이 실생활에 쓰이는 수체계나 언어의 표현에 불편함을 느낄 수밖에 없다. 따라서 특정한 2진수의 나열들에 대해서 어떤 의미를 갖도록 약속을 하는데 이것을 포괄적으로 부호(Code)라고 부른다.
별도의 기준이 정해져 있지는 않으나 크게 두 가지로 컴퓨터 장치의 오류를 줄이거나 확인하려는 코드와 사람이 숫자나 문자를 편하게 쓰기 위한 부호로 나눌 수 있다. 부호의 종류는 아래의 내용보다 더 많지만 사람의 편의를 위한 부호를 몇 가지만 보도록 한다.

2. 8421 부호

사람은 10진수를 기본으로 쓰는데 컴퓨터는 2진수를 기본으로 쓰는 환경이니 가독성이 떨어진다. 특히, 10진수 표기의 자릿수가 많아지거나 날짜/시간과 같이 10진 체계가 아닌 10진수 표현을 할 때마다 변환하기에 불편하다.
이에 10진수 1자리마다 2진수 4자리를 할당하여 0₁₀부터 9₁₀까지에 대응하는 10가지의 정해진 배열을 사용하며, 그 외의 표현 가능한 나머지 배열은 쓰지 않는다. 이렇게 만들어진 부호를 BCD(Binary Coded Decimal, 2진화 10진수)라고 한다. BCD에는 8421부호, 3초과 부호, 2421 부호, 5421 부호, 51111 부호(2진수 5자리) 등이 포함되며 이 중 8421부호가 대표적으로 쓰인다.
8421 부호는 2진수 4자리에 대해 각각 가중치 8, 4, 2, 1을 부여한 것으로써 10진수와의 대응이 기본형 2진수와 동일하다. 10진수 169₁₀을 8421 부호로 변경하면 다음과 같다.

10진수	1				2				7
가중치	8	4	2	1	8	4	2	1	8	4	2	1
8421 부호	0	0	0	1	0	0	1	0	0	1	1	0

10진수를 각 자리마다 2진수 4자리씩 할당하고 가중치를 순서대로 놓아 10진수와 2진수의 합계가 일치하도록 배열한다. 10진수 0₁₀부터 9₁₀까지에 대해 2진수 0000₂에서 1001₂까지만 대응하므로 나머지 1010₂부터 1111₂까지에 대해서는 사용하지 않는다.
8421부호와 일반적인 2진수는 자릿수의 차이가 있어 127₁₀과 같이 2진수로 변환할 경우 7자리로 끝나는 수라도 8421부호는 12자리를 할당해 불필요하게 쓰이는 경우가 많으니 감안하여야 한다. 더불어 9₁₀와 10₁₀사이에는 6자리가 비어 있으므로 사칙연산 시 주의해야 한다.

3. 아스키

사람이 쓰는 숫자는 2진수에 대응시켜 사용할 수 있으나 컴퓨터에 문자라는 개념이 없으므로 하나의 문자체계 전체를 대응시켜야 단어나 문장표현이 가능하다. 미국에서는 1963년에 로마자(라틴문자)의 대문자와 소문자, 숫자 외에 문장부호 등을 합쳐 2진수 7자리에 대응하도록 부호를 만드는데 이것을 아스키(ASCII: American Standard Code for Information Interchange, 정보 교환용 미국 표준 부호)라고 부른다. 아스키 7자리에 오류검사용 패리티 1자리를 더해 정보전달의 기준으로 될 정도로 전 세계적으로 쓰인다.
아스키 외에 문자를 표현하기 위해 BCD에서 확장한 엡시딕(EBCDIC: Extended Binary Coded Decimal Interchange Code, 확장 2진화 10진법 교환 부호)이란 것도 있으나 8자리 부호로써 불용부호가 더 많으며 사용상의 불편함을 이유로 아스키에 비해 잘 쓰이지 않는다.
아래의 표는 알려진 아스키의 대응표이다. (대응하는 2진수가 표기가 길어 16진수로 대신한다.)

10진	16진	문자	10진	16진	문자	10진	16진	문자	10진	16진	문자
0₁₀	00₁₆	NUL	32₁₀	20₁₆	Space	64₁₀	40₁₆	@	96₁₀	60₁₆	`
1₁₀	01₁₆	SOH	33₁₀	21₁₆	!	65₁₀	41₁₆	A	97₁₀	61₁₆	a
2₁₀	02₁₆	STX	34₁₀	22₁₆	“	66₁₀	42₁₆	B	98₁₀	62₁₆	b
3₁₀	03₁₆	ETX	35₁₀	23₁₆	#	67₁₀	43₁₆	C	99₁₀	63₁₆	c
4₁₀	04₁₆	EOT	36₁₀	24₁₆	$	68₁₀	44₁₆	D	100₁₀	64₁₆	d
5₁₀	05₁₆	ENQ	37₁₀	25₁₆	%	69₁₀	45₁₆	E	101₁₀	65₁₆	e
6₁₀	06₁₆	ACK	38₁₀	26₁₆	&	70₁₀	46₁₆	F	102₁₀	66₁₆	f
7₁₀	07₁₆	BEL	39₁₀	27₁₆	‘	71₁₀	47₁₆	G	103₁₀	67₁₆	g
8₁₀	08₁₆	BS	40₁₀	28₁₆	(	72₁₀	48₁₆	H	104₁₀	68₁₆	h
9₁₀	09₁₆	TAB	41₁₀	29₁₆	)	73₁₀	49₁₆	I	105₁₀	69₁₆	i
10₁₀	0A₁₆	LF	42₁₀	2A₁₆	*	74₁₀	4A₁₆	J	106₁₀	6A₁₆	j
11₁₀	0B₁₆	VT	43₁₀	2B₁₆	+	75₁₀	4B₁₆	K	107₁₀	6B₁₆	k
12₁₀	0C₁₆	FF	44₁₀	2C₁₆	,	76₁₀	4C₁₆	L	108₁₀	6C₁₆	l
13₁₀	0D₁₆	CR	45₁₀	2D₁₆	-	77₁₀	4D₁₆	M	109₁₀	6D₁₆	m
14₁₀	0E₁₆	SO	46₁₀	2E₁₆	.	78₁₀	4E₁₆	N	110₁₀	6E₁₆	n
15₁₀	0F₁₆	SI	47₁₀	2F₁₆	/	79₁₀	4F₁₆	O	111₁₀	6F₁₆	o
16₁₀	10₁₆	DLE	48₁₀	30₁₆	0	80₁₀	50₁₆	P	112₁₀	70₁₆	p
17₁₀	11₁₆	DC1	49₁₀	31₁₆	1	81₁₀	51₁₆	Q	113₁₀	71₁₆	q
18₁₀	12₁₆	DC2	50₁₀	32₁₆	2	82₁₀	52₁₆	R	114₁₀	72₁₆	r
19₁₀	13₁₆	DC3	51₁₀	33₁₆	3	83₁₀	53₁₆	S	115₁₀	73₁₆	s
20₁₀	14₁₆	DC4	52₁₀	34₁₆	4	84₁₀	54₁₆	T	116₁₀	74₁₆	t
21₁₀	15₁₆	NAK	53₁₀	35₁₆	5	85₁₀	55₁₆	U	117₁₀	75₁₆	u
22₁₀	16₁₆	SYN	54₁₀	36₁₆	6	86₁₀	56₁₆	V	118₁₀	76₁₆	v
23₁₀	17₁₆	ETB	55₁₀	37₁₆	7	87₁₀	57₁₆	W	119₁₀	77₁₆	w
24₁₀	18₁₆	CAN	56₁₀	38₁₆	8	88₁₀	58₁₆	X	120₁₀	78₁₆	x
25₁₀	19₁₆	EM	57₁₀	39₁₆	9	89₁₀	59₁₆	Y	121₁₀	79₁₆	y
26₁₀	1A₁₆	SUB	58₁₀	3A₁₆	:	90₁₀	5A₁₆	Z	122₁₀	7A₁₆	z
27₁₀	1B₁₆	ESC	59₁₀	3B₁₆	;	91₁₀	5B₁₆	[	123₁₀	7B₁₆	{
28₁₀	1C₁₆	FS	60₁₀	3C₁₆	<	92₁₀	5C₁₆	＼	124₁₀	7C₁₆	\|
29₁₀	1D₁₆	GS	61₁₀	3D₁₆	=	93₁₀	5D₁₆	]	125₁₀	7D₁₆	}
30₁₀	1E₁₆	RS	62₁₀	3E₁₆	>	94₁₀	5E₁₆	^	126₁₀	7E₁₆	~
31₁₀	1F₁₆	US	63₁₀	3F₁₆	?	95₁₀	5F₁₆	_	127₁₀	7F₁₆	DEL

이 표에서 0₁₀ (00₁₆)부터 31₁₀(1F₁₆)까지와 127₁₀(7F₁₆)은 제어문자라고 부르며 실제 글자를 표현하는 부호는 아니다. 이 제어문자를 제외하면 48₁₀(30₁₆)부터 숫자 10개, 65₁₀(41₁₆)부터 대문자 26개, 97₁₀(61₁₆)부터 소문자 26개와 나머지 문장부호들로 구성된다. 이러한 문자와 숫자, 기호를 사용하여 단어와 문장, 숫자표현을 가능하게 한다.

4. 유니코드

아스키가 세계적으로 쓰이면서 각 나라의 글자들도 필요에 따라, 아스키를 기반으로 하고 자릿수를 추가(128₁₀(80₁₆)~)하여 코드에 할당하게 된다. 그러나 독자적으로 만들어진 문자배열을 전 세계적으로 주고받으면 호환될 리가 없다. 이에 따라 1991년에 전 세계의 모든 문자를 취급하는 부호체계를 만들어 발표하는데 그것이 유니코드(Unicode: Unique, Universal, and Uniform character enCoding, 유일하고 보편적이며 정형화된 문자의 부호화)이다.
이름에서부터 코드의 제작된 목표를 알 수 있는데, 모든 문자 체계를 온전히 표현한다는 것을 목표로 현대의 문자를 포함하여 과거의 문자도 계속 추가되고 있다. 아스키가 2진수 7자리로 128문자라면 유니코드는 2진수 21자리로 대응가능한 부호가 100만 문자를 넘는다. 여기에 현 시대까지 쓰이는 문자를 할당하고도 부호에 여유가 있어서 그림이나 이모티콘, 게임 기호 같은 것들이 추가되기도 한다.
유니코드체계에서 부호의 표기는 U+를 접두어로 16진수 4~6자리로 표기한다. 실제로 쓰이는 예시를 몇 가지 보면 다음과 같다.

U+0020부터 U+007F까지(127문자): Basic Latin (라틴 문자 기본, 아스키와 같은 내용)

U+0250부터 U+02AF까지(96 문자): IPA Extensions(국제 음성 알파벳 확장)

U+0370부터 U+03FF까지(135 문자): Greek(그리스 문자)

U+3131부터 U+318E까지(94 문자): Hangul Compatibility Jamo(한글 호환 자모)

U+AC00부터 U+D7A3까지(11252 문자): Hangul Syllables(한글 음절)

U+1F300부터 U+1F5FF까지(768 문자): Miscellaneous Symbols and Pictographs(기타 기호 및 그림 문자)

U+1F600부터 U+1F64F까지(80 문자): Emoticons(이모티콘)

16진수 4자리로 쓰인 문자들은 기본 다국어 평면(BMP, U+0000~U+FFFF)에 속하는데, 현대에 쓰이는 대부분의 문자가 여기에 해당한다. 이외에 보조 다국어 평면(SMP, 10000~1FFFF), 보조 표의문자 평면(SIP, U+20000~2FFFF), 3차 표의문자 평면(TIP, U+30000~3FFFF) 등이 있는데 보조 다국어는 고대 문자와 같이 잘 쓰이지 않으며 표의문자는 대부분 한자가 부호로 할당되어 있다.

https://www.unicode.org/roadmaps/bmp/index.html에 방문하면 현재 쓰이고 있는 문자들을 모두 확인할 수 있다. 이것으로써 2진수로 배열된 정보를 전달하는 것만으로 전 세계에서 모든 문자를 동일하게 읽고 쓸 수 있게 된다.

5. 결론

부호의 종류만 알아 두고 필요할 때는 인터넷에서 표를 찾아서 쓰도록 한다.

'정보-통신-연산 > 입문1.수체계' 카테고리의 다른 글

부호 1 (Code 1) (0)	2022.09.10
사칙연산 (Elementary arithmetic) (0)	2022.09.10
보수와 음수 (Complement and negative number) (0)	2022.09.10
진법과 변환 (Notion(Base) with conversion) (0)	2022.09.10

DIY를 위한 AI