본문 바로가기

한글, 새로운 시선

한글이 영어보다 용량이 큰 이유

워드프로세서, 컴퓨터활용능력 등 컴퓨터자격증에 도전해보신 경험이 있으신가요? 어떤 컴퓨터시험을 공부하더라도 가장 기본적인 내용은 중복되기 마련입니다. 예를 들면 '컴퓨터의 역사'와 같은 부분은 거의 대부분의 컴퓨터자격증 시험에서 다루고 있습니다.


[사진=6psbig3.com] 세상에 존재하는 수많은 문자들



컴퓨터의 기초에 대해 공부하시다 보면, 컴퓨터에서 문자를 다루는 알고리즘에 대해서도 배우게 되는데요. 한글이 영어보다 용량이 큰 이유를 아시나요? 컴퓨터에서 한글과 영어의 용량이 다를 수 밖에 없는 이유에 대해서 짚어보겠습니다.


영어는 1Byte, 한글은 2Byte
컴퓨터·휴대폰과 같은 전자기기에서 영어는 한글자당 1Byte를 차지하고, 한글은 한글자당 2Byte를 차지합니다. 이 점은 컴퓨터에 대해서 깊은 관심을 갖고있지 않더라도 알 수 있는 부분인데요. 휴대폰 문자를 입력할때면 우측에 문자수를 체크해주는 화면이 보일텐데요. 영어 문자를 입력할때와 한글 문자를 입력할때 이 숫자가 줄어드는 모습이 다소 다르다는 것을 보실 수 있습니다.


[왼쪽] 한글 안녕하세요 10byte [오른쪽] 영어 Hello 5byte



위의 이미지는 휴대폰 문자메시지 창에서 한글 '안녕하세요'와 영어 'Hello'를 입력해본 화면입니다. 안녕하세요와 Hello는 똑같이 5글자이지만, 한글 안녕하세요는 10byte이고 영어 Hello는 5byte인 점을 볼 수 있습니다. 같은 글자수여도 한글이 2배의 용량을 차지하게 되는 것입니다. 왜 그럴까요?

1바이트로 표현할 수 있는 문자의 조합흔 256가지 입니다. 그래서 알파벳 대소문자 52자로 이루어진 영어는 0부터 127까지 사용(128개)하는 아스키코드를 활용할 수 있습니다. 그러나 한글은 이정도로 모든 문자를 담아낼 수가 없습니다. 초성 19자, 중성 21자, 종성 28자로 이루어진 한글은 무려 11172자를 표현할 수 있기 때문입니다. 이렇기 때문에 한글은 1byte가 아닌 2byte에 한 문자를 담게 되었습니다.

[사진=위키피디아] 아스키코드 차트



***아스키코드 [American Standard Code for Information Interchange]
아스시코드는 데이터 처리 및 통신시스템 상호간의 정보교환용 표준 부호로 제정한 것으로 아스키 부호라고도 합니다. 데이터 처리와 정보시스템 상호간의 정보교환용으로 정한 표준코드로서, 영어를 사용하는 대부분의 정보기기에서 사용되고 있습니다. 아스키코드는 대문자·소문자의 알파벳, 숫자,기호, 제어부호 128종을 각 8비트로 코드화하였습니다.

***유니코드(Unicode)
유니코드는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준입니다. 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등을 포함하고 있습니다. 기존의 인코딩들은 그 규모나 범위 면에서 한정되어 있고, 다국어 환경에서는 서로 호환되지 않는 문제점이 있었습니다. 유니코드가 다양한 문자 집합들을 통합하는 데 성공하면서 유니코드는 컴퓨터 소프트웨어의 국제화와 지역화에 널리 사용되게 되었으며, 비교적 최근의 기술인 XML, 자바, 그리고 최신 운영 체제 등에서도 지원하고 있습니다. 유니코드에서 한국어 발음을 나타날 때는 예일 로마자 표기법의 변형인 ISO/TR 11941을 사용하고 있습니다.


아스키코드 : http://100.daum.net/encyclopedia/view.do?docid=11XXXX9861
유니코드 : http://ko.wikipedia.org/wiki/유니코드


온한글 블로그 기자단 1기 이세진

ⓒ온한글