W3C 국제화 팁


W3C 국제화 활동

글로벌 리서치의 최근(2002년 3월) 인터넷 통계중 언어별 사용자 통계를 보면, 영어와 비영어 페이지의 비율이 40.2%와 59.8%로 각각 나타나며, 비영어권중에서 유럽 언어는 33.9%, 아시아 언어가 26.1%로 나타났다. 특히, 한글의 이용자는 4.4%로서 전체 조사 언어중에서 6위를 차지한다. 인터넷의 한국인 이용자가 많아지면, 한글 페이지의 이용도 증가하게 되며, 따라서 한글 페이지에 대한 다양한 국제화의 노력이 필요하게 된다.

현재 국내 인터넷 이용자의 대부분은 웹 브라우저를 설치 하고 난 다음에, 기본적인 문자 세트를 지정하게 됨으로써, 어떠한 문자 세트를 이용하는지에 대한 정보 없이 자연스럽게 한글을 보게 된다.

XMLHTML 4.01의 문서 문자 세트(또는 기본 문자 세트)는 ISO 10646으로 알려진 유니코드이다. HTML의 경우에는 2.0 버전에서는 ISO 8859-1(즉, ISO Latin 1)이 기본 문자 세트이었다. 문서 문자 세트의 의미는 HTML 브라우저와 XML 처리기는 내부적으로 유니코드를 사용하는 것처럼 동작하여야 한다는 것이다. 그러나, 이는 문서가 반드시 유니코드로 작성되어야 하는것을 의미하지는 않는다. 서버와 클라이언트가 문자 세트에 대한 인코딩을 합의하는 경우에는 어떠한 인코딩도 유니코드로 변환되어질 수 있다.

따라서, XML 또는 (X)HTML 문서의 문자 인코딩을 명확하게 명시하는것은 매우 중요한 일이다. 이러한 인코딩 명시 방법은 다음과 같이 사용한다.

  • HTTP의 Content-Type 헤더에 ‘charset’ 파라메터 사용. 예:
    Content-Type: text/html; charset=EUC-KR
  • XML의 경우에는, 문서의 시작의 XML 선언에서 인코딩 어트리뷰트를 사용하거나 엔티티의 시작에 텍스트 선언 사용. 예:
    <?xml version="1.0" encoding="EUC-KR" ?>
  • HTML의 경우에는, <meta> 태그 사용. 예:
    <meta http-equiv="Content-Type" content="text/html; charset=EUC-KR">

이러한 정보를 통하여, 클라이언트는 손쉽게 유니코드로 해당 인코딩을 매핑할 수 있게 된다. 자주 사용하는 인코딩은 ISO-8859-1 (Latin-1), US-ASCII, UTF-8, UTF-16등이며, ISO-8859 계열의 iso-2022-jp, euc-kr 등이다. 대부분의 인코딩 기술에서 대소문자는 구별하지 않는다.

W3C의 국제화 활동에 대하여 자세히 알고 싶으면 http://www.w3.org/International/를 참조하기 바란다.

또한, 정주원씨가 작성한 다음의 문서는 국제화/현지화, 한국과 국제화에 관련하여 기술하고 있다.