UTF-8 and Unicode FAQ for Unix/Linux: 유니코드를 지원하는 프로그래밍 언어는 무엇인가?

8. 유니코드를 지원하는 프로그래밍 언어는 무엇인가?

1993년경 이후에 개발된 최근의 프로그래밍 언어들은 이미 유니코드/ISO 10646-1 문자들을 위한 특별한 데이터 형을 가지고 있다. 이것은 Ada95의 경우 Wide_Character이며 자바의 경우 Char이다.

ISO C는 또한 멀티바이트 인코딩과 와이드 문자(wide character)를 취급하기 위한 메커니즘을 명시하고 있으며, Amendment 1 to ISO C가 1994년 9월에 발행되었을 때 더욱 더 많은 것들이 추가되었다. 이러한 편리한 기능은 주로 여러가지 동아시아 문자들을 인코딩하기 위해서 설계되었고 UCS를 취급하기 위해서 필요한 것보다 훨씬 더 복잡해졌다. UTF-8은 ISO C 표준이 하나의 멀티바이트 문자열과 wchar_t 형을 호출하기 위한 하나의 인코딩 예인데, 이것은 현재의 환경에서는 보통 32비트의 부호있는 정수이며, 유니코드 문자를 저장하기 위해서 사용할 수 있다. C 컴파일러는 yyyymmL 형태를 갖는 상수 정수를 __STDC_ISO_10646__ 변수에 매크로 정의하므로써, wchar_t 변수가 모든 로케일에 결친 유니코드 값을 저장한다는 것을 보증하는 신호를 애플리케이션에 보낼 수 있다(199712L을 예로 들어보면, 연도와 월 수는 ISO/IEC 10646과 그것이 언제 만들어졌고 언제 수정되었는지를 나타내는 버전을 참조한다는 것을 알 수 있다).

다음 이전 차례