- 각 언어별 character set detecting 을 위한 library 및 API 정리
- Charset detecting 에는 크게 2가지 open 된 library 를 이용
3.1. Original Mozilla Code ¶
- C++ 기반
- browser 코드에서 분리해 내기가 쉽지 않다.
- 요즘 버전의 경우 intl/chardet/test 에 sample source 가 있어 무언가 여지가 있을 듯..
- C# 용 API
- Mozilla Universal Charset Detect Algorithm
- 2016.05 현재 프로젝트 없어진 듯.
- GitHub에
UDE라는 프로젝트가 있음
- Java 용 chardet class API
- Mozilla Universal Charset Detect Algorithm
- sourceforge 에서 진행 중
- 역시 살펴 보지는 않았음
3.4. py-chardet ¶
- Python API
- Mozilla Universal Charset Detect Algorithm
- python pure code 로 작성
- 속도가 느린 단점
- 그래도 가장 유명함. (검색에 가장 많이 걸림)
- 개발이 중단이 된 것 같고, 몇몇 forking version들이 있음
- python-chardet c binding module
3.6. Encode-Detect ¶
- Perl API
- Mozilla Universal Charset Detect Algorithm
- C++ binding 이라서 속도가 좋다.
- 몇몇 언어에 대하여 버그가 있다.
- 버그가 있으나, python chardet 보다는 정확도가 높다
3.7. libchardet ¶
- C/C++ library ( libchardet.so/libchardet.a support)
- Mozilla Universal Charset Detect Algorithm
- Encode-Detect 1.01 의 C++ binding 코드를 수정
- C wrapping API 제공
- Encode-Detect 의 버그 수정
- python chardet/Encode-Detect 보다는 정확도가 높다
- 2010/07 현재 libchardet 이 여러개가 존재한다. 대부분 Encode-Detect의 C++ binding 으로, frontend API가 조금씩 다르다.
3.8. mod_chardet ¶
- PHP API
- libchardet / libicu / Python C API binding
- Mozilla Universal Charset Detect Algorithm
- ICU Conversion Charset Detection Alghrotim
- Python Chardet bindng (with Python C API)
- Requrires: libchardet that is distributed from oops.org
|
|