[Lucene] 루씬 indexing #5 - N-Gram, 한글 Analyzer (3/3)
영어와 같이 단어가 공백단위로 분리된다면야 tokenizing 하기가 쉽겠지만 제가 아는 아시아 언어들은 띄어쓰기만으로 tokenize를 하면 제대로 term을 만들기 쉽지 않습니다.물로 영어도 단어의 원형, 동사의 원형으로 변환하는 과정을 거쳐야 하겠지만, 한글이나, 일어(일어는 띄어쓰기가 없는걸로 알고 있습니다만..)등의 언어는 공백으로 분리해서 만들어진 term으로는 검색효율이 떨어집니다."사과와 포도는 참 달다"를 "사과와" "포도는" "참" "달다" 분리했을때 "사과"로 검색하면 검색결과가 0이겠죠~N-Gram 분석기는 글자를 한글자씩 연결해 가면서 term을 생성하는 방법을 말합니다. 이 글은 lucene v8.2.0 기준으로 작성되었습니다. 모든 예제코드는 Kotlin으로 작성되었습니다. N..