귀찮은건 질색인 개발자의 공간: Apache SOLR 한글검색에 대하여...

2015년 11월 26일 목요일

Apache SOLR 한글검색에 대하여...

일반적으론 한글형태소 분석기 라이브러리(koreananalyzer.4x-20130430.jar)(http://cafe.naver.com/korlucene)를 사용하라고 구글링에 나오나..

이상하게 적용이 안됨.. 라이브러리 경로에 다 넣어줘도 잘 못잡다가..

API문서를 보니...solr.CJKTokenizerFactory

http://wiki.apache.org/solr/LanguageAnalysis#Chinese.2C_Japanese.2C_Korean

를 사용하라고 되어 있음.. 우리나라 사람들이 만든 한글 형태소 분석기는 아직 적용해보지 못함..

적용 방법은 필드타입에다가 tokenizer class를 변경해 주면 되는듯함..

conf 디렉토리 -> schema.xml

혹은 한글이 들어가는 필드 타입들에 적용함..

기존

<analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"> </tokenizer></analyzer>
변경

<analyzer> <tokenizer class="solr.CJKTokenizerFactory"> </tokenizer></analyzer>
적용해보니.. 절이나 단어 단위의 검색에 대해서 좀더 고려를 해봐야 겠다는 생각이 든다.. 추후에 한글 형태소 분석기를 적용을 해봐야겠음.. 그런대로 검색이 잘 됨..

그리고.. 약간의 꼼수로.. 띄어쓰기로 검색시 공백을 제거하고.. DB쪽 데이터도 공백을 제거한 값을 검색하게 하는 꼼수를 부려봄.. 그런대로 잘 나오는것 같다..

analyzer type도 검색에 영향을 미치는것 같기에 다음과 같이 적용

어찌됐든.. 결과는 괜찮게 나옴!!

단!! 데이터 정렬시 오름차순 내림차순이 약간 이상함.. 특수문자가 포함된 결과시에 상당히 이상하게 정렬된다..

귀찮은건 질색인 개발자의 공간

2015년 11월 26일 목요일

Apache SOLR 한글검색에 대하여...

댓글 없음:

댓글 쓰기

[낯선] 2026.06.20 이태원 MZK MuzikBar 공연

Social Media Icons 2

Menu