1. schema.xml
1.1. 이 파일에서 필드 유형 정의하는거야 대강 찾아보면 알테고.. 상품명에 사용한 설정은 다음과 같다.
schema.xml 일부 발췌
name="text" class="solr.TextField" positionIncrementGap="100">
type="index"> class="solr.CJKTokenizerFactory"/> class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> class="solr.LowerCaseFilterFactory"/> class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> class="solr.PorterStemFilterFactory"/> class="solr.RemoveDuplicatesTokenFilterFactory"/> type="query">
class="solr.CJKTokenizerFactory"/> class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> class="solr.LowerCaseFilterFactory"/> class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/> class="solr.PorterStemFilterFactory"/> class="solr.RemoveDuplicatesTokenFilterFactory"/> |
만만한 설정은 다 때려 넣음. 형태소 이런게 제대로 동작하는지는 실제로 의문임...
1.2. tokenizer 필터를 arirang을 사용하지 않고 기본으로 지원하는 CJKTokenizerFactory를 사용했다. 중국어, 일본어, 한국어를 지원한다고 하는데 경험해 본 결과 양놈들은 한중일 3개 언어의 형식이 같아 보이는가보다.. 빙신들..
1.3. WhiteSpace~~~ 어쩌구는 사용안함. 이거 사용하면 공백으로 단어를 구분하게 되서 정확한 상품 검색을 오히려 방해한다.(내가 못하는 걸 수도 있고..ㅡㅡ;;)
2. solrconfig.xml은 거의 수정한게 없다. solr 4 cookbook을 보고 몇개 테스트 해봤으나.. 저~~~~연~~~혀~~~~ 도움이 안됨.. 그냥 기본 기능 그대로 사용하기로 함.
2.1. 분석기를 사용하기 위해서.. 요거 하나만 추가 했다. 요거 추가하면 solr의 단어 형태소 분석기 같은걸 사용할 수 있다.. 왜 기본 기능을 막아 놨는지는 미스테리~~
댓글 없음:
댓글 쓰기