1. 요까지 하고 import 해보자. 다시한번 얘기하는데 solr에는 reindex 기능 없다. 설정 완료 됐다~~ 싶으면 해라.
2. import 가 끝나면 Schema Brower로 가보자.
2.1. 컬럼을 선택하면 입력된 용어들을 볼 수 있다. 저게 검색의 기초 자료가 되는 거다.
2.2. 구글링 하다 보니까.. 저 용어들을 nGram 필터로 한단어 단위로 쪼개줘야 한다는 걸 봤는데.. 테스트 해보니까 오히려 결과가 더 안 좋았다.
2.3 solr의 검색방식이 저장되어 있는 용어들에 대해서 점수를 매기는 것으로 알고 있다. 점수가 높으면 결과로 출력한다고 한다.
2.4. "개역개정4판" 이란 단어를 읽으면 "개역","역개","개정","정4","4판", "개역개정4판", 뭐 이런식으로 2단어씩 짤라서 단어 사전을 만드는 것 같다.
2.5. nGram필터로 1단어씩 짤라서 넣으면 당연히 한 단어씩 데이터를 구축하지만, 의외로 질의어에 대한 결과가 너무 많이 나오거나 특수문자가 결합된 데이터에 대해서는 결과가 엉망으로 나오드라. 그래서 그냥 2단어로 자르는 기본 형식으로 사용하기로 했다.
댓글 없음:
댓글 쓰기