사용자 사전 사용

Function

  • 문장 내에서 사용자 사전에 포함된 단어가 출현하면 사용자 사전에 정의된 품사를 우선적으로 갖게 됩니다.
  • 주로 사람이름, 영화제목, 브랜드명, 지명 등과 같이 고유명사를 인식하는데 활용할 수 있습니다.
  • 기분석 사전보다 우선 순위가 낮습니다.

Code Example

//KOMORAN에서 기본으로 제공되는 LIGHT 모델 사용
Komoran komoran = new Komoran(DEFAULT_MODEL.LIGHT);
//사용자 사전 적용. 원하는 위치에 사용자 사전 파일을 생성한 후 경로만 지정해주면 됩니다.
komoran.setUserDic("user_data/dic.user");

File Format

  • 사용자 사전의 포맷은 [단어] [\t] [품사]로 구성되어 있어야합니다.
  • 단어는 아래 예제의 "바람과 함께 사라지다"와 같이 띄어쓰기가 허용됩니다.
  • 형태소의 품사를 적지 않으면 기본적으로 고유명사(NNP)로 인지합니다.
  • 라인의 시작에 #으로 주석 처리가 가능합니다.
바람과 함께 사라지다   NNG
바람과 함께        NNP
#자연어  NNG

기분석 사전 사용

Function

  • 문장 내에서 기분석 사전에 포함된 어절이 출현하면 기분석 사전에 정의된 분석 결과대로 분석합니다.
  • 주로 사용자 사전 추가 및 확률 튜닝으로도 원하는 분석 결과가 나오지 않을 때 사용합니다.
  • 사용자 사전보다 우선순위가 높습니다.

Caution

분석된 결과의 품사열은 grammar.in에 포함된 문법 형태여야 합니다.
아래 예의 분석 결과인 NNG 다음에 ETM이 출현하는 문법은 grammar.in에 포함되어 있지 않습니다.
그렇기 때문에 해당 어절의 기분석 결과는 적용되지 않습니다.
#잘못 된 예
감기는 /NNG /ETM /JKG

Code Example

//KOMORAN에서 기본으로 제공되는 LIGHT 모델 사용
Komoran komoran = new Komoran(DEFAULT_MODEL.LIGHT);
//기분석 사전 적용. 원하는 위치에 기분석 사전 파일을 생성한 후 경로만 지정해주면 됩니다.
komoran.setFWDic("user_data/fwd.user");

File Format

기분석 사전의 포맷은 [분석대상어절] [\t] [형태소1/품사1] [ ] [형태소2/품사2] [ ]...로 구성되어 있어야 합니다.
사용자 사전과 마찬가지로 라인의 맨 앞에 #를 사용하여 주석처리가 가능합니다.
감기는  /NNG 기는/NNG
바랬어요 바라었/NP
흘렸어요 흘리/VV /EP 어요/EC
#바람과 바람/NNG