Jaro–Winkler distance

문자열 s_1 과 s_2 사이의 Jaro distance d_j 의 정의는

d_j = \left\{

\begin{array}{l l}
  0 & \text{if }m = 0\\
  \frac{1}{3}\left(\frac{m}{|s_1|} + \frac{m}{|s_2|} + \frac{m-t}{m}\right) & \text{otherwise} \end{array} \right.

여기에서 :

  • m 은 두 문자열에서 공통적으로 존재하는 문자의 수
  • t 는 두 문자열에 공통적으로 존재하나, 인덱스가 다른 문자의 수의 반

Jaro–Winkler distance d_w 는:

d_w = d_j + (\ell p (1 - d_j))

여기서:

  • d_j s_1 와 s_2 사이의 jaro distance
  • \ell 는 두 문자열의 공통 접두사의 길이로 최대 4개까지만 인정
  • p 는 고정된 scaling factor 공통 접두사가 있을경우 점수를 상향조정하기위해 사용하는 상수이다. p 는 0.25를 넘으면 안된다(넘으면 거리값이 1을 초과할수도 있음) Winkler's work 에서 표준적인 값은 p = 0.1 이다

Example

주어진 문자열 s_1 MARTHA 와 s_2  MARHTA 가 있을 때:

  • m = 6
  • |s_1| = 6
  • |s_2| = 6
  • s_1 T/H 와 s_2 의 H/T가 공통적으로 존재하나 순서가 다른 문자이므로,   t = \frac{2}{2} = 1

따라서 Jaro score 는:

d_j = \frac{1}{3}\left(\frac{6}{6} + \frac{6}{6} + \frac{6-1}{6}\right) = 0.944

Jaro–Winkler score 를 계산하기 위해 p = 0.1로 설정하고, 공통 접두사는 MAR 이므로:

  • \ell = 3

따라서:

d_w = 0.944 + (3 * 0.1 (1 - 0.944)) = 0.961



출처 : http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

신고

'ㅍㄺㄻ' 카테고리의 다른 글

String distance(1) : Jaro–Winkler distance  (0) 2015.05.24
테스트  (0) 2015.01.24
Posted by 라나킴



종언의 서표. 1

저자
스즈무 지음
출판사
서울문화사 | 2013-09-10 출간
카테고리
소설
책소개
- 전체 줄거리 -우연히 발견한 오래 된 일기에는 10년 전에 ...
가격비교 글쓴이 평점  

  추가적립 금액 채운다고 정보를 제대로 찾아보지도 않고 샀는데 생각지도 못하게 너무 똥이라 충격이었다. 도대체 뭐하는 물건인가 인터넷에 찾아보니 아지랑이 프로젝트처럼 이것도 보컬로이드로 시작해서 미디어 믹스로 이어진 프로젝트의 일환이라고 한다. 그거 보고 단박에 납득.

  프로젝트 자체에 대한것이라면 몰라도 소설 하나에 대해서는 리뷰하고 싶지도 않고, 할 가치도 없다. 애초에 작가로서의 역량를 제대로 갖추지도 못한 인간이 단순히 동인쪽에서 '다른 분야로'인기가 많다는 이유로 소설이 출판된건데 뭘 더 바라겠나. 

  여기 저기 반응을 찾아보면 극과 극으로 갈리는데, 당연하게도 원작을 모르고 소설로써 처음 접한 사람은 안좋은 방향으로 극을 달리는 쪽이다. 이것만 봐도 이 작품에 '소설'로써의 가치는 전무하고 그냥 '원작의 부록'취급정도가 적당하지 않나 싶다.

1줄요약 : 돈 낭비니까 사지 마셈

신고
Posted by 라나킴



반역기사의 성녀찬탈. 1

저자
최지인 지음
출판사
시드노벨 | 2014-09-01 출간
카테고리
소설
책소개
세계를 수호하기 위한 능력 '슈발리에'를 지닌 소녀 기사들이 모...
가격비교 글쓴이 평점  

  '원고지 위의 마왕', '나와 그녀와 그녀와 그녀의 건전하지 못한 관계'의 작가인 최지인의 세번째 라이트 노벨이다.

  여자들만 다니는 학교에 남자주인공이 입학한다는 닳고 닳은 시작을 보여주는데 그뒤에 바로 이어지는 내용을 보면 '러브코미디? 하렘? 그딴건 인정할 수 없ㅋ엉ㅋ'. 이 부분은 책소개에도 대놓고 언급하고 있어 반전이라기 보다는 아예 세일즈 포인트로 내세운다고 보는게 옳을듯. 솔직히 IS이후로 청일점 학원물이 너무 썩어나기도 했고...

  시점은 3인칭이고, 두뇌배틀적인 요소가 있어서 이에 대한 설명이 꽤나 많은 편임에도 불구하고 쉽게쉽게 읽히는 편. 개인적으로 최지인은 1인칭 서술보다는 보다는 3인칭을 훨씬 잘쓰는 것 같다. 년년년은 1권 보니 문장이 계속 눈에 걸려서 하차했는데 이건 또 엄청 재밌게 읽음.

  원고마왕을 재밌게 읽었으면 이 소설도 사실상 허니잼 확정이니 꼭 사보십셔.

신고
Posted by 라나킴


티스토리 툴바