Jaro–Winkler distance
문자열 과 사이의 Jaro distance 의 정의는
여기에서 :
- 은 두 문자열에서 공통적으로 존재하는 문자의 수
- 는 두 문자열에 공통적으로 존재하나, 인덱스가 다른 문자의 수의 반
Jaro–Winkler distance 는:
여기서:
- 와 사이의 jaro distance
- 는 두 문자열의 공통 접두사의 길이로 최대 4개까지만 인정
- 는 고정된 scaling factor 공통 접두사가 있을경우 점수를 상향조정하기위해 사용하는 상수이다. 는 0.25를 넘으면 안된다(넘으면 거리값이 1을 초과할수도 있음) Winkler's work 에서 표준적인 값은 이다
Example
주어진 문자열 MARTHA 와 MARHTA 가 있을 때:
- T/H 와 의 H/T가 공통적으로 존재하나 순서가 다른 문자이므로,
따라서 Jaro score 는:
Jaro–Winkler score 를 계산하기 위해 로 설정하고, 공통 접두사는 MAR 이므로:
따라서:
출처 : http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance