Jaro–Winkler distance
문자열 과
사이의 Jaro distance
의 정의는
여기에서 :
은 두 문자열에서 공통적으로 존재하는 문자의 수
는 두 문자열에 공통적으로 존재하나, 인덱스가 다른 문자의 수의 반
Jaro–Winkler distance 는:
여기서:
와
사이의 jaro distance
는 두 문자열의 공통 접두사의 길이로 최대 4개까지만 인정
는 고정된 scaling factor 공통 접두사가 있을경우 점수를 상향조정하기위해 사용하는 상수이다.
는 0.25를 넘으면 안된다(넘으면 거리값이 1을 초과할수도 있음) Winkler's work 에서 표준적인 값은
이다
Example
주어진 문자열 MARTHA 와
MARHTA 가 있을 때:
T/H 와
의 H/T가 공통적으로 존재하나 순서가 다른 문자이므로,
따라서 Jaro score 는:
Jaro–Winkler score 를 계산하기 위해 로 설정하고, 공통 접두사는 MAR 이므로:
따라서:
출처 : http://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance
'ㅍㄺㄻ' 카테고리의 다른 글
String distance(1) : Jaro–Winkler distance (0) | 2015.05.24 |
---|---|
테스트 (0) | 2015.01.24 |
댓글을 달아 주세요