[Information Retrieval] Dictionaries and Tolerant retrieval - Wildcard queries, k-gram indexes, Edit distance, Spelling correction, Soundex
Tolerant retrieval단어를 조금 다르게 써도 비슷한 단어를 검색해 주는 방식이다.예를 들어 data의 철자를 잘못써서 dato로 써도 data를 옳게 찾아준다면 tolerant retrieval이다.exact match가 없을 경우 spelling correction 혹은 wildcard queries로 바꿔서 검색하는 방식이다.Tolerant retrieval을 구현하는 방법을 알아보자.1. Dictionaries용어부터 정의해 보자.Term vocabulary는 일종의 데이터이다.term vocalulary를 저장하는 자료 구조가 dictionary이다. 각 term은 document frequency, pointer to postings list 등의 정보와 함께 저장된다.이 정보들을 ..
2024.10.02