[Information Retrieval] Term voc and posting - Skip Pointers, Phrase queries, Proximity search
1. Documents기본적으로 정보검색은 document의 단어를 대상으로 한다.document의 포맷은 pdf, word, excel 등이 될 수 있고 그 안의 character set 또한 다양하다. utf 등등..한글 이메일에 일본 문서가 실리는 경우 이메일 본문, 첨부된 문서를 각각 document로 볼건지, 전체를 document로 볼건지 또한 고민해야 한다. 정보검색의 설계에 달려있는 문제이다.정보검색은 다양한 문서에서 어떻게 문서를 파싱 해서 text를 정확하게 찾아내서 검색을 하느냐에 대한 얘기이다.2. Terms - General + Non-EnglishWordtext 내에 나타나는 delimiter(빈 칸, 탭 등)로 분리된 하나의 연속된 단위의 characterTermnormaliz..
2024.10.01