조준화의 오류정정

조준화의 오류정정

  • 분류 전체보기
    • TIL
    • 프로그래밍 언어
      • Java
      • JavaScript
      • C++\C
      • HTML\CSS
      • Markdown
    • 알고리즘
      • 문제풀이
      • 알고리즘 지식
    • CS
      • Computer Architecture
      • Operating System
      • Computer Network
      • 백엔드
      • Information Retrieval
      • Database System
      • ServerProgramming
    • AI
      • YOLO
      • CS231n
    • 프로젝트: Co Laobr
    • 프로젝트: 노인을 위한 나라는 있다.
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

조준화의 오류정정

컨텐츠 검색

태그

OS 시뮬레이션 알고리즘 C++ 백트래킹 BFS 우선순위 큐 til 문자열 자료구조 문제풀이 java 재귀 DP 자바 dfs BOJ 정렬 html 백준

최근글

댓글

공지사항

아카이브

information retrieval(3)

  • [Information Retrieval] Index Compression - Heaps' law, Zipf's law, Dictionary compression, front coding, Postings compression, gamma code

    1. Compression정보검색에서의 압축은 다음과 같은 의미를 가진다.dictionary의 크기를 줄이는 것은 메인 메모리에 많이 올릴 수 있다는 것이다.posting file을 줄이는 것은 disk space를 줄이고, disk를 읽는 시간을 줄이는 것이다.Lossy손실이 있는 압축이다.소문자로 바꾸거나 stemming, stop word 제거하는것 등이다.Lossless손실이 없는 압축이다.zip 등이다.딕셔너리를 디스크에 올려놓는게 굉장히 빠르고 좋은데 너무 크다. 따라서 압축을 해야 한다. 압축을 하는 경우 압축을 푸는 시간이 들긴 하지만 디스크에 접근하는 것 보다 훨씬 빠르다.2. Term statistics통계를 다시 보자.number를 제외하거나 case folding, stopword ..

    2024.11.26
  • [Information Retrieval] Index Construction - BSBI, SPIMI, Distributed indexing (Map Reduce), Dynamic Indexing(Logarithmic merge)

    1. IntroductionHardware basics하드디스크보다 메모리가 훨씬 빠르다.그러나 메모리의 양이 매우 적기에 양을 나누어서 메모리에 넣고, external sort를 수행해서 inverted index를 만드는 방식으로 작동하게 된다.디스크에서 정보를 찾는 seek time은 굉장히 느리다. 참고로 seek는 트랙을 찾는 것이고 섹션을 찾는 rotate는 비교적 빠르다.모든 operation을 디스크를 거치지 않고 메모리에서 하면 굉장히 빠르다.한 번 트랙을 찾으면 최대한 많이 읽어오는 것이 유리하고 그래서 block 단위로 저장하는 것이 좋다.Fault tolerance는 비싸다.RCV1 collection정보 검색을 테스트하기 위해 원래 셰익스피어의 희곡을 사용했는데 양이 너무 적었다...

    2024.11.25
  • [Information Retrieval] Boolean Retrieval - Term, Document, Index

    1. IntroductionInformation Retrieval데이터베이스에서 처리하는 정형화된 데이터가 아닌 텍스트 같은 비정형 데이터로 이루어진 문서와 같은 물질을 찾는 것이다.문장을 파악하는 것인데, 예를 들어 홍길동은 A+를 받았다.라는 문장을 보고 홍길동 : A+라고 파악하는 것을 말한다.사용자가 찾고자 하는(information need) 비정형 데이터를 검색하는 것이다.예를 들어 사용자가 파리 지도라고 검색한다면 초파리의 염색 지도가 나올 수 있다. 그러나 사용자가 원하는 건 프랑스 파리의 지도이다.이러한 정보를 대용량 문서에서 찾아주는 것이 정보 검색이다.즉, 핵심은 정보 검색은 unstructured를 갖는 text를 documents에서 찾는 것인데, 큰 collection에서 inf..

    2024.09.30
이전
1
다음
티스토리 github notion
© 2018 TISTORY. All rights reserved.

티스토리툴바