[Co Labor] Elasticsearch를 사용한 RAG 파이프라인 챗봇 개선, 윈도우에서 ElasticSEarch 사용하기
기존 생각해둔 알고리즘은 다음과 같다.알고리즘데이터 수집 및 전처리법률 문서, 판례 등 데이터 수집특수 문자, 불필요한 공백 등 제거텍스트 정규화KoNLPy을 통해 텍스트 토큰화불용어 처리Elasticsearch 구축Elasticsearch 클러스터 설정한국어 분석기 nori를 통해 법률 데이터를 색인화하여 Elasticsearch에 저장KoBERT 모델 다운로드 및 설정성능이 잘 안나온다면 법률 도메인 데이터로 파인튜닝RAG 파이프라인 구현Retrieval : 사용자 질문을 KoBERT로 임베딩하여 검색검색된 문서와 원래 질문을 결합하여 LLM input으로 사용그런데 엘라스틱 서치를 생각해보면 inverted index로 이루어져 있다. 그렇다면 왼쪽에 term을 기준으로 오른쪽에 posting이 달..
2024.11.12