RAG 평가셋 만드는 법: 좋은 질문만 모으면 왜 운영에서 실패할까
RAG 평가셋 만드는 법을 설명합니다. positive/negative set, retrieval 실패 사례, regression set 관점에서 왜 좋은 질문만 모으면 운영에서 실패하는지 정리합니다.
RAG 평가셋 만드는 법을 설명합니다. positive/negative set, retrieval 실패 사례, regression set 관점에서 왜 좋은 질문만 모으면 운영에서 실패하는지 정리합니다.
LLM 평가는 왜 데모에서는 좋아 보이는데 운영에서는 다르게 느껴지는지 설명합니다. single-example 착시, 테스트셋, 실패 패턴, human review 비용까지 실무 관점으로 정리합니다.