LLM 평가가 어려운 이유: 데모는 좋은데 운영 품질은 왜 다르게 느껴질까
LLM 평가는 왜 데모에서는 좋아 보이는데 운영에서는 다르게 느껴지는지 설명합니다. single-example 착시, 테스트셋, 실패 패턴, human review 비용까지 실무 관점으로 정리합니다.
LLM 평가는 왜 데모에서는 좋아 보이는데 운영에서는 다르게 느껴지는지 설명합니다. single-example 착시, 테스트셋, 실패 패턴, human review 비용까지 실무 관점으로 정리합니다.