Construction of the SAFE Database Specialized for Korean Structural Engineering and Performance Evaluation of a Retrieval Augmented Generation System Using the MAXIM Method

Seok-Jae Heo; Won-Jun Choi; Sang-Hyun Lee

doi:10.7734/COSEIK.2025.38.4.247

Preview

Research Paper

Journal of the Computational Structural Engineering Institute of Korea. 31 August 2025. 247-255
https://doi.org/10.7734/COSEIK.2025.38.4.247

Construction of the SAFE Database Specialized for Korean Structural Engineering and Performance Evaluation of a Retrieval Augmented Generation System Using the MAXIM Method

한국 건축구조공학 분야 특화 SAFE 데이터베이스 구축과 MAXIM 검색 기법을 활용한 RAG 시스템 성능 평가

Seok-Jae Heo¹

Won-Jun Choi¹

Sang-Hyun Lee²^*

허 석재¹

최 원준¹

이 상현²^*

¹Research Professor, Seismic Retrofitting and Remodeling Research Center, Dankook University, Yongin, 16890, Korea

²Professor, Department of Architectural Engineering, Dankook University, Yongin, 16890, Korea

¹단국대학교 리모델링연구소 연구교수

²단국대학교 건축학부 교수

^{*Corresponding Author}

License (open-access, https://creativecommons.org/licenses/by-nc/4.0/):

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (https://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT

The rapid advancement of large language models (LLMs) presents both significant opportunities and notable challenges to structural‐engineering practice. To evaluate their reliability within a Korean context, we introduce safety-oriented AI framework for engineering (SAFE)—a domain-specific benchmark that integrates a 377 K-snippet knowledge base with 4,200 expert-designed questions drawn from five representative datasets (MMLU-Struct, StructQA-KO, SPED, StructMCQA, StructCase-Y/N). We used SAFE to analyze several Retrieval‑Augmented Generation (RAG) pipelines that differed in corpus structure, retriever architecture, and LLM family. The optimal configuration—a StructCorpus combined with a StructCPT retriever (MAXIM) feeding an ensemble GPT‑4o generator—achieved an overall accuracy of 89.1%, representing a 3.87-percentage‑point improvement over the strongest baseline LLM employing chain‑of‑thought prompting alone (85.2%). Performance peaked at 94.9% on the StructCase‑Y/N task, which assesses compliance with domestic building standards through practical, case‑based questions. Ablation studies revealed that retrieving approximately 32 snippets per query offers the optimal balance between accuracy and latency, whereas larger context windows yield diminishing returns. These results confirm that a well-curated structural‐engineering knowledge base, combined with a domain‑specialized retriever, significantly reduces hallucination and enhances answer fidelity. Accordingly, SAFE represents the first large‑scale evaluation framework specifically designed for Korean structural engineering and provides a reproducible platform for advancing research on safety‑critical AI decision support.

Keywords

large language models

retrieval-augmented generation

structural engineering

knowledge base

MAXIM retrieval

SAFE benchmark

본 연구는 한국 건축･구조공학 도메인에 특화된 SAFE(Safetyoriented AI Framework for Engineering) 지식베이스와 이를 활용한 검색 증강 생성(RAG) 시스템을 제안한다. SAFE는 전문용어집, 설계 기준, 교과서, 프로젝트 보고서에서 추출한 37.7만개 스니펫을 통합하여 국내 구조설계기준(KDS)과 최신 실무 사례를 포괄한다. SAFE 기반 파이프라인은 5개 대표 과업(MMLUStruct, Struct QAKO, SPED, StructMCQA, StructCaseY/N)으로 구성된 4,200문항 벤치마크에서 전체 정확도 89.1%를 기록하여, 체인오브생각(CoT) 방식의 최고 성능 LLM 대비 3.87%p 향상 효과를 나타냈다. 특히 국내 기준･실무 판정 과업인 StructCaseY/N에서 94.9%의 정확도를 달성하였다. 절편 분석 결과, 질의당 32개 스니펫을 투입할 때 정확도와 응답 지연 간 최적 균형점이 형성되며, 그 이상에서는 성능 개선 대비 비용이 급격히 감소함을 확인하였다. 또한 질문 유형별로 최적 정보 출처가 상이함을 규명하여, 도메인 맞춤형 코퍼스 가중치 조정의 필요성을 제시하였다. 본 연구는 국내 최초의 구조공학 RAG 평가 체계를 확립함으로써, 안전 중심 AI 의사결정 지원 도구의 실무 적용 가능성을 입증하고 향후 연구의 기반을 마련하였다.

키워드

대규모 언어 모델

검색 증강 생성

데이터베이스

MAXIM 검색

SAFE 벤치마크

MAIN

1. 서 론
2. 관련 연구(Related Research)
2.1 구조공학 분야의 AI 및 LLM 활용
2.2 검색 증강 생성(RAG) 기술
2.3 도메인 특화 RAG 시스템 및 벤치마크
3. 지식베이스(SAFE) 구축
4. 성능 평가 및 분석
4.1 코퍼스 종류 및 검색 기법에 따른 성능 비교
4.2 검색 스니펫 수에 따른 성능 향상
4.3 스니펫 수가 응답 정확도와 처리 지연에 미치는 영향
4.4 과업별 정보 출처 분포
5. 결론 및 향후 과제

1. 서 론

건축 구조공학 분야에서 대규모 언어 모델(LLM)의 급속한 발전은 새로운 가능성과 과제를 동시에 제시하고 있다. 최근 연구들에 따르면 LLM은 구조 해석, 설계 최적화, 내진 성능 평가 등 복잡한 구조공학 작업 수행에 높은 잠재력을 보여주었다. 예를 들어 LLM을 활용하여 비정형 구조물의 거동 예측이나 최적 설계를 수행하는 시도가 보고되었다(Naser, 2023). 그러나 이러한 발전에도 불구하고, 특히 한국의 구조공학 실무 환경에서 LLM을 적용할 때는 여전히 상당한 한계가 존재한다. 가장 큰 문제 중 하나는 LLM이 부정확한 정보를 생성하는 ‘환각(hallucination)’ 현상으로, 구조공학처럼 안전이 최우선인 분야에서는 작은 오류도 치명적인 결과를 초래할 수 있다 예를 들어 철근 콘크리트 상세나 강접합 설계에 대한 잘못된 정보는 구조적 실패로 이어질 수 있으며, LLM의 학습 데이터에 최신 건축 기준이나 새로운 재료에 관한 지식이 반영되지 않은 경우 실제 적용 시 문제가 발생할 수 있다(Ji et al., 2023). 이러한 문제는 특히 한국 건축구조기준(KDS)과 같은 지역 특화 규정에 부합하는 답변을 생성해야 하는 경우에 더욱 두드러진다.

이러한 한계를 극복하기 위한 유망한 접근법으로 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기술이 제시되고 있다(Gao et al., 2023; Lewis et al., 2020). RAG는 LLM에 최신의 관련 정보를 제공함으로써 응답의 정확성과 신뢰성을 향상시키는 방법으로, 최신 구조공학 논문, 설계 기준, 실무 사례 등의 지식을 검색하여 LLM의 컨텍스트로 삽입한다. 예를 들어 학교 건물의 내진 설계나 불규칙 구조물의 동적 거동 해석과 같은 복잡한 문제에 대해 RAG는 최신 연구 결과나 설계 지침을 제공함으로써 보다 정확하고 현실적인 답변을 도출할 수 있다. 그러나 한국 구조공학 환경에 특화된 효과적인 RAG 시스템을 개발하려면 몇 가지 도전과제가 따른다. RAG 시스템은 문서 컬렉션(코퍼스), 검색 알고리즘(검색기), LLM 등 여러 구성 요소로 이루어지는데, 구조공학의 전문지식을 반영하도록 각 구성 요소를 최적화해야 하기 때문이다. 예를 들어 구조역학, 재료 비선형성, 동적 해석 기법과 같은 특수지식을 시스템이 얼마나 잘 포착하여 활용하는지가 성능의 관건이 된다.

본 연구에서는 한국 건축구조공학 분야의 특성을 반영한 안전 중심의 AI 프레임워크인 SAFE(Safety-oriented AI Framework for Engineering)를 구축하고, 이를 활용한 통합 검색 및 질의응답 시스템을 제안한다. SAFE는 건축구조공학의 가장 중요한 가치인 ‘안전성(Safety)’을 중심으로, 사용자가 신뢰할 수 있는 정보를 신속하고 정확히 얻을 수 있도록 AI 기반 지식 베이스를 제공한다. 제안하는 시스템은 사용자 질의와 가장 연관성이 높은 정보를 찾아주는 MAXIM 검색 기법(Maximum Similarity Retrieval, 최대 유사도 기반 검색)을 통하여 다양한 형태의 구조공학 데이터를 통합적으로 제공한다. SAFE 지식베이스와 MAXIM 기법을 통해 텍스트 문서뿐 아니라 도면, 시방서, 현장 사진에 이르는 이질적인 정보 간의 의미적 연관성을 극대화하고, 사용자가 필요한 정보를 신속하고 정확하게 획득할 수 있도록 지원한다. 특히, SAFE 지식베이스는 한국 구조공학의 특수성과 최신 동향을 반영한 데이터를 포함하고 있어, 기존 키워드 매칭 위주의 검색으로는 얻기 어려웠던 맥락 지식까지 통합적으로 활용할 수 있다. 본 연구를 통해 구축된 SAFE 벤치마크를 이용하여 다양한 RAG 시스템 구성에 대한 성능 평가를 수행하였으며, 이를 통해 한국 구조공학 분야에서 RAG의 효과와 한계를 체계적으로 분석하였다.

2. 관련 연구(Related Research)

2.1 구조공학 분야의 AI 및 LLM 활용

최근 인공지능(AI), 특히 대규모 언어 모델(LLM)은 구조공학 분야에서 효율성 증대와 복잡한 문제 해결의 잠재력을 보여주며 큰 주목을 받고 있다. AI는 구조 해석 자동화(Liang et al., 2025; Sebastian et al., 2024), 설계 최적화 (Abubakar et al., 2024; Homolak, 2023; Zhang et al., 2024b), 구조물 건전성 모니터링(Abubakar et al., 2024) 등 다양한 영역에서 활용될 가능성이 탐구되고 있다. 예를 들어, LLM을 사용하여 자연어 설명을 바탕으로 유한 요소 해석(FEA) 스크립트를 생성하거나(Liang et al., 2025), 설계 대안 탐색 및 최적화를 지원하고(Abubakar et al., 2024; Homolak, 2023), 건축 법규 준수 여부를 확인하는 등의 연구가 진행 중이다(Homolak, 2023). 이러한 기술은 반복 작업을 자동화하고 분석 및 설계 속도를 향상시켜 효율성을 크게 높일 수 있으며(Abubakar et al., 2024; Sebastian et al., 2024), 일부 연구에서는 AI 기반 도구가 설계 효율성을 10배 이상 향상시킨 사례도 보고되었다(Qin et al., 2024).

그러나 구조공학 분야에 LLM을 직접 적용하는 데에는 심각한 한계와 위험이 따른다. 가장 큰 우려는 LLM이 사실과 다른 정보를 생성하는 ‘환각(hallucination)’ 현상이다(Homolak, 2023; Hope et al., 2025; Joren et al., 2024). 안전이 최우선인 구조공학에서는 잘못된 정보가 치명적인 결과를 초래할 수 있다(Homolak, 2023). 또한 LLM은 구조공학의 전문 용어, 최신 기준, 핵심 원리에 대한 깊이 있는 이해가 부족하고(Homolak, 2023; Hope et al., 2025), 복잡한 다단계 문제 해결 능력이나 공간 추론 능력에 대한 신뢰성이 아직 불확실하다(Hope et al., 2025). LLM의 학습 데이터가 최신 정보를 반영하지 못할 수도 있다(Homolak, 2023). 이러한 한계는 AI가 잘 정의된 하위 작업 자동화에는 유용하지만, 종합적인 공학적 판단을 대체하기에는 부족함을 시사하며(Qin et al., 2024), 환각과 같은 위험을 완화하고 신뢰할 수 있는 최신 전문 지식을 통합할 필요성을 제기한다.

2.2 검색 증강 생성(RAG) 기술

LLM의 환각, 오래된 지식 의존성, 불투명성 문제를 해결하기 위한 핵심 기술로 검색 증강 생성(RAG)이 부상했다. RAG는 LLM의 내부 지식(parametric memory)과 외부 데이터베이스의 정보(non-parametric memory)를 결합하는 방식으로(Lewis et al., 2020), 검색기(Retriever)가 사용자 질의에 관련성 높은 정보를 외부 지식 소스에서 찾아 생성기(Generator)인 LLM에 전달하면, LLM은 이 정보를 바탕으로 최종 응답을 생성한다(Lewis et al., 2020; Zhang et al., 2024b).

RAG의 주요 이점은 외부 증거에 기반하여(grounding) 응답을 생성함으로써 환각을 완화하고(Friel et al., 2024; Gao et al., 2023; Joren et al., 2024; Lewis et al., 2020; Wang et al., 2024b, 2024c), 사실적 정확성과 신뢰성을 향상시키며(Lewis et al., 2020), 재학습 없이 최신 또는 도메인 특화 지식을 통합할 수 있게 하는 것이다(Friel et al., 2024; Gao et al., 2023; Lewis et al., 2020; Wang et al., 2024b, 2024c; Zhang et al., 2024a). 또한, 사용된 출처 제시를 통해 투명성을 높일 잠재력도 가진다(Park et al., 2025). RAG는 LLM 성능 향상을 위한 강력한 접근법으로 자리 잡았으며(Friel et al., 2024; Gao et al., 2023; Park et al., 2025; Wang et al., 2024b, 2024c), 특히 지식 집약적 작업에서 LLM의 핵심 한계를 해결하므로 SAFE 프레임워크의 기반 기술로 적합하다. 그러나 RAG의 효과는 검색기와 생성기의 품질 및 상호작용에 크게 의존하므로(Friel et al., 2024; Joren et al., 2024; Park et al., 2025), 검색-생성 파이프라인 최적화와 엄격한 평가가 필수적이다.

2.3 도메인 특화 RAG 시스템 및 벤치마크

구조공학, 의학, 법률 등 고도로 전문화된 분야에서 RAG의 최적 성능을 달성하기 위해서는 도메인 적응(domain adaptation)이 필수적이다(Friel et al., 2024; Gao et al., 2023; Park et al., 2025; Wang et al., 2024a). 범용 모델은 특정 분야의 전문 용어나 복잡한 추론 패턴 처리에 어려움을 겪을 수 있다(Tamber et al., 2025). 도메인 적응 전략에는 도메인 특화 지식 베이스 구축(예: SAFE의 StructCorpus, 전문 분야 텍스트, 지식 그래프 활용), 특화된 검색 방법론 개발(예: 임베딩 미세 조정, 하이브리드 검색, MAXIM), 생성기 미세 조정(예: RAFT(Zhang et al., 2024a)) 등이 있다.

이러한 도메인 특화 RAG 시스템의 성능을 정확하게 평가하기 위해서는 특화된 평가 프레임워크와 벤치마크가 필요하다(Friel et al., 2024; Gao et al., 2023; Tamber et al., 2025; Wang et al., 2024c; Yu et al., 2024). 최근 Table 1과 같이 RAGBench(산업 전반)(Friel et al., 2024), DomainRAG(대학 입학)(Wang et al., 2024b), OmniEval(금융), Medcpt, DocQA(의학)(Jin et al., 2023, Wang et al., 2024a), LARGE(법률)(Park et al., 2025), EDU-RAG(Tian et al.,2024) 등 다양한 도메인 특화 벤치마크가 제안되고 있다. 본 연구의 SAFE 벤치마크는 한국 구조공학 분야에 특화된 최초의 대규모 평가 프레임워크로서, 해당 분야의 명확한 공백을 메우는 중요한 기여를 한다.

Table 1.

Domain‑specific RAG benchmarks & evaluation toolkits (2023-2025)

Benchmark	Domain	Key Evaluation Metrics	Primary Data Sources
RAGBench (Friel et al., 2024)	Multiindustry (biomed, legal, finance, customersupport, etc.)	TRACe metrics - Utilization, Relevance, Adherence (= faithfulness), Completeness + explainability labels	12 public datasets ⇒ Usermanual corpora (EManual, TechQA), PubMedQA, HotpotQA, CUAD, FinQA, TATQA
DomainRAG (Wang et al., 2024b)	Chinese University Admissions	Six skills: Conversational RAG, HTML structure reasoning, Faithfulness, Noise denoising, Timeliness, Multi doc interaction	University admission system data (web pages, etc.)
OmniEval (Wang et al., 2024c)	Finance (China)	5 QA task classes × 16 financial topics; multi stage scoring of retrieval and generation (accuracy + rule/LLM metrics)	Financial documents
DocOA (Wang et al., 2024a)	Medicine - Osteoarthritis management	4-tier lattice: Guideline-Item QA, Management-Option QA, Treatment-Strategy QA, Real-Case QA (clinician-voted accuracy)	Evidence-based OA guidelines (ACR 2019, OARSI 2019, NICE 2022, VA/DoD 2020) + 80 de-identified patient cases
LARGE (Tool) (Park et al., 2025)	Legal	GUI/CLI tool for holistic RAG evaluation: swap corpora/algorithms/rerankers/LLMs/metrics; reports overall accuracy + LegalBench-style entailment & citation scores	Pile-of-Law corpus; LegalBench (US & KR) + LawBench
EDU-RAG (Tian et al., 2024)	Education - middle-school science	Standard QA accuracy vs hallucination-stress; measures RAG’s hallucination-mitigation effect	Textbook QA (TQA) items enriched with live web snippets

결론적으로 SAFE 프레임워크는 한국 구조공학이라는 특정 분야에 맞춰 지식 베이스(StructCorpus), 검색 방법론(MAXIM), 평가 체계(SAFE 벤치마크)를 통합적으로 개발함으로써 전문 분야 AI 연구의 최신 동향에 부합하며 해당 분야에서 AI 기술의 신뢰성 있는 발전을 위한 기반을 마련한다.

3. 지식베이스(SAFE) 구축

SAFE 지식베이스는 한국 건축 구조공학 분야 특화 지식을 체계화한 통합 데이터베이스로서, 다양한 출처의 문서를 일관된 구조로 정리하였다. SAFE는 단순한 문서 모음이 아니라, 구조공학 문제 해결에 필요한 정보를 맥락에 맞게 제공할 수 있도록 설계된 전문화된 AI 지식 프레임워크이다. SAFE는 아래의 주요 네 가지 분야의 문서 컬렉션으로 구성되며, 각 컬렉션은 해당 분야의 전문성과 실무적 활용도를 고려하여 구축되었다.

1) 전문 용어집(Specialized Glossary): 구조공학 핵심 용어와 개념에 대한 정의를 모은 컬렉션으로, 구조공학 기초 지식부터 고급 개념까지 폭넓은 내용을 포함한다. 약 6천여 개의 용어 항목이 한국어-영어 등의 번역과 함께 수록되어 있어, 전문 용어에 대한 이해와 정확한 사용을 지원한다.

2) 설계 표준 및 코드(Standards): 국내외 구조 설계 기준과 코드 문서를 체계화한 컬렉션이다. 한국 건축구조기준(KDS)를 비롯하여 미국 ASCE, 유럽 Eurocode 등 약 1,300여 개의 표준 문서를 포함하며, 조항별로 세분화되어 있어 필요한 규정 정보를 빠르게 찾을 수 있다. 이 컬렉션은 구조 설계 시 필수적인 법규 및 기술 요구사항에 대한 최신 정보를 제공한다.

3) 교과서(Textbooks): 구조공학 교육에 사용되는 대표적인 교과서들을 모은 컬렉션이다. 구조역학, 재료과학, 구조해석, 내진설계 등 주요 주제에 관한 20여 권 이상의 교과서를 장-절 단위로 분절하여 총 13만 개 이상의 스니펫을 구축하였다. 이를 통해 이론적 배경 지식이 필요한 질의에 대해 관련 교과서 내용을 제시할 수 있다.

4) 프로젝트 보고서(Project Reports): 실제 건축 구조설계 및 시공 사례를 담은 보고서와 연구논문 컬렉션이다. 초고층 빌딩, 장대 교량 등 다양한 사례의 설계보고서, 구조계산서, 실험보고서 총 40여 건에서 약 9만7천 개의 스니펫을 추출하였다. 실무 사례에 기반한 이 자료들은 이론이나 규정만으로 해결하기 어려운 실제 문제에 대한 참고 정보를 제공한다.

위 네 가지 컬렉션으로부터 추출된 문서 조각(스니펫)들을 모두 합쳐 통합 코퍼스(StructCorpus)를 구성하였다. StructCorpus는 SAFE의 마스터 코퍼스로서, 총 문서 수 약 7,500개, 스니펫 수 37.7만 개 규모로 통합 정리되었다. 각 스니펫에는 해당 출처와 주제 태그를 부여하여 검색 시 질의와 높은 의미적 연관성을 갖는 정보가 출처별로 고르게 추출되도록 하였다. Table 2는 SAFE 지식베이스의 구성 요소별 문서 및 스니펫 통계를 요약한 것이다.

Table 2.

Statistics of the SAFE knowledge base

Data Type	Documents	Snippets	Avg. Snippet Length (Tokens)	Key Features and Usage
Specialized Glossary	6,100+	6,200+	51	Definitions of key terms (including translations e.g., Korean-English), Support for fundamental concept comprehension
Design Standards/Codes	1,300+	145,000+	235	Structured compilation of domestic/international standards (e.g., KDS, ASCE), Legal and technical requirements
Textbooks	23	134,000+	184	Systematic coverage of theoretical knowledge (structural mechanics, material science, etc.), Detailed breakdown by chapters/sections
Project Reports	43	97,000+	153	Real-world structural design and construction case studies (high-rise buildings, bridges, etc.), Structural analysis reports
Integrated Corpus (StructCorpus)	7,500+	377,000+	171	Comprehensive corpus combining all above sources, Balanced utilization of diverse information, Comprehensive support for QA tasks

SAFE 지식베이스 구축 과정은 다음과 같다: 각 데이터 유형별 원문 문서를 수집한 후, 내용 구조에 따라 단락 혹은 조항 단위로 스니펫 분할을 수행하였다. 그런 다음 전처리 및 태깅 단계를 거쳐 메타데이터(출처 종류, 주제 태그 등)를 부여하고, Elasticsearch 기반의 인덱스를 구축하였다. 이를 통해 SAFE는 질의응답에 필요한 방대한 구조공학 정보를 체계적으로 관리하며, MAXIM과 같은 고성능 검색 기법이 효과적으로 동작할 수 있는 기반을 제공한다.

4. 성능 평가 및 분석

SAFE 벤치마크를 기반으로 제안 시스템의 성능을 다각도로 평가하였다. 평가에는 다섯 가지 대표 과업(dataset)에 대한 질의응답 문제 4,200여 개를 사용하였으며, 각 과업은 한국 구조공학 분야의 핵심 주제를 반영한다. 다섯 개 과업은 다음과 같다: (1) MMLU-Struct - 일반 구조공학 지식 평가를 위한 대규모 멀티태스크 질의, (2) StructQA-KO - 국내 구조기술사 시험 기출 문제, (3) SPED - 구조 안정성 및 성능평가 및 특수구조물 설계 관련 질의, (4) StructMCQA - 구조공학 다분야에 걸친 객관식 문제, (5) StructCase-Y/N - 실무 사례 기반의 예/아니오 판단 문제. 이러한 과업들은 구조역학/재료, 설계 기준 준수, 구조 성능평가, 복합 개념 이해 등 다양한 측면에서 RAG 시스템의 능력을 검증한다.

평가된 RAG 시스템 구성 요소로는 코퍼스(전문용어집, 표준, 교과서, 보고서 단일 vs 통합), 검색기(BM25, Contriever, SPECTER, StructCPT, 및 제안하는 MAXIM), 그리고 LLM(범용 모델 vs 구조도메인 특화 모델) 등이 있다. 모든 실험에서 질의에 대해 각 검색기법으로 상위 k개의 스니펫을 SAFE로부터 검색한 뒤, 이를 LLM 입력에 첨부하여 답변을 생성하도록 하였다. 평가 지표는 정확도(Accuracy)를 기준으로 하였으며, 필요에 따라 다중 실행의 평균과 표준편차(±값)로 신뢰구간을 표시하였다. 본 연구에서 사용된 데이터 및 벤치마크는 다음 GitHub 링크에서 확인할 수 있다(https://github.com/m-ill/SA FEDB).

4.1 코퍼스 종류 및 검색 기법에 따른 성능 비교

먼저 코퍼스 구성과 검색 알고리즘에 따른 성능 차이를 비교하였다. Table 3는 단일 소스 코퍼스(전문용어집만, 표준만 등)와 통합 코퍼스(StructCorpus)를 사용할 때, 각 검색 모델별로 전체 과업에 대한 평균 정확도를 정리한 것이다. 여기서 검색 모델은 전통적인 BM25, 일반 도메인 사전학습 밀집검색기 Contriever, 학술 논문 도메인 검색기 SPECTER, 그리고 구조공학 분야에 특화해 개발된 StructCPT(Structural Contrastingly Pre-trained Transformer)로 구성되었다. StructCPT는 구조 분야 말뭉치로 대조학습을 수행하여 구조문서 간 의미적 유사도를 잘 포착하도록 훈련된 도메인 특화 검색기이며, MAXIM 검색 기법의 핵심 구성요소로 활용된다.

Table 3.

Domain specific RAG benchmark scores (%)

Corpus	MMLU-Struct	Struct QA	SPED	Struct MCQA	Struct Y/N	Average
None (CoT)	86.42	86.54	84.52	68.93	83.41	85.22
Glossary	88.72	86.79	84.75	86.79	89.75	87.50
Standards	88.45	87.21	88.67	83.78	88.90	88.30
Textbook	88.45	88.51	86.67	81.43	85.67	87.32
Project Reports	83.42	88.46	83.86	83.27	82.84	84.64
Struct Corpus	88.24	87.12	86.14	87.43	94.89	89.09

Table 3에서 볼 수 있듯이 통합 코퍼스(StructCorpus)를 사용할 경우 전반적으로 모든 검색기에서 단일 코퍼스 대비 높은 정확도를 보였다. 특히 제안하는 MAXIM의 핵심 모델인 StructCPT의 경우 모든 코퍼스에서 가장 우수한 성능을 나타냈으며, 통합 코퍼스+StructCPT 조합은 평균 89% 이상의 정확도로 전체 최고 성능을 달성했다. 반면 일반 밀집검색 모델인 Contriever와 학술논문 기반 SPECTER도 구조 분야 질의에 80% 이상의 비교적 높은 정확도를 보였으나, 구조공학 특화가 이루어진 StructCPT보다는 다소 열세였다. 한편 전통적 BM25 모델은 간단한 용어 매칭에도 불구하고 표준/코드 질의 등 일부 영역에서 안정적인 성능을 보여 여전히 무시할 수 없는 강건성을 지녔다. 전반적으로, StructCorpus 통합 코퍼스의 활용이 개별 소스만 사용할 때보다 일관되게 좋은 성능을 내며, StructCPT(MAXIM) 특화 검색기가 가장 뛰어난 검색 성능을 발휘함을 알 수 있다.

또한 단일 소스 코퍼스별로 세부 과업에서 두드러지는 경향이 관찰되었다. 예를 들어 교과서 코퍼스는 이론적 배경 지식이 필요한 StructQA-KO 과업에서 88.5%의 높은 정확도를 보여 해당 유형 질의에 효과적임을 확인했다. 반면 설계 표준 코퍼스는 구조성능 평가 및 설계 관련 과업인 SPED에서 가장 높은 기여를 하였다. 이처럼 특정 과업의 성격에 따라 적합한 정보 출처가 존재하며, 통합 코퍼스는 다양한 출처로부터 고르게 정보를 제공함으로써 모든 과업에 안정적으로 대응하는 것으로 나타났다

요약하면 코퍼스 측면에서는 통합 코퍼스(StructCorpus)가 전반적으로 최적의 성능을 보였고, 검색 알고리즘 측면에서는 도메인 특화 StructCPT(MAXIM)가 가장 우수하였다. 이러한 결과는 다양한 정보원의 균형 잡힌 활용과 분야 특화 검색기의 중요성을 시사한다.

4.2 검색 스니펫 수에 따른 성능 향상

다음으로 RAG 시스템에서 LLM에 제공하는 스니펫의 개수(k)가 성능에 미치는 영향을 분석하였다. 스니펫 수가 늘어나면 더 풍부한 정보가 제공되지만, 과도하게 많아지면 모델이 중요한 정보를 찾기 어려워질 수 있다. 각 질의당 참조 스니펫 수를 2개에서 최대 128개까지 증가시키며 성능 변화를 관찰하였다. Fig. 1은 스니펫 개수 증가에 따른 과업별 정확도의 변화를 나타낸다.

https://cdn.apub.kr/journalsite/sites/jcoseik/2025-038-04/N0040380405/images/Figure_jcoseik_38_04_05_F1.jpg

Fig. 1.

How accuracy per task shifts as the number of retrieved snippets increases

모든 과업에서 스니펫 수 증가에 따라 정확도가 로그 형태로 향상되었으며, 초기 구간(예: 2 → 16개)에서 가파른 상승을 보이다가 32개 이후에는 증가율이 완만해졌다. MMLU-Struct, StructQA-KO, SPED 세 과업은 유사한 추세를 보이며 32개 스니펫으로 88-90% 수준, 128개에서는 91-92% 수준의 정확도를 달성하였다. StructMCQA 과업도 비슷한 형태이지만 절대 정확도는 약간 낮아 32개 시 87-88%, 128개 시 90% 정도였다. 한편 StructCase-Y/N 과업은 처음부터 상대적으로 높은 정확도(2개 시 약 90%)를 보였으며 32개 시 92-93%, 128개 시 약 95%까지 상승하여 가장 높은 성능을 유지했다. 이는 예/아니오 판단 문제의 특성상 적은 정보로도 비교적 높은 성능을 낼 수 있음을 의미한다.

주목할 점은 모든 과업에서 RAG 적용 모델이 사전 지식만으로 답변하는 CoT(연쇄적 사고) 방식의 성능을 크게 상회했다는 것이다. Fig. 1에 함께 표시된 빨간 점선은 참고로 해당 LLM(MAGI)의 CoT 성능을 나타내는데, RAG를 통해 충분한 스니펫을 제공했을 때 모든 경우에서 CoT 대비 월등히 높은 정확도를 보였다. 특히 StructMCQA의 경우 RAG 적용 시 CoT 대비 10%p 이상 향상되어 복잡한 구조공학 문제 해결에 있어서 외부 지식 투입(RAG)의 효과가 두드러짐을 알 수 있다. 다만 스니펫 수를 32개에서 128개로 늘릴 때 추가 성능 향상은 2~3% 이내로 수확 체감 현상이 나타났으며, 실용적 측면에서 32개 내외가 효율적인 스니펫 제공 수임을 시사한다.

4.3 스니펫 수가 응답 정확도와 처리 지연에 미치는 영향

대규모 언어 모델 기반 RAG 파이프라인에서 k개의 스니펫을 LLM 입력에 포함시키는 전략은 정보 충실도를 높여 응답 정확도를 향상시킨다는 점에서 보편적으로 채택된다. 그러나 컨텍스트 길이가 증가함에 따라 디코딩 복잡도가 초선형적으로 증가하여 지연(latency)과 비용(cost)이 급격히 불어나는 tradeoff가 존재한다. 본 절에서는 스니펫 k의 수를 2, 4, 8, 16, 32, 64, 128 범위를 순차적으로 적용하고 정확도와 총 처리 시간을 동시에 계측하였다.

Fig. 2는 대표 과업인 MMLUStruct, StructQAKO, SPED에 대한 결과를 시각화한 것이다. 파란 실선은 정확도(좌측 y축), 주황색 실선은 처리 시간(우측 y축)을 각각 나타낸다. 분석 결과는 다음과 같이 요약된다.

https://cdn.apub.kr/journalsite/sites/jcoseik/2025-038-04/N0040380405/images/Figure_jcoseik_38_04_05_F2.jpg

Fig. 2.

Effect of ksnippet size on latency & accuracy

첫째, 정확도는 모든 과업에서 k 증가에 따라 단조롭게 상승하였으나 상승 곡선은 로그(logarithmic) 형태를 보였다. 구체적으로 MMLUStruct의 경우 k = 2에서 80.1%의 정확도를 기록하였으며, k = 32에서 88.8%로 +8.7%p 향상되었다. 그러나 k = 128로 확대하였을 때 추가 상승 폭은 1.4%p에 불과하여 한계효용(marginal utility)의 급격한 감소가 확인되었다. Struct QAKO와 SPED 역시 32개 이후 구간에서 유사한 포화 현상을 나타내었다.

둘째, 처리 시간은 retrieval 단계(O(k))와 디코딩 단계(O(L²), L은 입력 토큰 수)의 합으로 모델링될 수 있음을 감안할 때, k 증가에 따라 초선형적으로 증가하였다. 예컨대 StructQAKO의 평균 지연은 k = 16에서 9s, k = 32에서 22s, k = 64에서 48s, k = 128에서 107s로 측정되었다. 이는 실시간 대화형 시스템이 일반적으로 허용하는 임계값(≈ 15s)을 k ≤ 16 수준에서만 만족함을 의미한다.

셋째, 비용효율 분석을 위해 ΔScore/ΔTime 지표를 산정한 결과, 2 → 8개 구간이 1.0%point･s^-1로 가장 높은 효율을 기록하였으며, 32 → 64개 구간부터는 0.03%point･s^-1 이하로 급감하였다. 따라서 k = 16~32 범위가 정확도(≈ 88-90%)와 응답 지연(≈ 10-25s) 사이의 최적 균형점으로 판단된다.

이상의 결과는 다음과 같은 실무적 함의를 제공한다. (i) 인터랙티브 질의응답 환경에서는 k 상한을 16 이하로 설정하여 사용자 체감 지연을 최소화할 필요가 있다. (ii) 내진･내풍 설계 등 고신뢰 검증 단계에서는 k = 32 수준에서 2~3%p의 추가 정확도 이득을 얻을 수 있으며, 64개 이상 확대 시 비용 대비 성능 이득이 미미하므로 비권장된다. (iii) k 확대에 따른 정확도 한계효용 감소를 완화하기 위해 reranking, evidence summarization, chunklevel earlyexit 등 후처리 기법을 함께 적용하는 것이 더욱 경제적일 수 있다.

결론적으로 Fig. 2에서 확인된 바와 같이 스니펫 수 증가가 가져오는 정확도 개선은 32개를 기점으로 현저히 둔화되며, 반대로 지연과 비용은 기하급수적으로 확대된다. 따라서 구조공학 도메인 RAG 시스템의 실시간 운영 시 k = 16~32 범위가 가장 합리적인 설계 값임을 제안한다.

4.4 과업별 정보 출처 분포

마지막으로, RAG 시스템이 각 과업에서 어떤 종류의 출처 정보를 주로 활용했는지를 분석하였다. 이는 SAFE 지식베이스의 다양한 정보원(용어집, 표준, 교과서, 보고서) 중 어떤 것이 질문 유형별로 중요하게 쓰였는지를 보여준다. StructCorpus를 코퍼스로 사용하고 StructCPT 검색기로 추출한 상위 스니펫들의 출처 비율을 과업별로 집계하였다. Fig. 3은 SAFE 벤치마크의 주요 다섯 과업에 대해 검색된 정보 출처의 분포를 나타낸 것이다.

https://cdn.apub.kr/journalsite/sites/jcoseik/2025-038-04/N0040380405/images/Figure_jcoseik_38_04_05_F3.jpg

Fig. 3.

Taskwise distribution of retrieved information sources

과업별로 요구되는 지식의 특성에 따라 서로 다른 출처 분포를 보였다. MMLU-Struct의 경우 전문 용어집(40%)과 설계 기준(35%)이 주된 정보원으로 활용되어 최신 기술 동향 및 표준 파악이 중요함을 시사한다. StructQA-KO(국내 구조기술사 문제)에서는 표준(40%) 비중이 가장 높고 그 다음이 전문 용어집(30%), 교과서(25%) 순으로 나타나 이 과업이 실무 지식과 이론 기반을 모두 필요로 함을 보여준다. SPED(구조성능 평가)는 설계 기준의 비중이 45%까지 높아졌고 용어집(25%)과 교과서(20%) 비중은 줄어들었다. 이는 구조 성능평가 및 설계 과업에서 기술 기준 준수가 특히 중요함을 의미한다. Struct MCQA(구조공학 종합 객관식)는 교과서 비중이 35%로 가장 높고 표준도 35% 수준으로 나타나 구조공학 기본 개념 평가에 이론과 기준 지식이 고루 쓰였음을 알 수 있다. StructCase- Y/N(실무 사례 판단)은 전문 용어집 비중이 50%로 절반을 차지했고 표준이 30%로 뒤를 이었다. 이는 이 과업이 용어나 개념의 정확한 해석과 판단을 요하는 특성이 있음을 보여준다. 한편 프로젝트 보고서 출처는 모든 과업에서 5~10%로 상대적으로 낮았는데, 이는 보고서의 내용이 구체적 사례 위주이므로 일반화된 질의에는 제한적으로 활용되었기 때문으로 추정된다.

위 결과를 통해 질문의 유형에 따라 적절한 정보 출처의 조합이 성능 향상에 중요함을 알 수 있다. 각 과업에서 상위 성능을 위해서는 요구 지식에 맞는 출처를 강화하는 것이 바람직하며, SAFE 통합 코퍼스는 이러한 다양한 출처를 모두 포함하고 있어 과업별 특성에 맞는 정보를 자동으로 취사선택할 수 있는 기반이 된다. 향후 특정 과업에 특화된 코퍼스 가중치 조정이나 검색 모델 튜닝을 통해 성능을 추가로 향상시킬 가능성이 있다.

5. 결론 및 향후 과제

본 연구에서는 한국 건축 구조공학 분야에 특화된 SAFE 지식베이스 및 SAFE 벤치마크를 구축하고, 이를 활용하여 RAG 시스템의 성능을 체계적으로 평가하였다. 다양한 정보 출처를 통합한 SAFE와 MAXIM 검색 기법은 LLM의 한계를 보완하여 구조공학 질의응답 성능을 크게 향상시켰으며, 특히 도메인 특화 지식의 중요성을 실증하였다. 요약된 결과에 따르면, 통합 코퍼스를 사용한 RAG 시스템은 사전 지식만으로 답변하는 기존 LLM 대비 최대 5%p 이상의 정확도 향상을 이루었고, 한국 구조 설계 기준 및 실무 관행에 관한 질문에서 90% 이상의 높은 정확도를 달성하였다. 이는 구조공학과 같은 전문 분야에서 대규모 언어 모델과 전문 지식베이스 결합(RAG)이 갖는 실용적 가치를 보여준다.

또한 과업별 분석을 통해 질문 유형에 따른 최적의 지식 조합과 검색 전략에 대한 인사이트를 얻었다. 예컨대, 이론 문제가 많은 시험형 질문에는 교과서 정보의 강화가, 최신 기술기준 문제가 많은 경우에는 표준 정보의 강화가 효과적임을 확인하였다. StructCPT 기반 MAXIM 검색기는 모든 조합에서 안정적으로 최고 성능을 보여 향후 구조공학 분야에 특화된 검색 모델 개발의 중요성을 부각시킨다.

마지막으로 이러한 연구 결과를 바탕으로 실무적 활용을 위한 권고 사항을 제안하면 다음과 같다:

1) 코퍼스 선택: 구조공학 질의응답을 위해서는 가급적 다양한 출처를 통합한 종합 코퍼스(StructCorpus) 활용이 권장된다. 단일 출처 코퍼스는 특정 영역에서 유용할 수 있으나, 전체 성능 면에서는 통합 코퍼스가 일관되게 우수하였다. 다만, 구조기술사 시험 문제 같이 범위가 특정된 경우 해당 출처(예: 용어집) 위주로 질의를 제한하는 것도 고려할 수 있다.

2) 검색 모델: StructCPT와 BM25의 조합 등 복수의 검색기 결과를 조합하는 전략은 본 연구에서 시도되지 않았으나, StructCPT 단일 모델만으로도 우수한 성능을 보였다. 연구진이 개발한 도메인 특화 MAXIM(Maximum Similarity Retrieval) 기법의 사용이 가장 효과적이며, 여건상 어려울 경우 전통적 BM25나 Dense Retriever도 보조적으로 강건한 성능을 제공한다. Contriever나 SPECTER 등 일반 모델은 도메인 특화 모델에 비해 다소 성능이 떨어지나, 사전학습 데이터가 부족한 영역에서는 대안이 될 수 있다.

3) LLM 선택: 현재 실험에서는 GPT-4o 기반 앙상블기법이 최고 성능을 냈지만 비용이 높다. Gemini 2.5 시리즈 등 비교적 저비용 모델이 대안이 될 수 있으며, 보안상 클라우드 사용이 어려운 경우 Gemma 3 계열 등의 오픈소스 LLM을 로컬에 구축하여 활용할 수 있다. 다만 모델간 성능 격차가 존재하므로 업무 중요도와 예산에 맞게 모델을 선택해야 한다.

향후 연구로는 SAFE 지식베이스를 지속적으로 확장･갱신하여 최신 구조공학 지식의 축적도를 높이고, 도면/사진과 같은 비정형 데이터에 대한 검색 및 활용 기능을 강화할 계획이다. 예를 들어 구조 도면으로부터 객체를 인식하거나, 현장 사진에서 손상 패턴을 분석하여 텍스트 정보를 보완하는 멀티모달 RAG로 발전시킬 수 있다. 또한, 구조해석 소프트웨어 결과나 수치해석 예제 등을 포함시켜 계산적 질의에 답변하는 능력을 추가하는 것도 고려하고 있다. 본 연구에서 제시한 SAFE 벤치마크와 MAXIM 검색 기법이 향후 많은 구조공학 AI 연구의 출발점이자 기반 자료로 활용되기를 기대하며 지속적인 성능 향상과 새로운 응용으로 전산 구조공학 발전에 이바지하고자 한다.

Acknowledgements

본 연구는 한국연구재단 대학중점연구소지원사업 “ICT 융복합 기존건축물 내진리모델링 연구소”(RS-2018-NR031076) 및 국토교통부 디지털 기반 건축시공 및 안전감리 기술개발 사업의 연구비지원(RS-2022-00143493)의 지원을 받아 수행되었습니다.

References

Abubakar, S.M., Karimi, M.U., Mustafa, S.J., Ahmad, B. (2024) Structural Engineering Applications Using Artificial Intelligence and Machine Learning: A Review, Int. J. Advan. Nat. Sci. & Eng. Res., 8(5), pp.140~145.

Friel, R., Belyi, M., Sanyal, A. (2024) Ragbench: Explainable Benchmark for Retrieval-Augmented Generation Systems, arXiv preprint arXiv:2407.11005.

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., Wang, H. (2023) Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv preprint arXiv:2312.10997.

Homolak, J. (2023) Opportunities and Risks of ChatGPT in Medicine, Science, and Academic Publishing: A Modern Promethean Dilemma, Croat. Med. J., 64(1), pp.1~3.

10.3325/cmj.2023.64.136864812PMC10028563

Hope, B., Bracey, J., Choukir, S., Warner, D. (2025) Assessment of ChatGPT for Engineering Statics Analysis, arXiv preprint arXiv:2502.00562.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., Fung, P. (2023) Survey of Hallucination in Natural Language Generation, ACM Comput. Surv., 55(12), pp.1~38.

10.1145/3571730

Jin, Q., Kim, W., Chen, Q., Comeau, D. C., Yeganova, L., Wilbur, W.J., Lu, Z. (2023) Medcpt: Contrastive Pre-Trained Transformers with Large-Scale Pubmed Search Logs for Zero-Shot Biomedical Information Retrieval, Bioinform., 39(11), btad651.

10.1093/bioinformatics/btad65137930897PMC10627406

Joren, H., Zhang, J., Ferng, C.S., Juan, D.C., Taly, A., Rashtchian, C. (2024) Sufficient Context: A New Lens on Retrieval Augmented Generation Systems, arXiv preprint arXiv:2411. 06037.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., Kiela, D. (2020) Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Adv. Neural Inf. Proc. Syst. (NeurIPS), 33, arXiv:2005.11401.

Liang, H., Talebi Kalaleh, M., Mei, Q. (2025) Integrating Large Language Models for Automated Structural Analysis, arXiv preprint arXiv:2504.09754.

Naser, M.Z. (2023) Machine Learning for Civil Engineers: From Theory to Application, Wiley.

Park, M., Oh, H., Choi, E., Hwang, W. (2025) LARGE: Legal Retrieval Augmented Generation Evaluation Tool, arXiv preprint arXiv:2504.01840.

Qin, S. Z., Liao, W. J., Huang, S. N., Hu, K. G., Tan, Z., Gao, Y., Lu, X.Z. (2024) AIstructure-Copilot: Assistant for Generative AI-Driven Intelligent Design of Building Structures, Smart Constr., 1(1), pp.1~21.

10.55092/sc20240001

Sebastian, K., Huaccha, M., Rosales, B., Santa Maria, G.L., Delgadillo, R.M. (2024) Application of AI for Modelling and Structural Analysis of a Parametric 2D Frame with Voice Assistant, In E3S Web of Conferences, 586, p.02003.

10.1051/e3sconf/202458602003

Tamber, M.S., Kazi, S., Sourabh, V., Lin, J. (2025) Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation, arXiv preprint arXiv:2502.19712.

Tian, J., Hou, J., Wu, Z., Shu, P., Liu, Z., Xiang, Y., Gu, B., Filla, N., Li, Y., Liu, N., Chen, X., Tang, K., Liu, T., Wang, X. (2024) Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding, arXiv preprint arXiv:2401.12983.

Wang, L., Chen, X., Deng, X., Wen, H., You, M., Liu, W., Li, Q., Li, J. (2024a) Prompt Engineering in Consistency and Reliability with the Evidence-based Guideline for LLMs, NPJ Digital Med., 7(1), 41.

10.1038/s41746-024-01029-438378899PMC10879172

Wang, S., Liu, J., Song, S., Cheng, J., Fu, Y., Guo, P., Fang, K., Zhu, Y., Dou, Z. (2024b) Domainrag: A Chinese Benchmark for Evaluating Domain-Specific Retrieval-Augmented Generation, arXiv preprint arXiv:2406.05654.

Wang, S., Tan, J., Dou, Z., Wen, J.R. (2024c) OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain, arXiv preprint arXiv:2412.13018.

Yu, S., Cheng, M., Yang, J., Ouyang, J. (2024) A Knowledge- Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation, arXiv preprint arXiv:2409. 13694.

Zhang, T., Patil, S. G., Jain, N., Shen, S., Zaharia, M., Stoica, I., Gonzalez, J.E. (2024a) Raft: Adapting Language Model to Domain Specific RAG, In First Conference on Language Modeling, arXiv preprint arXiv:2403.10131.

Zhang, X., Song, Y., Wang, Y., Tang, S., Li, X., Zeng, Z., Wu, Z., Ye, W., Xu, W., Zhang, Y., Dai, X., Zhang, S., Wen, Q. (2024b) Raglab: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation, arXiv preprint arXiv:2408.11381.

10.18653/v1/2024.emnlp-demo.43

Journal of the Computational Structural Engineering Institute of Korea ISSN:1229-3059(Print) 2287-2302(Online) 한국전산구조공학회 논문집

Preview

Construction of the SAFE Database Specialized for Korean Structural Engineering and Performance Evaluation of a Retrieval Augmented Generation System Using the MAXIM Method

ABSTRACT

MAIN

Table 1.

Domain‑specific RAG benchmarks & evaluation toolkits (2023-2025)

Table 2.

Statistics of the SAFE knowledge base

Table 3.

Domain specific RAG benchmark scores (%)

Fig. 1.

How accuracy per task shifts as the number of retrieved snippets increases

Fig. 2.

Effect of ksnippet size on latency & accuracy

Fig. 3.

Taskwise distribution of retrieved information sources

Acknowledgements

References