Resources

Fasoo의 제품 및 기술 관련 정보를 공유 드립니다.

Private LLM 도입 전 반드시 점검해야 할 1가지: 데이터 중심 ACL 관리

생성형 AI 도입이 확산되면서 많은 조직이 Private LLM 구축을 진행하고 있습니다. 외부 공개 모델 대신, 내부 문서와 데이터를 학습한 자체 모델을 운영하면 보안 우려를 줄이면서도 업무 생산성을 높일 수 있을 것이라는 기대 때문이죠. 물론 내부망에서 운영되고, 사내 데이터만 활용하니 외부 유출 위험이 감소하는 것은 맞습니다.

그러나 내부 구축이라는 조건이 무조건적인 안전을 의미하지는 않습니다. 기존 보안 체계는 누가 어떤 파일에 접근했는지를 기준으로 설계돼 왔지만, LLM은 파일을 직접 열람하는 대신 데이터를 학습하고 재구성합니다. 그 결과 접근 권한이 없는 사용자가 문서를 직접 보지 않았더라도, 질문과 답변의 흐름 속에서 민감 정보가 간접적으로 드러날 수 있습니다. 문제는 외부 전송 여부가 아니라, 모델이 무엇을 기억하고 어떤 맥락 없이 재조합해 누구에게 응답하느냐에 있습니다.

다양한 이점으로 조직에 구축되고 있는 Private LLM

이러한 위험은 데이터 관리 구조의 문제에서 비롯됩니다. 대부분의 기업들은 오랫동안 폴더, 저장소, 계정 권한을 중심으로 접근을 통제해 왔습니다. 사용자가 특정 위치에 접근할 수 있는지 여부가 곧 보안의 기준이 됐고, 문서를 직접 열람하지 못하면 정보는 보호된 것으로 간주돼 왔습니다.

그러나 LLM이 도입되는 순간 전제는 달라집니다. 모델은 파일 경로를 따라 접근하는 것이 아니라, 데이터를 학습해 내부 언어로 변환하고, 질문에 따라 이를 재구성합니다. 이 과정에서 문서의 저장 위치나 폴더 권한은 더 이상 결정적 기준이 되지 않습니다. 권한은 위치에 묶여 있지만, 학습된 정보는 축적되고 활용될 수 있습니다. 결국 기존 통제 구조는 ‘접근’을 막을 수는 있어도, ‘재구성’을 통한 노출까지는 통제하지 못하는 한계를 드러냅니다.

GenAI의 학습에서 시작되는 정보유출 위협

문제는 응답 단계가 아닌 그보다 앞선 학습 단계에서 시작됩니다. 많은 조직이 내부 문서를 통째로 수집해 벡터화하거나 파인튜닝 데이터로 활용합니다. 이때 기존 시스템에 설정돼 있던 접근 권한 정보는 모델 파이프라인으로 함께 전달되지 않는 경우가 많습니다. 결과적으로 모델은 ‘누가 볼 수 있는 정보인가’와 무관하게 데이터를 동등한 학습 자원으로 받아들이게 되는 거죠.

이 상태에서 모델은 정보를 기억하는 대신 패턴으로 흡수합니다. 특정 급여 수치나 계약 조건을 그대로 말하지 않더라도, 질문의 맥락에 따라 유사한 구조나 통계를 재구성할 수 있습니다. 사용자가 직접 파일을 열람하지 않았다는 사실은 더 이상 안전을 보장하지 않습니다. 데이터는 이미 위치 기반 통제를 벗어나, 모델의 답변으로 전환됐기 때문입니다.

AI 구축의 중요한 질문 ‘학습과 답변의 통제’

이 지점에서 중요한 질문이 하나 생기는데요. 그렇다면 모델 응답을 어떻게 통제해야 할까요? 기존 방식처럼 접근을 제어하는 것으로는 충분하지 않습니다. 모델은 파일을 열어 보여주는 것이 아니라, 학습한 내용을 재조합해 답을 생성하기 때문입니다.

따라서 통제의 기준은 데이터 자체가 돼야 합니다. 각 문서, 레코드, 나아가 각 정보 단위에 대해 소유자와 접근 범위를 정의하고, 이 정보가 학습과 검색, 응답 단계까지 함께 전달돼야 합니다. 사용자의 권한과 질의 맥락을 기준으로 결과를 필터링하지 않으면, 모델은 선의의 질문에도 과도한 정보를 포함한 답변을 생성할 수 있습니다. 이제 ACL은 데이터와 함께 이동하는 속성이 돼야 합니다.

Fasoo는 이러한 문제를 단일 기능이 아니라, 데이터 중심 접근에 기반한 통합 구조로 해결합니다. 핵심은 권한 정보를 파일 자체 메타데이터에 결합해 사용자 권한에 맞는 정보만 AI가 학습 및 응답할 수 있도록 통제하는 것입니다. 이렇게 하면 문서의 저장 위치가 바뀌거나 전송 경로가 달라져도 정책은 분리되지 않습니다. 그 결과 LLM 학습 파이프라인에 데이터가 연계되는 순간에도 ‘누가 접근 가능한 데이터인가’라는 기준이 함께 전달될 수 있습니다.

AI 학습과 응답을 통제할 수 있는 보안 정책의 중요성

이 구조는 3단계로 작동합니다. 먼저 무엇이 민감한 데이터인지 식별하고, 그 다음 생성, 공유 과정에서 정책을 유지하며, 마지막으로 파일 단위에서 접근 통제를 지속적으로 적용하는 흐름입니다.

우선 Fasoo Data Radar(이하 FDR)는 조직 전반에 흩어진 민감 정보를 탐지하고 유형별로 분류합니다. 개인정보, 재무 데이터, 설계 자료 등 보호 수준이 다른 데이터를 식별함으로써 LLM 학습 대상에서 제외하거나 별도 정책을 적용할 기준을 마련합니다. 이는 단순 탐지를 넘어, AI 학습 이전 단계에서 작동하는 데이터 선별 게이트 역할을 수행합니다.

이후 콘텐츠가 생성되고 공유되는 과정에서는 이력 관리가 중요해집니다. Wrapsody는 문서의 버전, 메타데이터, 소유권 정보를 통합 관리해, LLM이 권한과 이력이 정리된 최신 정보를 기준으로 학습 및 작동할 수 있도록 합니다. 결과적으로 데이터의 정확성을 유지하면서도, 어떤 정보가 어디까지 활용되는지 통제할 수 있는 기반을 갖추게 됩니다.

마지막으로 Fasoo Enterprise DRM(이하 FED)은 파일 단위에서 지속적인 접근 제어를 적용합니다. ACL은 외부 시스템에만 존재하는 설정값이 아니라, 암호화 방식으로 파일 자체에 결합됩니다. 문서가 이메일로 전달되거나 클라우드로 이동하더라도 동일한 정책이 유지되며, LLM과 연계되는 환경에서도 권한 기준이 일관성 있게 작동합니다.

AI 보안의 정답은 ACL 내재 및 통제

결국 Private LLM의 안전성은 모델의 위치가 아니라 데이터의 통제 방식에서 결정됩니다. 내부망에 구축했다는 사실만으로는 충분하지 않습니다. 어떤 데이터가 학습에 활용되는지, 그 데이터에 어떤 권한이 연결돼 있는지, 그리고 응답 단계에서 그 기준이 그대로 적용되는지가 AI 활용의 핵심입니다.

이터에 ACL이 내재되고, 그 정보를 바탕으로 AI가 입력과 출력 가능 여부를 실시간으로 판단할 수 있을 때 비로소 Private LLM은 생산성과 보안을 동시에 갖춘 구조로 작동합니다. AI 시대, LLM 도입에 관한 조직의 질문은 확실합니다. ‘LLM을 도입했는가’가 아니라, ‘데이터 중심 통제 구조 위에서 LLM을 운영하고 있는가’입니다.

Private LLM 도입, 그리고 제대로 된 AI 거버넌스 운영을 고민하고 계시다면 언제든지 파수와 함께하세요.

Inquiry

AI 데이터 관리 전문가

만나러 가기

FDI Go

찾아가는 세미나

자세히 알아보기

추가 문의사항을 남겨주세요.