국회미래연구원, AI 데이터 생태계 혁신을 위한 혁신 보고서서 데이터 전주기 규제 체계 전환 필요성 제기
인공지능을 둘러싼 글로벌 경쟁의 핵심이 알고리즘 성능을 넘어 데이터를 얼마나 안정적으로 확보·활용할 수 있는 제도적 역량으로 이동하고 있다는 분석이 나왔다.
국회미래연구원은 지난해 12월 발간한 연구보고서 「AI 데이터 생태계 혁신을 위한 규제체계 혁신 방안」 (연구보고서 25-27호)에서, 우리나라 AI 경쟁력의 구조적 병목은 기술력 부족이 아니라 데이터 전주기를 뒷받침하지 못하는 규제체계에 있다고 지적했다.

(ChatGPT에서 생성한 이미지임)
보고서에 따르면 대규모 언어모델과 생성형 AI 확산으로 AI 성능과 산업적 파급력은 학습데이터의 품질과 신뢰성에 의해 좌우되는 단계에 진입했다. 데이터는 더 이상 보조적 자원이 아니라, AI 산업 확산과 국가 경쟁력을 결정하는 핵심 생산요소로 기능하고 있다. 그러나 국내 데이터 규제체계는 여전히 개인정보 보호와 위험 최소화 중심의 정태적 구조에 머물러 있어, AI 산업의 실제 작동 방식과 괴리를 보이고 있다는 평가다.
실제로 우리나라는 AI 기술력과 정책적 관심은 글로벌 상위권 수준이지만, 데이터 활용과 운영환경 부문에서는 경쟁국 대비 낮은 평가를 받고 있다. 산업 현장에서는 AI 학습에 즉시 활용 가능한 고품질 데이터 부족, 과도한 전처리·비식별화 비용, 개인정보·저작권·산업기밀 규제의 중첩 적용에 따른 법적 불확실성이 반복적으로 지적되고 있다. 이로 인해 기업들이 데이터 확보 자체를 보수적으로 축소하거나, AI 프로젝트 추진이 지연되는 사례도 적지 않다는 것이다.
보고서는 이러한 문제의 원인을 개별 규제의 강도가 아니라, 데이터의 생산·정제·결합·활용·서비스 운영·위험관리로 이어지는 AI 데이터 전주기에서 규제가 분절적으로 작동하는 구조에서 찾는다. AI 산업은 데이터 정제·라벨링, 알고리즘 개발, 응용 서비스로 이어지는 복합적 가치사슬을 가지지만, 현행 규제는 단계별 특성과 상이한 규제 수요를 충분히 반영하지 못해 제도적 지체와 산업 혁신 저해를 초래하고 있다는 분석이다.
이에 따라 연구진은 AI 데이터 규제체계를 전주기 관점에서 재설계해야 한다고 제언했다. 우선 AI 학습데이터 확보·품질관리 단계에서는 공공데이터를 AI 학습 수요에 맞게 정밀화·표준화하고, 산업별 비정형 데이터의 생산·정제·구조화를 체계적으로 지원해야 한다고 강조했다. 개인정보와 저작권 규제 역시 AI 학습 목적에 맞게 합리성과 예측가능성을 높여 현장의 혼선을 줄일 필요가 있다는 지적이다.
공공·민간 데이터 통합·공유 단계에서는 상호운용성이 핵심 과제로 제시됐다. 국가 단위의 공공?민간 공동 데이터 표준체계와 메타데이터 규범을 정비하고, 데이터 가치평가와 위험·보상 분배 기준을 마련해 데이터 공유 유인을 강화해야 한다는 것이다. 반복적인 기관 심사와 경직된 결합 절차 역시 일원화해 데이터 결합과 분석의 실효성을 높여야 한다고 밝혔다.
마지막으로 AI 서비스 운영과 위험관리 단계에서는 책임성과 투명성을 중심으로 한 신뢰 기반 거버넌스 구축이 필요하다고 강조했다. AI 생성물의 법적 지위와 책임 귀속 기준을 명확히 하고, 학습데이터·모델·생성물의 계보를 추적·관리할 수 있는 체계를 마련해야 한다는 것이다. 생성형 AI 확산에 따라 개인정보·기밀정보가 출력 단계에서 재노출될 가능성에 대비해, 전주기 보호 기준과 분쟁조정·사후구제 체계도 함께 정비할 필요가 있다고 덧붙였다.
연구진은 “향후 정책 전환의 핵심은 단순한 규제 완화가 아니라, AI 데이터 전주기를 관통하는 규제 정렬과 예측가능성 확보”라며, “데이터 규제가 혁신의 제약 요인이 아니라 AI 산업 성장과 사회적 신뢰를 동시에 뒷받침하는 제도적 인프라로 기능하도록 전환해야 한다”고 밝혔다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>







