인공지능(AI) 및 생성형 인공지능/AI 주요 기술

<문> AI 위험도 ASL(AI Safety Level)-1~ASL-4 모델

최술사 2026. 1. 13. 10:53

답>

1. 개요

  • ASL(AI Safety Level)은 고위험 AI의 ‘재난·사회적 파급 위험도’에 따라 단계별 관리 기준을 정한 프레임워크로, Anthropic RSP(Responsible Scaling Policy)에서 제안된 것이 대표적임
  • ASL-1(저위험)부터 ASL-4(매우 고위험·잠재적 재난 수준)까지로 구분하며, 단계가 올라갈수록 위험평가, 보안, 거버넌스, 사용제한 등 요구 통제가 기하급수적으로 강화되는 특징이 있음

2. ASL-1~ASL-4 개념·구성·기능

가. 개념

  • ASL-1: 재난급(catastrophic) 위험이 사실상 없으며, 체스 전용 AI, 2018년 수준 LLM처럼 기존 검색·교재 대비 추가적인 치명적 악용 가능성이 없는 수준의 모델
  • ASL-2: 생물·사이버 공격 등 위험 기술에 대한 “위험한 설명”이 나오기도 하나, 신뢰도·정밀도가 낮거나 검색 엔진 수준을 넘지 않아 재난 위험 기여가 제한적인 모델(현재 상용 LLM 다수가 해당)
  • ASL-3: 고위험 기술(CBRN 등)에 대해 비전문가도 활용 가능한 수준의 실질적 도움을 제공하거나, 저수준 자율행동·에이전트화로 기존보다 재난 위험을 유의미하게 증폭시키는 모델
  • ASL-4: 고도의 자율성·전략적 계획·기만 가능성이 커져, 재난급 악용·통제불능 가능성이 비약적으로 증가하는, 현재는 주로 가정·시나리오 수준으로 논의되는 미래 지향 단계

나. 개념도

3. ASL-1~ASL-4 핵심 기능 및 관리 포인트

구분ASL-1ASL-2ASL-3ASL-4
모델 능력 전용·제한적, 구형 LLM 수준 범용 LLM, 중간 수준 추론·코딩 고난도 문제해결·도메인 전문성 강화 고자율·전략 계획·기만 가능 추정
재난급 위험도 사실상 無, 기존 수단과 동등 제한적, 검색·교재 수준과 유사 기존 대비 재난 위험 실질 증가 재난·사회 시스템 붕괴급 위험 잠재
주요 악용 시나리오 경미한 정보오류, 프롬프트 악용 정도 피싱·디스인포 등 기존 규모 확장 생물·사이버 공격 설계 지원, 자율 침해 대규모 사이버·물리 공격, 장기 전략적 악용
요구 안전 조치 기본 필터, 경량 레드팀, 사용정책  강화된 콘텐츠 필터, 모니터링, 업데이트 고강도 레드팀, 보안강화, 접근·사용 제한 개발·배포 보류 가능, 독립 검증·거버넌스 필수 
운영·거버넌스 일반 품질·윤리 기준 준수  내부 규정·감사 체계 도입 전사적 위험관리·위기대응 계획 포함 정부·규제 연계, 국제 공조·감독 구조 필요
  • 실무에서는 ASL을 “위험·통제 레벨”로 보고, 신규 모델 설계 시 목표 ASL을 정한 뒤, 레드팀 범위, 로그·접근통제, 출시·중단 기준(Release Gate)을 레벨별로 명시하는 방식이 채택되고 있음                                                                                        3. ASL-모델 vs 일반 AI 위험관리 프레임워크 비교
    구분 ASL-1~4 모델 접근 전통 AI 위험관리(예: NIST AI RMF)
    목표 재난·사회 붕괴급 고위험 모델에 초점anthropic+1 프라이버시·편향·보안 등 전 범위 일반 위험 관리
    범위 주로 프런티어·초거대 모델 중심anthropic+1 모든 규모·도메인 AI 시스템 전반
    구조 단계적 레벨(ASL-1~4/5) + Capability Thresholdanthropic+1 원칙·기능(거버넌스·맵·측정·관리) 기반 프로세스형
    통제 강도 결정 “재난급 악용 가능성·자율성” 수준에 따라 비연속적 점프anthropic+1 위험 식별·평가에 따른 연속적·비례적 통제
    활용 방식 내부 RSP·Preparedness Framework의 핵심 척도, 스케일링 중단 기준 포함anthropic+1 조직 전반 AI 도입·운영의 공통 레퍼런스 프레임
     4. 활용 및 기술 동향
    • 글로벌 프런티어 모델 기업들은 ASL을 기반으로 “훈련 중단·배포 보류 임계치”, “고위험 기능 비활성화”, “보안 강화·레드팀 범위”를 규정하는 Responsible Scaling Policy/Preparedness Framework를 구축 중임
    • 향후에는 정부·표준기관이 NIST AI RMF 등 일반 프레임워크와 연계된 ASL 유사 등급제를 제도화하여, 국방·바이오·금융 등 고위험 영역에서 인증·허가·감독의 기준으로 활용될 가능성이 높으며, 기술사 관점에서는 “위험도 기준 설계·검증·거버넌스 설계” 능력이 핵심 역량이 될 것임
    <끝>