피지컬 AI 개념과 부상 배경

홈 투자 경제 흐름 심층 분석

차세대 AI 리더십의 격전지 피지컬 AI 1화

26.02.02.

읽는시간 0분

◼ 지난해 1월, 미국 라스베이거스에서 열린 CES 2025(소비자 가전쇼 2025) 기조연설에서 엔비디아의 최고경영자(CEO) 젠슨 황은, “AI 다음 프론티어는 피지컬 AI(The next frontier of AI is physical AI)”라는 비전을 제시

○ 당시 젠슨 황은 피지컬 AI가 50조 달러(약 7경 2천조 원) 규모의 시장을 창출할 것으로 전망

현재 디지털 경제는 세계 경제의 엔비디아 CEO 젠슨 황의 CES 2025 기조연설 장면 15%인 16조 달러(약 2경 800조 원) 규모이며, 현실 세계인 물리적 경제가 나머지 85%인 84조 달러(약 10경 9,200조 원)를 차지
피지컬 AI는 이 거대한 물리적 경제 영역에 AI를 투입하여 근본적 변화를 일으킬 수 있는 핵심 기술로, 제조·물류·건설·농림·의료·교통 등의 영역을 혁신 가능하다는 관점에서 이 같이 전망

엔비디아 CEO 젠슨 황의 CES 2025 기조연설 장면

자료: CES 2025 유튜브

○ 젠슨 황은 인식형 AI(Perception AI)로 각광받기 시작한 AI가 생성형 AI(Generative AI)와 에이전트형 AI(Agentic AI)를 거쳐 현재 피지컬 AI(Physical AI) 단계로 진입하고 있다고 설명

젠슨 황의 4단계 AI 발전 프레임워크

종류	시기	특징
인식형 AI (Perceptive AI)	2012 ~ 2022 년	인간의 오감처럼 음성·이미지 등 외부 자극을 인식하고 이해하는 AI로, 사물 인식·음성 인식·영상 분석 등 기초 지능의 기반을 형성
생성형 AI (Generative AI)	2022 ~ 2025	학습된 데이터를 기반으로 텍스트·이미지·코드 등 새로운 콘텐츠를 생성하는 AI로, 단순 이해를 넘어 창의적 결과물을 창출하여 인간의 의사소통 및 창작 활동을 지원
에이전트형 AI (Agentic AI)	2025 ~	사용자의 명령과 문맥을 이해하고 여러 도구를 조합하여 목적 지향적 작업을 자율적으로 수행하는 AI로, 단순 응답을 넘어 복합적 과제 해결이 가능
피지컬 AI (Physical AI)	현재 진행 중	지각·생성·에이전트 능력을 통합하여 실제 환경에서 물리적 작업을 수행하는 AI로, 디지털 영역을 넘어 현실 세계의 산업 현장을 혁신

자료: CES 2025 유튜브, KB경영연구소 정리

◼ 피지컬 AI는 물리적 세계에서 외부 환경을 ‘인식’하고 상황을 ‘추론’하며, 구체적인 동작을 ‘판단’하여 실제 ‘행동’을 수행하는 통합적 지능 시스템으로 정의됨

○ 가상 세계의 지능을 물리적 실체와 결합하여 현실 세계의 데이터를 실시간으로 수집하고, 직접 적인 물리적 변화를 유도하는 기술 구성 체계임

○ 환경 인식부터 구체적인 행동 수행까지 유기적 데이터 흐름을 보이는 단계적 구조를 가지며, AI 모델 기반의 논리적 추론과 정교한 동작 판단을 핵심 지능으로 활용

○ 이러한 기술적 구성 요소들은 반복적 개선을 통해 AI가 물리적 환경 변화를 스스로 학습하고 적응할 수 있는 기반을 구축

피지컬 AI의 구성 요소

단계	주요 활동	주요 결과물
인식	센서 데이터를 통해 주변 환경의 상태와 맥락 파악	현실 이해 지도(현재 상황)
추론	인식된 정보를 바탕으로 ‘무엇을 왜 해야 하는지’ 목표 설정	수행 목표(목적)
판단	설정된 목표를 달성하기 위한 구체적인 이동 경로와 순서 계산	제어 신호
행동	구동 장치를 통해 물리적 힘을 가하며 환경과 상호작용	환경 변화

자료: KB경영연구소

◼ 피지컬 AI의 동작 프로세스

기존 AI와 피지컬 AI의 동작 프로세스 다이어그램

자료: KB 경영연구소

○ [㉧배포 전 학습] 실제 환경 적용 전, 시스템이 중력·마찰 등 물리적 법칙이 구현된 ‘시뮬레이션’ 환경에서 수만 번의 시행착오를 거치며 기본 동작 원리를 학습

○ [①입력 데이터 수집] 시스템이 외부 환경으로부터 가공되지 않은 정보를 수집하여 이를 바탕으로 전체 프로세스를 구동

○ [②현재 상황 인식] ‘인식’ 단계에서는 수집된 데이터를 분석하여 현재 상황을 디지털로 재구성한 ‘현실 이해 지도’¹ 를 생성

○ [③지능적 추론 및 목표 설정] ‘추론’ 단계에서는 생성된 현실 이해 지도를 기반으로 구체적 ‘수행 목표’를 설정

○ [④최적의 행동·경로 판단] ‘판단’ 단계에서는 설정된 목표 달성에 필요한 세부 동작을 판단한 후 이를 기계 장치가 이해 가능한 ‘제어 신호’로 변환

○ [⑤물리적 실행 및 상호작용] ‘행동’ 단계에서는 제어 신호에 따라 로봇 팔·모터 등 ‘구동 장치’를 구동하여 현실 세계의 물리적 변화를 유발

○ [⑥실시간 결과 반영] 실행 결과로 발생한 ‘환경 변화’는 개선 과정을 거쳐 다시 ‘인식’ 단계로 전달되며, 변화된 환경에 맞춰 다음 행동을 조정

○ 기존 AI 동작 프로세스와 피지컬 AI 동작 프로세스의 비교

기존 AI는 주어진 데이터와 정답 세트를 학습한 후 AI 모델을 배포하는 반면, 피지컬 AI는 시뮬레이션 환경에서 기본 동작을 학습한 모델을 배포
기존 AI는 학습된 AI 모델을 배포하면 재배포 전까지 반복적인 예측(혹은 추정)을 통한 모델 변경이 불가능한 반면, 피지컬 AI는 ‘행동’ 단계 이후 환경과의 실시간 상호작용을 통해 모델 의 선택적 적응 학습이 가능
피지컬 AI의 핵심 엔진으로 평가되는 시각언어행동(VLA)² 모델을 예로 들면, “컵을 집어서 테이블 위에 놓아줘”라는 언어 명령을 입력 시 시각 정보를 인식하고 적절한 행동을 수행하도록 학습됨. 이때 현실 세계에서 실제 로봇이 수천수만 번의 시행착오를 반복하기보다 시뮬레이션 환경에서 물체 파지(grasping), 이동, 배치 등의 기본 동작 패턴을 대량으로 학습

¹ AI가 텍스트나 이미지를 넘어 현실 세계의 물리적 법칙, 공간, 시간 등을 이해하고 시뮬레이션을 할 수 있도록 설계된 시스템. 월드 모델(World model) 혹은 월드 파운데이션 모델(World foundation model)로 불림

² Vision-Language-Action. 로봇이 주변 환경을 이해하고 인간의 지시에 따라 물리적 행동을 수행할 수 있도록 시각(Vision), 언어(Language), 행동(Action)의 세 가지 핵심 기능을 하나의 통합된 프레임워크에 결합한 시스템

이러한 접근은 로봇 하드웨어 마모, 물체 파손, 안전사고 위험 없이 24시간 병렬 학습이 가능해 현실 세계에서 이루어지는 학습 대비 시간과 비용을 획기적으로 절감할 수 있으며, 학습된 기본 능력을 현실 세계에 배포한 후에는 인식-추론-결정-행동의 순환적 프로세스를 통해 새로운 상황에 적응할 수 있음

시뮬레이션 환경에서 학습하는 피지컬 AI 모델의 예

주: 보스턴다이내믹스의 아틀라스가 시뮬레이션 공간에서 VLA 모델의 기본 동작 원리를 학습하기 위해 반복 수행하는 모습을 시각화 자료: 보스턴다이내믹스 홈페이지

◼ 피지컬 AI의 ‘인식-추론-판단-실행’의 프로세스는 다양한 세부 기술의 결합(혹은 조합)을 바탕으로 단계별 요구 사항을 달성

○ 피지컬 AI는 ①센서와 통신을 통해 정보를 수집하는 감지 기술 ②AI 모델과 알고리즘을 통해 상황을 이해하고 행동을 계획하는 지능 기술 ③구동 장치와 제어 시스템을 통해 실제 행동을 수행하는 동작 기술이 유기적으로 통합되어 작동

○ [감지] 현실 세계의 위치·움직임·상태 변화 등 주변 환경 정보를 감지하고, AI가 활용 가능한 데이터 형태로 변환하여 전달하는 모든 세부 기술을 포괄

카메라·레이더 등을 포함하는 센서 기술과 5G(5세대 이동통신)·사물인터넷(IoT)·무선망(Wifi) 등 을 활용한 통신 기술, 그리고 다중 센서 정보를 결합하는 센서 융합 기술로 구성

○ [지능] 수집된 정보를 바탕으로 현재 상황을 이해하고, 필요한 행동을 계획하는 모든 세부 기술을 포괄

거대언어모델(LLM)과 멀티모달 AI³ 를 포함하는 판단 모델과 현실 이해 지도, 그리고 작업 순서와 경로를 계산하는 계획·추론 알고리즘으로 구성

³ 텍스트, 이미지, 음성, 비디오 등 여러 종류의 다양한 데이터를 동시에 이해하고 처리하여 인간처럼 자연스럽게 상호 작용하고 복합적인 결과를 생성하는 인공지능 기술

○ [동작] AI의 판단과 계획을 현실 세계에서 로봇·차량·설비 등의 물리적 움직임과 작업 수행으로 구현하는 모든 세부 기술을 포괄

모터와 관절을 포함하는 구동 장치와 제어 시스템, 그리고 현장 실행을 위한 엣지 컴퓨팅(Edge computing)⁴ 기술로 구성

피지컬 AI를 구현하는 주요 세부 기술

단계	분류		세부 기술
인식	감지	지능	센서(카메라, 레이더 등), 5G, IoT, 센서 융합 기술(AI 인식 모델)
추론	지능		거대언어모델, 멀티모달 AI, 현실 이해 지도
판단	지능	동작	계획 알고리즘, 시뮬레이션, 엣지 컴퓨팅(현장 판단용 연산)
행동	동작		구동 장치(액추에이터), 제어 시스템, 엣지 컴퓨팅(실시간 제어 연산)

자료: KB경영연구소

◼ 뱅크오브아메리카(BofA)는 피지컬 AI를 생성형 AI가 물리적 세계의 로봇과 결합되어 인간처럼 감지·학습·판단하는 시스템으로 정의하고 크게 네 가지 형태로 분류

피지컬 AI의 세부 유형

유형	기술 수준 및 형태
휴머노이드형	- AI 기반 모델·컴퓨터 비전·엣지 컴퓨팅·자율 제어 기술이 고도로 통합된 형태로, 인간과 유사한 외형을 갖추고 걷고 보고 듣고 말하고 판단하고 행동하는 최고 수준의 지능 형 피지컬 AI 에이전트
자율주행차형	- 도로 환경에 특화된 감지·판단 시스템과 AI 기반 경로 해석·고속 비전 처리·정밀 제어 기술이 융합되어 고도로 복잡한 주행 시나리오를 자율적으로 수행할 수 있는 차량 기반 피지컬 AI
드론형	- 공중 이동에 최적화된 경량 AI와 실시간 공간 인식 능력을 바탕으로 장애물 회피·위치 추적·자율 비행 기능을 수행하며, 지정된 임무를 고효율로 수행할 수 있는 비행체 기반 피지컬 AI
AGV·AMR형	- 자동유도차량(Automated Guided Vehicle, AGV): 자기 유도선·마그네틱·QR 코드 등 사전 정의된 경로를 따라 자재를 운반하는 공장·물류센터 등 산업 현장에 특화된 자동화 차량. 최근에는 환경 인식, 충돌 회피, 자동 속도 조절 등 제한적 AI 기능을 갖추며 지능형으로 진화 - 자율이동로봇(Autonomous Mobile Robot, AMR): 산업 현장의 동적 환경에서 슬램 (SLAM)⁵ , 카메라 및 센서 기반 자율 경로를 생성하고 장애물을 피하는 피지컬 AI

자료: 소프트웨어정책연구소, KB경영연구소

⁴ 중앙 집중식 서버가 아닌 데이터가 생성되는 장치의 가까운 곳(네트워크 ‘엣지’)에서 데이터를 처리하는 기술
⁵ Simultaneous Localization and Mapping. 동시적 위치 추정 및 지도 작성 기술

○ 이 밖에도 음식 조리·커피 제조·청소 등의 서비스형 로봇, 농업 로봇(Agricultural Robots)을 비롯해 다양한 형태로 구현된 피지컬 AI 사례를 제시

◼ 피지컬 AI는 다양한 산업 분야에 적용 가능한 범용 기술로 제조 및 물류 중심으로 빠른 속도로 확산될 것으로 예상

○ 한국은 미국, 일본 등 주요국 대비 제조업의 근로자 고령화가 빠르게 진행되고 있으며, 이는 피지컬 AI 도입을 촉진하는 중요한 배경으로 작용

2011년 이후 10년간 제조업 근로자 평균 연령이 3.8세 상승한 반면, 미국은 0.1세, 일본은 1.5세 오르는 데 그쳤으며, 청년층 이탈에 따른 숙련 기술 단절과 만성적 인력난이 심각한 문제로 대두
특히 숙련 기술 의존도가 높은 공정에서 인력 확보의 어려움은 생산 차질 및 비용 상승으로 직결되면서, 대체재로 자율적 판단과 반복 작업이 가능한 피지컬 AI 수요가 확대되는 추세

○ 제조업은 공정의 표준화와 성과 측정의 용이성을 바탕으로 피지컬 AI 도입 효과를 생산성·품질·안전성 측면에서 정량적으로 검증할 수 있는 최적의 실증 환경을 갖추고 있음