AI가 몸을 갖기 시작했다 — Physical AI와 VLA
- 5월 15일
- 4분 분량

ChatGPT가 문서를 생성하고 Midjourney가 이미지를 만들어내는 시대를 지나, 현재 AI 업계의 새로운 의제는 "AI가 물리 세계로 진입한다" 는 것입니다. 업계에서는 이를 Physical AI 또는 Embodied AI(체화된 AI)라고 부릅니다.
지난 몇 년간 AI의 발전은 주로 화면 안에서 이루어졌습니다. 글을 쓰고, 그림을 그리고, 코드를 작성하는 작업이 빠르게 자동화되었습니다. 그러나 다음 단계는 화면 너머의 세계입니다. AI가 카메라로 세상을 보고, 사람의 말을 이해하고, 직접 손을 움직여 물건을 다루는 영역. 본 글에서는 그 중심 기술인 VLA(Vision-Language-Action) 의 개념과, 이 영역이 지금 주목받는 배경을 이야기해보려 합니다.
1. VLA란 무엇인가

VLA(Vision-Language-Action) 는 명칭 그대로의 구조를 가집니다. 카메라 영상(Vision), 자연어 명령(Language), 로봇의 동작(Action) — 이 세 가지 모달리티를 하나의 멀티모달 파운데이션 모델로 통합한 아키텍처입니다. 로봇의 주변 환경에 대한 영상과 텍스트 명령이 입력으로 주어지면, VLA는 작업 수행에 필요한 저수준의 로봇 동작을 직접 출력합니다.
VLA가 등장하기 전, 기존의 로봇 제어 방식은 여러 단계를 거치는 파이프라인 구조였습니다. 인식·계획·제어가 별도 시스템으로 분리되어 있고, 각 시스템 사이를 사람이 수동으로 조정한 인터페이스로 연결하는 방식이며, 이는 단순하고 정형화된 작업에서는 잘 작동하지만 환경이 변하거나 유연한 명령을 수행해야 할 때 한계를 보입니다.
예를 들어,
"테이블 위의 빨간 컵을 집어줘" 와 같은 명령을 처리하려면,

전통적인 시스템은 객체 인식 알고리즘으로 컵을 찾아내고, 별도의 좌표 추정 모듈로 위치를 계산하고, 경로 계획 알고리즘으로 팔의 이동 궤적을 만들고, 마지막에 제어기로 각 관절의 각도를 출력하는 식의 단계를 거쳐야 했습니다. 각 단계마다 엔지니어가 직접 규칙을 설계해야 했고, 환경이 조금만 바뀌어도 다시 조정이 필요했습니다.

VLA는 이 중간 단계를 모두 제거합니다. 영상과 언어를 입력받아 동작을 직접 생성하는 방식입니다. LLM이 다음 토큰을 예측하듯, VLA는 다음 동작 시퀀스를 예측하는 구조라고 이해하면 쉽습니다. 사람이 "물 좀 따라줘"라는 말을 듣고 컵의 위치, 주전자의 무게, 따르는 각도를 모두 무의식적으로 계산하듯, VLA는 영상과 언어로부터 행동까지의 과정을 하나의 모델 안에서 처리합니다.
2. 주요 VLA 모델
2023년 Google DeepMind의 RT-2가 발표되며 본격적인 VLA 시대가 열렸고, 그 이후 다수의 모델이 빠르게 등장했습니다. 그리고 현재 시점에서 가장 주목받는 모델은 다음과 같습니다.

Physical Intelligence π0
Physical Intelligence는 OpenAI 출신 연구자들이 설립한 스타트업으로, 범용 로봇 파운데이션 모델 분야에서 가장 앞서 있다고 평가받는 곳 중 하나입니다. π0는 기존 모델들이 사용하던 이산 토큰 방식 대신 디퓨전·플로우 매칭 네트워크를 행동 디코더로 사용하며, 이를 통해 최대 50Hz의 부드러운 연속 관절 궤적을 출력합니다. 옷을 개거나 여러 단계를 거치는 조립 작업처럼 섬세하고 긴 호흡의 동작에 특히 강점이 있습니다.
Figure AI Helix
Figure는 Tesla 출신 인력이 다수 합류한 휴머노이드 로봇 스타트업입니다. Helix는 VLM 백본이 7~9Hz로 장면 이해와 언어 처리를 담당하고, 별도의 시각운동 정책이 200Hz로 실시간 동작을 생성하는 'System 1, System 2' 이중 구조가 핵심입니다. 사람의 사고 체계에서 빌려온 개념으로, "느린 사고(이해·계획)"와 "빠른 사고(반응·실행)"를 분리해 각각의 강점을 살리는 설계입니다.
NVIDIA GR00T N1
NVIDIA는 GPU와 함께 로보틱스 영역에서도 플랫폼 사업자로 자리잡으려 하고 있습니다. GR00T N1은 2025년 GTC에서 공개된 휴머노이드 파운데이션 모델로, 가중치가 공개되어 외부 파인튜닝이 가능한 최초의 휴머노이드 파운데이션 모델 중 하나로 평가됩니다. 누구나 다운받아 자신의 로봇에 맞게 조정할 수 있다는 점에서, 안드로이드 운영체제가 스마트폰 시장에 미친 영향과 유사한 역할을 노리고 있습니다.
Google DeepMind Gemini Robotics
Google의 멀티모달 모델 Gemini 계열을 로보틱스로 확장한 모델로, 정교한 매니퓰레이션과 3D 공간 추론 작업에 적용되고 있습니다.
이 외에도 Tesla Optimus, 중국의 Unitree, Open X-Embodiment 같은 협력 프로젝트 등 다양한 시도가 동시 다발적으로 진행 중입니다.
3. 현재의 기술적 과제
VLA가 빠르게 발전하고 있지만, 실제 배포 단계에서는 여전히 풀어야 할 과제가 많습니다.
주요 이슈는 다음 세 가지로 정리해볼 수 있습니다.
실세계 강건성 (Real-world Robustness) 실험실에서 잘 작동하는 모델이 현장에서는 종종 무너집니다. 조명이 변하거나 장면이 복잡하거나 센서 노이즈가 발생할 때 VLA가 취약해질 수 있어, 다양한 환경에서 신뢰성 있는 동작을 보장하려면 광범위한 테스트가 필요합니다. 햇빛이 강한 시간대와 흐린 시간대의 카메라 영상이 다르고, 사용하던 도구가 살짝만 옮겨져도 인식이 흔들리는 일이 흔합니다. 실제 산업 현장에서 VLA를 안정적으로 운용하기까지는 모델 자체의 성능 외에도 환경 설계, 안전 장치, 예외 처리 등 많은 엔지니어링이 필요합니다.
온디바이스 추론 (On-device Inference) VLA 모델을 어디에서 돌릴지도 큰 문제입니다. 클라우드 서버에서 처리하면 강력한 컴퓨팅 자원을 쓸 수 있지만 통신 지연이 발생하고, 로봇 본체에서 처리하면 빠르지만 컴퓨팅 자원이 제한됩니다. GR00T N1과 π0 모두 2B 파라미터 규모의 LLM을 사용하며, 온디바이스 추론과 실시간 지연을 확보하려면 작은 모델이 필요한 상황입니다. 거대 모델을 어떻게 작게 압축하면서도 성능을 유지할 것인가가 산업 현장 도입의 관건입니다.
데이터 부족 (Data Scarcity) 가장 근본적인 과제입니다. LLM은 수조 토큰 규모의 텍스트 데이터로 학습되지만, 로봇 데이터는 이에 비교할 수 없을 만큼 적습니다. Physical Intelligence가 1년간 수집한 데이터도 약 1만 시간 수준입니다. 텍스트는 인터넷에서 무한히 가져올 수 있지만, 로봇이 실제로 동작한 데이터는 한 번에 하나씩, 사람이 조작하거나 실제 환경에서 측정해야만 얻을 수 있기 때문입니다. 이 격차를 메우기 위해 업계는 시뮬레이션 환경에서 생성한 합성 데이터, 인터넷에 올라온 사람의 동작 비디오, 그리고 실제 로봇 데이터를 혼합해 학습하는 접근을 취하고 있습니다.
4. 산업 현장으로

VLA 영역은 학술 연구 단계를 빠르게 벗어나, 실제 산업 현장으로 확산되고 있습니다. 최근 연구들은 온디바이스 배포 사례를 통해 지연 시간 단축과 정교한 동작이 가능함을 보여주고 있으며, VLA는 자연어 명령을 이해하고 다단계 작업을 수행하며, 수동 설계된 파이프라인 없이 부드럽게 움직이는 로봇으로 향하는 방향성을 제시하고 있습니다.
물류, 제조, 의료, 가정, 외식 등 다양한 도메인에서 동시 다발적으로 시도가 이루어지고 있고, 각 영역마다 적합한 모델 구조와 학습 방식이 빠르게 진화하고 있습니다. AI가 화면을 벗어나 현실 공간으로 들어오는 변화는 이미 시작되었고, 앞으로 몇 년 사이 그 속도는 더 가팔라질 것으로 예상됩니다.
이러한 흐름 속에서 로보터블 역시 F&B 도메인 특화 Physical AI 플랫폼인 ZEST와, 그 학습·검증 환경이 될 직영 매장 ONE Kitchen을 준비하고 있습니다.
Physical AI 기업으로서의 한걸음을 나아가고 있는 로보터블, 많은 관심 부탁드립니다.




댓글