왜 우리는 로봇의 손끝에 주목하는가

기술이 인간을 닮아가는 순간, 우리가 잃고 얻는 것들

사라져가는 장인의 손끝에서 태어나는 새로운 지능에 대하여


Prologue. 손, 인간다움의 마지막 영토

손은 인간의 마지막 영토다.

컴퓨터가 체스 챔피언을 이기고, AI가 의사보다 정확한 진단을 내리는 시대에도 여전히 인간의 손끝만이 할 수 있는 일들이 있다. 바이올린 현을 누르는 미묘한 압력, 도자기를 빚는 섬세한 감각, 아픈 곳을 어루만지는 따뜻함. 이 모든 것이 디지털 세상에서 아날로그의 마지막 보루였다.

그런데 2025년, 그 마지막 영토마저 흔들리기 시작했다. 젠슨 황이 CES에서 "AI의 궁극적 형태는 Physical AI"라고 선언했을 때, 기술업계는 열광했다. 하지만 정작 중요한 질문은 따로 있었다. 기계가 인간의 손을 닮아간다면, 인간다움이란 도대체 무엇인가?

장갑을 끼고 스마트폰을 만져보라. 갑자기 세상이 어색해진다. 터치가 엇나가고, 타이핑이 버벅인다. 우리는 그제야 깨닫는다. 문명의 모든 도구가 얼마나 정교한 손끝 감각을 전제로 설계되었는지를. 이제 그 감각을 기계에게 가르치려는 시도가 시작됐다. 과연 우리는 무엇을 얻고, 무엇을 잃게 될까?


VLA의 한계, 몸 없는 지능의 슬픈 현실

현재의 AI 로봇들을 보면 묘한 위화감이 든다. 뇌성마비 환자의 움직임처럼 어색하고, 시각장애인이 처음 만지는 물건을 더듬는 듯 서툴다. 눈으로는 완벽하게 세상을 파악하면서도, 막상 손을 뻗으면 모든 것이 어긋난다.

이것이 바로 VLA(Vision Language Action)의 한계다. 보고, 이해하고, 행동하는 능력은 있지만, '느끼는' 능력이 없다. 마치 머리로만 사랑을 이해하려는 사람처럼, 모든 것을 개념으로만 처리한다. 인간이 사과를 집을 때는 단순한 기계적 동작이 아니다. 사과의 무게를 예측하고, 표면의 거칠기를 감지하고, 압력을 조절한다. 더 나아가 그 사과의 '신선함'까지 손끝으로 판단한다. 이 모든 과정은 수만 년에 걸친 진화의 산물이다.

류중희 리얼월드 대표의 말이 인상적이다. "손 하나의 자유도가 약 15도로, 상체 전체보다 더 크다. 인간 지능의 대부분이 손에 집중되어 있다."

여기서 흥미로운 역설이 발생한다. 우리는 지금까지 AI를 '뇌'의 관점에서만 발전시켜왔다. 더 빠른 연산, 더 정확한 인식, 더 복잡한 추론. 하지만 정작 인간다운 지능의 핵심은 '몸'에 있었던 것이다.

철학자 모리스 메를로-퐁티가 말했듯이, 우리는 몸으로 사고한다. 손끝의 감각이 없는 AI는 결국 세상을 온전히 이해할 수 없다. 그것은 마치 평생 책으로만 사랑을 공부한 사람이 실제 연인을 만났을 때의 당황스러움과 같다.


MLA, 기계가 몸을 얻는 순간

MLA(Multimodal-Language-Action)는 단순한 기술 진보가 아니다. 그것은 기계가 비로소 '몸'을 얻는 순간이다. 촉각이 추가된다는 것은 감각기관이 하나 늘어나는 차원을 넘어선다. 세상을 인식하는 방식 자체가 바뀐다. 

인간의 손끝에는 약 2,500개의 촉각 수용체가 있다. 이들은 압력, 진동, 온도, 질감을 실시간으로 감지하고, 뇌에 전달한다. 더 중요한 것은 이 정보들이 시각, 청각 정보와 통합되어 '종합적 판단'을 만든다는 점이다. 예를 들어 우리가 동전을 주머니에서 찾을 때를 생각해보자. 눈으로 보지 않고도 손끝 감각만으로 동전의 크기, 무게, 재질을 파악한다. 100원짜리와 500원짜리를 구분하고, 심지어 앞뒤까지 맞춘다. 이는 수십 년간 축적된 촉각 경험의 결과다.

MLA가 구현하려는 것이 바로 이런 '몸의 지혜'다. 제어 궤적(Control Trajectory)을 계획하되, 실시간으로 들어오는 촉각 정보에 따라 즉석에서 리플래닝(Re-planning)한다. 예상과 현실 사이의 간극을 손끝으로 메워나간다. 나사를 조이는 작업을 보자. 기존 로봇은 미리 프로그래밍된 위치와 각도대로만 작업한다. 하지만 MLA 기반 로봇은 다르다. 나사의 '저항감'을 느끼고, 그에 따라 힘을 조절한다. 비뚤어진 나사를 만나면 각도를 조정하고, 끝까지 조여지면 자동으로 멈춘다.

이는 단순한 자동화를 넘어선 '학습'이다. 매번 새로운 상황에서 얻은 촉각 경험이 다음 작업에 반영된다. 마치 숙련공이 수년간 경험을 쌓아가듯이. 여기서 우리는 중요한 깨달음에 도달한다. 진정한 AI는 더 빠른 컴퓨터가 아니라, 더 섬세한 감각을 가진 존재일지도 모른다는 것을.

  • MLA란 무엇인가? 단순히 눈(Vision)으로 보고, 말(Language)을 이해하고, 몸(Action)을 움직이는 수준을 넘어서, 손끝의 감각, 즉 촉각(Tactile)까지 통합해서 사고하고 행동하는 모델이다. _ 다양한 감각 정보(Multi-modal)와 인간의 언어(Language)를 이해하고, 이를 바탕으로 유연하게 사고 하며 행동(Action) / 예: 마그마

    MLA의 핵심 요소들:

    • 제어 궤적(Control Trajectory): 로봇이 손을 뻗고, 물건을 잡고, 가져오는 일련의 움직임의 경로. 하지만 현실은 계획처럼 깔끔하지 않다.

    • 리플래닝(Re-planning): 손끝의 촉각 정보를 통해 "어? 뭔가 이상해"를 인식하고, 그에 따라 즉석에서 궤도를 수정하는 과정. 마치 우리가 눈을 감고 물건을 더듬을 때, 손끝 감각을 따라 방향을 조정하듯 말이다.

    • 실시간 적응: 물건의 위치가 예상보다 살짝 빗나갔거나, 접촉했을 때 딱딱할 줄 알았는데 말랑했을 때, 처음 계획을 버리고 새로운 계획을 즉석에서 세우는 능력이 대표적이다. 

손끝 혁신의 두 가지 길: 전승 vs 창조

같은 목적지를 향한 두 갈래 길이 있다. 하나는 과거에서 미래로, 다른 하나는 미래에서 현재로. 리얼월드와 Skild AI가 걷고 있는 길이 바로 그것이다.

리얼월드: 장인 정신의 디지털 전승

"우리가 가진 손기술이 사라지고 있다. 이 기술을 AI에 이식하지 않으면, 제조업의 미래는 없다." 류중희 대표의 이 말에는 깊은 문화적 배경이 있다.

한국과 일본의 제조업은 '장인 문화'를 기반으로 한다. 수십 년간 한 분야에 몰두한 마이스터들이 손끝으로 축적한 노하우. 반도체 웨이퍼의 미세한 결함을 촉감으로 감지하고, OLED 증착 과정에서 1마이크론 오차를 잡아내는 기술. 이는 책이나 매뉴얼로는 전달될 수 없는, 오직 몸으로만 체득되는 지식이다. 문제는 이 지식이 사라지고 있다는 것이다. 고령화로 숙련공들이 은퇴하고, 젊은 세대는 더 이상 '손기술'을 배우려 하지 않는다. 대학 진학률 80%인 사회에서 3D 업종을 기피하는 것은 자연스러운 현상이다. 리얼월드의 접근은 일종의 '문화유산 보존 프로젝트'다. 사라져가는 장인의 손기술을 AI에 이식해서 후세에 전달하겠다는 것. 이는 기술적 도전이면서 동시에 문화적 사명이다.

Skild AI: 새로운 종의 창조

반면 Skild AI는 완전히 다른 철학을 가진다. "경쟁사 대비 1,000배 많은 데이터로 학습한다"고 자부하는 그들의 자신감은 단순한 과장이 아니다. 시뮬레이션을 통해 현실에서는 불가능한 수준의 경험을 압축적으로 학습시킨다. 이는 마치 신화 속 아테나의 탄생과 같다. 제우스의 머리에서 완전무장한 채로 태어난 지혜의 여신처럼, Skild AI는 태생부터 모든 상황에 대응할 수 있는 '범용 지능'을 목표로 한다.

두 접근법의 철학적 차이는 깊다. 리얼월드는 "인간의 경험을 기계에 이식"하려 한다면, Skild AI는 "기계만의 새로운 경험을 창조"하려 한다. 전자는 연속성을, 후자는 단절을 전제로 한다. 이는 단순한 기술적 선택이 아니다. 우리가 어떤 미래를 원하는지에 대한 철학적 질문이다. 인간의 연장선상에서 발전하는 AI인가, 아니면 인간을 초월하는 새로운 존재인가?


어떤 손끝이 살아남을 것인가?  깊이 vs 확장성의 딜레마

역사는 종종 예상과 다른 승자를 만든다. 베타맥스는 VHS보다 기술적으로 우수했지만 시장에서 패배했다. 클레이튼 크리스텐슨의 파괴적 혁신 이론이 여전히 유효한 이유다.

리얼월드의 '하위 시장 파괴' 전략

처음에는 "굳이 로봇이?"라는 반응을 받을 것이다. 숙련공이 10분 만에 할 수 있는 일을 로봇이 1시간 걸려서 하면 누가 쓰겠는가? 하지만 여기에 함정이 있다. 문제는 그 '숙련공'이 점점 사라지고 있다는 것이다. 현대차 생산직직 평균 연령은 49.2세다. 그나마 10년 후면 상당수가 은퇴한다. 그때가 되면 "로봇이라도 있으면 다행"인 상황이 올 수 있다. 확장성은 리얼월드의 아킬레스건이다. 반도체 공정에 특화된 AI가 자동차 조립이나 의료기기 제작에도 유용할까? 아마 어려울 것이다. 각 산업의 노하우는 너무나 특수하다.

Skild AI의 '신시장 파괴' 전략

스마트폰 이전에는 '모바일 OS 시장'이라는 것 자체가 존재하지 않았다. 구글이 안드로이드로 창조한 것은 기존 시장의 점유가 아니라 새로운 생태계였다. Skild AI가 노리는 것도 이와 같다. '범용 로봇 두뇌' 시장을 창조해서 모든 로봇 하드웨어의 표준이 되겠다는 것. 성공한다면 로봇 산업 전체의 안드로이드가 될 수 있다. 하지만 범용성에는 대가가 따른다. 모든 것을 할 수 있다는 것은 모든 것을 평균적으로만 한다는 뜻일 수도 있다. 30년 경력의 장인과 경쟁할 수 있을까?

자본의 현실: 1조 vs 200억의 격차

Skild AI는 이미 1조원이 넘는 투자를 받았고, 소프트뱅크가 추가로 5억 달러를 투자할 예정이다. 반면 리얼월드는 200억원 시드 투자에 머물러 있다. 50배의 자본 격차다. 기술 경쟁에서 자본이 모든 것을 결정하지는 않지만, 무시할 수도 없다. 더 많은 인재를 영입하고, 더 많은 실험을 하고, 더 빨리 시장에 진입할 수 있다.

그럼에도 승부는 끝나지 않았다. 역사상 자본의 우위가 항상 승리를 보장하지는 않았기 때문이다. 중요한 것은 시장의 진짜 필요를 누가 먼저 충족시키느냐다. 연말 예정인 리얼월드의 첫 공개 시연이 그들에게는 운명의 순간이 될 것이다.


Epilogue. 문송한 스낵지기의 단상 - 인간의 마지막 영토가 무너질 때

손가락 끝에 집중된 촉각 수용체는 인체에서 가장 밀도가 높다. 이 작은 공간에 우리가 세상과 소통하는 모든 비밀이 담겨 있다. 사랑하는 사람의 손을 잡을 때 느끼는 온기, 아이의 볼에 닿는 부드러움, 오래된 책장을 넘길 때의 거친 감촉.

그런데 지금이 바로 이 감각들이 영원히 변화하는 분기점이다. 우리가 로봇의 손끝에 주목해야 하는 이유는 단순히 기술적 호기심 때문이 아니다. 인간다움을 정의하는 마지막 영토가 재편되는 역사적 순간을 목격하고 있기 때문이다. 역사를 돌아보면 기술 혁명의 결정적 순간들은 대부분 10년 이내의 짧은 창구 기간에 방향이 결정됐다. 인쇄술의 확산(1450-1460년대), 전기의 상용화(1880-1890년대), 인터넷의 대중화(1990년대). 지금 우리는 물리적 AI의 그런 결정적 10년 안에 있다.

왜 지금인가? 세 가지 조건이 동시에 성숙했기 때문이다. 첫째, AI가 드디어 '몸'을 얻을 수 있는 기술적 임계점에 도달했다. 둘째, 숙련 노동력의 급속한 고령화로 '손기술 전승'이 절체절명의 과제가 됐다. 셋째, 자본이 이 분야로 대규모 유입되면서 경쟁 구도가 형성됐다. 더 중요한 것은 아직 게임의 룰이 정해지지 않았다는 점이다. 스마트폰 생태계에서 iOS와 안드로이드가 경쟁했던 2007-2012년처럼, 지금은 미래의 표준을 누가 만들지 결정되는 시기다. 리얼월드의 '장인 전승' 모델과 Skild AI의 '범용 플랫폼' 모델 중 어느 쪽이 승리하느냐에 따라, 앞으로 수십 년간 인간과 기계의 관계가 달라질 것이다.

그렇다면 우리는 단순한 관찰자인가? 그렇지 않다. 소비자로서, 투자자로서, 정책 결정에 영향을 미치는 시민으로서 우리의 선택이 이 경쟁의 결과를 좌우한다. 기술사학자 폴 데이비드가 QWERTY 키보드 배열 연구에서 보여준 것처럼, 초기 단계의 작은 선택들이 경로 의존성(Path Dependence)을 만들어 수십 년간 기술 발전 방향을 고착화시킨다. 우리가 리얼월드 같은 전문화된 솔루션을 선호하면, 기술 발전은 '깊이' 방향으로 진행될 것이다. 각 산업별로 특화된 AI가 장인의 기술을 계승하는 세상. 반면 Skild AI 같은 범용 플랫폼을 지지하면, '범위' 방향으로 발전할 것이다. 하나의 AI가 모든 것을 처리하는 세상.

이는 단순한 효율성의 문제가 아니다. 인간의 기술적 유산을 어떻게 보존하고 전달할 것인가, 기계와 인간의 관계를 어떻게 설정할 것인가의 문제다. 2030년대 중반까지 형성될 기술 표준이 이후 30년간 산업 생태계의 근간이 될 것이라는 점에서, 지금은 단순히 제품을 선택하는 것이 아니라 문명의 발전 경로를 선택하는 것이다.

그래서 로봇의 손끝에 주목해야 한다. 장갑을 끼고 카톡을 치는 불편함을 경험해본 우리라면 알 수 있다. 손끝의 감각이 얼마나 중요한지를. 그리고 그 감각을 로봇에게 가르쳐주는 순간이 올 때, 우리가 어떤 방식을 선택하느냐에 따라 완전히 다른 미래가 펼쳐질 것이라는 사실을. 결국 기술의 승부가 아니라 우리의 선택이 미래를 결정할 것이다.


[참고] 피지컬 AI 혁명의 3대 주역 비교 분석(with GPT 4.0)

Next
Next

Builder.ai의 브랜드 붕괴