이 작품은 간단하게 ‘5억년 버튼’의 수학적 버전이라고 설명할 수 있겠습니다. 이번에는 글의 지엽적인 한 부분을 다뤄보고자 합니다. ‘불세출의 천재 엘리어스가 협력을 배우는 인과응보적인 이야기’ 정도가 될 것 같습니다.
이번 리뷰도 역시 오독을 포함하고 있으며, 자의적인 해석을 강하게 반영했음을 사전에 안내드립니다.
왜 이렇게까지 사족부터 까냐면, 정말 자의적인 해석이 다수 포함된 감상이기 때문입니다. 사실 저는 읽으면서 딥러닝 생각을 하지 않을 수 없었습니다. 작품 안에서는 ‘인지적 휴머닉 그리드 컴퓨팅’이라고 하는데요, 당연히 그리드 컴퓨팅으로 해석해야겠지만 동작 원리 등은 딥러닝을 연상시키는 면이 있었습니다(함수 표현 등).
따라서 저는 딥러닝을 중심으로 글을 해석해보려 합니다. 이유는 별거 없습니다. 알고 보면 안 그래도 재밌는 글이 더 재밌어진다고 생각했기 때문입니다. 그런 의미에서 양해를 하나 구하자면, 이번 리뷰는 고증적으로도 약간의 오류1가 있는 해설이 될 예정입니다. 전문가 분들께서는 너그러운 시선으로 넘어가주시길 바랍니다.
사족이 길었습니다. 이번 리뷰에선 불세출의 수학천재, 냉철한 이성, 손익계산이 철저한 인간의 사고를 한번 뜯어보도록 하겠습니다.
이번에도 질문 하나를 두고 시작해봅시다.
계산으로 살아가는 사람에게 계산이 형벌이 될 수 있을까요?
작품은 이 질문에 대해 꽤 자세하게, 그리고 납득이 가능하게 답합니다.
주인공 엘리어스는 금융 천재이자 수학 천재죠. 삶이 변수고 계산인 그림으로 그린 듯한 전형적인 인물입니다. 인성과 지적 능력을 교환한 것 같은 사람이라는 점에서 더더욱이요. 감옥에서 그를 미치게 하는 것은 “사형수라는 사실”자체가 아니었다. 사형 집행일을 예측할 데이터가 부족하다는 것. 그 불확실성이 그를 밤마다 깨웠다. 라고 하니까요.
작품에서 인간들은 계산 노드로 치환되어 연산합니다. 그게 그들에겐 형벌의 일종으로 그려집니다. 그런데 그 전에 엘리어스는 이미 계산노드나 다름없이 모든걸 계산하고 살았죠. 그럼 그게 어떻게 형벌이 될까요. 물론 글에선 직접적인 고통을 가하는 것으로 처벌하지만 이 형벌의 본질은 아닙니다. 형벌, 즉 법률적인 처벌은 문제가 주어지고 그것을 해결하는 과정을 반복 하는 것이죠. 고통은 부수적인 최적화 작용이었을 뿐이겠고요. 복잡하게 말 할 것 없이 간단히 말하자면, 고통은 부수적 효과고 실제 형벌은 계산하는 행위 그 자체에 있다는 이야기입니다.
우선 아래 인용을 봅시다.
“당신은 전체 시스템 함수의 64번째 변수 $x_{64}$를 결정하는 제어권자다. 다른 차원의 변수는 제어할 수 없다. 64개 노드가 협력하여 전체 비용 $f(x)$를 이론적 최솟값(Global Optimum)에 도달시키도록 하라”
왜 64개 노드가 협력해야 할까요? 혼자서도 알아서 할 수 있는데 뭐하러 협력해야하나요? 안그래도 계산 같은 건 어차피 자신 있는 것이다. 라고 말하는 인물인데요.

[그림1] Similarity between biological and artificial neural networks (Arbib, 2003a; Haykin, 2009b).
복잡하게 생각할 것 없이 구조만 봅시다. (a)의 뉴런을 기계적으로 옮긴게 (b)라고 보시면 되겠습니다. $x_1$ $x_2$ … 의 입력값들(그림에서 Inputs로 묶이는 부분)이 하나의 출력(Ouput)으로 빠져나가죠. 이 입력값들, 즉 x들이 각각 인간 한 명이라고 생각하고 다시 작품을 봅시다.
다른 노드들의 ‘오차 상태’가 나의 오차 산식에 직접 대입되기에 만약 42번과 63번 노드가 오차를 줄이지 못하면, 엘리어스가 아무리 최적의 $x_{64}$를 선택해도 $f_{64}$는 그 영향으로 인해 높아지게 되는 피드백 루프 구조였다. 그리고 모두가 가진 함수가 그런 형태였다.
여기서 42번 노드와 63번 노드가 오차를 줄이지 못하면 $f_{64}$ 의 값도 높아진다고 합니다. 그림 1에서 수많은 x들이 한 방향으로 모이는 부분이 있었죠. 그렇다면 이 출력값은 뭔가요. 이게 주인공이 찾아야하는 이론적 최솟값(Global Optimum)인가요?
[그림2] NVDIA Neural Network Compression (Maying Shen)
그렇게 쉬울 리가 없습니다. 그림 2는 도식화한 인공신경망의 구조입니다. 여기서도 마찬가지로 형태만 봅시다. 그림 1에서 수십개의 x들이 모여서 출력 하나를 만들었습니다. 이걸 그림 2의 신경망 전체에서 보면 어떻게 되냐면, 그림 1에서 수십명의 인간이 모여서 하나의 결과값을 만들어봐야 그건 그림 2의 원 하나에 불과하다는 결론이 납니다. 스케일은 작내 설정에 따라 크게 달라지겠지만 원리는 그렇습니다. 2
엘리어스는 당황했다. 그가 조절할 수 있는 것은 변수 하나, 그리고 로컬 비용 함수. 그런데 그 함수는 42번 노드와 63번 노드의 로컬 비용 함수 값들을 파라미터로 받고 있었다. 말도 안 되게 어려운 문제였다. 이건 혼자서 해결할 수 있는 문제가 아니었다.
당연히 혼자서 해결할 수 있는 문제가 아닙니다. 그러라고 설계한 구조가 아니니까요.
다시 질문으로 돌아와서,
계산으로 살아가는 사람에게 계산이 형벌이 될 수 있을까요?
이젠 그렇다고 말할 수 있을지도 모릅니다. 순수한 양(quantity)의 논리에 의해서요. 저걸 어느 세월에 다 합니까. 전국민 팀플레이를 해서 국가적 성취를 이루었는데 알고보면 전세계적 팀플레이가 필요한 상황이잖아요. 이 이론으로 보면, 엘리어스같은 수십명의 인간 계산 노드들이 죽어라고 계산해서 하나의 결과값을 내면 그게 끝이 아닌겁니다. 그 결과는 다음 계층의 입력이 되고, 그게 또 모여서 신경망 자체의 값이 되고… 그 모든게 최적일때 이론적 최솟값(Global Optimum)이 성립할 수 있을지도 아닐지도 모르는거죠.
그런데 그런 생각이 들 때쯤 작품에선 이런 이야기가 나옵니다.
엘리어스는 조심스럽게 자신의 로컬 비용을 줄이는 방향이 아니라, 42번과 63번의 파라미터 값이 안정될 수 있는 방향을 계산하기 시작했다. 여전히 끔찍한 고통이 이어졌다.
엘리어스는 단순한 천재가 아닙니다. 전형적인 인물상에 조금 더 기대어 말해보자면… 모든걸 통제하려는 사람에 가깝죠. 확률의 예언자, 시장을 수식으로 정복한 남자 라고 하지 않습니까. 직접적으로 그들이 내 계산을 감히 더렵혔기 때문 이라는 표현도 나옵니다. 내 계산이라는 말이 인상적이죠. 시장의 모든 일이 엘리어스와 합의한 후에 일어날 수는 없는 일인데 그런 당연한 변수(그에게는 ‘계산 밖’의 변수였을 것들)가 개입하는것조차 그는 용납할 수 없는 겁니다.
그런 그가 자신의 로컬 비용을 줄이는 방향이 아니라, 42번과 63번의 파라미터 값이 안정될 수 있는 방향을 계산하기 시작합니다. 협력의 의미를 깨달아서요? 개과천선해서요? 고통스러워서요? 아닙니다. 마지막은 사실 저도 확신할 수 없지만 제가 보기엔 협력이 가장 효율적이라서입니다.
64명 중 한 명이라도 값을 제출하지 않으면, 모두가 동시에 10초 정도의 고통을 받는다.
64명이 모두 값을 제출했을 때 전체 시스템 함수가 최적값의 반대로 증가할 경우 그 증가한 값에 비례해서 최대 1분까지의 고통이 이어진다.
64명이 모두 값을 제출했을 때 전체 시스템 함수가 줄어들 경우, 고통이 없다.
다시 생각해도 ‘고통스러워서’라는 이유는 너무 인간적입니다. 네, 그건 너무 이타적이고 감성적인 이야기 같습니다. 당연히 엘리어스의 행동은 효율을 쫓은 결과였겠죠.
생각해봅시다.
한 노드가 다른 노드에게 영향을 미친다면, 하나의 연산 결과가 다른 연산 결과의 전제가 된다면, 그것들 전체가 모여서 ‘더 나아지는 방향’으로 이어져야 한다면. 어디로 가야하는지도 모르고, 무엇이 어떻게, 어디에 영향을 어느 정도로 미치는지도 모르는 상황에서 해야만 한다면요.
아무것도 하지 않을 수 없지만 나의 선택이 반드시 누군가에게 영향을 미치고 어떤 결과를 만들어낸다면.
그때 여러분은 어떻게 하시겠습니까?
그냥 읽어도 재미있는 이 작품을 구구절절 지루하고 크게 작품과 관계없을지도 모르는, 몰라도 즐길 수 없는 이론까지 동원해가며 해석한 이유는 단순합니다. 엘리어스가 수학자니까요. 그의 사고를 따라가봐야 대체 어떤 논리에서 이걸 선택했는지 알 수 있을테니까요.
그리드 안에서 엘리어스는 64번째 변수만을 제어할 수 있는 제어권자입니다. 할 수 있는 게 아무것도 없어요. 내게 주어진 권한만을 이용할 수 있는 상태. 수학적으로는 전능했지만 인간들의 작당모의(라고 엘리어스는 말할 것 같습니다)는 통제할 수 없었던, 아주 ‘일반적인’ 상태요.
개인의 선택은 반드시 다른 개인에게 영향을 미칩니다. 42번째 노드의 오차가 64번째 노드에 영향을 미치는 것처럼요. 개인의 선택은 모두에게 돌아옵니다. 64명 중 하나의 값이라도 제출되지 않았을 경우, 투표를 예로 들어볼까요, 한 명이라도 투표하지 않았을 경우 모두가 동시에 고통을 받는 것처럼요. 그렇다고 개인이 다른 개인의 선택에 영향을 미칠 수 있을까요? 부분적으로는 가능합니다만 결과적으로는 어렵습니다. 라운드 6250 에 도달해서야 최적해에 도달했던 것처럼, 그리고 42번과 63번의 파라미터 값이 안정될 수 있는 방향을 계산한 것처럼요. 엘리어스는 42번의 값이나 63번의 값을 직접 조정한게 아닙니다. 이 값들을 안정시키도록 자신의 값을 안정시켰습니다. 이타심 때문인가요? 그들이 할 수 없는걸 천재인 그는 할 수 있으니까요? 아뇨 할 수 있는게 그것 뿐이니까요. 논리적으로, 구조적으로.
제가 이 글을 읽으면서 가장 먼저 떠올린 것은 가장 냉철하고 이성적인 결과를 따라갔을 때 도달하는 지점이 협력이라는 사실이었습니다. 현존하는 최고의 기술로 여겨지는3 인공지능, 컴퓨팅이 결국 이렇지 않습니까. 하나의 완벽한 값을 찾아내는게 아니라, 계속해서 더 나은 값을 향해 수렴하는 과정이요. 다른 노드들이 전파한 오차를 정면으로 맞아가며 그 자리에서 구할 수 있는 최적의 값을 구하고, 그게 어떤 일을 일으킬 지 알지 못하면서 계속 계산하고, 계산하고, 자기 자리에서 할 수 있는 일을 하는게 그 대단하다는 기술이고 이성입니다.
다시 생각해 봅시다.
계산으로 살아가는 사람에게 계산이 형벌이 될 수 있을까요?
답은 네, 그것도 수학적으로 가능하다. 입니다. 저는 그걸 엘리어스가 증명했다고 봅니다. 어쩔 수 없습니다. 이 구조 자체가 형벌입니다. 그렇다면 5억년 버튼처럼, 이 모든걸 겪었음에도 다시 이 상황에 자진해서 들어가는건 뭐라고 설명할 수 있을까요. 글쎄요… 단순히 그가 이 고통을 잊었기 때문일까요 아니면 그렇게 선택할 수 밖에 없기 때문일까요?
그건 조금 더 생각해봐야 할 이야기 같습니다.
감사합니다.