이 책을 시작하기에 앞서 분명히 밝힐 사실이 있다. 바로 기계(머신, machine)는 학습하지 않는다는 것이다. 흔히 말하는 '머신 러닝(기계 학습, machine learning)'은 주어진 입력 집합(훈련 데이터, training data)에 대해 정해진 값을 출력하는 수학 공식을 찾는 것을 말한다. 이러한 수학 공식은 훈련에 사용하지 않은 다른 데이터에 대해서도 정답에 가까운 결과를 출력한다. 단, 입력이 훈련 데이터의 통계 분포와 같거나 비슷해야 한다.
그렇다면 기계가 학습할 수 없는 이유는 무엇일까? 입력이 조금이라도 달라지면 정답과 완전히 다른 오답을 출력할 가능성이 높기 때문이다. 동물은 이렇게 학습하지 않는다. 화면을 똑바로 쳐다보면서 비디오 게임을 하는 방법을 배웠다면, 화면의 방향을 틀어도 게임을 할 수 있다. 하지만 머신 러닝에서는 화면을 똑바로 쳐다본 상태로 훈련시켜서 나온 알고리즘을 기울인 화면에 대해서도 훈련시키지 않는 한, 기울인 화면에서는 제대로 게임을 하지 못한다.
그렇다면 왜 '머신 러닝'이라 부르는 것일까? 흔히 그렇듯이 마케팅을 위한 의도가 다분하다. 머신 러닝이란 표현은 컴퓨터 게임과 인공지능(artificial intelligence) 분야를 개척한 미국의 아더 새뮤얼(Arthur Samuel)이 1959년 IBM에 근무하면서 만들었다. 2010년 대에 IBM이 경쟁사와 차별화하기 위해 '인지 컴퓨팅(cognitive computing)'이란 용어를 내세웠던 것처럼, 과거에도 고객과 우수한 직원을 유치하기 위해 '머신 러닝'이라는 차별화된 용어를 사용했던 것이다.
인공지능이 진짜 지능이 아니듯이, 머신 러닝도 학습이 아니다. 하지만 머신 러닝은 현재 구체적으로 프로그래밍하지 않고도 다양한 일을 처리할 수 있는 머신을 개발하는 과학과 공학을 의미한다고 널리 알려져 있다. 그래서 여기서 말하는 '학습'은 동물의 학습 과정과 같지 않고, 일종의 비유인 셈이다.