스프레드시트(spreadsheet) 소프트웨어의 출현으로 분석가는 새로운 수준의 분석적 사고를 하게 됐다. 인간의 계산은 더 이상 단일 차원에 머무르지 않는다. 각 행이나 열은 시간 차원, 생산 범주, 비즈니스 시나리오를 나타낼 수 있다. 그리고 자동화된 의존성 기능 덕분에 행과 열을 매우 쉽게 수정할 수 있다. 이제 스프레드시트는 더 정교하고 영구적인 분석 제품인 대용량 분석 컴퓨터 프로그램을 위한 프로토타입으로 사용할 수 있다.
숙련된 분석가가 R과 파이썬 같은 최신 프로그램 언어를 사용하면, 과거 시세를 무료로 제공하는 서비스나 야후 같은 리소스를 이용해 이전보다 훨씬 적은 노력으로 분석 로직을 설계할 수 있다. 파이썬과 R의 간결한 구문 덕분에 자바와 유사한 기능을 탑재한 프로그램을 네 배 더 작게 만들 수 있다. 이제 원한다면 다양한 시장 변수를 시뮬레이션해 몇 주 안에 200달러 미만의 비용으로 소규모의 금융 연구소를 구축할 수 있다. 혹은 더 큰 저장 용량을 갖춘 고성능의 컴퓨터를 구입해 과거에는 불가능했던 전체 시장의 10년에서 20년치 과거 데이터를 불러올 수도 있다.
연구실을 구축했다면 거기서 통찰력(insights)을 얻을 수 있을 것이다. 지식 발견(knowledge discovery)은 한때 인간의 행위를 나타내는 용어였지만 이제는 컴퓨터 자동화를 설명하는 용어가 됐다. 지식 발견은 컴퓨터 프로그램이 생성할 수 있는 것을 다소 과대평가해 거창한 단어처럼 보인다. 예컨대 컴퓨터 학회인 ACM(Association for Computing Machinery)에는 KDD(Knowledge Discovery and Data Mining)라는 특화분과(special interest group)가 있다. 이 분과에서 다루는 '데이터 마이닝'은 누구도 나서서 도전하려 하지 않는 분야다. 결국 데이터 마이닝은 통계학자와 컴퓨터 과학자들의 몫이 됐다. '정말 자동으로 기계를 이용해 지식을 발견할 수 있을까?' 앞의 문장은 너무 과장돼 사실처럼 느껴지지 않을 것이다. 하지만 이 책에 기술된 알고리즘을 직접 경험해보면, 데이터 과학 기술을 사용하는 프로그램이 매우 지루한 계산을 자동화할 수 있을 뿐만 아니라 과거 인간 사고 수준으로는 발견하지 못했던 통찰력을 제공할 수 있다는 사실을 곧 깨닫게 될 것이다.