일상에서 발생하는 데이터의 양이 증가함에 따라 넘치는 데이터를 처리하기 위해 새롭고 더 나은 도구들이 필요하게 됐다. 전통적으로 이러한 도구들은 양극단으로 분류된다. 엑셀, SPSS 같은 가볍고 개인적인 분석 도구들과 C++와 같은 것들을 사용하는 고성능 분석 도구가 있었다. 개인용 컴퓨터의 성능이 향상되면서 이 두 지점 중간에서 강력하면서도 대화형으로 사용할 수 있는 도구가 생겨나기 시작했다. 개인 컴퓨터에서 탐색적인 방법으로 분석하는 것을 시작으로 바로 수준 높은 비즈니스 프로세스를 지원하는 서버로 옮겨 작업할 수 있게 됐다. 이 지점에 있는 도구들이 R, 파이썬 같은 스크립트 언어들이다.
R은 1993년 오클랜드 대학의 로버트 젠틀맨과 로스 이하카 교수, 벨 연구소의 존 챔버스에 의해 개발된 S 언어를 바탕으로 개발됐다. R은 원래 대화형 방식을 통해 사용자가 명령을 입력하고 그 결과를 바로 받으며, 다시 새로운 명령을 실행하는 과정으로 사용할 수 있게 만들어진 고수준 언어다. 그 후 진화를 거듭해 시스템에 임베딩해 복잡한 문제들을 해결하는 데 사용할 수 있게 됐다.
R은 데이터를 변형하거나 분석하는 능력 외에도 놀라운 그래픽 기능과 리포트 제작 능력을 갖추고 있다. 이제는 데이터 과학에서 데이터의 추출, 변형, 모형 적합, 추론, 예측, 플로팅과 레포팅까지 거의 전 영역에 걸쳐 사용된다.
R의 인기는 2000년대 후반부터 치솟기 시작했으며, 학계에서 벗어나 은행, 마케팅, 제약, 정치학, 유전체학 등 여러 분야로 퍼지기 시작했다. C++ 같은 저수준 컴파일러 언어, SAS 또는 SPSS 같은 통계 전용 패키지, 800파운드짜리 고릴라인 엑셀 등을 사용하던 사용자들이 R의 새로운 사용자가 됐다. 같은 시기에 R의 기능을 확장하는 라이브러리인 애드-온 패키지의 숫자도 급증했다.
R은 프로그래밍 경험이 전혀 없는 초보자에게는 다소 두려운 존재이기도 하지만 나는 R을 사용하고 얼마 지나지 않아 마우스로 포인팅하고 클릭하던 방법 대신 프로그램화해 분석하기가 훨씬 쉽고, 훨씬 편리하며, 훨씬 믿음직스럽게 느끼는 사용자들을 많이 봐왔다. R을 좀 더 쉽고 빠르게 배울 수 있게 하려는 것이 나의 목표다.