이 책의 목표는 조직의 정보보안 부서에서 보안 관련 의사결정을 내릴 때 데이터에 기반한 결정을 내리도록 유도하는 것이다. 따라서 이 책이 대상으로 하는 주요 독자는 조직 내에서 보안 관련 업무를 맡고 있는 보안 도메인의 전문가다.
데이터에 기반한, 혹은 데이터 주도의 보안이란 결국 보안 도메인에서 생성되는 데이터를 데이터 과학의 여러 기법으로 분석하고 이를 바탕으로 의사결정을 내리는 것을 의미한다. 데이터 과학은 IT 업계에서 가장 떠오르는 유망 분야로 손꼽히지만, 위키피디아 정의의 첫 마디가 '학제적(둘 이상이 학문분야에 걸치는)' 접근 방법이라는 것에서도 알 수 있듯이 매우 넓은 범위의 지식을 바탕으로 한다. 데이터 과학에 요구되는 스킬을 도메인 전문 지식, 데이터 관리, 프로그래밍, 통계학, 데이터 시각화로 분류할 때, 한 명의 데이터 과학자가 이 모든 스킬을 갖추는 것은 불가능하다. 하지만 자신의 전공 분야가 아니라 할지라도 기본적인 이해를 갖춰야 원활한 협업과 피드백을 기대할 수 있을 것이다.
이 책의 저자들은 정보보안 분야에 오랜 경험이 있는 전문가로서, 데이터 과학에 필요한 스킬을 골고루 소개하면서 정보보안 분야의 경력자가 데이터 과학의 세계에 입문할 수 있도록 안내한다. 책에서 사용되는 예제는 모두 정보보안 분야와 관련이 있으며, 프로그래밍 언어는 R과 파이썬을 사용한다(다만, 파이썬은 중반 이후에는 사용되지 않고 R을 중점적으로 사용하며, R과 파이썬의 기초 문법을 다루지는 않는다).
또 다양한 데이터베이스를 소개하면서 효율적인 데이터 관리 방법을 설명한다. 특히 최근의 NoSQL 계열의 데이터베이스를 강조하고 있으며, 대용량 처리를 위한 하둡 및 기존의 관계형 데이터베이스의 개선에 대해서도 다룬다. 특히 저자들은 오픈소스 솔루션에 호의적이라는 점을 감안하고 읽으면 도움이 될 것이다.
통계학과 관련해서는 기초적인 통계학 지식과 더불어 기계학습을 소개한다. 기계학습은 최근 구글, MS, 페이스북 등에서 앞다퉈 투자를 확대하고 API를 공개하는 중으로, 이 책에서는 인공신경망이나 서포트 벡터 머신 등의 고급 기법을 소개하지는 않으나 기본적인 개념과 관련 기법을 소개하고 있으므로 기계학습에 대한 이해를 높일 수 있는 출발점 역할은 충분히 할 수 있다.
이 책은 효율적인 데이터 시각화의 바탕이 되는 인지과학적 지식을 설명하며, 저자들의 경험에서 우러나오는 보안 대시보드(상황판) 작성 예제를 통해서 데이터 시각화의 어려움과 문제 해결 과정을 유감없이 드러내고 있다. 마지막으로, 저자가 근무하는 버라이즌(미국의 이동통신사)의 정보보안 부서에서 공개한 보안 사고 데이터 수집을 위한 VERIS 프레임워크 및 VCDB 데이터베이스를 통해서, 분야의 특성상 공개가 어려운 보안 사고 데이터에도 오픈소스의 움직임이 일어나고 있음을 느낄 수 있다.
어쩌면 이 책을 읽고 나면 더 많은 내용을 공부해야 한다는 사실을 깨닫게 될 지도 모른다. 하지만 천 리 길도 한 걸음부터라고 한다. 좋은 나침반이 있으면 천 리 길을 가는 것도 어렵지만은 않다. 이 책이 데이터에 기반한 정보보안 의사결정이라는 목표에 다다르기 위한 좋은 나침반이 되길 희망한다.