알라딘

헤더배너
상품평점 help

분류

이름:레자울 카림 (Rezaul Karim)

최근작
2018년 12월 <빅데이터 분석을 위한 스칼라와 스파크>

대용량 머신 러닝과 스파크

머신 러닝의 핵심은 원시 데이터를 정보로, 나아가 실행 가능한 지능으로 변환하는 알고리즘과 관련 있다. 머신 러닝은 빅데이터의 예측 분석에 적합하다. 따라서 머신 러닝이 없었다면 이 거대한 정보의 흐름을 따라잡기란 거의 불가능했을 것이다. 비교적 새로운 최근 기술인 스파크(Spark)는 빅데이터 엔지니어와 데이터 과학자들에게 좀 더 빠르고 사용하기 쉬운 강력한 기능과 통합 엔진을 제공한다. 이로 인해 다양한 분야의 학습자들이 각자의 머신 러닝 문제를 상호작용하면서 훨씬 더 큰 규모로 해결할 수 있게 됐다. 이 책은 데이터 과학자, 엔지니어, 연구원이 강력한 머신 러닝 모델을 빌드하기 위해 데이터 집약적 환경에서 거대한 데이터 클러스터들을 처리하는 방법을 배워 머신 러닝을 개발하고 대규모로 배포할 수 있도록 설계됐다. 이 책은 상향식 접근 방식으로 구성돼 스파크와 ML의 기초부터 시작한다. 그리고 피처 엔지니어링으로 데이터를 탐색하고, 확장 가능한 ML 파이프라인을 구축한 후, 이들을 새로운 데이터와 문제 유형에 맞게 튜닝하고 조정한다. 마지막으로 모델 빌드에서 배포로 이어진다. 좀 더 명확하게 설명하기 위해 머신 러닝과 스파크로 하는 프로그래밍에 관해 최소한의 지식만 갖춘 독자라도 예제를 따라가며 실제 머신 러닝 문제와 솔루션을 향해 나아갈 수 있도록 구성했다.

빅데이터 분석을 위한 스칼라와 스파크

데이터가 지속적으로 증가하면서 데이터를 기반으로 점점 더 복잡한 결정을 내릴 필요성이 생겼다. 또한 빅데이터는 큰 장애물을 생성하고, 기업은 기존 분석 방법을 사용해 적시에 통찰력을 얻지 못하고 있다. 빅데이터 영역은 분석 프레임워크와 많은 관련이 있고, 분석 프레임워크의 범위는 해당 프레임워크가 처리할 수 있는 것에 따라 정의된다. 수백만 방문자의 클릭 스트림에서 온라인 광고 게재 위치를 최적화하기 위해 면밀히 조사하거나, 사기 신호를 식별하기 위해 수십억 건의 거래를 분석하거나, 머신 러닝과 그래프 처리 같은 고급 분석의 필요가 있든지 간에 엄청난 데이터 용량으로부터 자동으로 통찰력을 얻는 방법이 더 분명해지고 있다. 모든 학계와 산업 분야에서 빅데이터 처리, 분석, 데이터 과학 분야의 사실상 표준인 아파치 스파크는 머신 러닝과 그래프 처리 라이브러리를 제공하고 있고, 기업에서 확장성이 뛰어난 클러스터링 컴퓨터 파워로 복잡한 문제를 쉽게 해결할 수 있다. 스파크는 스칼라를 사용해 분산된 프로그램을 작성하는 것을 스파크를 사용한 일반 프로그램을 작성하는 것처럼 느껴지게 한다. 스파크는 ETL 파이프라인에 성능을 크게 향상시키고 맵리듀스 프로그래머가 매일 하둡 프로그래밍을 하다 직면하는 어려움을 경감시킨다. 이 책에서는 스파크와 스칼라를 사용해 머신 러닝, 그래프 처리, 스트리밍, SQL을 스파크에 전달하는 기능을 사용해 최첨단 고급 데이터 분석을 수행하고 MLlib, ML, SQL, GraphX, 기타 라이브러리를 사용한다. 먼저 스칼라로 시작한 후, 스칼라를 살펴본다. 마지막으로 스파크와 스칼라로 빅데이터 분석하는 고급 주제를 다룬다. 부록에서는 SparkR, PySpark, 아파치 제플린, 인메모리 Alluxio에 대한 스칼라 지식을 확장하는 방법을 설명한다. 이 책은 처음부터 끝까지 읽을 필요가 없다. 얻고 싶은 지식이나 관심이 있는 장으로 건너뛰면 된다. 즐겁게 책을 읽기 바란다!

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자