Data Engineering
2024. 3. 15.
Apache Spark 기본 정리
Apache Spark (스파크)란? 대규모 데이터 처리를 위한 오픈 소스 통합 컴퓨팅 엔진 Hadoop의 속도적 한계를 극복하기 위하여 2009년 등장 분산 데이터 처리 작업을 빠르고 효율적으로 수행할 수 있는 엔진 제공 빅데이터 어플리케이션 개발에 필요한 통합 플랫폼을 제공하는 것이 핵심 목표 (스파크 하나로 모든 처리를 마무리) 스파크 코어 및 에코시스템 스파크가 제공하는 모든 기능들은 스파크 코어 위에 구축되어 있음 필수 I/O 기능을 담당함 스파크 클러스터의 역할을 프로그래밍하고 관찰, 인메모리 연산 기능을 제공하여 빠른 속도를 제공 인메모리 연산: 데이터를 하드디스크에 저장하고 관리하는 것이 아닌, 전체 데이터를 메모리에 적재하여 사용 장점: 고속처리 가능 (네트워크나 디스크보다 10~100배..