본문 바로가기

bbomi

Notice

Recent Posts

Popular Posts

Calendar

Tags

더보기

Archives

Spark

Apache Spark 로컬 환경 구성

Data Engineering 2024. 3. 26. Apache Spark 로컬 환경 구성 사전 요구 사항: Python 1. 자바 설치 1) 자바 다운로드 및 경로 지정 https://www.oracle.com/in/java/technologies/downloads/ D:\jdk-21.0.2 2) 시스템 변수 편집 (JAVA_HOME) 시스템 환경 변수 편집 -> 시스템 변수 새로 만들기 3) Path 편집 (시스템 환경 변수에서 Path 내에 %JAVA_HOME%\bin 추가) 4) java 정상 설치 여부 확인 (java -version) 2. Pyspark 설치 https://spark.apache.org/downloads.html 1) 스파크 다운로드 및 경로 지정 https://www.oracle.com/in/java/technologies/downloads/ D:\spark-3.5..

Apache Spark 기본 정리

Data Engineering 2024. 3. 15. Apache Spark 기본 정리 Apache Spark (스파크)란? 대규모 데이터 처리를 위한 오픈 소스 통합 컴퓨팅 엔진 Hadoop의 속도적 한계를 극복하기 위하여 2009년 등장 분산 데이터 처리 작업을 빠르고 효율적으로 수행할 수 있는 엔진 제공 빅데이터 어플리케이션 개발에 필요한 통합 플랫폼을 제공하는 것이 핵심 목표 (스파크 하나로 모든 처리를 마무리) 스파크 코어 및 에코시스템 스파크가 제공하는 모든 기능들은 스파크 코어 위에 구축되어 있음 필수 I/O 기능을 담당함 스파크 클러스터의 역할을 프로그래밍하고 관찰, 인메모리 연산 기능을 제공하여 빠른 속도를 제공 인메모리 연산: 데이터를 하드디스크에 저장하고 관리하는 것이 아닌, 전체 데이터를 메모리에 적재하여 사용 장점: 고속처리 가능 (네트워크나 디스크보다 10~100배..

이전 1 다음

티스토리툴바