본문 바로가기

Data Engineering

Apache Spark 로컬 환경 구성

사전 요구 사항: Python

1. 자바 설치

1) 자바 다운로드 및 경로 지정
https://www.oracle.com/in/java/technologies/downloads/
D:\jdk-21.0.2

 

2) 시스템 변수 편집 (JAVA_HOME)

시스템 환경 변수 편집 -> 시스템 변수 새로 만들기

 

3) Path 편집 (시스템 환경 변수에서 Path 내에 %JAVA_HOME%\bin 추가)

 

4) java 정상 설치 여부 확인 (java -version)

 

2. Pyspark 설치

https://spark.apache.org/downloads.html

1) 스파크 다운로드 및 경로 지정

https://www.oracle.com/in/java/technologies/downloads/

D:\spark-3.5.0-bin-hadoop3

 

2) 시스템 변수 편집 (SPARK_HOME)

 

3) Hadoop (winutils.exe) 다운로드 및 경로 지정

https://github.com/cdarlint/winutils/tree/master

D:\hadoop-3.3.5

 

4) 시스템 변수 편집 (HADOOP_HOME)

 

5) Path 편집 (%SPARK_HOME%\bin; %HADOOP_HOME%\bin 추가

 

6) pyspark 정상 설치 여부 확인 (pyspark)

 

Pyspark 예시 코드 (Python 실행 후)

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Basics').getOrCreate()
myRange = spark.range(1000).toDF('number')
divisBy2 = myRange.where('number % 2 = 0')
print(myRange.count()) # 1000
print(divisBy2.count()) # 500

'Data Engineering' 카테고리의 다른 글

Apache Spark 기본 정리  (0) 2024.03.15
Apache Hive 정리  (0) 2024.01.14