Spark

[Spark] 빅데이터 분산처리를 위한 PySpark 설치와 PostgreSQL 연결하고 세션 생성하기.

2025.02.02· AI, 머신러닝

PySpark 간단 소개빅데이터와 머신러닝 환경에서는 방대한 데이터를 빠르게 처리하고, 효율적으로 분산 연산을 수행하는 것이 핵심이다.Spark는 In-Memory 분산 처리 기능을 제공하여, 기존 Hadoop의 MapReduce보다 최대 100배 빠른 속도로 데이터를 처리할 수 있다.또한, 병렬 처리 기반의 데이터 분산 저장 및 계산 기능을 제공하여 대규모 데이터셋을 활용한 머신러닝 모델 학습을 더욱 효율적으로 수행할 수 있다.PySpark는 Spark의 Python API로, Pandas, NumPy, Scikit-learn 등 Python의 데이터 분석 라이브러리와의 연동이 가능하다.머신러닝 프로젝트에서 PySpark를 사용하면 분산 컴퓨팅을 활용해 모델 학습 속도를 크게 향상시킬 수 있으며, ML..

티스토리툴바