Spark 使うのでメモ。
毎度俺しか使わないのでホームディレクトリに入れる。
とりあえず Hadoop をインストールしておく。
参考: Ubuntu 22.04: Hadoop をインストール
1. ダウンロード
Apache 公式サイトでバージョンを選んでダウンロードする。
spark-3.4.2-bin-hadoop3.tgz を選んだ。
2. インストール
続いてインストール
tar -zxf spark-3.4.2-bin-hadoop3.tgz mv spark-3.4.2-bin-hadoop3 ~/spark
.profile に環境変数を追加
# vim ~/.profile export SPARK_HOME=$HOME/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export PYSPARK_PYTHON=/usr/bin/python3
追記したら source で読み込む
source ~/.profile
3. 起動
Master と Worker を起動する。
start-master.sh
start-worker.sh spark://localhost:7077
これで起動完了。
あとは、 spark-shell または pyspark コマンドで対話シェルを起動してお手軽に使う。