Spark から Azure Data Lake Storage Gen2 のファイルを開きたかったのでメモ Pyspark 実行時に依存ライブラリを指定すればインストールしてくれる。 使ってる Spark […]
続きを読む「Spark」カテゴリーアーカイブ
Spark から S3 にアクセスする
Spark から S3 のファイルを開きたかったのでメモ ~/.profile に AWS Access Key と Secret を追加する。 下記の replace_here は正しいキーとシークレット […]
続きを読むSpark から Google Cloud Storage にアクセスする
Spark から GCS のファイルを開きたかったのでメモ gcs-connector-hadoop3-latest.jar をダウンロードして使う。 続いて .profile に GCP Service […]
続きを読むUbuntu 22.04: Spark をインストール
Spark 使うのでメモ。 毎度俺しか使わないのでホームディレクトリに入れる。 とりあえず Hadoop をインストールしておく。 参考: Ubuntu 22.04: Hadoop をインストール 1. ダ […]
続きを読むAzure Databricks (Standard Tier) で ADLS2 にアクセスする
doc には KeyVault + SecretScope 使えって書いてあるけど Standard Tier だと SecretScope 使えんかったのでメモ。 Azure Data Lake Stor […]
続きを読むSpark ScalaのmapとflatMapの動作
Spark始めた初期につまづいたのでメモ。 結果の違いで覚えた。 まずはRDDを作る。 このRDDに対してmap 結果はこれ Array[Array[String]] = Array(Array(Some, People […]
続きを読むSpark ScalaでsortByKeyを降順にする
SparkでreduceByKeyしたあとにsortByKeyで降順にソートしたかったのでメモ sortByKey()の引数にfalseを渡す。
続きを読む