「Spark」カテゴリーアーカイブ

Spark からADLS2 にアクセスする

投稿日 2024-02-19 by 俺

Spark から Azure Data Lake Storage Gen2 のファイルを開きたかったのでメモ Pyspark 実行時に依存ライブラリを指定すればインストールしてくれる。使ってる Spark […]

投稿日 2024-01-17 by 俺

Spark から S3 のファイルを開きたかったのでメモ ~/.profile に AWS Access Key と Secret を追加する。下記の replace_here は正しいキーとシークレット […]

投稿日 2024-01-12 by 俺

Spark から GCS のファイルを開きたかったのでメモ gcs-connector-hadoop3-latest.jar をダウンロードして使う。続いて .profile に GCP Service […]

投稿日 2024-01-12 by 俺

Spark 使うのでメモ。毎度俺しか使わないのでホームディレクトリに入れる。とりあえず Hadoop をインストールしておく。参考: Ubuntu 22.04: Hadoop をインストール 1. ダ […]

投稿日 2021-09-13 by 俺

doc には KeyVault + SecretScope 使えって書いてあるけど Standard Tier だと SecretScope 使えんかったのでメモ。 Azure Data Lake Stor […]

投稿日 2019-06-23 by 俺

Spark始めた初期につまづいたのでメモ。結果の違いで覚えた。まずはRDDを作る。このRDDに対してmap 結果はこれ Array[Array[String]] = Array(Array(Some, People […]

投稿日 2019-06-14 by 俺

SparkでreduceByKeyしたあとにsortByKeyで降順にソートしたかったのでメモ sortByKey()の引数にfalseを渡す。