GreenBuckets という Object Storage を作りました

Masahiro Nagano (2011年5月10日 12:00) | コメント( )

Object Storage とは何かというと、OSSではOpenStack Object StorageとかMogileFS 、Webサービスで使われているところでは mixi の ImageCluster とか livedoor の STF とか、比較にならないけどAmazon S3とかそういったたぐいのものです。しばしば画像のストレージなんかに使われていると思います。今回作ったのは GreenBuckets というもので、mixiのImageClusterの構成をまねしつつ、stfと同じようにバケット単位での操作を可能としています。なんですでにあるのに作ったのかというと、主に「つくってみかったから」ですね。一応目標として

シンプルだけど使える
cpanm でインストールが完了する
できるだけ少ない依存関係
素のMySQLだけで動く
mapping のDBのインデックスサイズをできるだけ小さく保つ
普通のサーバで数億ファイルまで管理可能を目標
Storageは既存のHTTPdを利用する
運用のノウハウを生かす

あたりをあげました。現状動作実績なしなので注意。

ソースコード: https://github.com/kazeburo/GreenBuckets

そんな GreenBuckets の構成ですが

Dispatcher
JobQueue Worker
DAV Storage
MySQL

の4つになります。dispatcher と JobQueue Worker は Perlで構築され、それぞれデーモンとして動作します。DAV StorageはApache mod_dav や Nginx、Perlbal等の既成のHTTPdが利用できます。MySQLはmapping用のデータとJobQueueのQueue等を保存します。

それぞれの役割を図にすると以下のようになります。まず、画像を保存するときから

画像を保存するときには、dispatcherに対して、PUTもしくはPOSTでデータを送ります。PUTだと同じファイル名のファイルに対し上書きができ、POSTだと上書きせずにエラーになります。(1)dispatcher はまず保存ができるノード(DAV Storage)をMySQLに問い合わせます。ノードは決められたレプリカ数のあらかじめ決められた組で構成されています。レプリカ数は2以上で設定可能です。このあたりはmixiのストレージと同じです。次に(2)URL からバケット名を抜き出し、バケットの有効性を確認します。もしバケットがなければ自動で作成されます。 (3) ノードが決まったら、DAVプロトコルを利用してPUTします。自動でディレクトリを作成したりしないので、Apacheのmod_davだと最初に必要分を作成しておいたほうがいいかもしれません。内部のPATHは

http://{node}/\d{2}/\d{2}/sha224_hex( filename + random_id + バケットID)

で構成されます。\d{2} は filename の murmur_hash 値の下4桁です。オブジェクトの保存時にはすべてのノードにコピーするのではなく、2ノードのみにコピーし、残りをキューに任せます(5)。

この2ノードの選択方法は、ノードのIDと内部のPATHのhash値によって決められています。オブジェクトによって一意に決まる順序となります

my @url = sort {
    murmur_hash($a->{node_id} . $a->{path}) <=> murmur_hash($b->{node_id} . $b->{path})
} @...

オブジェクトの取得時もおなじルールを適用するので、キューによってコピーが遅延されたノードにデータを取りにいく可能性を小さくしています。また同じデータはかならず同じノードへアクセスするので、雀の涙ほどかもしれませんがディスクキャッシュの効率をあげることもできます。

(4) データのコピーが終わったら、MySQLにどのノードの組に格納したのかの情報を追加します。その際URLをキーにするのではなく、murmur_hash値を使います。

INSERT INTO objects (fid,bucket_id,rid,gid,filename) 
  VALUES( murmur_hash(filename), バケットID, random_id,ノードグループID , filename);

これはMySQL上のインデックスのサイズを小さく保つのが目的です。murmur_hash は 32bit の UNIT を返すので、DBもINT UNSIGNED(4byte)で済みます。indexはこの fid と bucket_id にのみ張ります。murmur_hash の値は衝突する可能性があるので、index は張りませんが、もとのファイル名も保存し、取得時はかならず確認します。

(5) (6) キューはデータが保存されたノードから一度ファイルを取得してコピーします。もしコピーに失敗したときは、別のノードグループに保存しなおし、MySQLをアップデートします。

次に取得時ですが

dispatcherに対して普通にGETリクエストを送ります。(1)まずPUT時と同じようにバケットを調べます。(2)次にファイル名からデータが保存されているノードを問い合わせます。この際PUT時と同じく、murmur_hashを使います。

SELECT filename,node_id,.. FROM objects WHERE bucket_id = バケットID AND fid = murmur_hash(ファイル名)

取得できたfilenameとリクエストされたファイル名が一致するか確認します。一致したらそのノードのIDと内部PATHで一意に決められた順序でストレージにアクセスし、コンテンツをクライアントに返します。

■使い方

今のところの使い方。そのうちCPANにあげれるようにしたいけど今のところgithubから。試すにはMySQLとPerlが必要です。

$ git clone git://github.com/kazeburo/GreenBuckets.git
$ cd GreenBuckets
$ perl Makefile.PL
$ cpanm --install-deps . # PerlbalとTest::mysqldとかが入るので注意

まず、MySQLにデータベースを作成

$ mysqladmin create greenbuckets
$ ./bin/greenbuckets scheme | mysql greenbuckets

「$ greenbuckets scheme」とすることでスキーマが出力されるのでそれをパイプで流します。

とりあえず、ストレージについてはPerlbalを使ってみます。それぞれのノードは

http://localhost:8080/1/
http://localhost:8080/2/
http://localhost:8080/3/
http://localhost:8080/4/
http://localhost:8080/5/
http://localhost:8080/6/

とトップディレクトリを変更することで代用します。1..3がグループ1、4..6がグループ2とします。これをDBに登録

INSERT INTO `nodes` VALUES (1,1,'http://127.0.0.1:8080/1/',1,1);
INSERT INTO `nodes` VALUES (2,1,'http://127.0.0.1:8080/2/',1,1);
INSERT INTO `nodes` VALUES (3,1,'http://127.0.0.1:8080/3/',1,1);
INSERT INTO `nodes` VALUES (4,2,'http://127.0.0.1:8080/4/',1,1);
INSERT INTO `nodes` VALUES (5,2,'http://127.0.0.1:8080/5/',1,1);
INSERT INTO `nodes` VALUES (6,2,'http://127.0.0.1:8080/6/',1,1);
INSERT INTO `nodes` VALUES (7,3,'http://127.0.0.1:8080/7/',1,1);
INSERT INTO `nodes` VALUES (8,3,'http://127.0.0.1:8080/8/',1,1);
INSERT INTO `nodes` VALUES (9,3,'http://127.0.0.1:8080/9/',1,1);

そして Perlbal を起動します。confは以下のような感じ

CREATE SERVICE static_server
  SET role           = web_server
  SET listen         = 0.0.0.0:8080
  SET docroot        = /tmp/greenbuckets
  SET dirindexing    = 1
  SET enable_delete  = 1
  SET enable_put     = 1
  SET min_put_directory = 0
ENABLE static_server

put/deleteを有効にし、自動でディレクトリも作成するように設定します

$ perlbal -c etc/perlbal.conf

つぎに greenbucketsのconfigをします

$ ./bin/greenbuckets config > config.pl

これで設定ファイルのテンプレートが吐き出されるので、DBのユーザ名、パスワード等を変更します。変更したら dispatcher と jobqueue を起動します。

$ ./bin/greenbuckets dispatcher -c config.pl
$ ./bin/greenbuckets jobqueue -c config.pl

それぞれ起動していればインストール完了です。デフォルトdispatcherが5000番、jobqueueはステータス取得用のデーモンが5101番で起動します

curlを使ってPUTしてみます

$ curl -basic --user admin:admin -X PUT -d "Mary Poppins" \
    http://localhost:5000/test/supercalifragilisticexpialidocious
OK

OKが返って来ました。実際保存されているか。確認します

$ find /tmp/greenbuckets -type f
/tmp/greenbuckets/1/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625
/tmp/greenbuckets/2/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625
/tmp/greenbuckets/3/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625

ノードグループ1の、ノード1、2、3に保存されているのが確認できました。次に実際に GET してみます

$ curl -v http://localhost:5000/test/supercalifragilisticexpialidocious
...
< HTTP/1.0 200 OK
< Date: Mon, 09 May 2011 14:49:53 GMT
< Server: Plack::Handler::Starlet
< Content-Type: text/plain
< Last-Modified: Mon, 09 May 2011 14:46:57 GMT
<
* Closing connection #0
Mary Poppins

ちゃんと保存したデータが得られました。ちゃんと動きそうです。ほっ。

今後の課題としては、CASをサポートしたいのと、遠隔地ノードを考えたいのと、実績と運用のドキュメントかな。もし社内外で興味のある方がいましたらご連絡ください。

Amazon.co.jp ウィジェット

GreenBuckets という Object Storage を作りました\n\nObject Storage とは何かというと、OSSではOpenStack Object StorageとかMogileFS 、Webサービスで使われているところでは mixi の [ImageCluster](http://alpha.mixi.co.jp/blog/?p=1377) とか livedoor の [STF](http://blog.livedoor.jp/techblog/techsemi/techsemi20100306_01_stf_ikebe.pdf) とか、比較にならないけどAmazon S3とかそういったたぐいのものです。しばしば画像のストレージなんかに使われていると思います。今回作ったのは GreenBuckets というもので、mixiのImageClusterの構成をまねしつつ、stfと同じようにバケット単位での操作を可能としています。なんですでにあるのに作ったのかというと、主に「つくってみかったから」ですね。一応目標として\n\n- シンプルだけど使える\n- cpanm でインストールが完了する\n- できるだけ少ない依存関係\n- 素のMySQLだけで動く\n- mapping のDBのインデックスサイズをできるだけ小さく保つ\n- 普通のサーバで数億ファイルまで管理可能を目標\n- Storageは既存のHTTPdを利用する\n- 運用のノウハウを生かす\n\nあたりをあげました。現状動作実績なしなので注意。\n\nソースコード: [https://github.com/kazeburo/GreenBuckets](https://github.com/kazeburo/GreenBuckets)\n\nそんな GreenBuckets の構成ですが\n\n- Dispatcher\n- JobQueue Worker\n- DAV Storage \n- MySQL\n\nの4つになります。dispatcher と JobQueue Worker は Perlで構築され、それぞれデーモンとして動作します。DAV StorageはApache mod\\_dav や Nginx、Perlbal等の既成のHTTPdが利用できます。MySQLはmapping用のデータとJobQueueのQueue等を保存します。\n\nそれぞれの役割を図にすると以下のようになります。まず、画像を保存するときから\n\n \n\n画像を保存するときには、dispatcherに対して、PUTもしくはPOSTでデータを送ります。PUTだと同じファイル名のファイルに対し上書きができ、POSTだと上書きせずにエラーになります。(1)dispatcher はまず保存ができるノード(DAV Storage)をMySQLに問い合わせます。ノードは決められたレプリカ数のあらかじめ決められた組で構成されています。レプリカ数は2以上で設定可能です。このあたりはmixiのストレージと同じです。次に(2)URL からバケット名を抜き出し、バケットの有効性を確認します。もしバケットがなければ自動で作成されます。\n(3) ノードが決まったら、DAVプロトコルを利用してPUTします。自動でディレクトリを作成したりしないので、Apacheのmod\\_davだと最初に必要分を作成しておいたほうがいいかもしれません。内部のPATHは\n\n http://{node}/\\d{2}/\\d{2}/sha224_hex( filename + random_id + バケットID)\n\nで構成されます。\\d{2} は filename の murmur_hash 値の下4桁です。オブジェクトの保存時にはすべてのノードにコピーするのではなく、2ノードのみにコピーし、残りをキューに任せます(5)。\n\nこの2ノードの選択方法は、ノードのIDと内部のPATHのhash値によって決められています。オブジェクトによって一意に決まる順序となります\n\n my @url = sort {\n murmur_hash(\$a->{node_id} . \$a->{path}) <=> murmur_hash(\$b->{node_id} . \$b->{path})\n } @...\n\nオブジェクトの取得時もおなじルールを適用するので、キューによってコピーが遅延されたノードにデータを取りにいく可能性を小さくしています。また同じデータはかならず同じノードへアクセスするので、雀の涙ほどかもしれませんがディスクキャッシュの効率をあげることもできます。\n\n(4) データのコピーが終わったら、MySQLにどのノードの組に格納したのかの情報を追加します。その際URLをキーにするのではなく、murmur_hash値を使います。\n\n INSERT INTO objects (fid,bucket_id,rid,gid,filename) \n VALUES( murmur_hash(filename), バケットID, random_id,ノードグループID , filename);\n\nこれはMySQL上のインデックスのサイズを小さく保つのが目的です。murmur\\_hash は 32bit の UNIT を返すので、DBもINT UNSIGNED(4byte)で済みます。indexはこの fid と bucket\\_id にのみ張ります。murmur\\_hash の値は衝突する可能性があるので、index は張りませんが、もとのファイル名も保存し、取得時はかならず確認します。\n\n(5) (6) キューはデータが保存されたノードから一度ファイルを取得してコピーします。もしコピーに失敗したときは、別のノードグループに保存しなおし、MySQLをアップデートします。\n\n\n次に取得時ですが\n\n\n \n\ndispatcherに対して普通にGETリクエストを送ります。(1)まずPUT時と同じようにバケットを調べます。(2)次にファイル名からデータが保存されているノードを問い合わせます。この際PUT時と同じく、murmur_hashを使います。\n\n SELECT filename,node_id,.. FROM objects WHERE bucket_id = バケットID AND fid = murmur_hash(ファイル名)\n\n取得できたfilenameとリクエストされたファイル名が一致するか確認します。一致したらそのノードのIDと内部PATHで一意に決められた順序でストレージにアクセスし、コンテンツをクライアントに返します。\n\n\n■使い方\n\n今のところの使い方。そのうちCPANにあげれるようにしたいけど今のところgithubから。試すにはMySQLとPerlが必要です。\n\n \$ git clone git://github.com/kazeburo/GreenBuckets.git\n \$ cd GreenBuckets\n \$ perl Makefile.PL\n \$ cpanm --install-deps . # PerlbalとTest::mysqldとかが入るので注意\n\nまず、MySQLにデータベースを作成\n\n \$ mysqladmin create greenbuckets\n \$ ./bin/greenbuckets scheme | mysql greenbuckets\n\n「\$ greenbuckets scheme」とすることでスキーマが出力されるのでそれをパイプで流します。\n\nとりあえず、ストレージについてはPerlbalを使ってみます。それぞれのノードは\n\n http://localhost:8080/1/\n http://localhost:8080/2/\n http://localhost:8080/3/\n http://localhost:8080/4/\n http://localhost:8080/5/\n http://localhost:8080/6/\n\nとトップディレクトリを変更することで代用します。1..3がグループ1、4..6がグループ2とします。これをDBに登録\n\n INSERT INTO `nodes` VALUES (1,1,'http://127.0.0.1:8080/1/',1,1);\n INSERT INTO `nodes` VALUES (2,1,'http://127.0.0.1:8080/2/',1,1);\n INSERT INTO `nodes` VALUES (3,1,'http://127.0.0.1:8080/3/',1,1);\n INSERT INTO `nodes` VALUES (4,2,'http://127.0.0.1:8080/4/',1,1);\n INSERT INTO `nodes` VALUES (5,2,'http://127.0.0.1:8080/5/',1,1);\n INSERT INTO `nodes` VALUES (6,2,'http://127.0.0.1:8080/6/',1,1);\n INSERT INTO `nodes` VALUES (7,3,'http://127.0.0.1:8080/7/',1,1);\n INSERT INTO `nodes` VALUES (8,3,'http://127.0.0.1:8080/8/',1,1);\n INSERT INTO `nodes` VALUES (9,3,'http://127.0.0.1:8080/9/',1,1);\n\nそして Perlbal を起動します。confは以下のような感じ\n\n\n CREATE SERVICE static_server\n SET role = web_server\n SET listen = 0.0.0.0:8080\n SET docroot = /tmp/greenbuckets\n SET dirindexing = 1\n SET enable_delete = 1\n SET enable_put = 1\n SET min_put_directory = 0\n ENABLE static_server\n\nput/deleteを有効にし、自動でディレクトリも作成するように設定します\n\n \$ perlbal -c etc/perlbal.conf\n\nつぎに greenbucketsのconfigをします\n\n \$ ./bin/greenbuckets config > config.pl\n\nこれで設定ファイルのテンプレートが吐き出されるので、DBのユーザ名、パスワード等を変更します。変更したら dispatcher と jobqueue を起動します。\n\n \$ ./bin/greenbuckets dispatcher -c config.pl\n \$ ./bin/greenbuckets jobqueue -c config.pl\n\nそれぞれ起動していればインストール完了です。デフォルトdispatcherが5000番、jobqueueはステータス取得用のデーモンが5101番で起動します\n\ncurlを使ってPUTしてみます\n\n \$ curl -basic --user admin:admin -X PUT -d \"Mary Poppins\" \\\n http://localhost:5000/test/supercalifragilisticexpialidocious\n OK\n\nOKが返って来ました。実際保存されているか。確認します\n\n \$ find /tmp/greenbuckets -type f\n /tmp/greenbuckets/1/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625\n /tmp/greenbuckets/2/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625\n /tmp/greenbuckets/3/88/85/d5e9c13ea8cc4fc218d54c6a3f55a663d52ea3f55f0d7c4ccca3e625\n\nノードグループ1の、ノード1、2、3に保存されているのが確認できました。次に実際に GET してみます\n\n \$ curl -v http://localhost:5000/test/supercalifragilisticexpialidocious\n ...\n < HTTP/1.0 200 OK\n < Date: Mon, 09 May 2011 14:49:53 GMT\n < Server: Plack::Handler::Starlet\n < Content-Type: text/plain\n < Last-Modified: Mon, 09 May 2011 14:46:57 GMT\n <\n * Closing connection #0\n Mary Poppins\n\nちゃんと保存したデータが得られました。ちゃんと動きそうです。ほっ。\n\n\n今後の課題としては、CASをサポートしたいのと、遠隔地ノードを考えたいのと、実績と運用のドキュメントかな。もし社内外で興味のある方がいましたらご連絡ください。\n