chefの辛み

※注: chefがクソだというつもりは毛頭なくて、我々のツールの選定や運用の方法が間違っている気がするという話です

現在、社内の構成管理ツールにはchefを使っています。使い始めて一年ちょっと経つんですが、色々と辛いと感じる部分が出てきたのでまとめておきます。

前提

ノードの数は150程度、種類は15程度
cookbookは40程度
chef serverを使用
chef-clientの実行は手動で行っている。意図しない変更が本番に入るのを防ぐため。
一部まだの部分はあるけど大体の構成の管理はchefに移行出来ている
まだの部分もchef管理へ移行することが推奨されている
運用で必要になることが多いので、サーバーでの直接の変更は禁止されていない

辛み

chef-clientが遅い

今適当なサーバーで測ったら、適用するものがない状態で20秒弱かかりました。実行前にwhy runで差分を確認するようにしているので、この時間分は必ず待たされることになります。

時間がかかっているcookbooksのcompile、ついでyumなどの一部遅いresourceな感じです。後者はしょうがない気もしますが。

最終的にどういう状態になるか把握しにくい

chefは大変柔軟に設定ができるんですが、その半面、結局サーバーがどういう状態になる設定なのか、chefリポジトリの内容を眺めているだけでは分かりにくくなっているように感じます。

分かりにくくなる要因としては、以下のようなところでしょうか。

run_listが複数箇所(node, role)で設定できる
run_listに設定できる要素が複数(role, recipe)ある
recipeを集約する方法が複数(run_list, include_recipe)ある
attributeの設定箇所が複数ある
内部DSLなのでrubyで何でもできてしまう

chefのリポジトリを見通しのいい状態に保つためには利用方法に合わせた運用ルールをチームで共有する必要があるのではないかと思うのですが、そもそもコードに残らない運用を減らすために構成管理ツールを導入したので、そういったルールは最小限に留めたいです。berkshelfなどの運用方法をある程度強制するツールを導入すれば楽になるかも。

node, roleの内容がweb UIから設定できる

言いがかりなんですが、node、roleはweb UIから設定できるので、chefリポジトリにない設定を入れてしまうことが可能です。そうなってしまうと、サーバーの状態の追跡が、chefリポジトリのみからでは分かりにくいだけでなく不可能になってしまう。運用ルールで禁止すればいいんですが同上。

その他

他、細かいところだと

run_listの一部の適用が若干やりにくい
変更したrecipeがどのnodeに適用されるかが分かりにくい (knifeのクエリでできるかも。利用してないのですが。）
chefリポジトリの状態がgitとchef serverの二重管理になっているのでまとめたい。hookかけてuploadしてもいいかもしれない。

まとめ

この記事を書いていて思いついたのはこんなところでしょうか。思いつくままに書いたので余りまとまったないですが。

冒頭に書いたようにdisるつもりは全くなくて、むしろそのやり方間違っているからこうしろというのを教えて欲しいです。

前提

辛み

chef-clientが遅い

最終的にどういう状態になるか把握しにくい

node, roleの内容がweb UIから設定できる

その他

まとめ

Comments