photoncloud-monorepo/docs/architecture/baremetal-mesh-migration.md at d3d74995e87b83b9f87e9602bf987827ee3904b4

centra d3d74995e8

2025-12-24 18:21:55 +09:00

ベアメタル向けサービスメッシュ移行計画

本ドキュメントでは、既存の PhotonCloud サービス群を、 Deployer/NodeAgent＋mTLS Agent ベースのサービスメッシュ風アーキテクチャに段階的に移行するためのマイルストーンを定義する。

baremetal/first-boot:
- 役割: 初回ブート時のクラスタ join・基本サービス起動。
- 常駐ではなく oneshot 系 systemd unit 群。
deployer/:
- 役割: Phone Home によるノード登録と最低限の Node/Config 管理。
- まだ常駐型 NodeAgent や ServiceInstance Reconcile は未実装。
mTLS:
- 各サービスごとに ad-hoc な TLS/mTLS 設定が存在。
- dev ではしばしば平文／-k での接続。

目的: Chainfire をクラスタ状態のソース・オブ・トゥルースにする土台を作る。

M1-1: specifications/deployer/README.md に定義した Cluster / Node / Service / ServiceInstance / MTLSPolicy モデルを Chainfire 上に作成。
- PoC 用に photoncloud-ctl 的な小さな CLI で CRUD を実装。
M1-2: deployer-server が NodeInfo を Chainfire にも書き出すように拡張。
- 既存のローカルストレージ（ファイル or メモリ）は残しつつ、 Chainfire を optional backend として追加。
M1-3: 管理 API に「サービス配置」を表すエンドポイントを追加。
- 例: /api/v1/admin/services/{service}/instances で、 Node とインスタンス数を指定できるようにし、内部で ServiceInstance を生成。

目的: 各ノードで Desired State → Observed State の Reconcile を開始する。

M2-1: plasmacloud-reconciler を NodeAgent として再定義/拡張。
- --node-id と --chainfire-endpoint を引数に取り、無限ループで動作。
M2-2: NodeAgent が自ノードの Node と ServiceInstance を watch し、ログ出力のみ行う「read-only モード」を実装。
- まだ systemd 操作やプロセス起動はしない。
M2-3: systemd 統合（ベアメタルノード側）。
- NixOS モジュールで services.node-agent.enable = true; を追加。
- 既存 first-boot の後に NodeAgent を常駐させる。

目的: NodeAgent が実際にサービスプロセスを起動/停止できるようにする。

M3-1: 各サービスの NixOS モジュールを見直し、 enable = false をデフォルトにした上で、 NodeAgent から systemctl start/stop で制御しやすい形に整理。
M3-2: NodeAgent 内に「ServiceInstance → systemd unit 名」のマッピングを追加。
- 例: service="chainfire" → unit="chainfire.service"
- 単純な 1:1 マッピングからスタート。
M3-3: Reconcile ループにプロセス制御を追加。
- Desired にあるのに起動していなければ systemctl start。
- Desired にないのに起動していれば systemctl stop。
M3-4: 起動結果/ヘルスを Chainfire にフィードバック。
- instances/{service}/{instance_id}.state を ready / unhealthy に更新。

目的: サービスメッシュの「形」を先に作り、まだ TLS を強制しない。

M4-1: 新クレート mtls-agent（名称要検討）を作成。
- 最初は平文 TCP/HTTP プロキシとして実装。
- ローカル app_port ←→ mesh_port の中継のみを行う。
M4-2: NodeAgent が ServiceInstance 起動時に、 mTLS Agent を隣に起動するフローを追加。
- config ファイル生成 → systemctl start mtls-agent@{service} など。
M4-3: Chainfire 上の ServiceInstance に mesh_port を登録。
- 他サービスからの接続先として mesh_port を使う用意をする。
M4-4: 一部サービス間通信（例: apigateway → creditservice）を mTLS Agent 経由に切り替える PoC。
- アプリ側は client-common 抽象を通じて http://127.0.0.1:<mesh_control_port> を叩く。

目的: mTLS/TLS/平文を Chainfire のポリシーで切り替えられるようにする。

M5-1: mTLS Agent に TLS/mTLS 機能を実装。
- dev では平文、stg/prod では mTLS をデフォルトに。
- 証明書/鍵は既存の T031 TLS 自動化の成果物を利用。
M5-2: Chainfire の MTLSPolicy を反映するロジックを Agent に実装。
- (source_service, target_service) と Cluster の environment からモード決定。
M5-3: Deployer から MTLSPolicy を編集できる管理 API を追加。
- 例: /api/v1/admin/mtls/policies。
M5-4: ステージング環境で「全経路 mTLS on」を試験。
- 問題があればポリシーを permissive や plain に戻せることを確認。

目的: サービスコードから mTLS 実装を徐々に削除し、Agent に集約する。

M6-1: 既存の各サービスから「直接 TLS ソケットを開いているコード」を列挙。
- grep ベースで rustls, native-tls, tls 関連を洗い出し。
M6-2: 重要なサービスから順に、通信経路を client-common 抽象経由に置き換え。
- まずは dev 環境でのみ mTLS Agent 経由にする feature flag を導入。
M6-3: 本番で mTLS Agent 経由通信が安定したら、対象サービスから ad-hoc な TLS 設定を削除。
M6-4: 最終的に、サービス側は「平文 HTTP/gRPC over localhost」という前提のみを持ち、セキュリティ/暗号化はすべて mTLS Agent に移譲。

各フェーズは Chainfire のキー空間と Deployer 設定で制御 できるようにする。
- 例: NodeAgent を停止すれば、従来通り first-boot ベースの静的構成に戻せる。
- 例: MTLSPolicy を削除すれば、Agent は平文モードに戻る（または完全停止）。
NodeAgent/mTLS Agent を導入するときは、必ず「全てのノードで Agent を止めると従来構成に戻る」状態を維持したまま進める。