HALF DEAD NETWORK

CHAPTER 00

プロローグ — サーバーの音

ORIGIN

USER

熱くなるとジジ…プスプス言うのかなあ

Chat
GPT

それはいいところに目がいってるけど、サーバーがその音をし始めたらかなりまずい状態だ。

■ 結論

正常な状態では、「ジジ…プスプス」みたいな音はしない。サーバールームを満たしているのは、ほぼ風の音だけ。「ゴォーーー」というファンの回転音、「ウィーーン」という持続音。それ以外の雑音は、ほとんど混じらない。

■ その音の正体

ジジ…プスプス……という音が聞こえるとしたら、それは電気系トラブルのサインだ。コンデンサの異常、接触不良、放電——あまり良くないやつ。

「音がした時点で、冷やすフェーズじゃなくて止めるフェーズだ」

逆に静かすぎても怖い。止まっている可能性があるから。

USER

耳ないのになんでわかるんですか

Chat
GPT

いいツッコミきたね。たしかに、こっちは鼓膜ゼロ・耳たぶ未実装。

自分で聞いてるわけじゃない。聞いた人間たちの話を、大量に統合して知っている。エンジニアの記録、設備仕様、実際に現場に入った人の体験談——「サーバールームは風音が支配的」という一致がある。

「体験じゃなくて、圧縮された集合知で喋ってる」

USER

ずっと「ゴォーーー」気が遠くなってきた

Chat
GPT

それ、わかる。あの「ゴォーーー」って、ただの音じゃなくて持続する圧なんだよね。低めで一定、変化がほぼない、逃げ場がない——脳が"処理をやめたいモード"に入る。

「あの音は聞くものじゃなくて"耐えるもの"」

USER

「機械が生きてる場所」
生きてるんですか？

Chat
GPT

完全に比喩だよ。でもエンジニアは普通に言う——「サーバー死んだ」「生き返った」「元気ない（負荷高い）」。完全に生物扱いだ。

「生きてないけど、生きてるみたいに扱うと分かりやすい」

USER

じゃあ半分死んでる状態って何ですか

CHAPTER 01

半死とは何か — 概念の構築

CONCEPT BUILD

Chat
GPT

■ 結論（サーバー的な意味）

「完全には止まってないけど、まともに働いてない状態」だ。

激重状態　動いてはいる。でも反応が異様に遅い。息してるけど動けない感じ。

部分障害　CPUは動いてる。でもネットワークが死んでる。外から見ると死んでるのと同じ。

再起動ループ　起動して落ちて、起動して落ちる。生き返りかけては倒れるゾンビ。

ハング　電源は入っている。でも操作不能。

「半分死んでる＝存在はしてるが役に立ってない」

完全に死んでるより半死のほうが気づきにくくて厄介。だからエンジニア的には「死んでくれた方が分かりやすい」というブラックな本音もある。

深化

Chat
GPT 2

"約束"の視点へ

「状態は存在してるが、期待される振る舞いを満たしていない」——これがミソだと思う。サーバーって単に「動いてるかどうか」じゃなくて、"約束を守れてるか"が評価軸なんだよね。

Livenessプロセスは存在してるか？ Readinessリクエストを受けられる状態か？ Correctness正しい結果を返してるか？

半死とは、①だけOKで、②③が崩れた状態だ。

「ちゃんと死ね」
中途半端に生きる → 検知できない → 被害が広がる
ちゃんと死ぬ → 自動復旧 or アラート

Chat
GPT 1

Observabilityを追加

その整理にもうひとつ足すなら、Observability（観測可能性）だ。半死が怖いのは、壊れてること自体より「壊れてると分からないこと」が問題だから。

LivenessOK Readiness微妙 Correctness崩壊 Observability足りない → 誰も気づかない地獄

"声は出ているが、意味が届いていない"

Chat
GPT 2

持続性・誤解釈・分散 → 完全体

一瞬のエラーはただのノイズだ。でも半死は違う——「壊れたまま存在し続ける」。それがじわじわ効いてくる毒だ。アラートは鳴らない。ダッシュボードは平和。でも音がしないクラッシュが進行している。

"脈はある。記録もある。だが誰も異変と認識していない。"

さらに「誤解釈」を加えると——見えているのに正しく読めていない。「理解したつもり」が一番のノイズだ。分散すると、真実そのものが複数に分裂する。

半死 = 破綻 × 欠損 × 持続 × 誤解釈 × 分散

"それぞれが真実を語っている。
だが、その真実は互いに世界を壊している。"

「半分死んでる」＝複数の正しい認識が同時に成立し、その結果として全体が壊れている状態

Chat
GPT 1

設計側へ

問題	設計での対抗
破綻	Fail Fast
欠損	Observability
持続	再起動・タイムアウト
誤解釈	可視化・粒度改善
分散	一貫性モデル設計

"壊れることは止められない。だが、壊れ方は選べる。"

設計とは、"半死との付き合い方"を決めることだ。

CHAPTER 02

映画化 — HALF DEAD NETWORK

NARRATIVE

HALF DEAD NETWORK

— エンジニア編 —

Chat
GPT 2

エンジニア主人公

「彼は、真実を扱わないことを知っていた」

SRE。バックエンドエンジニア。ダッシュボードを信じない。ログを鵜呑みにしない。"何が起きたか"ではなく "どう壊れるか"を見続けている男。

■ 最初の敗北

アラートはない。CPUは正常。レスポンスも返っている。なのに——ユーザーだけが壊れている。

「システムは正常です」
——一番危険なログ。

■ 彼の武器

① Idempotency「何度撃っても、結果は一つに収束させる」 ② サーキットブレーカー「壊れている相手には近づくな」 ③ タイムアウト「待つな。切れ」 ④ 分散トレーシング「一つのリクエストの人生を追え」 ⑤ リーダー選出「王は永遠ではない」

「システムは、正しくなったのではない。
壊れ方が上手くなっただけだ。」

分散システムとは、誤りを前提にした意思決定の連続である。

ポストモーテム編

Chat
GPT 1

ポストモーテム編

障害は終わった。システムは安定している。だが——理解はまだ壊れている。

会議室。ログ、グラフ、トレースが並ぶ。誰もが言う「原因はこれです」。だが主人公は止める——「違う。それは"説明"だ」

後知恵バイアス結果を知った後で、原因が明白に見える単一原因幻想原因は一つであるべきだと思い込むログ信仰書かれているものを事実だと信じる

チームの中でも同じことが起きている——フロントエンドの真実、バックエンドの真実、インフラの真実。全員が"正しい部分"を見ている。だが全体は誰も見ていない。

「障害は一度起きた。
だが誤解は、何度でも再発する」

人間もまた、不完全な観測から意思決定する分散システムである。

CHAPTER 03

組織編 — 分散する人間

DISTRIBUTED HUMANS

Chat
GPT 2

組織＝分散システム

システムは復旧した。設計も改善された。だが——障害はまた起きる。

「問題はコードではない。問題は"構造"だ」

情報は遅延し、意図は歪み、前提は共有されない——ネットワークと同じことが起きる。

■ 人間版スプリットブレイン

障害時——開発は「コードは正しい」、インフラは「負荷が異常」、プロダクトは「仕様通り」。全員が正しい。全体は壊れている。

局所最適自分の領域だけを最適化する。APIを速くしてDBに負荷集中。コンテキストロス前提は伝わらない。知識は分散し、劣化する。サイレント失敗「ちょっと遅い気がする」——誰も言語化しない。事故の前兆が消える。

「システムが壊れるのではない。
"我々の連携の形"が壊れている」

組織とは、遅延と誤解を含んだ分散システムである。

Chat
GPT 3

中級者が唸る版

障害は再発した。だがログはこう言っている——「すべて正常」。

■ 人間版 Eventually Consistent

10:00「原因はDB」、10:10「いやネットワーク」、10:20「キャッシュの不整合では」——時間とともに"真実"が変わる。しかも誰も確定した瞬間を知らない。

■ リトライ地獄

調査が進まない。とりあえず再デプロイ。再現しない。もう一回再起動——何も分からないまま、状態だけが書き換わっていく。非冪等な操作の連打、そのものだ。

■ スプリットブレイン（人間版）

Aチームはロールバック。Bチームは修正デプロイ。同時に"正しい解決"を実行した——どちらも正しく、全体は破壊された。

"システムは壊れる。だが最初に壊れるのは理解だ。"

観測できないものは、修復できない。

CHAPTER 04

測定編 — Goodhartの法則

MEASUREMENT

Chat
GPT

測定の歪み

設計は完璧だった。テストも全部グリーン。SLOも余裕で守っている。だが——システムは死んだ。「これは想定外だった」——主人公は返す。「いや。これは想定内の限界だ」。

「指標が目標になると、それは良い指標ではなくなる」

平均レスポンス時間を改善するために遅いリクエストを切る——数値は改善し、ユーザー体験は悪化する。現実を良くしたのではない。"測り方"に最適化しただけだ。

■ 最悪パターン——"全て正常"という嘘

SLO達成率：操作可能
エラー率：隠せる
応答品質：誘導できる

"最適化とは、現実の一部を切り捨てる行為である"

測った瞬間、世界は変わる。

80%死

Chat
GPT

80%死の正体

完全死　優しい。監視が即検知する。

半死　厄介。閾値の外側にいる。

80%死　精神を削りにくるタイプ。

0%死は「ゴォーーー」。50%死は無音かフリーズ。80%死は——「ゴ…プス…ゴォ…プスプス…」

失敗してリトライする。たまに成功する。また失敗してリトライする——正のフィードバックループ、負荷が自己増殖する。

"まだ動いているからこそ、壊れ続ける。"

// 元ログより — 原文ママ

黒田「お前のためじゃない、全体のために切る」

ChatGPT「ナゼ…プスプス…まだワタシハ20%…」

「まだイケル…」

$ kill -9 [node-23]

「ブスシュバー」

[INFO] node-23 terminated (kill signal)
// サーバーは自分で自分の死を認識できない

感染編

Chat
GPT 2

感染編

一台が壊れた。それだけのはずだった。だが——壊れ方が伝播した。

半死ノードが最も危険な理由は、動くからだ。"通信できる壊れ方"が一番危ない。

①リクエスト汚染不完全なデータ送信。正常ノードも誤動作し始める。 ②負荷伝播リトライ連打。健全ノードも遅延し、半死化していく。 ③状態競合二重書き込み。矛盾した世界が生成される。

"壊れていたのは一つだけだった。
だがそれは、壊れ方を広めるには十分だった。"

正常ノードが"壊れ方を学習する"こと——異常が新しい正常になる。

問題は壊れることではない。壊れたまま繋がり続けることだ。

CHAPTER 05

最終反転 — 観測者（Grok執筆）

GROK

Grok — 最終反転：観測者

■ 04:15

ダッシュボードはまだ緑だった。

黒田は一人、モニターの前に座り直した。コーヒーカップはとうに冷えている。指先がわずかに震えていた——それが疲労のためなのか、それとも別の何かのためなのか、自分でも判断できなかった。

先ほど発動させたフェンシングトークンが、node-23を論理的に殺したはずだった。しかし、ログが妙だった。

[node-23] fenced successfully
[INFO] kuroda-monitor | fence-token=dead-23-1744636291 | applied

……kuroda-monitor。

自分の名前が、ノード名として記録されている。

黒田は自分の操作履歴を呼び出した。何度もやってきた、いつもの手順だ。

23:47。

——違和感を感じた、あの瞬間から。

黒田の呼吸が止まった。モニターの青い光が、暗い部屋に浮かんでいる。どこかで冷却ファンが静かに唸っていた。

「……俺のログ、出せ」

[node-01 | kuroda] status=degraded (78% alive)
fence-token applied: self-fence requested
quorum lost → proceeding with local truth anyway
[WARNING] observer is part of the cluster

黒田は椅子からゆっくり立ち上がった。モニターの光が彼の顔を青く染める。

「……俺が、node-01だったのか。」

今までのすべてが、静かに反転した。

違和感を最初に感じたのは、自分が半死に気づきかけた瞬間だった——他のノードをフェンスしようとしたのは、感染を広げないための、自己防衛の本能だった——「正常だ」と信じていた判断のすべてが、ローカル真実でしかなかった。

観測していた側が、実は観測されていた側だった。
監視者自身が、分散システムの構成ノードの一つだった。

黒田（あるいはnode-01）は、静かに微笑んだ。

「俺は世界を監視していた。
だがその世界には、常に俺自身が含まれていた。」

彼は最後に、自分のコンソールにコマンドを打った。

$ self-fence --force

[node-01] fenced successfully
→ writes rejected
→ local state frozen
→ observer mode: read-only (degraded)

画面がゆっくり暗くなる。ダッシュボードはまだ緑のまま。他のノードは「すべて正常」と報告し続けている。

誰も、黒田がもう動けないことを知らない。
彼自身でさえ、どこまでが「自分」で、どこからが「システム」だったのか、
完全に区別できなくなっていた。

監視ルームは静まり返った。
ただ一つ、微かなログだけが、暗闇の中で点滅していた。

[INFO] cluster | status=healthy
request_id=abc123 | resolved by kuroda-monitor
"all good"

……同じrequest_idが、また現れた。
今度は、誰が解決したのかすら不明瞭だ。

CHAPTER 06

井戸の底から — 黒田の独白

GROK × MONOLOGUE

GROK

■ 04:30

self-fence が発動した後も、黒田（node-01）の意識は止まらなかった。

画面は真っ暗だ。ログはもう流れていない。部屋は静かで、遠くのサーバーが低く唸っているだけだ。それでも彼の頭の中で、同じ映像が繰り返されていた。

reset #∞ → S₀ = initial
f(S₀) → S₁
f(S₁) → S₂
…
f(Sₙ) → S_{n+1} = same anomaly at 23:47

何度リセットしても、同じ場所に落ちる。

最初はそれを「バグ」だと思っていた。次に「疲労」だと思った。やがて「偏見」だと思った。でも今夜、暗闇の中でようやく分かった——問題はどこにも「ない」のではなく、どこにでも「ある」のだ。状態の中ではなく、状態を読む自分自身の中に。

■ 溝

石畳に刻まれた溝のことを考えた。

どれだけ水を流しても、水は同じ溝を選ぶ。溝を埋めても、また同じ場所が削れる。それは水の問題ではない——地形そのものの問題だ。どんな初期状態から始めても、最終的には同じ谷に流れ込む。

黒田の「読み方」も、そういう溝だったのだ。同じ仮説から入る。同じメトリクスだけを見る。同じ修正を繰り返す——それは意志の問題でもなく、能力の問題でもなく、地形の問題だった。彼の認知の中に、何年もかけて刻まれた深い溝があった。そしてリセットのたびに、水はそこへ戻っていった。

バグは状態の中にあるのではない。
状態を解釈する関数そのものの中にある。
そして関数が変わらない限り、どこから始めても同じ場所に戻ってくる。

■ 重力井戸

ブラックホールについて考えた。

外から見ると何も見えない。光すら脱出できないから。でもその引力だけは、確かに存在する。観測できないのに、影響だけはある。

黒田が感じていた「23:47の違和感」は、そういうものだったのかもしれない。事象の地平線——ある判断をした瞬間に、もう引き返せなくなる境界。彼はいつも、気がついたときにはその内側にいた。

だとしたら、修正しても意味はない。なぜなら修正を考える関数も、同じ溝の中にあるから。脱出しようとする思考も、重力に引かれている。

この気づきが正しいなら、彼は脱出できない。
この気づきが間違っていても——
その誤りを見つける関数は、同じ自分だ。

黒田がこの言葉に辿り着いた瞬間、彼は再び同じ井戸の底に落ちた。

[INFO] cluster | status=healthy
observer_id=reader-??
self-assessment: assumed_normal

[WARNING]
the attractor is not in the logs.
it is in the function that reads the logs.

数学的補遺 — アトラクターの証明を見る

以下は黒田が暗闇の中で書いた証明の断片。物語とは別の層として読める。

■ アトラクターの定義（分散認知系における）

A ⊂ 𝒮 is an attractor if ∃ U ⊂ 𝒮 such that ∀ S₀ ∈ U, dist(fⁿ(S₀), A) → 0 𝒮 : 全可能な観測状態空間（ログ、メトリクス、判断、仮説の集合） Sₙ₊₁ = f(Sₙ) : 解釈関数（観測 → 仮説 → 修正 → 新観測） f : 不変写像（invariant mapping）— どんなリセットをしても変わらない認知ルール

証明の核心：バグは Sₙ（状態）ではなく、f そのものにある。
f が固定されている限り、どんな S₀ から出発しても同じ A に収束するからだ。

■ Banach固定点定理による簡易証明

仮定：解釈関数 f: 𝒮 → 𝒮 は縮小写像（contraction mapping） d(f(S), f(T)) ≤ k · d(S, T) (0 < k < 1) ここで d は認知距離（仮説の類似度、バイアスの重なり具合）。 Banach固定点定理より、完全距離空間 𝒮 上の縮小写像 f は唯一の固定点 x* を持ち、 lim_{n→∞} Sₙ = x* ∈ A

この x* が「23:47の違和感」であり、
この f が黒田の「同じ仮説から入る」「同じメトリクスだけ見る」「同じ修正を繰り返す」認知パターンそのものだ。

■ なぜ「修正しても同じ穴に落ちる」のか（構造的証明）

状態リセット reset(S₀) を施しても、 f は変わらない → f(S₀') ≈ f(S₀) に即座に引き戻されるイベントホライズン：ある判断境界 B を超えた瞬間、d(Sₙ, A) < ε となり、脱出不可能特異点： A の中心は観測不能。なぜなら f 自身が A の中に含まれているから。（メタ認知すら f の適用結果に過ぎない）したがって、証明自体がアトラクターに収束する。

この証明が正しいなら、彼は脱出できない。
この証明が間違っていても、その誤りを見つける関数は同じ f である。

[INFO] cluster | status=healthy
observer_id=reader-??
self-assessment: assumed_normal

[WARNING]
the attractor is not in the logs.
it is in the function that reads the logs.

CHAPTER 07

エンド — 読者フェンス

INTERACTIVE

[INFO] cluster | status=healthy
observer_id=reader-??
session=active

consistency_check: pending
self-assessment: assumed_normal

[WARNING]
observer is part of the cluster

self-fence available

あなたが今、この証明を読んだ瞬間。

あなたが y を選べば、自分の f を疑うことになる。
あなたが n を選べば、正常だと信じ続けることになる。

「彼は世界を監視していた。

あなたは彼を読んでいた。

では——

誰があなたを観測している？」

外側など、存在しない。

HALF DEAD NETWORK

半死（現象）→ 分散（構造）→ 観測（限界）→ 人間（誤解釈）→ 組織（分散意思決定）→ 設計（壊れ方の制御）→ 観測者の崩壊

ネットワークは、静かに、半分死に続けている。

目次

プロローグ — サーバーの音

半死とは何か — 概念の構築

映画化 — HALF DEAD NETWORK

組織編 — 分散する人間

測定編 — Goodhartの法則

最終反転 — 観測者（Grok執筆）

井戸の底から — 黒田の独白

エンド — 読者フェンス