(出典 amd.c.yimg.jp)



1 記憶たどり。 ★ :2020/10/06(火) 11:19:43.53

https://www.itmedia.co.jp/news/articles/2010/06/news063.html

東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、
4日中に修正したと発表した。

障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。
メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。


(出典 image.itmedia.co.jp)

東証のニュースリリースより

arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。
1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。

調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。

稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

1日の障害では、東証の全取引が終日停止した。





83 不要不急の名無しさん :2020/10/06(火) 11:39:41.31

>>1
>>稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。

じゃなんで設定が変わってたんだ?


91 不要不急の名無しさん :2020/10/06(火) 11:41:22.16

>>1
外注丸投げのバカどもww
なんの為のGUIなんだよw
いつまでもCUIで「俺ってすげぇぇだろ?」ってバカやってるからこうなる
システム変数を見える化しときゃいいだけのこと
数日で出来るだろ
それすら構築できないバカどもw


9 不要不急の名無しさん :2020/10/06(火) 11:24:08.36

テスト仕様書作った奴の責任


13 不要不急の名無しさん :2020/10/06(火) 11:25:15.20

>>9
指摘しなかったレビュアも同罪


10 不要不急の名無しさん :2020/10/06(火) 11:24:13.62

アホかよw
実際に故障を模してチェックしていなかった
ってことだわな。


15 不要不急の名無しさん :2020/10/06(火) 11:25:39.43

>>10
何を今更
Cocoaで散々見てるだろ
しっかり金入れない体質から来てるんだろなぁ


23 不要不急の名無しさん :2020/10/06(火) 11:27:28.32

>>10
本当これ
普通に考えたらメモリが壊れたときの試験くらいやるだろう


31 不要不急の名無しさん :2020/10/06(火) 11:29:01.29

>>23
メモリのフォールトインジェクションは難しいよ
ハード開発ならまだしも SI ではやってないケース多いと思う


32 不要不急の名無しさん :2020/10/06(火) 11:29:42.60

>>31
難しいからという理由で試験をしないの?
システム開発するだけの能力がないだけじゃん


38 不要不急の名無しさん :2020/10/06(火) 11:30:37.49

>>32
お金次第だね


88 不要不急の名無しさん :2020/10/06(火) 11:40:43.52

>>31
1日2兆円以上処理する、日本経済の心臓やで?
メモリー交換なんてホストコンピューターなら無停止で交換できるレベルだぞ?
出きんないんだったら、ホストコンピューターからリプレースするんじゃねーよ。


14 不要不急の名無しさん :2020/10/06(火) 11:25:34.11

富士通は、何も責任取らないの?
東証は被害者?


26 不要不急の名無しさん :2020/10/06(火) 11:28:15.52

>>14
責任は感じるもの


17 不要不急の名無しさん :2020/10/06(火) 11:26:01.12

だから、何でそんな設定値になっていたの?


34 不要不急の名無しさん :2020/10/06(火) 11:30:00.24

>>17
私の推測では
テストするために設定値を書き換えて
テスト終了後に元に戻して無かったんじゃないかな?


37 不要不急の名無しさん :2020/10/06(火) 11:30:15.13

>>34
あるある


54 不要不急の名無しさん :2020/10/06(火) 11:34:19.04

>>34
それだな


25 不要不急の名無しさん :2020/10/06(火) 11:28:11.20

こういうのって定期的にチェック入れるもんじゃないの?
稼働前にテストしたっきりで以後ずっとノーチェックだったのかな


30 不要不急の名無しさん :2020/10/06(火) 11:28:59.63

>>25
稼働させたら後は知らなーいくらいのノリだったんだろ
定期的に障害発生しても問題ないかのテストを行うべきだったね


29 不要不急の名無しさん :2020/10/06(火) 11:28:54.85

えー
テストしてないの
他にもしてないテストあるだろう
正直に言いなさい


47 不要不急の名無しさん :2020/10/06(火) 11:33:01.55

>>29
設定値があるって事はテストしてるはず
つまり想定されてた障害のケース


35 不要不急の名無しさん :2020/10/06(火) 11:30:06.17

これが日本だ!
みたか海外どもめ


98 不要不急の名無しさん :2020/10/06(火) 11:41:51.15

>>35
外人「よし,わかった!円を買おう。」


36 不要不急の名無しさん :2020/10/06(火) 11:30:09.88

設定値って01じゃなくてしきい値でもあるのか


42 不要不急の名無しさん :2020/10/06(火) 11:32:08.00

>>36
当たり前だろ
ログの一文からしか分からないケースだってあるぞ


39 不要不急の名無しさん :2020/10/06(火) 11:31:21.33

ネットワーク疎通監視までしかしてなかったとか?


44 不要不急の名無しさん :2020/10/06(火) 11:32:15.46

>>39
heartbeatはやってて、止まってても切り替える設定外れてたのかと


41 不要不急の名無しさん :2020/10/06(火) 11:31:56.02

>メモリ故障が原因の障害パターンが発生

想定外のパターンが発生?
あらゆる障害を想定しているんじゃないんだな


48 不要不急の名無しさん :2020/10/06(火) 11:33:02.01

>>41
設定値を直したら切り替わったんだこら想定内だよ


55 不要不急の名無しさん :2020/10/06(火) 11:34:26.00

>>48
なるほど、想定内か。


49 不要不急の名無しさん :2020/10/06(火) 11:33:25.29

どうして自動切り替えできない設定値になっていたのかが書いてない


60 不要不急の名無しさん :2020/10/06(火) 11:34:54.11

>>49
そういう作業って記録残さないんだよね~


51 不要不急の名無しさん :2020/10/06(火) 11:33:31.80

結局富士通か。あまりタイトな設定値にすると誤作動するから設定値弄ってたんだろw


65 不要不急の名無しさん :2020/10/06(火) 11:35:40.88

>>51
これもあるあるだな。
フェイルバックするの面倒だし


61 不要不急の名無しさん :2020/10/06(火) 11:35:01.22

むしろ毎週自動的に設定値が変化してプライマリが変わるぐらいの設計のほうが正しいってこと?

バックアップ機に切り替わったとしても1日の取引に耐えられるかの保証はないわけで


75 不要不急の名無しさん :2020/10/06(火) 11:37:49.79

>>61
普通はそう
少なくとも運用でそうしてるはず


70 不要不急の名無しさん :2020/10/06(火) 11:36:54.27

納入時にパラメーター設定確認しなかった奴が悪いだろ


73 不要不急の名無しさん :2020/10/06(火) 11:37:26.04

>>70
こういうのはメンテナンス時に設定値いじくったりする


71 不要不急の名無しさん :2020/10/06(火) 11:37:02.58

実に日本らしい
原発の予備電源ですらアノザマでしたからね


77 不要不急の名無しさん :2020/10/06(火) 11:38:16.66

>>71
    _, ,_
  ( ~ ,_っ~)   全くだw
  '