メモ > サーバ > 各論: トラブル対応例 > サーバが重い・サーバに繋がらない 10
サーバが重い・サーバに繋がらない 10
AWSのEC2インスタンス一覧で、「アラームのステータス」が「データなし」となった。
しばらくすると自動で復旧した。
(インスタンスを10台程度起動させていると、数ヶ月に一度(1台)くらいの頻度で起きるように思う。)
cat /var/log/messages で繋がらなくなった時間のログを確認。uptime でサーバの稼働時間も確認。
再起動された形跡があれば、以下の可能性が高い。
AWS Developer Forums: インスタンスが勝手に再起動される
https://forums.aws.amazon.com/message.jspa?messageID=288044
ハードウェアの問題などでAWSがインスタンスを強制的に再起動することがある。
その際AWSから個別連絡は行われない。上記のページで
「ハードウェア障害が原因となって再起動が行われた場合に個別にご連絡を差し上げることは行っておりません。」
と回答されている。
防ぐためには、マルチAZでの複数台構成にする必要がある。
(最低でも2台以上の構成にする必要があるが、1台になったときにアクセスが集中することを考えれば3〜4台以上にすることが好ましい。)
計画停止の場合、15日前くらいにメールで通知されるので、メールは確認しておく。
止まった時の /var/log/messages ファイルの内容は以下のとおり。
May 17 09:02:29 web1 clamd[2582]: SelfCheck: Database status OK.
May 17 09:12:29 web1 clamd[2582]: SelfCheck: Database status OK.
May 17 09:13:13 web1 init: serial (ttyS0) main process (2691) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty1) main process (2692) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty2) main process (2695) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty3) main process (2697) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty4) main process (2699) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty5) main process (2701) killed by TERM signal
May 17 09:13:13 web1 init: tty (/dev/tty6) main process (2704) killed by TERM signal
May 17 09:13:13 web1 init: plymouth-shutdown main process (12355) terminated with status 1
May 17 09:13:13 web1 init: splash-manager main process (12350) terminated with status 1
May 17 09:13:15 web1 clamd[2582]: Pid file removed.
May 17 09:13:15 web1 clamd[2582]: --- Stopped at Tue May 17 09:13:15 2016
May 17 09:13:15 web1 clamd[2582]: Socket file removed.
May 17 09:13:16 web1 ntpd[2301]: ntpd exiting on signal 15
May 17 09:13:16 web1 rpcbind: rpcbind terminating on signal. Restart with "rpcbind -w"
May 17 09:13:16 web1 kernel: Kernel logging (proc) stopped.
May 17 09:13:16 web1 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="2124" x-info="http://www.rsyslog.com"] exiting on signal 15.
May 17 15:07:51 web1 kernel: imklog 5.8.10, log source = /proc/kmsg started.
May 17 15:07:51 web1 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="2088" x-info="http://www.rsyslog.com"] start
May 17 15:07:51 web1 kernel: [ 0.000000] Initializing cgroup subsys cpuset
May 17 15:07:51 web1 kernel: [ 0.000000] Initializing cgroup subsys cpu
May 17 15:07:51 web1 kernel: [ 0.000000] Initializing cgroup subsys cpuacct
May 17 15:07:51 web1 kernel: [ 0.000000] Linux version 4.1.17-22.30.amzn1.x86_64 (mockbuild@gobi-build-60009) (gcc version 4.8.3 20140911 (Red Hat 4.8.3-9) (GCC) ) #1 SMP Fri Feb 5 23:44:22 UTC 2016
May 17 15:07:51 web1 kernel: [ 0.000000] Command line: root=LABEL=/ console=ttyS0 LANG=ja_JP.UTF-8 KEYTABLE=us
May 17 15:07:51 web1 kernel: [ 0.000000] e820: BIOS-provided physical RAM map:
May 17 15:07:51 web1 kernel: [ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009dfff] usable
May 17 15:07:51 web1 kernel: [ 0.000000] BIOS-e820: [mem 0x000000000009e000-0x000000000009ffff] reserved
May 17 15:07:51 web1 kernel: [ 0.000000] BIOS-e820: [mem 0x00000000000e0000-0x00000000000fffff] reserved
May 17 15:07:51 web1 kernel: [ 0.000000] BIOS-e820: [mem 0x0000000000100000-0x000000007fffffff] usable
May 17 15:07:51 web1 kernel: [ 0.000000] BIOS-e820: [mem 0x00000000fc000000-0x00000000ffffffff] reserved
May 17 15:07:51 web1 kernel: [ 0.000000] NX (Execute Disable) protection: active
May 17 15:07:51 web1 kernel: [ 0.000000] SMBIOS 2.4 present.
May 17 15:07:51 web1 kernel: [ 0.000000] Hypervisor detected: Xen
May 17 15:07:51 web1 kernel: [ 0.000000] Xen version 4.2.
May 17 15:07:51 web1 kernel: [ 0.000000] Netfront and the Xen platform PCI driver have been compiled for this kernel: unplug emulated NICs.
ただしハードウェア障害対応の場合、事前事後の通知なくAWS側でインスタンスの再起動が行われる可能性がある。
その際上にあるように、AWSから個別連絡などはされないため、これがマルチAZを推奨する根拠の一つとなっている。
AWS Developer Forums: インスタンスが勝手に再起動される
https://forums.aws.amazon.com/message.jspa?messageID=288044
「ハードウェア障害が原因となって再起動が行われた場合に個別にご連絡を差し上げることは行っておりません。」
それ以外には、以下のような可能性も考えられる。
http://www.harumaki.net/2015/01/06/aws-ec2-rhel6-error-ttys0-messages/
対処方法と思わしき記事はあるが、1台のみでの発生だったので関係ないかも
https://access.redhat.com/ja/node/1218334
OS自体の不具合の可能性がある?
諸々をupdateしてコールドリブート(完全に停止させてからの起動)をするといいかも。