<div dir="ltr">Hi all,<div><br></div><div>We're running 3.5.0.17 now and it looks like the filesystem manager automatically reboots (and sometimes fails to automatically reboot) after mmdelsnapshot is called, either from the filesystem manager itself or from some other nsd/node . It didn't start happening immediately after we updated to 17, but we never had this issue when we were at 3.5.0.11 . The error mmdelsnapshot throws at some point is :</div>
<div><pre>Lost connection to file system daemon.
mmdelsnapshot: An internode connection between GPFS nodes was disrupted.
mmdelsnapshot: Command failed.  Examine previous error messages to
determine cause.</pre><pre>It also causes an mmfs generic error and or a kernel: BUG: soft lockup - CPU#15 stuck for 67s! [mmfsd:39266], the latter causes the system to not reboot itself (which is actually worse), but the former does.</pre>
<pre><br></pre><pre>It also causes some havoc with CNFS file locking even after the filesystem manager is rebooted and has come up :</pre><pre><span style="font-family:arial"><br></span></pre><pre>May 15 07:10:12 mako-nsd1 sm-notify[19387]: Failed to bind RPC socket:
Address already in use</pre><pre><span style="font-family:arial"><br></span></pre><pre><span style="font-family:arial">May 15 07:21:03 mako-nsd1 sm-notify[11052]: Invalid bind address or port </span><br></pre><pre>for RPC socket: Name or service not known</pre>
<pre><br></pre><pre>Saw some snapshot related fixes in 3.5.0.18, anyone seen this behavior or know if it's fixed in 18?</pre><pre><br></pre><pre>Thanks,</pre><pre>Sabuj</pre></div><div><br></div></div>