<div dir="ltr">does this corrupt the entire filesystem or just the open files that are being written too?<div><br></div><div>One is horrific and the other is just mildly bad. </div></div><div class="gmail_extra"><br><div class="gmail_quote">On 10 October 2017 at 17:09, IBM Spectrum Scale <span dir="ltr"><<a href="mailto:scale@us.ibm.com" target="_blank">scale@us.ibm.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><font size="2" face="sans-serif">Bob,</font><br><br><font size="2" face="sans-serif">The problem may occur when the TCP connection
is broken between two nodes. While in the vast majority of the cases when
data stops flowing through the connection, the result is one of the nodes
getting expelled, there are cases where the TCP connection simply breaks
-- that is relatively rare but happens on occasion. There is logic in the
mmfsd daemon to detect the disconnection and attempt to reconnect to the
destination in question. If the reconnect is successful then steps are
taken to recover the state kept by the daemons, and that includes resending
some RPCs that were in flight when the disconnection took place.</font><br><br><font size="2" face="sans-serif">As the flash describes, a problem in
the logic to resend some RPCs was causing one of the RPC headers to be
omitted, resulting in the RPC data to be interpreted as the (missing) header.
Normally the result is an assert on the receiving end, like the "</font><tt><font size="3">logAssertFailed:
!"Request and queue size mismatch"</font></tt><font size="3"> </font><font size="2" face="sans-serif"> assert
described in the flash. However, it's at least conceivable (though expected
to very rare) that the content of the RPC data could be interpreted as
a valid RPC header. In the case of an RPC which involves data transfer
between an NSD client and NSD server, that might result in incorrect data
being written to some NSD device.</font><br><br><font size="2" face="sans-serif">Disconnect/reconnect scenarios appear
to be uncommon. An entry like</font><br><br><font size="3">[N] Reconnected to xxx.xxx.xxx.xxx nodename <c0n0>
</font><br><br><font size="2" face="sans-serif">in mmfs.log would be an indication that
a reconnect has occurred. By itself, the reconnect will not imply that
data or the file system was corrupted, since that will depend on what RPCs
were pending when the connection happened. In the case the assert above
is hit, no corruption is expected, since the daemon will go down before
incorrect data gets written.</font><br><br><font size="2" face="sans-serif">Reconnects involving an NSD server are
those which present the highest risk, given that NSD-related RPCs are used
to write data into NSDs</font><br><br><font size="2" face="sans-serif">Even on clusters that have not been
subjected to disconnects/reconnects before, such events might still happen
in the future in case of network glitches. It's then recommended that an
efix for the problem be applied in a timely fashion.</font><br><br><br><font size="2" face="sans-serif">Reference: </font><a href="http://www-01.ibm.com/support/docview.wss?uid=ssg1S1010668" target="_blank"><font size="2" color="blue" face="sans-serif">http://www-01.ibm.com/support/<wbr>docview.wss?uid=ssg1S1010668</font></a><br><br><br><br><font size="2" face="sans-serif">Regards, The Spectrum Scale (GPFS) team<br><br>------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>------------------------<br>If you feel that your question can benefit other users of  Spectrum
Scale (GPFS), then please post it to the public IBM developerWroks Forum
at </font><a href="https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479" target="_blank"><font size="2" face="sans-serif">https://www.ibm.com/<wbr>developerworks/community/<wbr>forums/html/forum?id=11111111-<wbr>0000-0000-0000-000000000479</font></a><font size="2" face="sans-serif">.
<br><br>If your query concerns a potential software error in Spectrum Scale (GPFS)
and you have an IBM software maintenance contract please contact  1-800-237-5511
in the United States or your local IBM Service Center in other countries.
<br><br>The forum is informally monitored as time permits and should not be used
for priority messages to the Spectrum Scale (GPFS) team.</font><br><br><br><br><font size="1" color="#5f5f5f" face="sans-serif">From:      
 </font><font size="1" face="sans-serif">"Oesterlin, Robert"
<<a href="mailto:Robert.Oesterlin@nuance.com" target="_blank">Robert.Oesterlin@nuance.com</a>></font><br><font size="1" color="#5f5f5f" face="sans-serif">To:      
 </font><font size="1" face="sans-serif">gpfsug main discussion
list <<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.<wbr>org</a>></font><br><font size="1" color="#5f5f5f" face="sans-serif">Date:      
 </font><font size="1" face="sans-serif">10/09/2017 10:38 AM</font><br><font size="1" color="#5f5f5f" face="sans-serif">Subject:    
   </font><font size="1" face="sans-serif">[gpfsug-discuss]
FW: [EXTERNAL] FLASH: IBM Spectrum Scale (GPFS) V4.1 and 4.2 levels: network
reconnect function may result in file system corruption or undetected file
data corruption (2017.10.09)</font><br><font size="1" color="#5f5f5f" face="sans-serif">Sent by:    
   </font><font size="1" face="sans-serif"><a href="mailto:gpfsug-discuss-bounces@spectrumscale.org" target="_blank">gpfsug-discuss-bounces@<wbr>spectrumscale.org</a></font><br><hr noshade><div><div class="h5"><br><br><br><font size="2" face="Calibri">Can anyone from the Scale team comment?
</font><br><font size="2" face="Calibri"> </font><br><font size="2" face="Calibri">Anytime I see “</font><font size="3" face="Calibri">may
result in file system corruption or undetected file data corruption” it
gets my attention.</font><br><font size="2" face="Calibri"> </font><br><font size="3" face="Calibri">Bob Oesterlin</font><br><font size="3" face="Calibri">Sr Principal Storage Engineer, Nuance</font><br><font size="2" face="Calibri"> </font><br><font size="2" face="Calibri"> </font></div></div><p></p><table width="700" style="border-collapse:collapse"><tbody><tr height="8"><td width="697" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"><table width="700" style="border-collapse:collapse"><tbody><tr height="8"><td width="697" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"><p></p><p></p><table width="700" style="border-collapse:collapse"><tbody><tr height="8"><td width="697" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"><table width="100%" style="border-collapse:collapse"><tbody><tr height="8"><td width="49%" bgcolor="#fb3740" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"></td><td width="50%" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br><a name="m_3517895245280152730__MailOriginalBody"></a><font size="2" face="Calibri"> </font><p><br></p><table width="100%" style="border-collapse:collapse"><tbody><tr height="8"><td width="95%" bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"><font size="5" color="#104160" face="Helvetica"><b>Storage
</b></font><br><font size="3" face="Helvetica">IBM My Notifications </font><br><font size="3" face="Helvetica">Check out the </font><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__www.ibm.com_support_electronicsupport&d=DwMFaQ&c=djjh8EKwHtOepW4Bjau0lKhLlu-DxM1dlgP0rrLsOzY&r=LPDewt1Z4o9eKc86MXmhqX-45Cz1yz1ylYELF9olLKU&m=2hMPYHHwtifmhKAUCosUh9MGpzkaN0JdxjNcVaoow6o&s=eMcFZGRxm1xwxVTiTaMVHlsrgeXTk6V-jyAps5PkbzI&e=" target="_blank"><font size="3" color="#4181c0" face="Helvetica"><b>IBM
Electronic Support</b></font></a><font size="3" face="Helvetica"> </font></td><td width="0%" bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td width="3%" bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"><font size="2" face="Calibri"> </font></td><td width="0%" valign="top" style="border-style:solid solid solid solid;border-color:#aeaeae;border-width:1px 1px 1px 1px;padding:0px 0px"></td></tr><tr height="8"><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"><font size="2" face="Calibri"> </font></td><td valign="top" style="border-style:solid solid solid solid;border-color:#aeaeae;border-width:1px 1px 1px 1px;padding:0px 0px"></td></tr><tr height="8"><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"><font size="5" color="#104160" face="Helvetica">IBM
Spectrum Scale </font></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td></tr><tr height="8"><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__www.ibm.com_support_docview.wss-3Fuid-3Dssg1S1010668-26myns-3Ds033-26mynp-3DOCSTXKQY-26mynp-3DOCSWJ00-26mync-3DE-26cm-5Fsp-3Ds033-2D-5F-2DOCSTXKQY-2DOCSWJ00-2D-5F-2DE&d=DwMFaQ&c=djjh8EKwHtOepW4Bjau0lKhLlu-DxM1dlgP0rrLsOzY&r=LPDewt1Z4o9eKc86MXmhqX-45Cz1yz1ylYELF9olLKU&m=2hMPYHHwtifmhKAUCosUh9MGpzkaN0JdxjNcVaoow6o&s=0akHYM3LsURDoS-IYLtB36K5YvPDmXaMEu6rMb3Cjdk&e=" target="_blank"><font size="4" color="#4181c0" face="Helvetica"><b>:
IBM Spectrum Scale (GPFS) V4.1 and 4.2 levels: network reconnect function
may result in file system corruption or undetected file data corruption</b></font></a><font size="4" face="Calibri"><b></b></font></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none solid none;border-color:#aeaeae;border-width:1px 0px 1px 0px;padding:0px 0px"></td></tr><tr height="8"><td bgcolor="white" style="border-style:solid none none none;border-color:#aeaeae;border-width:1px 0px 0px 0px;padding:0px 0px"><font size="3" color="#4f4f4f" face="Helvetica">IBM
has identified a problem with IBM Spectrum Scale (GPFS) V4.1 and V4.2 levels,
in which resending an NSD RPC after a network reconnect function may result
in file system corruption or undetected file data corruption. </font></td><td bgcolor="white" style="border-style:solid none none none;border-color:#aeaeae;border-width:1px 0px 0px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none none none;border-color:#aeaeae;border-width:1px 0px 0px 0px;padding:0px 0px"></td><td bgcolor="white" style="border-style:solid none none none;border-color:#aeaeae;border-width:1px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br><font size="2" face="Calibri"> </font><p><br></p><table width="100%" style="border-collapse:collapse"><tbody><tr height="8"><td width="49%" bgcolor="#f7f7f7" style="border-style:solid none none none;border-color:#e0e0e0;border-width:1px 0px 0px 0px;padding:0px 0px"><font size="1" face="Calibri"> </font></td><td width="50%" bgcolor="#f7f7f7" style="border-style:solid none none none;border-color:#e0e0e0;border-width:1px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br></td><td width="3" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br></td><td width="3" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br></td><td width="3" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px"></td></tr></tbody></table><br><font size="2" face="Calibri"> </font><tt><font size="2">_____________________________<wbr>__________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at <a href="http://spectrumscale.org" target="_blank">spectrumscale.org</a><br></font></tt><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__gpfsug.org_mailman_listinfo_gpfsug-2Ddiscuss&d=DwICAg&c=jf_iaSHvJObTbx-siA1ZOg&r=IbxtjdkPAM2Sbon4Lbbi4w&m=xzMAvLVkhyTD1vOuTRa4PJfiWgFQ6VHBQgr1Gj9LPDw&s=-AQv2Qlt2IRW2q9kNgnj331p8D631Zp0fHnxOuVR0pA&e=" target="_blank"><tt><font size="2">https://urldefense.proofpoint.<wbr>com/v2/url?u=http-3A__gpfsug.<wbr>org_mailman_listinfo_gpfsug-<wbr>2Ddiscuss&d=DwICAg&c=jf_<wbr>iaSHvJObTbx-siA1ZOg&r=<wbr>IbxtjdkPAM2Sbon4Lbbi4w&m=<wbr>xzMAvLVkhyTD1vOuTRa4PJfiWgFQ6V<wbr>HBQgr1Gj9LPDw&s=-<wbr>AQv2Qlt2IRW2q9kNgnj331p8D631Zp<wbr>0fHnxOuVR0pA&e=</font></tt></a><tt><font size="2"><br></font></tt><br><br>
<p></p><br>______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/<wbr>listinfo/gpfsug-discuss</a><br>
<br></blockquote></div><br></div>