<div dir="ltr">Lyle thanks for the update, has this issue always existed, or just in v4.1 and 4.2?<div><br></div><div>It seems that the likely hood of this event is very low but of course you encourage people to update asap. <br><div><br></div><div><br></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 11 October 2017 at 00:15, Uwe Falke <span dir="ltr"><<a href="mailto:UWEFALKE@de.ibm.com" target="_blank">UWEFALKE@de.ibm.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi, I understood the  failure to occur requires that the RPC payload of<br>
the RPC resent without actual header can be mistaken for a valid RPC<br>
header. The resend mechanism is probably not considering what the actual<br>
content/target the  RPC has.<br>
So, in principle, the RPC could be to update a data block, or a metadata<br>
block - so it may hit just a single data file or corrupt your entire file<br>
system.<br>
However, I think the likelihood that the RPC content can go as valid RPC<br>
header is very low.<br>
<br>
<br>
Mit freundlichen Grüßen / Kind regards<br>
<br>
<br>
Dr. Uwe Falke<br>
<br>
IT Specialist<br>
High Performance Computing Services / Integrated Technology Services /<br>
Data Center Services<br>
------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>-------------------<br>
IBM Deutschland<br>
Rathausstr. 7<br>
09111 Chemnitz<br>
Phone: <a href="tel:%2B49%20371%206978%202165" value="+4937169782165">+49 371 6978 2165</a><br>
Mobile: <a href="tel:%2B49%20175%20575%202877" value="+491755752877">+49 175 575 2877</a><br>
E-Mail: <a href="mailto:uwefalke@de.ibm.com">uwefalke@de.ibm.com</a><br>
------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>-------------------<br>
IBM Deutschland Business & Technology Services GmbH / Geschäftsführung:<br>
Thomas Wolter, Sven Schooß<br>
Sitz der Gesellschaft: Ehningen / Registergericht: Amtsgericht Stuttgart,<br>
HRB 17122<br>
<span class=""><br>
<br>
<br>
<br>
From:   Ben De Luca <<a href="mailto:bdeluca@gmail.com">bdeluca@gmail.com</a>><br>
</span><span class="">To:     gpfsug main discussion list <<a href="mailto:gpfsug-discuss@spectrumscale.org">gpfsug-discuss@spectrumscale.<wbr>org</a>><br>
</span>Cc:     <a href="mailto:gpfsug-discuss-bounces@spectrumscale.org">gpfsug-discuss-bounces@<wbr>spectrumscale.org</a><br>
Date:   10/10/2017 08:52 PM<br>
Subject:        Re: [gpfsug-discuss] FW: [EXTERNAL] FLASH: IBM Spectrum<br>
<span class="">Scale (GPFS) V4.1 and 4.2 levels: network reconnect function may result in<br>
file system corruption or undetected file data corruption (2017.10.09)<br>
Sent by:        <a href="mailto:gpfsug-discuss-bounces@spectrumscale.org">gpfsug-discuss-bounces@<wbr>spectrumscale.org</a><br>
<br>
<br>
<br>
</span><div><div class="h5">does this corrupt the entire filesystem or just the open files that are<br>
being written too?<br>
<br>
One is horrific and the other is just mildly bad.<br>
<br>
On 10 October 2017 at 17:09, IBM Spectrum Scale <<a href="mailto:scale@us.ibm.com">scale@us.ibm.com</a>> wrote:<br>
Bob,<br>
<br>
The problem may occur when the TCP connection is broken between two nodes.<br>
While in the vast majority of the cases when data stops flowing through<br>
the connection, the result is one of the nodes getting expelled, there are<br>
cases where the TCP connection simply breaks -- that is relatively rare<br>
but happens on occasion. There is logic in the mmfsd daemon to detect the<br>
disconnection and attempt to reconnect to the destination in question. If<br>
the reconnect is successful then steps are taken to recover the state kept<br>
by the daemons, and that includes resending some RPCs that were in flight<br>
when the disconnection took place.<br>
<br>
As the flash describes, a problem in the logic to resend some RPCs was<br>
causing one of the RPC headers to be omitted, resulting in the RPC data to<br>
be interpreted as the (missing) header. Normally the result is an assert<br>
on the receiving end, like the "logAssertFailed: !"Request and queue size<br>
mismatch"  assert described in the flash. However, it's at least<br>
conceivable (though expected to very rare) that the content of the RPC<br>
data could be interpreted as a valid RPC header. In the case of an RPC<br>
which involves data transfer between an NSD client and NSD server, that<br>
might result in incorrect data being written to some NSD device.<br>
<br>
Disconnect/reconnect scenarios appear to be uncommon. An entry like<br>
<br>
[N] Reconnected to xxx.xxx.xxx.xxx nodename <c0n0><br>
<br>
in mmfs.log would be an indication that a reconnect has occurred. By<br>
itself, the reconnect will not imply that data or the file system was<br>
corrupted, since that will depend on what RPCs were pending when the<br>
connection happened. In the case the assert above is hit, no corruption is<br>
expected, since the daemon will go down before incorrect data gets<br>
written.<br>
<br>
Reconnects involving an NSD server are those which present the highest<br>
risk, given that NSD-related RPCs are used to write data into NSDs<br>
<br>
Even on clusters that have not been subjected to disconnects/reconnects<br>
before, such events might still happen in the future in case of network<br>
glitches. It's then recommended that an efix for the problem be applied in<br>
a timely fashion.<br>
<br>
<br>
Reference: <a href="http://www-01.ibm.com/support/docview.wss?uid=ssg1S1010668" rel="noreferrer" target="_blank">http://www-01.ibm.com/support/<wbr>docview.wss?uid=ssg1S1010668</a><br>
<br>
<br>
<br>
Regards, The Spectrum Scale (GPFS) team<br>
<br>
------------------------------<wbr>------------------------------<wbr>------------------------------<wbr>------------------------<br>
If you feel that your question can benefit other users of  Spectrum Scale<br>
(GPFS), then please post it to the public IBM developerWroks Forum at<br>
<a href="https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479" rel="noreferrer" target="_blank">https://www.ibm.com/<wbr>developerworks/community/<wbr>forums/html/forum?id=11111111-<wbr>0000-0000-0000-000000000479</a><br>
.<br>
<br>
If your query concerns a potential software error in Spectrum Scale (GPFS)<br>
and you have an IBM software maintenance contract please contact<br>
 <a href="tel:1-800-237-5511" value="+6518002375511">1-800-237-5511</a> in the United States or your local IBM Service Center in<br>
other countries.<br>
<br>
The forum is informally monitored as time permits and should not be used<br>
for priority messages to the Spectrum Scale (GPFS) team.<br>
<br>
<br>
<br>
From:        "Oesterlin, Robert" <<a href="mailto:Robert.Oesterlin@nuance.com">Robert.Oesterlin@nuance.com</a>><br>
To:        gpfsug main discussion list <<a href="mailto:gpfsug-discuss@spectrumscale.org">gpfsug-discuss@spectrumscale.<wbr>org</a>><br>
Date:        10/09/2017 10:38 AM<br>
Subject:        [gpfsug-discuss] FW: [EXTERNAL] FLASH: IBM Spectrum Scale<br>
(GPFS) V4.1 and 4.2 levels: network reconnect function may result in file<br>
system corruption or undetected file data corruption (2017.10.09)<br>
Sent by:        <a href="mailto:gpfsug-discuss-bounces@spectrumscale.org">gpfsug-discuss-bounces@<wbr>spectrumscale.org</a><br>
<br>
<br>
<br>
<br>
</div></div><span class="">Can anyone from the Scale team comment?<br>
<br>
</span>Anytime I see ?may result in file system corruption or undetected file<br>
data corruption? it gets my attention.<br>
<div class="HOEnZb"><div class="h5"><br>
Bob Oesterlin<br>
Sr Principal Storage Engineer, Nuance<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
Storage<br>
IBM My Notifications<br>
Check out the IBM Electronic Support<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
IBM Spectrum Scale<br>
<br>
<br>
<br>
: IBM Spectrum Scale (GPFS) V4.1 and 4.2 levels: network reconnect<br>
function may result in file system corruption or undetected file data<br>
corruption<br>
<br>
<br>
<br>
IBM has identified a problem with IBM Spectrum Scale (GPFS) V4.1 and V4.2<br>
levels, in which resending an NSD RPC after a network reconnect function<br>
may result in file system corruption or undetected file data corruption.<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
 ______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__gpfsug.org_mailman_listinfo_gpfsug-2Ddiscuss&d=DwICAg&c=jf_iaSHvJObTbx-siA1ZOg&r=IbxtjdkPAM2Sbon4Lbbi4w&m=xzMAvLVkhyTD1vOuTRa4PJfiWgFQ6VHBQgr1Gj9LPDw&s=-AQv2Qlt2IRW2q9kNgnj331p8D631Zp0fHnxOuVR0pA&e=" rel="noreferrer" target="_blank">https://urldefense.proofpoint.<wbr>com/v2/url?u=http-3A__gpfsug.<wbr>org_mailman_listinfo_gpfsug-<wbr>2Ddiscuss&d=DwICAg&c=jf_<wbr>iaSHvJObTbx-siA1ZOg&r=<wbr>IbxtjdkPAM2Sbon4Lbbi4w&m=<wbr>xzMAvLVkhyTD1vOuTRa4PJfiWgFQ6V<wbr>HBQgr1Gj9LPDw&s=-<wbr>AQv2Qlt2IRW2q9kNgnj331p8D631Zp<wbr>0fHnxOuVR0pA&e=</a><br>
<br>
<br>
<br>
<br>
______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/<wbr>listinfo/gpfsug-discuss</a><br>
<br>
______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/<wbr>listinfo/gpfsug-discuss</a><br>
<br>
<br>
<br>
<br>
______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/<wbr>listinfo/gpfsug-discuss</a><br>
</div></div></blockquote></div><br></div>