<html><body bgcolor="#FFFFFF"><p><font size="2">Damir, Joseph,</font><br><br><font size="2">> </font>Is this something to pay attention to, and what does this waiter mean?<br><font size="2">This waiter means GPFS fails to reconnect broken verbs connection,  which can cause performance degradation.</font><br><br><font size="2">> </font>I have seen these on our cluster after the IB network goes down (GPFS still runs over ethernet) and then comes back up.  They will retry forever it seems, even after the IB is healthy again.<br><font size="2">> Restarting GPFS on the nodes with waiters has fixed the issue for me, I don't know if IBM has any other tricks to fix this without a restart.</font><br><br><font size="2">This is a code bug which is fixed through internal defect 1090669. It will be backport to service releases after verification. </font><br><font size="2">There is a work-around which can fix this problem without a restart.</font><br><font size="2">-   On nodes which have this waiter list, run command 'mmfsadm test breakconn all 744'</font><br><font size="2">     744 is E_RECONNECT, which triggers tcp reconnect and will not cause node leave/rejoin. Its side effect clears RDMA connections and their incorrect status.</font><br><br><font size="2">Regards, The Spectrum Scale (GPFS) team<br><br>------------------------------------------------------------------------------------------------------------------<br>If you feel that your question can benefit other users of  Spectrum Scale (GPFS), then please post it to the public IBM developerWroks Forum at <a href="https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479">https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479</a>. <br><br>If your query concerns a potential software error in Spectrum Scale (GPFS) and you have an IBM software maintenance contract please contact  1-800-237-5511 in the United States or your local IBM Service Center in other countries. <br><br>The forum is informally monitored as time permits and should not be used for priority messages to the Spectrum Scale (GPFS) team.</font><br><br><img width="16" height="16" src="cid:1__=0ABB0EE4DFA12FB68f9e8a93df938690918c0AB@" border="0" alt="Inactive hide details for Joseph Mendoza ---2019/09/14 12:08:34 AM---I have seen these on our cluster after the IB network goes"><font size="2" color="#424282">Joseph Mendoza ---2019/09/14 12:08:34 AM---I have seen these on our cluster after the IB network goes down (GPFS still runs over ethernet) and</font><br><br><font size="2" color="#5F5F5F">From:        </font><font size="2">Joseph Mendoza <jam@ucar.edu></font><br><font size="2" color="#5F5F5F">To:        </font><font size="2">gpfsug-discuss@spectrumscale.org</font><br><font size="2" color="#5F5F5F">Date:        </font><font size="2">2019/09/14 12:08 AM</font><br><font size="2" color="#5F5F5F">Subject:        </font><font size="2">[EXTERNAL] Re: [gpfsug-discuss] VerbsReconnectThread waiters</font><br><font size="2" color="#5F5F5F">Sent by:        </font><font size="2">gpfsug-discuss-bounces@spectrumscale.org</font><br><hr width="100%" size="2" align="left" noshade style="color:#8091A5; "><br><br><br>I have seen these on our cluster after the IB network goes down (GPFS still runs over ethernet) and then comes back up.  They will retry forever it seems, even after the IB is healthy again.  The effect they seem to have is that verbs connections between some nodes breaks and GPFS uses ethernet/ipoib instead.  You may see messages in your mmfs.log.latest about verbs being disabled "due to too many errors".  You can also see fewer verbs connections between nodes in "mmfsadm test verbs conn" output.
<p>Restarting GPFS on the nodes with waiters has fixed the issue for me, I don't know if IBM has any other tricks to fix this without a restart.
<p>--Joey
<p><p>On 9/12/19 8:16 AM, Damir Krstic wrote:
<ul><ul>On my cluster I have seen couple of long waiters such as this:<br><br>gss01: Waiting 16.8543 sec since 09:07:02, ignored, thread 46230 VerbsReconnectThread: delaying for 43.145624000 more seconds, reason: delaying for next reconnect attempt<br><br>I tried searching on gpfs wiki for this type of waiter, but was unable to find anything of value. <br><br>Is this something to pay attention to, and what does this waiter mean?<br><br>Thank you.<br>Damir<br><br><tt>_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br></tt><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss"><tt><u><font color="#0000FF">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</font></u></tt></a><tt><br></tt><tt><font size="2">_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br></font></tt><tt><font size="2"><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a></font></tt><tt><font size="2"> <br></font></tt><br><br></ul></ul><BR>
</body></html>