<div dir="ltr">As background, we recently upgraded GPFS from 4.2.0 to 4.2.1  and updated the Mellanox OFED on our compute cluster to allow it to move from CentOS 7.1 to 7.2<div><br></div><div>We do some transient warnings from the Mellanox switch gear about various port counters that we are tracking down with them.</div><div><br></div><div>Jobs and filesystem seem stable, but the logs are concerning.</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 18, 2017 at 10:22 AM, Aaron Knister <span dir="ltr"><<a href="mailto:aaron.s.knister@nasa.gov" target="_blank">aaron.s.knister@nasa.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I'm curious about this too. We see these messages sometimes when things have gone horribly wrong but also sometimes during recovery events. Here's a recent one:<br>
<br>
loremds20 (manager/nsd node):<br>
Mon Jan 16 14:19:02.048 2017: [E] VERBS RDMA rdma read error IBV_WC_REM_ACCESS_ERR to 10.101.11.6 (lorej006) on mlx5_0 port 1 fabnum 3 vendor_err 136<br>
Mon Jan 16 14:19:02.049 2017: [E] VERBS RDMA closed connection to 10.101.11.6 (lorej006) on mlx5_0 port 1 fabnum 3 due to RDMA read error IBV_WC_REM_ACCESS_ERR index 11<br>
<br>
lorej006 (client):<br>
Mon Jan 16 14:19:01.990 2017: [N] VERBS RDMA closed connection to 10.101.53.18 (loremds18) on mlx5_0 port 1 fabnum 3 index 2<br>
Mon Jan 16 14:19:01.995 2017: [N] VERBS RDMA closed connection to 10.101.53.19 (loremds19) on mlx5_0 port 1 fabnum 3 index 0<br>
Mon Jan 16 14:19:01.997 2017: [I] Recovering nodes: 10.101.53.18 10.101.53.19<br>
Mon Jan 16 14:19:02.047 2017: [W] VERBS RDMA async event IBV_EVENT_QP_ACCESS_ERR on mlx5_0 qp 0x7fffe550f1c8.<br>
Mon Jan 16 14:19:02.051 2017: [E] VERBS RDMA closed connection to 10.101.53.20 (loremds20) on mlx5_0 port 1 fabnum 3 error 733 index 1<br>
Mon Jan 16 14:19:02.071 2017: [I] Recovered 2 nodes for file system tnb32.<br>
Mon Jan 16 14:19:02.140 2017: [I] VERBS RDMA connecting to 10.101.53.20 (loremds20) on mlx5_0 port 1 fabnum 3 index 0<br>
Mon Jan 16 14:19:02.160 2017: [I] VERBS RDMA connected to 10.101.53.20 (loremds20) on mlx5_0 port 1 fabnum 3 sl 0 index 0<br>
<br>
I had just shut down loremds18 and loremds19 so there was certainly recovery taking place and during that time is when the error seems to have occurred.<br>
<br>
I looked up the meaning of IBV_WC_REM_ACCESS_ERR here (<a href="http://www.rdmamojo.com/2013/02/15/ibv_poll_cq/" rel="noreferrer" target="_blank">http://www.rdmamojo.com/2013/<wbr>02/15/ibv_poll_cq/</a>) and see this:<br>
<br>
IBV_WC_REM_ACCESS_ERR (10) - Remote Access Error: a protection error occurred on a remote data buffer to be read by an RDMA Read, written by an RDMA Write or accessed by an atomic operation. This error is reported only on RDMA operations or atomic operations. Relevant for RC QPs.<br>
<br>
my take on it during recovery it seems like one end of the connection more or less hanging up on the other end (e.g. Connection reset by peer<br>
/ECONNRESET).<br>
<br>
But like I said at the start, we also see this when there something has gone awfully wrong.<br>
<br>
-Aaron<span class=""><br>
<br>
On 1/18/17 3:59 AM, Simon Thompson (Research Computing - IT Services) wrote:<br>
</span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">
I'd be inclined to look at something like:<br>
<br>
ibqueryerrors -s<br>
PortXmitWait,LinkDownedCounter<wbr>,PortXmitDiscards,PortRcvRemot<wbr>ePhysicalErrors<br>
-c<br>
<br>
And see if you have a high number of symbol errors, might be a cable<br>
needs replugging or replacing.<br>
<br>
Simon<br>
<br>
From: <<a href="mailto:gpfsug-discuss-bounces@spectrumscale.org" target="_blank">gpfsug-discuss-bounces@spectr<wbr>umscale.org</a><br></span>
<mailto:<a href="mailto:gpfsug-discuss-bounces@spectrumscale.org" target="_blank">gpfsug-discuss-bounces<wbr>@spectrumscale.org</a>>> on behalf of "J. Eric<br>
Wonderley" <<a href="mailto:eric.wonderley@vt.edu" target="_blank">eric.wonderley@vt.edu</a> <mailto:<a href="mailto:eric.wonderley@vt.edu" target="_blank">eric.wonderley@vt.edu</a>><wbr>><br>
Reply-To: "<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.<wbr>org</a><br>
<mailto:<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectru<wbr>mscale.org</a>>"<br>
<<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.<wbr>org</a> <mailto:<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectru<wbr>mscale.org</a>>><span class=""><br>
Date: Tuesday, 17 January 2017 at 21:16<br>
To: "<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.<wbr>org</a><br></span>
<mailto:<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectru<wbr>mscale.org</a>>"<br>
<<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.<wbr>org</a> <mailto:<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectru<wbr>mscale.org</a>>><span class=""><br>
Subject: [gpfsug-discuss] rmda errors scatter thru gpfs logs<br>
<br>
I have messages like these frequent my logs:<br>
Tue Jan 17 11:25:49.731 2017: [E] VERBS RDMA rdma write error<br>
IBV_WC_REM_ACCESS_ERR to 10.51.10.5 (cl005) on mlx5_0 port 1 fabnum 0<br>
vendor_err 136<br>
Tue Jan 17 11:25:49.732 2017: [E] VERBS RDMA closed connection to<br>
10.51.10.5 (cl005) on mlx5_0 port 1 fabnum 0 due to RDMA write error<br>
IBV_WC_REM_ACCESS_ERR index 23<br>
<br>
Any ideas on cause..?<br>
<br>
<br>
<br></span>
______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/list<wbr>info/gpfsug-discuss</a><br>
<br><span class="HOEnZb"><font color="#888888">
</font></span></blockquote><span class="HOEnZb"><font color="#888888">
<br>
-- <br>
Aaron Knister<br>
NASA Center for Climate Simulation (Code 606.2)<br>
Goddard Space Flight Center<br>
<a href="tel:%28301%29%20286-2776" value="+13012862776" target="_blank">(301) 286-2776</a><br>
______________________________<wbr>_________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/list<wbr>info/gpfsug-discuss</a><br>
</font></span></blockquote></div><br></div>