<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial, Helvetica, sans-serif;font-size:10pt" ><div dir="ltr" >Simon,</div>
<div dir="ltr" > </div>
<div dir="ltr" >I have an open support call that required Redhat to create a kernel patch for RH 7.6 because of issues with the Intel x710 network adapter - I can't tell you if its related to your issue or not</div>
<div dir="ltr" > </div>
<div dir="ltr" >but it would cause the GPFS cluster to reboot and the affected node to reboot if we tried to do almost anything with that intel adapter</div>
<div dir="ltr" > </div>
<div dir="ltr" >regards,</div>
<div dir="ltr" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial, Helvetica, sans-serif;font-size:10.5pt" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial;font-size:10.5pt" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial;font-size:10.5pt" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial;font-size:10.5pt" ><div dir="ltr" style="margin-top: 20px;" ><div style="font-size: 12pt; font-weight: bold; font-family: sans-serif; color: #7C7C5F;" >Andrew Beattie</div>
<div style="font-size: 10pt; font-weight: bold; font-family: sans-serif;" >File and Object Storage Technical Specialist - A/NZ</div>
<div style="font-size: 10pt; font-weight: bold; font-family: sans-serif;" >IBM Systems - Storage</div>
<div style="font-size: 8pt; font-family: sans-serif; margin-top: 10px;" ><div><span style="font-weight: bold; color: #336699;" >Phone: </span>614-2133-7927</div>
<div><span style="font-weight: bold; color: #336699;" >E-mail: </span><a href="mailto:abeattie@au1.ibm.com" style="color: #555">abeattie@au1.ibm.com</a></div></div></div></div></div></div></div></div>
<div dir="ltr" > </div>
<div dir="ltr" > </div>
<blockquote data-history-content-modified="1" dir="ltr" style="border-left:solid #aaaaaa 2px; margin-left:5px; padding-left:5px; direction:ltr; margin-right:0px" >----- Original message -----<br>From: Simon Thompson <S.J.Thompson@bham.ac.uk><br>Sent by: gpfsug-discuss-bounces@spectrumscale.org<br>To: gpfsug main discussion list <gpfsug-discuss@spectrumscale.org><br>Cc:<br>Subject: [EXTERNAL] Re: [gpfsug-discuss] GPFS and POWER9<br>Date: Fri, Sep 20, 2019 1:18 AM<br> <br><!--Notes ACF
<meta http-equiv="Content-Type" content="text/html; charset=utf8" >-->
<div><p style="margin: 0px;" >Hi Andrew,<o:p></o:p></p>
<p style="margin: 0px;" ><o:p> </o:p></p>
<p style="margin: 0px;" >Yes, but not only. We use the two SFP+ ports from the Broadcom supplied card + the bifurcated Mellanox card in them.<o:p></o:p></p>
<p style="margin: 0px;" ><o:p> </o:p></p>
<p style="margin: 0px;" >Simon<o:p></o:p></p>
<p style="margin: 0px;" ><o:p> </o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0cm 0cm 0cm" ><p style="margin: 0px;" ><b><span style="font-size:12.0pt;color:black" >From: </span></b><span style="font-size:12.0pt;color:black" ><gpfsug-discuss-bounces@spectrumscale.org> on behalf of "abeattie@au1.ibm.com" <abeattie@au1.ibm.com><br><b>Reply-To: </b>"gpfsug-discuss@spectrumscale.org" <gpfsug-discuss@spectrumscale.org><br><b>Date: </b>Thursday, 19 September 2019 at 11:45<br><b>To: </b>"gpfsug-discuss@spectrumscale.org" <gpfsug-discuss@spectrumscale.org><br><b>Subject: </b>Re: [gpfsug-discuss] GPFS and POWER9<o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><o:p> </o:p></p></div>
<div><div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >Simon,<o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" > <o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >are you using Intel 10Gb Network Adapters with RH 7.6 by anychance?<o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" > <o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >regards<o:p></o:p></span></p></div>
<div><div><div><div><div><div style="margin-top:15.0pt" ><div><p style="margin: 0px;" ><b><span style="font-size:12.0pt;font-family:"Arial",sans-serif;color:#7C7C5F" >Andrew Beattie<o:p></o:p></span></b></p></div>
<div><p style="margin: 0px;" ><b><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >File and Object Storage Technical Specialist - A/NZ<o:p></o:p></span></b></p></div>
<div><p style="margin: 0px;" ><b><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >IBM Systems - Storage<o:p></o:p></span></b></p></div>
<div style="margin-top:7.5pt" ><div><p style="margin: 0px;" ><b><span style="font-size:8.0pt;font-family:"Arial",sans-serif;color:#336699" >Phone: </span></b><span style="font-size:8.0pt;font-family:"Arial",sans-serif" >614-2133-7927<o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><b><span style="font-size:8.0pt;font-family:"Arial",sans-serif;color:#336699" >E-mail: </span></b><span style="font-size:8.0pt;font-family:"Arial",sans-serif" ><a href="mailto:abeattie@au1.ibm.com" target="_blank"><span style="color:#555555" >abeattie@au1.ibm.com</span></a><o:p></o:p></span></p></div></div></div></div></div></div></div></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" > <o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" > <o:p></o:p></span></p></div>
<blockquote style="border:none;border-left:solid #AAAAAA 1.5pt;padding:0cm 0cm 0cm 4.0pt;margin-left:3.75pt;margin-top:5.0pt;margin-right:0cm;margin-bottom:5.0pt" ><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" >----- Original message -----<br>From: Simon Thompson <S.J.Thompson@bham.ac.uk><br>Sent by: gpfsug-discuss-bounces@spectrumscale.org<br>To: "gpfsug-discuss@spectrumscale.org" <gpfsug-discuss@spectrumscale.org><br>Cc:<br>Subject: [EXTERNAL] [gpfsug-discuss] GPFS and POWER9<br>Date: Thu, Sep 19, 2019 8:42 PM<br> <br><br><o:p></o:p></span></p>
<div><p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Recently we’ve been having some issues with some of our POWER9 systems. They are occasionally handing or rebooting, in one case, we’ve found we can cause them to do it by running some MPI IOR workload to GPFS. Every instance we’ve seen which has logged something to syslog has had mmfsd referenced, but we don’t know if that is a symptom or a cause. (sometimes they just hang and we don’t see such a message) We see the following in the kern log:</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" > </span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Hypervisor Maintenance interrupt [Recovered]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Error detail: Malfunction Alert</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: #011HMER: 8040000000000000</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: #011Unknown Malfunction Alert of type 3</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Hypervisor Maintenance interrupt [Recovered]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Error detail: Malfunction Alert</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: #011HMER: 8040000000000000</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [00000000115a2478] PID: 141380 Comm: mmfsd</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Load/Store]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000003002a2a8400</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c016590000</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [000000001150b160] PID: 141380 Comm: mmfsd</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Instruction fetch]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000000001150b160</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c01fe80000</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [000000001086a7f0] PID: 25926 Comm: mmfsd</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Instruction fetch]</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000000001086a7f0</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c00fe70000</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Sep 18 18:45:14 bear-pg0306u11a kernel: mmfsd[25926]: unhandled signal 7 at 000000001086a7f0 nip 000000001086a7f0 lr 000000001086a7f0 code 4</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" > </span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >I’ve raised a hardware ticket with IBM, as traditionally a machine check exception would likely be a hardware/firmware issue. Anyone else seen this sort of behaviour? Its multiple boxes doing this, but they do all have the same firmware/rhel/gpfs stack installed.</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" > </span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Asking here as they always reference mmfsd PIDs … (but maybe it’s a symptom rather than cause)…</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" > </span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p>
<p style="margin:0cm;margin-bottom:.0001pt" ><span style="font-family:"Arial",sans-serif" >Simon</span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p></div>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Courier New"" >_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a> </span><span style="font-size:10.0pt;font-family:"Arial",sans-serif" ><o:p></o:p></span></p></div></blockquote>
<div><p style="margin: 0px;" ><span style="font-size:10.0pt;font-family:"Arial",sans-serif" > <o:p></o:p></span></p></div></div>
<p style="margin: 0px;" ><br><br><o:p></o:p></p></div>
<div><font size="2" face="Default Monospace,Courier New,Courier,monospace" >_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a> </font></div></blockquote>
<div dir="ltr" > </div></div><BR>