<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-GB" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Recently we’ve been having some issues with some of our POWER9 systems. They are occasionally handing or rebooting, in one case, we’ve found we can cause them to do it by running some MPI IOR workload to GPFS.
 Every instance we’ve seen which has logged something to syslog has had mmfsd referenced, but we don’t know if that is a symptom or a cause. (sometimes they just hang and we don’t see such a message) We see the following in the kern log:<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Hypervisor Maintenance interrupt [Recovered]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Error detail: Malfunction Alert<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: #011HMER: 8040000000000000<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: #011Unknown Malfunction Alert of type 3<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Hypervisor Maintenance interrupt [Recovered]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Error detail: Malfunction Alert<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: #011HMER: 8040000000000000<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [00000000115a2478] PID: 141380 Comm: mmfsd<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Load/Store]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000003002a2a8400<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c016590000<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [000000001150b160] PID: 141380 Comm: mmfsd<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Instruction fetch]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000000001150b160<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c01fe80000<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: Severe Machine check interrupt [Not recovered]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  NIP: [000000001086a7f0] PID: 25926 Comm: mmfsd<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Initiator: CPU<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:  Error type: UE [Instruction fetch]<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Effective address: 000000001086a7f0<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel:    Physical address:  000003c00fe70000<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sep 18 18:45:14 bear-pg0306u11a kernel: mmfsd[25926]: unhandled signal 7 at 000000001086a7f0 nip 000000001086a7f0 lr 000000001086a7f0 code 4<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I’ve raised a hardware ticket with IBM, as traditionally a machine check exception would likely be a hardware/firmware issue. Anyone else seen this sort of behaviour? Its multiple boxes doing this, but they
 do all have the same firmware/rhel/gpfs stack installed.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Asking here as they always reference mmfsd PIDs … (but maybe it’s a symptom rather than cause)…<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Simon<o:p></o:p></span></p>
</div>
</body>
</html>