<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" id="owaParaStyle">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body fpstyle="1" ocsi="0">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;">
<div>Hi Andrew, thanks for the naswer.</div>
<div>No, the port #2 (on all the nodes) is not cabled.</div>
<div><br>
</div>
<div>Regards,<br>
</div>
<div><br>
</div>
<div>   Alvise<br>
</div>
<div style="font-family: Times New Roman; color: #000000; font-size: 16px">
<hr tabindex="-1">
<div id="divRpF175436" style="direction: ltr;"><font size="2" face="Tahoma" color="#000000"><b>From:</b> gpfsug-discuss-bounces@spectrumscale.org [gpfsug-discuss-bounces@spectrumscale.org] on behalf of Andrew Beattie [abeattie@au1.ibm.com]<br>
<b>Sent:</b> Thursday, June 28, 2018 10:15 AM<br>
<b>To:</b> gpfsug-discuss@spectrumscale.org<br>
<b>Subject:</b> Re: [gpfsug-discuss] How to get rid of very old mmhealth events<br>
</font><br>
</div>
<div></div>
<div>
<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial,Helvetica,sans-serif; font-size:10.5pt">
<div dir="ltr">Do you know if there is actually a cable plugged into port 2?</div>
<div dir="ltr"> </div>
<div dir="ltr">The system will work fine as long as there is network connectivity, but you may have an issue with redundancy or loss of bandwidth if you do not have every port cabled and configured correctly.</div>
<div dir="ltr"> </div>
<div dir="ltr">Regards</div>
<div dir="ltr">
<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial; font-size:10.5pt">
<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial; font-size:10.5pt">
<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial; font-size:10.5pt">
<div dir="ltr" style="margin-top:20px">
<div style="font-size:12pt; font-weight:bold; font-family:sans-serif; color:#7C7C5F">
Andrew Beattie</div>
<div style="font-size:10pt; font-weight:bold; font-family:sans-serif">Software Defined Storage  - IT Specialist</div>
<div style="font-size:8pt; font-family:sans-serif; margin-top:10px">
<div><span style="font-weight:bold; color:#336699">Phone: </span>614-2133-7927</div>
<div><span style="font-weight:bold; color:#336699">E-mail: </span><a href="mailto:abeattie@au1.ibm.com" style="color:#555" target="_blank" rel="noopener noreferrer">abeattie@au1.ibm.com</a></div>
</div>
</div>
</div>
</div>
</div>
</div>
<div dir="ltr"> </div>
<div dir="ltr"> </div>
<blockquote dir="ltr" style="border-left:solid #aaaaaa 2px; margin-left:5px; padding-left:5px; direction:ltr; margin-right:0px">
----- Original message -----<br>
From: "Dorigo Alvise (PSI)" <alvise.dorigo@psi.ch><br>
Sent by: gpfsug-discuss-bounces@spectrumscale.org<br>
To: "gpfsug-discuss@spectrumscale.org" <gpfsug-discuss@spectrumscale.org><br>
Cc:<br>
Subject: [gpfsug-discuss] How to get rid of very old mmhealth events<br>
Date: Thu, Jun 28, 2018 6:08 PM<br>
 <br>
<div style="direction:ltr; font-family:Tahoma; color:#000000; font-size:10pt">
<div>Dear experts,</div>
<div>I've e GL2 IBM system running SpectrumScale v4.2.3-6 (RHEL 7.3).</div>
<div>The system is working properly but I get a DEGRADED status report for the NETWORK running the command mmhealth:</div>
<div> </div>
<div>[root@sf-gssio1 ~]# mmhealth node show<br>
<br>
Node name:      sf-gssio1.psi.ch<br>
Node status:    DEGRADED<br>
Status Change:  23 min. ago<br>
<br>
Component       Status        Status Change     Reasons<br>
-------------------------------------------------------------------------------------------------------------------------------------------<br>
GPFS            HEALTHY       22 min. ago       -<br>
NETWORK         DEGRADED      145 days ago      ib_rdma_link_down(mlx5_0/2), ib_rdma_nic_down(mlx5_0/2), ib_rdma_nic_unrecognized(mlx5_0/2)</div>
<div>[...]</div>
<div> </div>
<div>This event is clearly an outlier because the network, verbs and IB are correctly working:</div>
<div> </div>
<div>[root@sf-gssio1 ~]# mmfsadm test verbs status<br>
VERBS RDMA status: started</div>
<div> </div>
<div>[root@sf-gssio1 ~]# mmlsconfig verbsPorts|grep gssio1<br>
verbsPorts mlx5_0/1 [sf-ems1,sf-gssio1,sf-gssio2]</div>
<div> </div>
<div>[root@sf-gssio1 ~]# mmdiag --config|grep verbsPorts<br>
 ! verbsPorts mlx5_0/1</div>
<div> </div>
<div>[root@sf-gssio1 ~]# ibstat  mlx5_0<br>
CA 'mlx5_0'<br>
    CA type: MT4113<br>
    Number of ports: 2<br>
    Firmware version: 10.16.1020<br>
    Hardware version: 0<br>
    Node GUID: 0xec0d9a03002b5db0<br>
    System image GUID: 0xec0d9a03002b5db0<br>
    Port 1:<br>
        State: Active<br>
        Physical state: LinkUp<br>
        Rate: 56<br>
        Base lid: 42<br>
        LMC: 0<br>
        SM lid: 1<br>
        Capability mask: 0x26516848<br>
        Port GUID: 0xec0d9a03002b5db0<br>
        Link layer: InfiniBand<br>
    Port 2:<br>
        State: Down<br>
        Physical state: Disabled<br>
        Rate: 10<br>
        Base lid: 65535<br>
        LMC: 0<br>
        SM lid: 0<br>
        Capability mask: 0x26516848<br>
        Port GUID: 0xec0d9a03002b5db8<br>
        Link layer: InfiniBand</div>
<div> </div>
<div>That event is there since 145 days and I didn't go away after a daemon restart (mmshutdown/mmstartup).</div>
<div>My question is: how I can get rid of this event and restore the mmhealth's output to HEALTHY ? This is important because I've nagios sensors that periodically parse the "mmhealth -Y ..." output and at the moment I've to disable their email notification
 (which is not good if some real bad event happens).</div>
<div> </div>
<div>Thanks,</div>
<div> </div>
<div>  Alvise</div>
</div>
<div><font size="2" face="Default Monospace,Courier New,Courier,monospace">_______________________________________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at spectrumscale.org<br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank" rel="noopener noreferrer">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a></font></div>
</blockquote>
<div dir="ltr"> </div>
</div>
<br>
</div>
</div>
</div>
</body>
</html>