<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from rtf -->
<style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<font face="Calibri" size="2"><span style="font-size:11pt;">
<div>Hi all,</div>
<div> </div>
<div>We’ve been experiencing issues with remote cluster node expelling CES nodes causing remote filesystems to unmount. The issue is related gpfs communication using Ethernet IP rather than IP defined on IB which is used for Daemon node name and Admin node
name. So remote cluster is aware of IPs that are not defined in GPFS configuration as Admin/Daemon node name. The CES nodes are configure to have IB as well as Ethernet (for client interactive and NFS access). We’ve double checked /etc/hosts and DNS and all
looks to be in order since the CES IPoIB IP is present in /etc/hosts of remote cluster. I’m unsure where cluster manager for remote cluster is getting the Ethernet IP if there is no mention of it in GPFS configuration. The CES nodes were added later therefore
they are not listed as Contact Nodes in ‘mmremotecluster show’ output. </div>
<div> </div>
<div>The CES nodes use IP defined on IB for GPFS configuration and we also have Ethernet which has the default route defined. In order to ensure that all IB communication passes via IPoIB, we’ve even defined a static route so that all GPFS communication will
use IPoIB (since we are dealing with a different fabric). ‘mmfsadm dump tscomm’ reports multiple IPs for CES nodes which includes the Ethernet and also the IPoIB. I’m unsure if there is a way to drop some connections on GPFS (cluster wide) after stopping a
specific CES node and ensure that only IB is listed. I realize that one option would be to define subnet parameter for remote cluster which will require a downtime (solution to be explored at later date).</div>
<div> </div>
<div>Hope that someone can explain how or why remote cluster is picking IPs not used in GPFS config for remote nodes and how to ensure those IPs are not used in future.</div>
<div> </div>
<div>Thank you,</div>
<div> </div>
<div>Tarak</div>
<div> </div>
<div> </div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">--</span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;"> </span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">Tarak Patel</span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;"> </span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">Chef d’équipe, Integration HPC, Solution de calcul E-Science</span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">Service partagé Canada / Gouvernment du Canada</span></font></div>
<div><a href="mailto:tarak.patel@canada.ca"><font size="2" color="blue"><span style="font-size:10pt;"><u>tarak.patel@canada.ca</u></span></font></a></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">1-514-421-7299</span></font></div>
<div><font color="#7F7F7F"> </font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">Team Lead, HPC Integration, E-Science Computing Solution</span></font></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">Shared Services Canada, Government of Canada</span></font></div>
<div><a href="mailto:tarak.patel@canada.ca"><font size="2" color="blue"><span style="font-size:10pt;"><u>tarak.patel@canada.ca</u></span></font></a></div>
<div><font size="2" color="#7F7F7F"><span style="font-size:10pt;">1-514-421-7299</span></font></div>
<div> </div>
<div> </div>
<div> </div>
</span></font>
</body>
</html>