<div class="socmaildefaultfont" dir="ltr" style="font-family:Arial, Helvetica, sans-serif;font-size:10pt" ><div dir="ltr" >Hallo Olu,</div>
<div dir="ltr" >from the log you provide, nothing seems to be faulty... but that does not mean, there is no issue ...</div>
<div dir="ltr" > </div>
<div dir="ltr" >if you think , it is a GPFS problem.... start gpfs trace on a sample node, , which has this problem again and again... and capture a trae as well and provide that data to IBM</div>
<div dir="ltr" >I suggest, to open a PMR to IBM , collect a GPFS snap ...</div>
<div dir="ltr" > </div>
<div dir="ltr" >personally, I would start debugging the node... make journalctl  persistent</div>
<div dir="ltr" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial, Helvetica, sans-serif;font-size:10pt" ><div class="socmaildefaultfont" dir="ltr" style="font-family:Arial, Helvetica, sans-serif;font-size:10pt" ><div dir="ltr" ><div><a href="https://access.redhat.com/solutions/696893">https://access.redhat.com/solutions/696893</a></div>
<div>and start from there ...</div>
<div> </div>
<div>it smells a bit like a network  problem related to RDMA/ OFED.. do you use same OFED version as in the cluster, what works fine ?</div>
<div> </div>
<div> </div>
<div> </div></div></div></div></div>
<blockquote data-history-content-modified="1" dir="ltr" style="border-left:solid #aaaaaa 2px; margin-left:5px; padding-left:5px; direction:ltr; margin-right:0px" >----- Original message -----<br>From: "Saula, Oluwasijibomi" <oluwasijibomi.saula@ndsu.edu><br>Sent by: gpfsug-discuss-bounces@spectrumscale.org<br>To: "gpfsug-discuss@spectrumscale.org" <gpfsug-discuss@spectrumscale.org><br>Cc:<br>Subject: [EXTERNAL] [gpfsug-discuss] Filesystem mount attempt hangs GPFS client node<br>Date: Mon, Mar 29, 2021 8:38 PM<br> <br><!--Notes ACF
<meta http-equiv="Content-Type" content="text/html; charset=utf8" >-->
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >Hello Folks,</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >So we are experiencing a mind-boggling issue where just a couple of nodes in our cluster, at GPFS boot up, get hung so badly that the node must be power reset.</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >These AMD client nodes are diskless in nature and have at least 256G of memory. We have other AMD nodes that are working just fine in a separate GPFS cluster albeit on RHEL7.</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >Just before GPFS (or related processes) seize up the node, the following lines of /var/mmfs/gen/mmfslog are noted:</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" ><p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.343-0500: [N] mmfsd ready</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.426-0500: mmcommon mmfsup invoked. Parameters: 10.12.50.47 10.12.50.242 all</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.587-0500: mounting /dev/mmfs1</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.590-0500: [I] Command: mount mmfs1</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.859-0500: [N] Connecting to 10.12.50.243 tier1-sn-02.pixstor <c0n2></span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.864-0500: [I] VERBS RDMA connecting to 10.12.50.242 (tier1-sn-01.pixstor) on mlx5_0 port 1 fabnum 0 sl 0 index 0</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.864-0500: [I] VERBS RDMA connecting to 10.12.50.242 (tier1-sn-01) on mlx5_0 port 1 fabnum 0 sl 0 index 1</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.866-0500: [I] VERBS RDMA connected to 10.12.50.242 (tier1-sn-01) on mlx5_0 port 1 fabnum 0 sl 0 index 0</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.867-0500: [I] VERBS RDMA connected to 10.12.50.242 (tier1-sn-01) on mlx5_0 port 1 fabnum 0 sl 0 index 1</span></p>
<p style="margin:0px;font:16px Menlo;background-color:rgb(254, 244, 139)" ><span style="font-variant-ligatures:no-common-ligatures" >2021-03-29_12:47:37.868-0500: [I] Connected to 10.12.50.243 tier1-sn-02 <c0n2></span></p></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >There have been hunches that this might be a network issue, however, other nodes connected to the IB network switch are mounting the filesystem without incident.</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >I'm inclined to believe there's a GPFS/OS-specific setting that might be causing these crashes especially when we note that disabling the automount on the client node doesn't result in the node hanging. However, once we issue mmmount, we see the node seize up shortly...</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" >Please let me know if you have any thoughts on where to look for root-causes as I and a few fellows are stuck here <span id="🙁" >🙁</span></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div><div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" > </div>
<div id="Signature" ><div><div> </div>
<div dir="ltr" id="divtagdefaultwrapper" style="font-size:12pt; color:#000000; font-family:Calibri,Arial,Helvetica,sans-serif" ><p style="margin-top:0px; margin-bottom:0px" > </p>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:16px; margin-top:0px; margin-bottom:0px" ><span style="font-family:Arial,sans-serif; font-size:13.3333px" >Thanks,</span></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:16px; margin-top:0px; margin-bottom:0px" > </div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:16px; margin-top:0px; margin-bottom:0px" ><p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><b><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" >Oluwasijibomi (Siji) Saula</span></b></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" >HPC Systems Administrator  /  Information Technology</span></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" > </span></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" ><span style="font-family:Arial,sans-serif; background-color:rgb(255,255,255); display:inline!important" >Research 2 Building</span> 220B / Fargo ND 58108-6050</span></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" >p: 701.231.7749 /<span> </span><a href="http://www.ndsu.edu/" rel="noopener noreferrer" style="margin:0px" target="_blank"><span style="margin:0px; color:purple" >www.ndsu.edu</span></a></span></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; font-size:10pt; font-family:Arial,sans-serif; color:black" > </span></font></p>
<p style="color:rgb(32,31,30); text-align:start; background-color:rgb(255,255,255); font-size:11pt; font-family:Calibri,sans-serif; margin:0px" ><font face="Calibri,Arial,Helvetica,sans-serif" ><span style="margin:0px; color:rgb(31,73,125)" ><img data-outlook-trace="F:0|T:1" src="cid:image001.gif@01D57DE0.91C300C0" style="margin:0px; width:140.99pt; height:26.24pt" ></span></font></p></div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:16px; margin-top:0px; margin-bottom:0px" > </div> 

<p style="margin-top:0px; margin-bottom:0px" > </p></div></div></div></div>
<div><font size="2" face="Default Monospace,Courier New,Courier,monospace" >_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a> </font></div></blockquote>
<div dir="ltr" > </div></div><BR>