<div dir="ltr">Are the tiebreaker disks part of the same storage that is being used to provide disks for the NSDs of your filesystem?<div><br></div><div>Having both management and daemon networks on the same network can impact the cluster in many ways. Depending on the requirements and workload conditions to run the cluster. Especially if the network is not 100% top notch or can be affected by external factors (other types of utilization).</div><div><br></div><div>I would recur to a recent (and/or run a new one) performance benchmark <span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">result<span> (</span></span>IOR and MDTEST) and try to understand if the recordings of the current performance while observing the problem really tell something new. If not (if benchmarks tell that you are at the edge of the performance, then the best would be to consider increasing cluster performance) with additional disk hardware and/or network performance.</div><div><br></div><div>If possible I would also recommend upgrading to the new Spectrum Scale 5 that have many new performance features.</div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, 23 Jul 2018 at 23:06, Peter Childs <<a href="mailto:p.childs@qmul.ac.uk">p.childs@qmul.ac.uk</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div>
<div>On Mon, 2018-07-23 at 22:13 +1200, José Filipe Higino wrote:</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">I think the network problems need to be cleared first. Then I would investigate further.
<div><br>
</div>
<div>Buf if that is not a trivial path... </div>
<div>Are you able to understand from the mmfslog what happens when the tipping point occurs?</div>
</div>
</blockquote>
<div><br>
</div>
<div>mmfslog thats not a term I've come accross before, if you mean /var/adm/ras/mmfs.log.latest then I'm already there is not a lot there, In other words no expulsions or errors just a very slow filesystem, We've not seen any significantly long waiters either
 (mmdiag --waiters) so as far as I can see its just behaving like a very very busy filesystem.</div>
<div><br>
</div>
<div>We've already had IBM looking at the snaps due to the rather slow mmbackup process, all I've had back is to try increase -a ie the number of sort threads which has speed it up to a certain extent, But once again I think we're looking at the results of
 the issue not the cause.</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div><br>
</div>
<div>In my view, when troubleshooting is not easy, the usual methods work/help to find the next step:</div>
<div>- Narrow the window of troubleshooting (by discarding "for now" events that did not happen within the same timeframe)</div>
<div>- Use "as precise" as possible, timebased events to read the reaction of the cluster (via log or others)  and make assumptions about other observed situations.</div>
<div>- If possible and when the problem is happening, run some traces, gpfs.snap and ask for support via PMR.</div>
<div><br>
</div>
<div>Also,</div>
<div><br>
</div>
<div>What is version of GPFS?</div>
</div>
</blockquote>
<div><br>
</div>
<div>4.2.3-8 </div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div>How many quorum nodes?</div>
</div>
</blockquote>
<div><br>
</div>
<div>4 Quorum nodes with tie breaker disks, however these are not the file system manager nodes as to fix a previous problem (with our nsd servers not being powerful enough) our fsmanager nodes are on hardware, We have two file system manager nodes (Which do
 token management, quota management etc) they also run the mmbackup.</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div>How many filesystems?</div>
</div>
</blockquote>
<div><br>
</div>
<div>1, although we do have a second that is accessed via multi-cluster from our older GPFS setup, (thats running 4.2.3-6 currently)</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div>Is the management network the same as the daemon network?</div>
</div>
</blockquote>
<div><br>
</div>
<div>Yes. the management network and the daemon network are the same network. </div>
<div><br>
</div>
<div>Thanks in advance</div>
<div><br>
</div>
<div>Peter Childs</div>
<div><br>
</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<br>
<div class="gmail_quote">
<div dir="ltr">On Mon, 23 Jul 2018 at 20:37, Peter Childs <<a href="mailto:p.childs@qmul.ac.uk" target="_blank">p.childs@qmul.ac.uk</a>> wrote:<br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div>
<div>On Mon, 2018-07-23 at 00:51 +1200, José Filipe Higino wrote:</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div><br>
</div>
Hi there,
<div><br>
</div>
<div>Have you been able to create a test case (replicate the problem)? Can you tell us a bit more about the setup?</div>
</div>
</blockquote>
<div><br>
</div>
<div>Not really, It feels like a perfect storm, any one of the tasks running on its own would be fine, Its the shear load, our mmpmon data says the storage has been flat lining when it occurs.</div>
<div><br>
</div>
<div>Its a reasonably standard (small) HPC cluster, with a very mixed work load, hence while we can usually find "bad" jobs from the point of view of io on this occasion we can see a few large array jobs all accessing the same file, the cluster runs fine until
 we get to a certain point and one more will tip the balance. We've been attempting to limit the problem by adding limits to the number of jobs in an array that can run at once. But that feels like fire fighting.
</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div><br>
</div>
<div>Are you using GPFS API over any administrative commands? Any problems with the network (being that Ethernet or IB)?</div>
</div>
</blockquote>
<div><br>
</div>
<div>We're not as using the GPFS API, never got it working, which is a shame, I've never managed to figure out the setup, although it is on my to do list.</div>
<div><br>
</div>
<div>Network wise, We've just removed a great deal of noise from arp requests by increasing the arp cache size on the nodes. Its a mixed 1GBit/10GBit network currently, we're currently looking at removing all the 1GBit nodes within the next few months and adding
 some new faster kit. The Storage is attached at 40GBit but it does not look to want to run much above 5Gbit I suspect due to Ethernet back off due to the mixed speeds.
</div>
<div><br>
</div>
<div>While we do have some IB we don't currently run our storage over it.</div>
<div><br>
</div>
<div>Thanks in advance</div>
<div><br>
</div>
<div>Peter Childs</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div dir="ltr">
<div><br>
</div>
<div>Sorry if I am un-announced here for the first time. But I would like to help if I can.</div>
<div><br>
</div>
<div>Jose Higino,</div>
<div>from NIWA</div>
<div>New Zealand</div>
<div><br>
</div>
<div>Cheers</div>
<br>
<div class="gmail_quote">
<div dir="ltr">On Sun, 22 Jul 2018 at 23:26, Peter Childs <<a href="mailto:p.childs@qmul.ac.uk" target="_blank">p.childs@qmul.ac.uk</a>> wrote:<br>
</div>
<blockquote type="cite" style="margin:0 0 0 .8ex;border-left:2px #729fcf solid;padding-left:1ex">
<div>Yes, we run mmbackup, using a snapshot.<br>
<br>
The scan usally takes an hour, but for the last week has been taking many hours (i saw it take 12 last Tuesday)<br>
<br>
It's speeded up again now back to its normal hour, but the high io jobs accessing the same file from many nodes also look to have come to an end for the time being.<br>
<br>
I was trying to figure out howto control the bad io using mmchqos, to prioritise certain nodes over others but had not worked out if that was possible yet.<br>
<br>
We've only previously seen this problem when we had some bad disks in our storage, which we replaced, I've checked and I can't see that issue currently.<br>
<br>
Thanks for the help.<br>
<br>
<br>
<br>
Peter Childs<br>
Research Storage<br>
ITS Research and Teaching Support<br>
Queen Mary, University of London<br>
<br>
---- Yaron Daniel wrote ----<br>
<br>
<div><span style="font-size:10pt;font-family:sans-serif">Hi</span><br>
<br>
<span style="font-size:10pt;font-family:sans-serif">Do u run mmbackup on snapshot , which is read only ?<br>
</span><br>
<span style="font-size:9pt;font-family:Arial"> </span><br>
<span style="font-size:10pt;font-family:Arial">Regards</span><br>
<span style="font-size:9pt;font-family:Arial"> </span><br>
<table width="780" style="border-collapse:collapse">
<tbody>
<tr height="8">
<td width="780" colspan="4" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<div align="center">
<hr noshade>
</div>
<br>
<span style="font-size:1pt;font-family:Arial"> </span></td>
</tr>
<tr height="8">
<td width="780" colspan="4" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:1pt;font-family:Arial"> </span></td>
</tr>
<tr height="8">
<td width="516" colspan="2" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:blue;font-family:Arial"><b>Yaron Daniel</b></span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"> 94 Em Ha'Moshavot Rd</span></td>
<td width="96" rowspan="3" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<div align="right"><img align="bottom" style="border:0px solid"></div>
</td>
</tr>
<tr height="8">
<td width="516" colspan="2" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:blue;font-family:Arial"><b>Storage Architect – IL Lab Services (Storage)</b></span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"> Petach Tiqva, 49527</span></td>
</tr>
<tr height="8">
<td width="516" colspan="2" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:blue;font-family:Arial"><b>IBM Global Markets, Systems HW Sales</b></span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"> Israel</span></td>
</tr>
<tr height="8">
<td width="516" colspan="2" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:blue;font-family:Arial"><b> </b></span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"> </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:9pt;font-family:Arial"> </span></td>
</tr>
<tr height="8">
<td width="90" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">Phone:</span></td>
<td width="426" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">+972-3-916-5672</span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"> </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt"> </span></td>
</tr>
<tr height="8">
<td width="90" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">Fax:</span></td>
<td width="426" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">+972-3-916-5672</span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">  </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt"> </span></td>
</tr>
<tr height="8">
<td width="90" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">Mobile:</span></td>
<td width="426" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">+972-52-8395593</span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">  </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt"> </span></td>
</tr>
<tr height="8">
<td width="90" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">e-mail:</span></td>
<td width="426" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial"><a href="mailto:yard@il.ibm.com" target="_blank">yard@il.ibm.com</a></span></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">  </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt"> </span></td>
</tr>
<tr height="8">
<td width="516" colspan="2" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<a href="http://www.ibm.com/il/he/" target="_blank"><span style="font-size:10pt;color:blue;font-family:Arial"><u>IBM Israel</u></span></a></td>
<td width="168" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt;color:#5f5f5f;font-family:Arial">  </span></td>
<td width="96" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:10pt"> </span></td>
</tr>
<tr height="8">
<td width="780" colspan="4" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:9pt;color:#5f5f5f;font-family:Arial"> </span></td>
</tr>
<tr height="8">
<td width="780" colspan="4" style="border-style:none none none none;border-color:#000000;border-width:0px 0px 0px 0px;padding:0px 0px">
<span style="font-size:9pt;color:#5f5f5f;font-family:Arial"> </span></td>
</tr>
</tbody>
</table>
<p style="margin-top:0px;margin-bottom:0px"></p>
<br>
<img alt="IBM Storage Strategy and Solutions v1" style="border:0px solid"><img alt="IBM Storage Management and Data Protection v1" style="border:0px solid"><img style="border:0px solid"><img style="border:0px solid"><span style="font-size:12pt"> </span><img alt="https://acclaim-production-app.s3.amazonaws.com/images/6c2c3858-6df8-45be-ac2b-f93b8da74e20/Data%2BDriven%2BMulti%2BCloud%2BStrategy%2BV1%2Bver%2B4.png" style="border:0px solid"><span style="font-size:12pt">     
</span><img alt="Related image" style="border:0px solid"><br>
<br>
<br>
<br>
<span style="font-size:9pt;color:#5f5f5f;font-family:sans-serif">From:        </span><span style="font-size:9pt;font-family:sans-serif">Peter Childs <<a href="mailto:p.childs@qmul.ac.uk" target="_blank">p.childs@qmul.ac.uk</a>></span><br>
<span style="font-size:9pt;color:#5f5f5f;font-family:sans-serif">To:        </span><span style="font-size:9pt;font-family:sans-serif">"<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.org</a>" <<a href="mailto:gpfsug-discuss@spectrumscale.org" target="_blank">gpfsug-discuss@spectrumscale.org</a>></span><br>
<span style="font-size:9pt;color:#5f5f5f;font-family:sans-serif">Date:        </span><span style="font-size:9pt;font-family:sans-serif">07/10/2018 05:51 PM</span><br>
<span style="font-size:9pt;color:#5f5f5f;font-family:sans-serif">Subject:        </span><span style="font-size:9pt;font-family:sans-serif">[gpfsug-discuss] Same file opened by many nodes / processes</span><br>
<span style="font-size:9pt;color:#5f5f5f;font-family:sans-serif">Sent by:        </span><span style="font-size:9pt;font-family:sans-serif"><a href="mailto:gpfsug-discuss-bounces@spectrumscale.org" target="_blank">gpfsug-discuss-bounces@spectrumscale.org</a></span><br>
<hr noshade>
<br>
<br>
<br>
<tt><span style="font-size:10pt">We have an situation where the same file is being read by around 5000<br>
"jobs" this is an array job in uge with a tc set, so the file in<br>
question is being opened by about 100 processes/jobs at the same time.<br>
<br>
Its a ~200GB file so copying the file locally first is not an easy<br>
answer, and these jobs are causing issues with mmbackup scanning the<br>
file system, in that the scan is taking 3 hours instead of the normal<br>
40-60 minutes.<br>
<br>
This is read only access to the file, I don't know the specifics about<br>
the job.<br>
<br>
It looks like the metanode is moving around a fair amount (given what I<br>
can see from mmfsadm saferdump file)<br>
<br>
I'm wondering if we there is anything we can do to improve things or<br>
that can be tuned within GPFS, I'm don't think we have an issue with<br>
token management, but would increasing maxFileToCache on our token<br>
manager node help say?<br>
<br>
Is there anything else I should look at, to try and attempt to allow<br>
GPFS to share this file better.<br>
<br>
Thanks in advance<br>
<br>
Peter Childs<br>
<br>
<pre>_______________________________________________</pre>
<pre>gpfsug-discuss mailing list</pre>
<pre>gpfsug-discuss at <a href="http://spectrumscale.org" target="_blank">spectrumscale.org</a></pre>
<pre><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a></pre>
<pre><br></pre>
</span></tt></div>
</div>
</blockquote>
</div>
</div>
</blockquote>
<div><span>
<pre>-- <br></pre>
<div style="width:71ch">Peter Childs</div>
<div style="width:71ch">ITS Research Storage</div>
<div style="width:71ch">Queen Mary, University of London</div>
<div style="width:71ch"><br>
</div>
</span></div>
</div>
_______________________________________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">
spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a><br>
</blockquote>
</div>
<pre>_______________________________________________</pre>
<pre>gpfsug-discuss mailing list</pre>
<pre>gpfsug-discuss at <a href="http://spectrumscale.org" target="_blank">spectrumscale.org</a></pre>
<pre><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a></pre>
<pre><br></pre>
</blockquote>
<div><span>
<pre>-- <br></pre>
<div style="width:71ch">Peter Childs</div>
<div style="width:71ch">ITS Research Storage</div>
<div style="width:71ch">Queen Mary, University of London</div>
<div style="width:71ch"><br>
</div>
</span></div>
</div>

_______________________________________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" target="_blank">spectrumscale.org</a><br>
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a><br>
</blockquote></div>