<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" id="owaParaStyle">P {margin-top:0;margin-bottom:0;}</style>
</head>
<body fpstyle="1" ocsi="0">
<div style="direction: ltr;font-family: Tahoma;color: #000000;font-size: 10pt;">
<div>Hi,</div>
<div><br>
</div>
<div>thanks a lot. About the requested information:</div>
<div><br>
</div>
<div>* Waiters were captured with the command 'mmdiag --waiters', and it was performed on one of the IO (NSD) nodes.</div>
<div>* Connection between storage and client clusters is with Infiniband EDR. For the GPFS client cluster we have 3 chassis, each one has 24 blades with unmanaged EDR switch (24 for the blades, 12 external), and currently 10 EDR external ports are connected
 for external connectivity. On the other hand, the GPFS storage cluster has 2 IO nodes (as commented in the previous e-mail, DSS G240). Each IO node has connected 4 x EDR ports. Regarding the Infiniband connectivty, my network contains 2 top EDR managed switches
 configured with up/down routing, connecting the unmanaged switches from the chassis and the 2 managed Infiniband switches for the storage (for redundancy).</div>
<div><br>
</div>
<div>Whenever needed I can go through PMR if this would easy the debug, no problem for me. I was wondering about the meaning "waiting for helper threads" and what could be the reason for that
</div>
<div><br>
</div>
<div>Thanks a lot for your help and best regards,</div>
<div>Marc                <br>
<div style="font-family:Tahoma; font-size:13px">
<div style="font-family:Tahoma; font-size:13px">
<div class="BodyFragment"><font size="2"><span style="font-size:10pt">
<div class="PlainText">_________________________________________<br>
Paul Scherrer Institut <br>
High Performance Computing<br>
Marc Caubet Serrabou<br>
Building/Room: WHGA/019A</div>
<div class="PlainText"><font size="2"><span style="font-size:10pt">Forschungsstrasse, 111</span></font></div>
<div class="PlainText">5232 Villigen PSI<br>
Switzerland<br>
<br>
Telephone: +41 56 310 46 67<br>
E-Mail: marc.caubet@psi.ch</div>
</span></font></div>
</div>
</div>
</div>
<div style="font-family: Times New Roman; color: #000000; font-size: 16px">
<hr tabindex="-1">
<div id="divRpF513042" style="direction: ltr;"><font size="2" face="Tahoma" color="#000000"><b>From:</b> gpfsug-discuss-bounces@spectrumscale.org [gpfsug-discuss-bounces@spectrumscale.org] on behalf of IBM Spectrum Scale [scale@us.ibm.com]<br>
<b>Sent:</b> Thursday, April 18, 2019 5:54 PM<br>
<b>To:</b> gpfsug main discussion list<br>
<b>Cc:</b> gpfsug-discuss-bounces@spectrumscale.org<br>
<b>Subject:</b> Re: [gpfsug-discuss] Performance problems + (MultiThreadWorkInstanceCond), reason 'waiting for helper threads'<br>
</font><br>
</div>
<div></div>
<div><span style="font-size:12pt; font-family:Arial">We can try to provide some guidance on what you are seeing but generally to do true analysis of performance issues customers should contact IBM lab based services (LBS).  We need some additional information
 to understand what is happening.</span><br>
<ul>
<li><span style="font-size:12pt; font-family:Arial">On which node did you collect the waiters and what command did you run to capture the data?</span></li><li><span style="font-size:12pt; font-family:Arial">What is the network connection between the remote cluster and the storage cluster?</span></li></ul>
<br>
<span style="font-size:10pt; font-family:sans-serif">Regards, The Spectrum Scale (GPFS) team<br>
<br>
------------------------------------------------------------------------------------------------------------------<br>
If you feel that your question can benefit other users of  Spectrum Scale (GPFS), then please post it to the public IBM developerWroks Forum at
</span><a href="https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479" target="_blank" rel="noopener noreferrer"><span style="font-size:10pt; font-family:sans-serif">https://www.ibm.com/developerworks/community/forums/html/forum?id=11111111-0000-0000-0000-000000000479</span></a><span style="font-size:10pt; font-family:sans-serif">.
<br>
<br>
If your query concerns a potential software error in Spectrum Scale (GPFS) and you have an IBM software maintenance contract please contact  1-800-237-5511 in the United States or your local IBM Service Center in other countries.
<br>
<br>
The forum is informally monitored as time permits and should not be used for priority messages to the Spectrum Scale (GPFS) team.</span><br>
<br>
<br>
<br>
<span style="font-size:9pt; color:#5f5f5f; font-family:sans-serif">From:        </span><span style="font-size:9pt; font-family:sans-serif">"Caubet Serrabou Marc (PSI)" <marc.caubet@psi.ch></span><br>
<span style="font-size:9pt; color:#5f5f5f; font-family:sans-serif">To:        </span><span style="font-size:9pt; font-family:sans-serif">gpfsug main discussion list <gpfsug-discuss@spectrumscale.org></span><br>
<span style="font-size:9pt; color:#5f5f5f; font-family:sans-serif">Date:        </span><span style="font-size:9pt; font-family:sans-serif">04/18/2019 11:41 AM</span><br>
<span style="font-size:9pt; color:#5f5f5f; font-family:sans-serif">Subject:        </span><span style="font-size:9pt; font-family:sans-serif">[gpfsug-discuss] Performance problems + (MultiThreadWorkInstanceCond), reason 'waiting for helper threads'</span><br>
<span style="font-size:9pt; color:#5f5f5f; font-family:sans-serif">Sent by:        </span><span style="font-size:9pt; font-family:sans-serif">gpfsug-discuss-bounces@spectrumscale.org</span><br>
<hr noshade="">
<br>
<br>
<br>
<span style="font-size:10pt; font-family:Tahoma">Hi all,</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">I would like to have some hints about the following problem:</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">Waiting 26.6431 sec since 17:18:32, ignored, thread 38298 NSPDDiscoveryRunQueueThread: on ThCond 0x7FC98EB6A2B8 (MultiThreadWorkInstanceCond), reason 'waiting for helper threads'</span><br>
<span style="font-size:10pt; font-family:Tahoma">Waiting 2.7969 sec since 17:18:55, monitored, thread 39736 NSDThread: for I/O completion<br>
Waiting 2.8024 sec since 17:18:55, monitored, thread 39580 NSDThread: for I/O completion<br>
Waiting 3.0435 sec since 17:18:55, monitored, thread 39448 NSDThread: for I/O completion<br>
</span><br>
<span style="font-size:10pt; font-family:Tahoma">I am testing a new GPFS cluster (GPFS cluster client with computing nodes remotely mounting the Storage GPFS Cluster) and I am running 65 gpfsperf commands (1 command per client in parallell) as follows:</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">/usr/lpp/mmfs/samples/perf/gpfsperf create seq /gpfs/home/caubet_m/gpfsperf/$(hostname).txt -fsync -n 24g -r 16m -th 8
</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">I am unable to reach more than 6.5GBps (Lenovo DSS G240 GPFS 5.0.2-1, on a testing a 'home' filesystem with 1MB blocksize and subblocks of 8KB). After several seconds I see many waiters for I/O completion (up
 to 5 seconds)</span><br>
<span style="font-size:10pt; font-family:Tahoma">and also the 'waiting for helper threads' message shown above. Can somebody explain me the meaning for this message? How could I improve that?</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">Current config in the storage cluster is:</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">[root@merlindssio02 ~]# mmlsconfig
<br>
Configuration data for cluster merlin.psi.ch:<br>
---------------------------------------------<br>
clusterName merlin.psi.ch<br>
clusterId 1511090979434548295<br>
autoload no<br>
dmapiFileHandleSize 32<br>
minReleaseLevel 5.0.2.0<br>
ccrEnabled yes<br>
nsdRAIDFirmwareDirectory /opt/lenovo/dss/firmware<br>
cipherList AUTHONLY<br>
maxblocksize 16m<br>
[merlindssmgt01]<br>
ignorePrefetchLUNCount yes<br>
[common]<br>
pagepool 4096M<br>
[merlindssio01,merlindssio02]<br>
pagepool 270089M<br>
[merlindssmgt01,dssg]<br>
pagepool 57684M<br>
maxBufferDescs 2m<br>
numaMemoryInterleave yes<br>
[common]<br>
prefetchPct 50<br>
[merlindssmgt01,dssg]<br>
prefetchPct 20<br>
nsdRAIDTracks 128k<br>
nsdMaxWorkerThreads 3k<br>
nsdMinWorkerThreads 3k<br>
nsdRAIDSmallThreadRatio 2<br>
nsdRAIDThreadsPerQueue 16<br>
nsdClientCksumTypeLocal ck64<br>
nsdClientCksumTypeRemote ck64<br>
nsdRAIDFlusherFWLogHighWatermarkMB 1000<br>
nsdRAIDBlockDeviceMaxSectorsKB 0<br>
nsdRAIDBlockDeviceNrRequests 0<br>
nsdRAIDBlockDeviceQueueDepth 0<br>
nsdRAIDBlockDeviceScheduler off<br>
nsdRAIDMaxPdiskQueueDepth 128<br>
nsdMultiQueue 512<br>
verbsRdma enable<br>
verbsPorts mlx5_0/1 mlx5_1/1<br>
verbsRdmaSend yes<br>
scatterBufferSize 256K<br>
maxFilesToCache 128k<br>
maxMBpS 40000<br>
workerThreads 1024<br>
nspdQueues 64<br>
[common]<br>
subnets 192.168.196.0/merlin-hpc.psi.ch;merlin.psi.ch<br>
adminMode central<br>
<br>
File systems in cluster merlin.psi.ch:<br>
--------------------------------------<br>
/dev/home<br>
/dev/t16M128K<br>
/dev/t16M16K<br>
/dev/t1M8K<br>
/dev/t4M16K<br>
/dev/t4M32K<br>
/dev/test</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">And for the computing cluster:</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">[root@merlin-c-001 ~]# mmlsconfig
<br>
Configuration data for cluster merlin-hpc.psi.ch:<br>
-------------------------------------------------<br>
clusterName merlin-hpc.psi.ch<br>
clusterId 14097036579263601931<br>
autoload yes<br>
dmapiFileHandleSize 32<br>
minReleaseLevel 5.0.2.0<br>
ccrEnabled yes<br>
cipherList AUTHONLY<br>
maxblocksize 16M<br>
numaMemoryInterleave yes<br>
maxFilesToCache 128k<br>
maxMBpS 20000<br>
workerThreads 1024<br>
verbsRdma enable<br>
verbsPorts mlx5_0/1<br>
verbsRdmaSend yes<br>
scatterBufferSize 256K<br>
ignorePrefetchLUNCount yes<br>
nsdClientCksumTypeLocal ck64<br>
nsdClientCksumTypeRemote ck64<br>
pagepool 32G<br>
subnets 192.168.196.0/merlin-hpc.psi.ch;merlin.psi.ch<br>
adminMode central<br>
<br>
File systems in cluster merlin-hpc.psi.ch:<br>
------------------------------------------<br>
(none)</span><br>
<br>
<span style="font-size:10pt; font-family:Tahoma">Thanks a lot and best regards,</span><br>
<span style="font-size:10pt; font-family:Tahoma">Marc                </span><br>
<span style="font-size:10pt; font-family:Tahoma">_________________________________________<br>
Paul Scherrer Institut <br>
High Performance Computing<br>
Marc Caubet Serrabou<br>
Building/Room: WHGA/019A</span><br>
<span style="font-size:10pt; font-family:Tahoma">Forschungsstrasse, 111</span><br>
<span style="font-size:10pt; font-family:Tahoma">5232 Villigen PSI<br>
Switzerland<br>
<br>
Telephone: +41 56 310 46 67<br>
E-Mail: marc.caubet@psi.ch</span><tt><span style="font-size:10pt">_______________________________________________<br>
gpfsug-discuss mailing list<br>
gpfsug-discuss at spectrumscale.org<br>
</span></tt><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" target="_blank" rel="noopener noreferrer"><tt><span style="font-size:10pt">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</span></tt></a><tt><span style="font-size:10pt"><br>
</span></tt><br>
<br>
<br>
</div>
</div>
</div>
</body>
</html>