<div dir="ltr">





<p class="inbox-inbox-p1">while this is happening  run top and see if there is very high cpu utilization at this time on the NSD Server.<span class="inbox-inbox-Apple-converted-space"> </span></p><p class="inbox-inbox-p1">if there is , run perf top (you might need to install perf command) and see if the top cpu contender is a spinlock<span class="inbox-inbox-Apple-converted-space"> . if so send a screenshot of perf top as i may know what that is and how to fix. </span></p><p class="inbox-inbox-p1"><span class="inbox-inbox-Apple-converted-space">sven</span></p><br><div class="gmail_quote"><div dir="ltr">On Fri, Mar 24, 2017 at 9:43 AM Aaron Knister <<a href="mailto:aaron.s.knister@nasa.gov">aaron.s.knister@nasa.gov</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Since yesterday morning we've noticed some deadlocks on one of our<br class="gmail_msg">
filesystems that seem to be triggered by writing to it. The waiters on<br class="gmail_msg">
the clients look like this:<br class="gmail_msg">
<br class="gmail_msg">
0x19450B0 (   6730) waiting 2063.294589599 seconds, SyncHandlerThread:<br class="gmail_msg">
on ThCond 0x1802585CB10 (0xFFFFC9002585CB10) (InodeFlushCondVar), reason<br class="gmail_msg">
'waiting for the flush flag to commit metadata'<br class="gmail_msg">
0x7FFFDA65E200 (  22850) waiting 0.000246257 seconds,<br class="gmail_msg">
AllocReduceHelperThread: on ThCond 0x7FFFDAC7FE28 (0x7FFFDAC7FE28)<br class="gmail_msg">
(MsgRecordCondvar), reason 'RPC wait' for allocMsgTypeRelinquishRegion<br class="gmail_msg">
on node 10.1.52.33 <c0n3271><br class="gmail_msg">
0x197EE70 (   6776) waiting 0.000198354 seconds,<br class="gmail_msg">
FileBlockWriteFetchHandlerThread: on ThCond 0x7FFFF00CD598<br class="gmail_msg">
(0x7FFFF00CD598) (MsgRecordCondvar), reason 'RPC wait' for<br class="gmail_msg">
allocMsgTypeRequestRegion on node 10.1.52.33 <c0n3271><br class="gmail_msg">
<br class="gmail_msg">
(<a href="http://10.1.52.33/c0n3271" rel="noreferrer" class="gmail_msg" target="_blank">10.1.52.33/c0n3271</a> is the fs manager for the filesystem in question)<br class="gmail_msg">
<br class="gmail_msg">
there's a single process running on this node writing to the filesystem<br class="gmail_msg">
in question (well, trying to write, it's been blocked doing nothing for<br class="gmail_msg">
half an hour now). There are ~10 other client nodes in this situation<br class="gmail_msg">
right now. We had many more last night before the problem seemed to<br class="gmail_msg">
disappear in the early hours of the morning and now its back.<br class="gmail_msg">
<br class="gmail_msg">
Waiters on the fs manager look like this. While the individual waiter is<br class="gmail_msg">
short it's a near constant stream:<br class="gmail_msg">
<br class="gmail_msg">
0x7FFF60003540 (   8269) waiting 0.001151588 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRequestRegion: on ThMutex 0x1802163A2E0 (0xFFFFC9002163A2E0)<br class="gmail_msg">
(AllocManagerMutex)<br class="gmail_msg">
0x7FFF601C8860 (  20606) waiting 0.001115712 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRelinquishRegion: on ThMutex 0x1802163A2E0<br class="gmail_msg">
(0xFFFFC9002163A2E0) (AllocManagerMutex)<br class="gmail_msg">
0x7FFF91C10080 (  14723) waiting 0.000959649 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRequestRegion: on ThMutex 0x1802163A2E0 (0xFFFFC9002163A2E0)<br class="gmail_msg">
(AllocManagerMutex)<br class="gmail_msg">
0x7FFFB03C2910 (  12636) waiting 0.000769611 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRequestRegion: on ThMutex 0x1802163A2E0 (0xFFFFC9002163A2E0)<br class="gmail_msg">
(AllocManagerMutex)<br class="gmail_msg">
0x7FFF8C092850 (  18215) waiting 0.000682275 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRelinquishRegion: on ThMutex 0x1802163A2E0<br class="gmail_msg">
(0xFFFFC9002163A2E0) (AllocManagerMutex)<br class="gmail_msg">
0x7FFF9423F730 (  12652) waiting 0.000641915 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRequestRegion: on ThMutex 0x1802163A2E0 (0xFFFFC9002163A2E0)<br class="gmail_msg">
(AllocManagerMutex)<br class="gmail_msg">
0x7FFF9422D770 (  12625) waiting 0.000494256 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRequestRegion: on ThMutex 0x1802163A2E0 (0xFFFFC9002163A2E0)<br class="gmail_msg">
(AllocManagerMutex)<br class="gmail_msg">
0x7FFF9423E310 (  12651) waiting 0.000437760 seconds, Msg handler<br class="gmail_msg">
allocMsgTypeRelinquishRegion: on ThMutex 0x1802163A2E0<br class="gmail_msg">
(0xFFFFC9002163A2E0) (AllocManagerMutex)<br class="gmail_msg">
<br class="gmail_msg">
I don't know if this data point is useful but both yesterday and today<br class="gmail_msg">
the metadata NSDs for this filesystem have had a constant aggregate<br class="gmail_msg">
stream of 25MB/s 4kop/s reads during each episode (very low latency<br class="gmail_msg">
though so I don't believe the storage is a bottleneck here). Writes are<br class="gmail_msg">
only a few hundred ops and didn't strike me as odd.<br class="gmail_msg">
<br class="gmail_msg">
I have a PMR open for this but I'm curious if folks have seen this in<br class="gmail_msg">
the wild and what it might mean.<br class="gmail_msg">
<br class="gmail_msg">
-Aaron<br class="gmail_msg">
<br class="gmail_msg">
--<br class="gmail_msg">
Aaron Knister<br class="gmail_msg">
NASA Center for Climate Simulation (Code 606.2)<br class="gmail_msg">
Goddard Space Flight Center<br class="gmail_msg">
<a href="tel:(301)%20286-2776" value="+13012862776" class="gmail_msg" target="_blank">(301) 286-2776</a><br class="gmail_msg">
_______________________________________________<br class="gmail_msg">
gpfsug-discuss mailing list<br class="gmail_msg">
gpfsug-discuss at <a href="http://spectrumscale.org" rel="noreferrer" class="gmail_msg" target="_blank">spectrumscale.org</a><br class="gmail_msg">
<a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss" rel="noreferrer" class="gmail_msg" target="_blank">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a><br class="gmail_msg">
</blockquote></div></div>