<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="text-align:left; direction:ltr;">
<div>Hello,</div>
<div><br>
</div>
<div>We've recently started having an issue where processes running in a singularity container get stuck in a soft lockup and eventually the node needs to be forcibly rebooted. I have included a sample call trace below. Additionally, other (non-singularity)
 processes on other nodes accessing the same fileset seem to get into the same state. It's also an AFM IW fileset just to add to the complexity ;)</div>
<div><br>
</div>
<div>Does anyone have any thoughts on what might be happening / how to proceed? I'm not really sure if it's a GPFS issue or a Singularity / Kernel issue - although fact it seems to spread to other nodes would seem to suggest some GPFS involvement. It's possible
 the user is doing something inadvisable with Singularity (it's difficult to work out what's happening in the Nextflow pipeline) but even if they are it would be good to find a way of preventing them taking nodes down. I'm assuming the AFM is unlikely to be
 relevant - any views on that?</div>
<div><br>
</div>
<div>Thanks,</div>
<div>Rob</div>
<div><br>
</div>
<div> Call Trace:</div>
<div>? _Z11kSFSGetattrP15KernelOperationP13gpfsVfsData_tP10gpfsNode_tiP10cxiVattr_tP12gpfs_iattr64+0x1e4/0x5d0 [mmfs26]</div>
<div> _ZL17refreshCacheAttrsP13gpfsVfsData_tP15KernelOperationP9cxiNode_tP10pcacheAttriPcj+0x441/0x450 [mmfs26]</div>
<div> _Z21pcacheHandleCollisionP13gpfsVfsData_tP15KernelOperationP10gpfsNode_tS4_PcPvP9MMFSVInfoiP10pcacheAttriS5_10PcacheModej+0xa21/0x11b0 [mmfs26]</div>
<div> ? _ZN6ThCond6signalEv+0x82/0x190 [mmfs26]</div>
<div>  ? _ZN10MemoryPool6shFreeEPv9MallocUse+0x1a5/0x2a0 [mmfs26]</div>
<div> ? _ZL14kSFSPcacheSendP13gpfsVfsData_tP15KernelOperation7FileUIDS3_PciiPPv+0x387/0x570 [mmfs26]</div>
<div> ? _ZL17pcacheNeedRefresh10PcacheModejlijj+0x206/0x230 [mmfs26]</div>
<div>_Z12pcacheLookupP13gpfsVfsData_tP15KernelOperationP10gpfsNode_tPvPcP7FilesetjjjPS5_PS4_PyPjS9_+0x1dcf/0x25c0 [mmfs26]</div>
<div>? _Z15findFilesetByIdP15KernelOperationjjPP7Filesetj+0x4f/0xa0 [mmfs26]</div>
<div> _Z10gpfsLookupP13gpfsVfsData_tPvP9cxiNode_tS1_S1_PcjPS1_PS3_PyP10cxiVattr_tPjP10ext_cred_tjS5_PiS4_SD_+0x65c/0xad0 [mmfs26]</div>
<div>gpfs_i_lookup+0x189/0x3f0 [mmfslinux]</div>
<div> ? _Z8gpfsLinkP13gpfsVfsData_tP9cxiNode_tS2_PvPcjjP10ext_cred_t+0x6e0/0x6e0 [mmfs26]</div>
<div> ? d_alloc_parallel+0x99/0x4a0</div>
<div> ? _Z33gpfsIsCifsBypassTraversalCheckingv+0xe2/0x130 [mmfs26]</div>
<div> __lookup_slow+0x97/0x150</div>
<div> lookup_slow+0x35/0x50</div>
<div>  walk_component+0x1bf/0x330</div>
<div> ? _ZL12gpfsGetattrxP13gpfsVfsData_tP9cxiNode_tP10cxiVattr_tP12gpfs_iattr64i+0x147/0x390 [mmfs26]</div>
<div> path_lookupat.isra.49+0x75/0x200</div>
<div>  filename_lookup.part.63+0xa0/0x170</div>
<div>? strncpy_from_user+0x4f/0x1b0</div>
<div> vfs_statx+0x73/0xe0</div>
<div>  __do_sys_newlstat+0x39/0x70</div>
<div> ? syscall_trace_enter+0x1d3/0x2c0</div>
<div> ? __audit_syscall_exit+0x249/0x2a0</div>
<div>  do_syscall_64+0x5b/0x1a0</div>
<div> entry_SYSCALL_64_after_hwframe+0x65/0xca</div>
<div><span>
<pre>-- <br></pre>
<div style="width: 71ch;">Robert Horton | Research Data Storage Lead</div>
<div style="width: 71ch;">The Institute of Cancer Research | 237 Fulham Road | London | SW3 6JB</div>
<div style="width: 71ch;">T +44 (0)20 7153 5350 | E <a href="mailto:robert.horton@icr.ac.uk">
robert.horton@icr.ac.uk</a> | W www.icr.ac.uk | Twitter @ICR_London</div>
<div style="width: 71ch;">Facebook: <a href="www.facebook.com/theinstituteofcancerresearch">
www.facebook.com/theinstituteofcancerresearch</a></div>
<div style="width: 71ch;"></div>
</span></div>
<br clear="both">
The Institute of Cancer Research: Royal Cancer Hospital, a charitable Company Limited by Guarantee, Registered in England under Company No. 534147 with its Registered Office at 123 Old Brompton Road, London SW7 3RP.<BR>
<BR>
This e-mail message is confidential and for use by the addressee only.  If the message is received by anyone other than the addressee, please return the message to the sender by replying to it and then delete the message from your computer and network.<BR>
</body>
</html>