<font size=2 face="sans-serif">Luke,</font><br><br><font size=2 face="sans-serif">AFM is not tested for cascading configurations,

this is getting added into the documentation for 4.2.1:</font><br><br><font size=2 face="sans-serif">"</font><font size=3>Cascading

of AFM caches is not tested.</font><font size=2 face="sans-serif">"</font><br><br><font size=2 face="sans-serif"><br><br><br>Thanks and Regards<br>Radhika<br><br></font><br><br><br><br><font size=1 color=#5f5f5f face="sans-serif">From:      

 </font><font size=1 face="sans-serif">gpfsug-discuss-request@spectrumscale.org</font><br><font size=1 color=#5f5f5f face="sans-serif">To:      

 </font><font size=1 face="sans-serif">gpfsug-discuss@spectrumscale.org</font><br><font size=1 color=#5f5f5f face="sans-serif">Date:      

 </font><font size=1 face="sans-serif">07/27/2016 04:30 PM</font><br><font size=1 color=#5f5f5f face="sans-serif">Subject:    

   </font><font size=1 face="sans-serif">gpfsug-discuss

Digest, Vol 54, Issue 59</font><br><font size=1 color=#5f5f5f face="sans-serif">Sent by:    

   </font><font size=1 face="sans-serif">gpfsug-discuss-bounces@spectrumscale.org</font><br><hr noshade><br><br><br><tt><font size=2>Send gpfsug-discuss mailing list submissions to<br>                

gpfsug-discuss@spectrumscale.org<br><br>To subscribe or unsubscribe via the World Wide Web, visit<br>                

</font></tt><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss"><tt><font size=2>http://gpfsug.org/mailman/listinfo/gpfsug-discuss</font></tt></a><tt><font size=2><br>or, via email, send a message with subject or body 'help' to<br>                

gpfsug-discuss-request@spectrumscale.org<br><br>You can reach the person managing the list at<br>                

gpfsug-discuss-owner@spectrumscale.org<br><br>When replying, please edit your Subject line so it is more specific<br>than "Re: Contents of gpfsug-discuss digest..."<br><br><br>Today's Topics:<br><br>   1. AFM Crashing the MDS (Luke Raimbach)<br><br><br>----------------------------------------------------------------------<br><br>Message: 1<br>Date: Tue, 26 Jul 2016 14:17:35 +0000<br>From: Luke Raimbach <Luke.Raimbach@crick.ac.uk><br>To: gpfsug main discussion list <gpfsug-discuss@spectrumscale.org><br>Subject: [gpfsug-discuss] AFM Crashing the MDS<br>Message-ID:<br>                

<AMSPR03MB27605D717C5500D86F6ADEFB00E0@AMSPR03MB276.eurprd03.prod.outlook.com><br>                

<br>Content-Type: text/plain; charset="utf-8"<br><br>Hi All,<br><br>Anyone seen GPFS barf like this before? I'll explain the setup:<br><br>RO AFM cache on remote site (cache A) for reading remote datasets quickly,<br>LU AFM cache at destination site (cache B) for caching data from cache

A (has a local compute cluster mounting this over multi-cluster),<br>IW AFM cache at destination site (cache C) for presenting cache B over

NAS protocols,<br><br>Reading files in cache C should pull data from the remote source through

cache A->B->C<br><br>Modifying files in cache C should pull data into cache B and then break

the cache relationship for that file, converting it to a local copy. Those

modifications should include metadata updates (e.g. chown).<br><br>To speed things up we prefetch files into cache B for datasets which are

undergoing migration and have entered a read-only state at the source.<br><br>When issuing chown on a directory in cache C containing ~4.5million files,

the MDS for the AFM cache C crashes badly:<br><br><br>Tue Jul 26 13:28:52.487 2016: [X] logAssertFailed: addr.isReserved() ||

addr.getClusterIdx() == clusterIdx<br>Tue Jul 26 13:28:52.488 2016: [X] return code 0, reason code 1, log record

tag 0<br>Tue Jul 26 13:28:53.392 2016: [X] *** Assert exp(addr.isReserved() || addr.getClusterIdx()

== clusterIdx) in line 1936 of file /project/sprelbmd0/build/rbmd0s003a/src/avs/fs/mmfs/ts/cfgmgr/cfgmgr.h<br>Tue Jul 26 13:28:53.393 2016: [E] *** Traceback:<br>Tue Jul 26 13:28:53.394 2016: [E]         2:0x7F6DC95444A6

logAssertFailed + 0x2D6 at ??:0<br>Tue Jul 26 13:28:53.395 2016: [E]         3:0x7F6DC95C7EF4

ClusterConfiguration::getGatewayNewHash(DiskUID, unsigned int, NodeAddr*)

+ 0x4B4 at ??:0<br>Tue Jul 26 13:28:53.396 2016: [E]         4:0x7F6DC95C8031

ClusterConfiguration::getGatewayNode(DiskUID, unsigned int, NodeAddr, NodeAddr*,

unsigned int) + 0x91 at ??:0<br>Tue Jul 26 13:28:53.397 2016: [E]         5:0x7F6DC9DC7126

SFSPcache(StripeGroup*, FileUID, int, int, void*, int, voidXPtr*, int*)

+ 0x346 at ??:0<br>Tue Jul 26 13:28:53.398 2016: [E]         6:0x7F6DC9332494

HandleMBPcache(MBPcacheParms*) + 0xB4 at ??:0<br>Tue Jul 26 13:28:53.399 2016: [E]         7:0x7F6DC90A4A53

Mailbox::msgHandlerBody(void*) + 0x3C3 at ??:0<br>Tue Jul 26 13:28:53.400 2016: [E]         8:0x7F6DC908BC06

Thread::callBody(Thread*) + 0x46 at ??:0<br>Tue Jul 26 13:28:53.401 2016: [E]         9:0x7F6DC907A0D2

Thread::callBodyWrapper(Thread*) + 0xA2 at ??:0<br>Tue Jul 26 13:28:53.402 2016: [E]         10:0x7F6DC87A3AA1

start_thread + 0xD1 at ??:0<br>Tue Jul 26 13:28:53.403 2016: [E]         11:0x7F6DC794A93D

clone + 0x6D at ??:0<br>mmfsd: /project/sprelbmd0/build/rbmd0s003a/src/avs/fs/mmfs/ts/cfgmgr/cfgmgr.h:1936:

void logAssertFailed(UInt32, const char*, UInt32, Int32, Int32, UInt32,

const char*, const char*): Assertion `addr.isReserved() || addr.getClusterIdx()

== clusterIdx' failed.<br>Tue Jul 26 13:28:53.404 2016: [N] Signal 6 at location 0x7F6DC7894625 in

process 6262, link reg 0xFFFFFFFFFFFFFFFF.<br>Tue Jul 26 13:28:53.405 2016: [I] rax    0x0000000000000000  rbx

   0x00007F6DC8DCB000<br>Tue Jul 26 13:28:53.406 2016: [I] rcx    0xFFFFFFFFFFFFFFFF  rdx

   0x0000000000000006<br>Tue Jul 26 13:28:53.407 2016: [I] rsp    0x00007F6DAAEA01F8  rbp

   0x00007F6DCA05C8B0<br>Tue Jul 26 13:28:53.408 2016: [I] rsi    0x00000000000018F8  rdi

   0x0000000000001876<br>Tue Jul 26 13:28:53.409 2016: [I] r8     0xFEFEFEFEFEFEFEFF  r9

    0xFEFEFEFEFF092D63<br>Tue Jul 26 13:28:53.410 2016: [I] r10    0x0000000000000008  r11

   0x0000000000000202<br>Tue Jul 26 13:28:53.411 2016: [I] r12    0x00007F6DC9FC5540  r13

   0x00007F6DCA05C1C0<br>Tue Jul 26 13:28:53.412 2016: [I] r14    0x0000000000000000  r15

   0x0000000000000000<br>Tue Jul 26 13:28:53.413 2016: [I] rip    0x00007F6DC7894625  eflags

0x0000000000000202<br>Tue Jul 26 13:28:53.414 2016: [I] csgsfs 0x0000000000000033  err  

 0x0000000000000000<br>Tue Jul 26 13:28:53.415 2016: [I] trapno 0x0000000000000000  oldmsk

0x0000000010017807<br>Tue Jul 26 13:28:53.416 2016: [I] cr2    0x0000000000000000<br>Tue Jul 26 13:28:54.225 2016: [D] Traceback:<br>Tue Jul 26 13:28:54.226 2016: [D] 0:00007F6DC7894625 raise + 35 at ??:0<br>Tue Jul 26 13:28:54.227 2016: [D] 1:00007F6DC7895E05 abort + 175 at ??:0<br>Tue Jul 26 13:28:54.228 2016: [D] 2:00007F6DC788D74E __assert_fail_base

+ 11E at ??:0<br>Tue Jul 26 13:28:54.229 2016: [D] 3:00007F6DC788D810 __assert_fail + 50

at ??:0<br>Tue Jul 26 13:28:54.230 2016: [D] 4:00007F6DC95444CA logAssertFailed +

2FA at ??:0<br>Tue Jul 26 13:28:54.231 2016: [D] 5:00007F6DC95C7EF4 ClusterConfiguration::getGatewayNewHash(DiskUID,

unsigned int, NodeAddr*) + 4B4 at ??:0<br>Tue Jul 26 13:28:54.232 2016: [D] 6:00007F6DC95C8031 ClusterConfiguration::getGatewayNode(DiskUID,

unsigned int, NodeAddr, NodeAddr*, unsigned int) + 91 at ??:0<br>Tue Jul 26 13:28:54.233 2016: [D] 7:00007F6DC9DC7126 SFSPcache(StripeGroup*,

FileUID, int, int, void*, int, voidXPtr*, int*) + 346 at ??:0<br>Tue Jul 26 13:28:54.234 2016: [D] 8:00007F6DC9332494 HandleMBPcache(MBPcacheParms*)

+ B4 at ??:0<br>Tue Jul 26 13:28:54.235 2016: [D] 9:00007F6DC90A4A53 Mailbox::msgHandlerBody(void*)

+ 3C3 at ??:0<br>Tue Jul 26 13:28:54.236 2016: [D] 10:00007F6DC908BC06 Thread::callBody(Thread*)

+ 46 at ??:0<br>Tue Jul 26 13:28:54.237 2016: [D] 11:00007F6DC907A0D2 Thread::callBodyWrapper(Thread*)

+ A2 at ??:0<br>Tue Jul 26 13:28:54.238 2016: [D] 12:00007F6DC87A3AA1 start_thread + D1

at ??:0<br>Tue Jul 26 13:28:54.239 2016: [D] 13:00007F6DC794A93D clone + 6D at ??:0<br>Tue Jul 26 13:28:54.240 2016: [N] Restarting mmsdrserv<br>Tue Jul 26 13:28:55.535 2016: [N] Signal 6 at location 0x7F6DC790EA7D in

process 6262, link reg 0xFFFFFFFFFFFFFFFF.<br>Tue Jul 26 13:28:55.536 2016: [N] mmfsd is shutting down.<br>Tue Jul 26 13:28:55.537 2016: [N] Reason for shutdown: Signal handler entered<br>Tue Jul 26 13:28:55 BST 2016: mmcommon mmfsdown invoked.  Subsystem:

mmfs Status: active<br>Tue Jul 26 13:28:55 BST 2016: /var/mmfs/etc/mmfsdown invoked<br>umount2: Device or resource busy<br>umount: /camp: device is busy.<br>        (In some cases useful info about processes

that use<br>         the device is found by lsof(8) or fuser(1))<br>umount2: Device or resource busy<br>umount: /ingest: device is busy.<br>        (In some cases useful info about processes

that use<br>         the device is found by lsof(8) or fuser(1))<br>Shutting down NFS daemon: [  OK  ]<br>Shutting down NFS mountd: [  OK  ]<br>Shutting down NFS quotas: [  OK  ]<br>Shutting down NFS services:  [  OK  ]<br>Shutting down RPC idmapd: [  OK  ]<br>Stopping NFS statd: [  OK  ]<br><br><br><br>Ugly, right?<br><br>Cheers,<br>Luke.<br><br><br>Luke Raimbach?<br>Senior HPC Data and Storage Systems Engineer,<br>The Francis Crick Institute,<br>Gibbs Building,<br>215 Euston Road,<br>London NW1 2BE.<br><br>E: luke.raimbach@crick.ac.uk<br>W: </font></tt><a href=www.crick.ac.uk><tt><font size=2>www.crick.ac.uk</font></tt></a><tt><font size=2><br><br><br>The Francis Crick Institute Limited is a registered charity in England

and Wales no. 1140062 and a company registered in England and Wales no.

06885462, with its registered office at 215 Euston Road, London NW1 2BE.<br><br>------------------------------<br><br>_______________________________________________<br>gpfsug-discuss mailing list<br>gpfsug-discuss at spectrumscale.org<br></font></tt><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss"><tt><font size=2>http://gpfsug.org/mailman/listinfo/gpfsug-discuss</font></tt></a><tt><font size=2><br><br><br>End of gpfsug-discuss Digest, Vol 54, Issue 59<br>**********************************************<br><br></font></tt><br><br><BR>