<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">
Hi All,
<div class=""><br class="">
</div>
<div class="">We are in a bit of a difficult situation right now with one of our non-IBM hardware vendors (I know, I know, I KNOW - buy IBM hardware! <grin>) and are looking for some advice on how to deal with this unfortunate situation.</div>
<div class=""><br class="">
</div>
We have a non-IBM FC storage array with dual-“redundant” controllers.  One of those controllers is dead and the vendor is sending us a replacement.  However, the replacement controller will have mis-matched firmware with the surviving controller and - long
 story short - the vendor says there is no way to resolve that without taking the storage array down for firmware upgrades.  Needless to say there’s more to that story than what I’ve included here, but I won’t bore everyone with unnecessary details.
<div class=""><br class="">
</div>
<div class="">The storage array has 5 NSDs on it, but fortunately enough they are part of our “capacity” pool … i.e. the only way a file lands here is if an mmapplypolicy scan moved it there because the *access* time is greater than 90 days.  Filesystem data
 replication is set to one.</div>
<div class=""><br class="">
</div>
<div class="">So … what I was wondering if I could do is to use mmchdisk to either suspend or (preferably) stop those NSDs, do the firmware upgrade, and resume the NSDs?  The problem I see is that suspend doesn’t stop I/O, it only prevents the allocation of
 new blocks … so, in theory, if a user suddenly decided to start using a file they hadn’t needed for 3 months then I’ve got a problem.  Stopping all I/O to the disks is what I really want to do.  However, according to the mmchdisk man page stop cannot be used
 on a filesystem with replication set to one.</div>
<div class=""><br class="">
</div>
<div class="">There’s over 250 TB of data on those 5 NSDs, so restriping off of them or setting replication to two are not options.</div>
<div class=""><br class="">
</div>
<div class="">It is very unlikely that anyone would try to access a file on those NSDs during the hour or so I’d need to do the firmware upgrades, but how would GPFS itself react to those (suspended) disks going away for a while?  I’m thinking I could be OK
 if there was just a way to actually stop them rather than suspend them.  Any undocumented options to mmchdisk that I’m not aware of???</div>
<div class=""><br class="">
</div>
<div class="">Are there other options - besides buying IBM hardware - that I am overlooking?  Thanks...<br class="">
<br class="">
<div class="">
<div class="">—</div>
<div class="">Kevin Buterbaugh - Senior System Administrator</div>
<div class="">Vanderbilt University - Advanced Computing Center for Research and Education</div>
<div class=""><a href="mailto:Kevin.Buterbaugh@vanderbilt.edu" class="">Kevin.Buterbaugh@vanderbilt.edu</a> - (615)875-9633</div>
<div class=""><br class="">
</div>
<br class="Apple-interchange-newline">
</div>
<br class="">
</div>
</body>
</html>