<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
</head>
<body dir="auto">
Could you get away with running “mmdiag —stats” and inspecting the uptime information it provides?
<div><br>
</div>
<div>Best,</div>
<div>Dwayne<br>
<div id="AppleMailSignature" dir="ltr">
<div>—</div>
Dwayne Hart | Systems Administrator IV
<div><br>
</div>
<div>CHIA, Faculty of Medicine </div>
<div>Memorial University of Newfoundland </div>
<div>300 Prince Philip Drive</div>
<div>St. John’s, Newfoundland | A1B 3V6</div>
<div>Craig L Dobbin Building | 4M409</div>
<div>T 709 864 6631</div>
</div>
<div dir="ltr"><br>
On Jan 30, 2019, at 5:32 PM, Sanchez, Paul <<a href="mailto:Paul.Sanchez@deshaw.com">Paul.Sanchez@deshaw.com</a>> wrote:<br>
<br>
</div>
<blockquote type="cite">
<div dir="ltr">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:12.0pt;
        font-family:"Times New Roman",serif;}
span.EmailStyle18
        {mso-style-type:personal;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:#1F497D;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D">There are some cases which I don’t believe can be caught with callbacks (e.g. DMS = Dead Man Switch).  But you could possibly use preStartup to check the host uptime to make an assumption if
 GPFS was restarted long after the host booted.  You could also peek in /tmp/mmfs and only report if you find something there.  That said, the docs say that preStartup fires after the node joins the cluster.  So if that means once the node is ‘active’ then
 you might miss out on nodes stuck in ‘arbitrating’ for a while due to a waiter problem.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D">We run a script with cron which monitors the myriad things which can go wrong and attempt to right those which are safe to fix, and raise alerts appropriately.  Something like that, outside the
 reach of GPFS, is often a good choice if you don’t need to know something the moment it happens.<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D">Thx<br>
Paul<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;color:#1F497D"><o:p> </o:p></span></p>
<div>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:11.0pt">From:</span></b><span style="font-size:11.0pt">
<a href="mailto:gpfsug-discuss-bounces@spectrumscale.org">gpfsug-discuss-bounces@spectrumscale.org</a> <<a href="mailto:gpfsug-discuss-bounces@spectrumscale.org">gpfsug-discuss-bounces@spectrumscale.org</a>>
<b>On Behalf Of </b>Oesterlin, Robert<br>
<b>Sent:</b> Wednesday, January 30, 2019 3:52 PM<br>
<b>To:</b> gpfsug main discussion list <<a href="mailto:gpfsug-discuss@spectrumscale.org">gpfsug-discuss@spectrumscale.org</a>><br>
<b>Subject:</b> [gpfsug-discuss] Node ‘crash and restart’ event using GPFS callback?<o:p></o:p></span></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Anyone crafted a good way to detect a node ‘crash and restart’ event using GPFS callbacks? I’m thinking “preShutdown” but I’m not sure if that’s the best. What I’m really looking for is did the node shutdown
 (abort) and create a dump in /tmp/mmfs<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal">Bob Oesterlin<o:p></o:p></p>
<p class="MsoNormal">Sr Principal Storage Engineer, Nuance<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</div>
</blockquote>
<blockquote type="cite">
<div dir="ltr"><span>_______________________________________________</span><br>
<span>gpfsug-discuss mailing list</span><br>
<span>gpfsug-discuss at <a href="http://spectrumscale.org">spectrumscale.org</a></span><br>
<span><a href="http://gpfsug.org/mailman/listinfo/gpfsug-discuss">http://gpfsug.org/mailman/listinfo/gpfsug-discuss</a></span><br>
</div>
</blockquote>
</div>
</body>
</html>