Dear Jochen,<br><br>Than I understood that you confirm the problem, as your configuration was: check_interval 15, retry_interval 2 and max_check_attempts 4.<br><br>And from your log we have:<br><br>18:39:55 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 12s<br>
  (threshold=0d 0h 15m 16s). I'm forcing an immediate check of the host.<br>18:40:05 HOST ALERT: Unfresh;DOWN;SOFT;1;(null)<br><br>18:56:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 59s<br>  (threshold=0d 0h 15m 17s). I'm forcing an immediate check of the host.<br>
18:56:23 HOST ALERT: Unfresh;DOWN;SOFT;2;(null)<br><br>--> It´s wrong. It should be about 18:42:05, 2 minutes after the SOFT1, as your retry_interval is 2 minutes.<br><br>19:28:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>
  (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>19:28:23 HOST ALERT: Unfresh;DOWN;SOFT;3;CRITICAL: All life functions<br>terminated<br><br>--> It´s wrong. It should be about 18:58:23, 2 minutes after the SOFT2, as your retry_interval is 2 minutes.<br>
<br>19:44:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>  (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>19:44:23 HOST ALERT: Unfresh;DOWN;HARD;4;CRITICAL: All life functions<br>
terminated<br><br>--> It´s wrong. It should be about 19:30:23, 2 minutes after the SOFT3, as your retry_interval is 2 minutes.<br><br>I´d like to know if the Nagios Core developers have already realized this problem and if they are intending to correct it for the next release or making a patch.<br>
<br>Thanks,<br>Rodney<br><br><br><div class="gmail_quote">On Thu, Dec 16, 2010 at 6:59 PM, Jochen Bern <span dir="ltr"><<a href="mailto:Jochen.Bern@linworks.de">Jochen.Bern@linworks.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">On 12/16/2010 12:03 PM, Rodney Ramos wrote:<br>
> As I´ve said before I think that it is a Nagios Core bug. I´ve tested it<br>
> with Nagios 3.2.1 and I found the same problem.<br>
> I think it´s a serious problem.<br>
<br>
<br>
</div>Oh, wow. 8-O I can confirm the effect on my 3.2.3, but there seems to be<br>
*more* of a problem with host freshness checks. Test run with<br>
check_interval 15, retry_interval 2, max_check_attempts 4; log excerpt:<br>
<br>
<br>
18:23:55 Warning: Host 'Unfresh' has no services associated with it!<br>
18:24:28 EXTERNAL COMMAND: PROCESS_HOST_CHECK_RESULT;Unfresh;0;Manual<br>
Init to UP|<br>
18:24:35 PASSIVE HOST CHECK: Unfresh;0;Manual Init to UP<br>
<br>
18:39:55 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 12s<br>
   (threshold=0d 0h 15m 16s). I'm forcing an immediate check of the host.<br>
18:40:05 HOST ALERT: Unfresh;DOWN;SOFT;1;(null)<br>
<br>
18:51:12 Warning: Host 'Unfresh' has no services associated with it!<br>
<br>
18:56:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 59s<br>
   (threshold=0d 0h 15m 17s). I'm forcing an immediate check of the host.<br>
18:56:23 HOST ALERT: Unfresh;DOWN;SOFT;2;(null)<br>
19:00:12 Warning: Host 'Unfresh' has no services associated with it!<br>
19:12:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 45s<br>
   (threshold=0d 0h 15m 15s). I'm forcing an immediate check of the host.<br>
19:12:23 HOST ALERT: Unfresh;DOWN;SOFT;2;CRITICAL: All life functions<br>
terminated<br>
19:28:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>
   (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>
19:28:23 HOST ALERT: Unfresh;DOWN;SOFT;3;CRITICAL: All life functions<br>
terminated<br>
19:44:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>
   (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>
19:44:23 HOST ALERT: Unfresh;DOWN;HARD;4;CRITICAL: All life functions<br>
terminated<br>
20:00:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>
   (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>
20:16:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 41s<br>
   (threshold=0d 0h 15m 17s). I'm forcing an immediate check of the host.<br>
20:32:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 39s<br>
   (threshold=0d 0h 15m 18s). I'm forcing an immediate check of the host.<br>
20:48:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 45s<br>
   (threshold=0d 0h 15m 15s). I'm forcing an immediate check of the host.<br>
21:04:13 Warning: The results of host 'Unfresh' are stale by 0d 0h 0m 45s<br>
   (threshold=0d 0h 15m 15s). I'm forcing an immediate check of the host.<br>
<br>
<br>
(The additional "no services" crud stems from my not getting the check<br>
command right the first time 'round, and having to re-reload the config.)<br>
<br>
<br>
I took excerpts of status.dat and retention.dat initially and after the<br>
first nine active checks, look at these current_attempt numbers:<br>
<br>
<br>
# for FIL in *.dat* ; do echo -n "${FIL}:  " | \<br>
> sed -e 's/_[a-z]*-/-/' -e 's/\.[a-z]*: */:/' ; \<br>
> egrep '(current_attempt|state_type|(current|last_hard)_state=)' \<br>
> $FIL | sed -e 's/\([a-z][a-z][a-z]\)[a-z]*\([_=]\)/\1\2/g' | \<br>
> tr '\n\t' '  ' ; echo "" ; done<br>
retention.dat-OK:       cur_sta=0 las_har_sta=0 cur_att=1 sta_typ=1<br>
retention.dat-1:        cur_sta=0 las_har_sta=0 cur_att=1 sta_typ=1<br>
retention.dat-2:        cur_sta=1 las_har_sta=0 cur_att=1 sta_typ=0<br>
retention.dat-3:        cur_sta=1 las_har_sta=0 cur_att=2 sta_typ=0<br>
retention.dat-4:        cur_sta=1 las_har_sta=0 cur_att=2 sta_typ=0<br>
retention.dat-5:        cur_sta=1 las_har_sta=0 cur_att=2 sta_typ=0<br>
retention.dat-6:        cur_sta=1 las_har_sta=0 cur_att=4 sta_typ=1<br>
retention.dat-7:        cur_sta=1 las_har_sta=0 cur_att=4 sta_typ=1<br>
retention.dat-8:        cur_sta=1 las_har_sta=0 cur_att=4 sta_typ=1<br>
retention.dat-9:        cur_sta=1 las_har_sta=0 cur_att=4 sta_typ=1<br>
status.dat-OK:   cur_sta=0  las_har_sta=0  cur_att=1  sta_typ=1<br>
status.dat-1:    cur_sta=1  las_har_sta=0  cur_att=1  sta_typ=0<br>
status.dat-2:    cur_sta=1  las_har_sta=0  cur_att=2  sta_typ=0<br>
status.dat-3:    cur_sta=1  las_har_sta=0  cur_att=2  sta_typ=0<br>
status.dat-4:    cur_sta=1  las_har_sta=0  cur_att=3  sta_typ=0<br>
status.dat-5:    cur_sta=1  las_har_sta=0  cur_att=4  sta_typ=1<br>
status.dat-6:    cur_sta=1  las_har_sta=1  cur_att=1  sta_typ=1<br>
status.dat-7:    cur_sta=1  las_har_sta=1  cur_att=1  sta_typ=1<br>
status.dat-8:    cur_sta=1  las_har_sta=1  cur_att=1  sta_typ=1<br>
status.dat-9:    cur_sta=1  las_har_sta=1  cur_att=1  sta_typ=1<br>
<br>
<br>
extinfo.cgi told me "1/4 (SOFT state)" at 19:03 (after the *2nd* active<br>
check, i.e., matching the data in retention.dat) but tells me "1/4 (HARD<br>
state)" right now (matching status.dat instead) ...<br>
<div><div></div><div class="h5"><br>
<br>
Kind regards,<br>
                                                                J. Bern<br>
--<br>
Jochen Bern, Systemingenieur --- LINworks GmbH <<a href="http://www.LINworks.de/" target="_blank">http://www.LINworks.de/</a>><br>
Postfach 100121, 64201 Darmstadt | Robert-Koch-Str. 9, 64331 Weiterstadt<br>
PGP (1024D/4096g) FP = D18B 41B1 16C0 11BA 7F8C DCF7 E1D5 FAF4 444E 1C27<br>
Tel. +49 6151 9067-231, Zentr. -0, Fax -299 - Amtsg. Darmstadt HRB 85202<br>
Unternehmenssitz Weiterstadt, Geschäftsführer Metin Dogan, Oliver Michel<br>
</div></div></blockquote></div><br>