Guillaume,<br><br>welcome to the club - pgpool healthcheck is useless at the moment, it acts as just another db client. With pgpool settings you can only control how lazy/frequent db client healthcheck is, but you cannot give healthcheck complete control over when backend failover/degeneration occurs. Healthcheck and it&#39;s retries will help avoid degeneration of a backend on temporary conditions like you are experiencing - but only if healthcheck is the sole db client of pgpool instance (think about app that doesn&#39;t make use of database/pgpool at all). Even then, in such lab case, configuration like healthcheck timeout might not be respected in all conditions of the environment (blocking connect call). There is a patch for both already, not (yet) accepted. You can go apply patch yourself, and then go and configure healthcheck to handle/survive these temporary conditions.<br>
<br>Without healthcheck fixed, you can disable failover of a backend in all conditions, unfortunately including healthcheck too, by setting DISALLOW_TO_FAILOVER, and control failover manually or at least outside of pgpool.<br>
<br>Healthcheck is handy even after eliminating that vmware issue, but it&#39;s good to eliminate root cause if possible. By vmware docs (see at <a href="http://www.vmware.com/support/ws5/doc/ws_preserve_sshot_delete.html">http://www.vmware.com/support/ws5/doc/ws_preserve_sshot_delete.html</a> ), deleting a snapshot should not affect current state of vm. If it does affect current state then it&#39;s a bug. It might be already fixed so try upgrading vmware and if that doesn&#39;t help contact vmware support.<br>
<br>Did you check postgres (failing backend) logs for that period when pgpool cannot connect to it?<br><br>Kind regards,<br>Stevo.<br><br><div class="gmail_quote">On Thu, Feb 16, 2012 at 2:59 AM, Tatsuo Ishii <span dir="ltr">&lt;<a href="mailto:ishii@postgresql.org">ishii@postgresql.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Sounds like a bug with vmware. Pgpool does nothing special when<br>
issuing connect(2) system call. connect() sends SYN to peer. Peer<br>
should reply with SYN+ACK. If SYN+ACK is not returned, the local<br>
TPC/IP stack keeps on sending SYN until timeout reaches. If timed out,<br>
connect() fails with &quot;Connection timed out&quot; error. As far as I know,<br>
the timeout value is 189 seconds on Linux system.<br>
<div class="im HOEnZb">--<br>
Tatsuo Ishii<br>
SRA OSS, Inc. Japan<br>
English: <a href="http://www.sraoss.co.jp/index_en.php" target="_blank">http://www.sraoss.co.jp/index_en.php</a><br>
Japanese: <a href="http://www.sraoss.co.jp" target="_blank">http://www.sraoss.co.jp</a><br>
<br>
</div><div class="HOEnZb"><div class="h5">&gt; Hi,<br>
&gt;<br>
&gt; I&#39;m bringing back this thread as promised once I&#39;ve found something.<br>
&gt;<br>
&gt; I managed to reproduce my problem by delete a snapshot of the vm hosting postgresql ; pgpool runs on another machine.<br>
&gt;<br>
&gt; To summarize my problem, pgpool loses connection with a postgersql on a vm when there&#39;s a snapshot or when a snapshot is being deleted. We&#39;re using vmware by the way. An odd part of this problem is  that it doesn&#39;t always occur, it&#39;s not systematic, probably once in every 3-4 snapshots created/deleted. I thought that modifying the health connection would help but nothing happened.<br>

&gt;<br>
&gt; Here&#39;s what I&#39;ve found on my logs :<br>
&gt;<br>
&gt; 2012-02-15 16:07:05 ERROR: pid 7768: connect_inet_domain_socket: connect() failed: Connection timed out<br>
&gt; 2012-02-15 16:07:05 ERROR: pid 7768: connection to 192.168.0.5(5432) failed<br>
&gt; 2012-02-15 16:07:05 ERROR: pid 7768: new_connection: create_cp() failed<br>
&gt; 2012-02-15 16:07:05 LOG:   pid 7768: notice_backend_error: 1 fail over request from pid 7768<br>
&gt; 2012-02-15 16:07:05 LOG:   pid 20836: starting degeneration. shutdown host 192.168.0.5 (5432)<br>
&gt;<br>
&gt; The only way I found to work around this is by running a small script, after the snapshot, that checks if the node is still up or not ; But that&#39;s not a solution, it&#39;s a work around.<br>
&gt;<br>
&gt; Has anybody stumbled on this kind of problem before ?<br>
&gt;<br>
&gt; ____________________________________________________<br>
&gt; Guillaume Douté<br>
&gt; Administrateur Activités Transversales<br>
&gt; ----------------------------------------------------<br>
&gt; LINKBYNET<br>
&gt; Columbia<br>
&gt; 32 boulevard Vincent Gâche - 44000 Nantes<br>
&gt; Tel direct : <a href="tel:%2B33%20%280%292%2040%2071%2061%2064" value="+33240716164">+33 (0)2 40 71 61 64</a><br>
&gt; Tel : <a href="tel:%2B33%20%280%291%2048%2013%2000%2000" value="+33148130000">+33 (0)1 48 13 00 00</a> - Fax : <a href="tel:%2B33%20%280%291%2048%2013%2031%2021" value="+33148133121">+33 (0)1 48 13 31 21</a><br>
&gt; Email : <a href="mailto:g.doute@linkbynet.com">g.doute@linkbynet.com</a> - Web : <a href="http://www.linkbynet.com" target="_blank">www.linkbynet.com</a><br>
&gt; _____________________________________________________<br>
&gt; Astreinte : <a href="http://www.linkbynet.com/astreinte/" target="_blank">http://www.linkbynet.com/astreinte/</a><br>
&gt;<br>
&gt; Avant d&#39;imprimer cet e-mail, pensez à l&#39;environnement.<br>
&gt;<br>
&gt; -----Message d&#39;origine-----<br>
&gt; De : <a href="mailto:pgpool-general-bounces@pgpool.net">pgpool-general-bounces@pgpool.net</a> [mailto:<a href="mailto:pgpool-general-bounces@pgpool.net">pgpool-general-bounces@pgpool.net</a>] De la part de Guillaume DOUTE<br>

&gt; Envoyé : mercredi 25 janvier 2012 11:26<br>
&gt; À : Guillaume Lelarge<br>
&gt; Cc : <a href="mailto:pgpool-general@pgpool.net">pgpool-general@pgpool.net</a><br>
&gt; Objet : [pgpool-general: 195] Re: VM nodes marked down after snapshot<br>
&gt;<br>
&gt; Hello,<br>
&gt;<br>
&gt; Sorry for the late reply.<br>
&gt;<br>
&gt; You were right, I missed that option and it was set on 1. I put it to 0 and things went better. Needless to say that I felt silly.<br>
&gt;<br>
&gt; For an odd reason, pgpool stopped logging at a certain point in time last Friday, and my problem happened again during the Weekend. So unfortunately, I still have no logs.<br>
&gt; I will post again when I&#39;ll have something.<br>
&gt;<br>
&gt; Thanks again for your help.<br>
&gt;<br>
&gt; ____________________________________________________<br>
&gt; Guillaume Douté<br>
&gt; Administrateur Activités Transversales<br>
&gt; ----------------------------------------------------<br>
&gt; LINKBYNET<br>
&gt; Columbia<br>
&gt; 32 boulevard Vincent Gâche - 44000 Nantes Tel direct : <a href="tel:%2B33%20%280%292%2040%2071%2061%2064" value="+33240716164">+33 (0)2 40 71 61 64</a> Tel : <a href="tel:%2B33%20%280%291%2048%2013%2000%2000" value="+33148130000">+33 (0)1 48 13 00 00</a> - Fax : <a href="tel:%2B33%20%280%291%2048%2013%2031%2021" value="+33148133121">+33 (0)1 48 13 31 21</a> Email : <a href="mailto:g.doute@linkbynet.com">g.doute@linkbynet.com</a> - Web : <a href="http://www.linkbynet.com" target="_blank">www.linkbynet.com</a> _____________________________________________________<br>

&gt; Astreinte : <a href="http://www.linkbynet.com/astreinte/" target="_blank">http://www.linkbynet.com/astreinte/</a><br>
&gt;<br>
&gt; Avant d&#39;imprimer cet e-mail, pensez à l&#39;environnement.<br>
&gt;<br>
&gt; -----Message d&#39;origine-----<br>
&gt; De : Guillaume Lelarge [mailto:<a href="mailto:guillaume@lelarge.info">guillaume@lelarge.info</a>] Envoyé : dimanche 22 janvier 2012 15:21 À : Guillaume DOUTE Cc : <a href="mailto:pgpool-general@pgpool.net">pgpool-general@pgpool.net</a> Objet : Re: [pgpool-general: 174] Re: VM nodes marked down after snapshot<br>

&gt;<br>
&gt; On Tue, 2012-01-17 at 17:58 +0100, Guillaume DOUTE wrote:<br>
&gt;&gt; Thanks for your reply and your explanations,<br>
&gt;&gt;<br>
&gt;&gt; I can&#39;t understand why but I can&#39;t reproduce my problem. Things seems<br>
&gt;&gt; quite stable, fortunately. I will reply with logs when I&#39;ll encounter<br>
&gt;&gt; the problem again<br>
&gt;&gt;<br>
&gt;&gt; On a side question : I don&#39;t understand however why I keep getting &quot;DEBUG&quot; lines in my logs although I didn&#39;t launch pgpool with &quot;-d&quot;. Logs are too verbose and get too big, so I can&#39;t enable logging all the time. Any particular reasons as to why pgpool behaves this way ?<br>

&gt;&gt;<br>
&gt;<br>
&gt; You surely have debug_level set to a value higher than 0.<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Guillaume<br>
&gt; <a href="http://blog.guillaume.lelarge.info" target="_blank">http://blog.guillaume.lelarge.info</a><br>
&gt; <a href="http://www.dalibo.com" target="_blank">http://www.dalibo.com</a><br>
&gt; PostgreSQL Sessions #3: <a href="http://www.postgresql-sessions.org" target="_blank">http://www.postgresql-sessions.org</a><br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; pgpool-general mailing list<br>
&gt; <a href="mailto:pgpool-general@pgpool.net">pgpool-general@pgpool.net</a><br>
&gt; <a href="http://www.pgpool.net/mailman/listinfo/pgpool-general" target="_blank">http://www.pgpool.net/mailman/listinfo/pgpool-general</a><br>
&gt; _______________________________________________<br>
&gt; pgpool-general mailing list<br>
&gt; <a href="mailto:pgpool-general@pgpool.net">pgpool-general@pgpool.net</a><br>
&gt; <a href="http://www.pgpool.net/mailman/listinfo/pgpool-general" target="_blank">http://www.pgpool.net/mailman/listinfo/pgpool-general</a><br>
_______________________________________________<br>
pgpool-general mailing list<br>
<a href="mailto:pgpool-general@pgpool.net">pgpool-general@pgpool.net</a><br>
<a href="http://www.pgpool.net/mailman/listinfo/pgpool-general" target="_blank">http://www.pgpool.net/mailman/listinfo/pgpool-general</a><br>
</div></div></blockquote></div><br>