<div dir="ltr">Thank you, Tatsuo.<div><br></div><div>We are still experiencing the problem once or twice per day.  I am making incremental changes on our live cluster after testing them on the test cluster.  So far we have done the following:</div>
<div><br></div><div>-Comment out unused 2nd backend in pgpool.conf</div><div>-Add a connect_timeout of 10 seconds to the pg_connect() connection string in the PHP application</div><div>-set sysctl net.core.somaxconn = 1024</div>
<div><br></div><div>We just did the last step today so we will see if there is any impact.</div><div><br></div><div>When the fault happens, there is work being done in the database, yet &quot;select * from pg_stat_activity;&quot; shows only a few running queries at the time.  To me, this says that Apache+PHP still has the connection open to pgpool.  </div>
<div><br></div><div>I&#39;ll be sure to post back if we figure it out!</div><div><br></div><div>Justin</div><div><br></div><div><br></div><div> <br><div><br></div><div><br></div></div></div><div class="gmail_extra"><br><br>
<div class="gmail_quote">On Mon, Jan 13, 2014 at 7:55 PM, Tatsuo Ishii <span dir="ltr">&lt;<a href="mailto:ishii@postgresql.org" target="_blank">ishii@postgresql.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Thanks for posting detailed analythis. It looks really interesting.<br>
I need more time to understanding full details.<br>
<br>
In the mean time I wonder if you care about listen queue<br>
setting. Currently pgpool listens up to num_init_children*2 (which 64,<br>
in your case). However Apache connects to pgpool up to 256, which is<br>
way too low compared with 64. Also Linux allows max the listen queue<br>
to up 128 by default on most systems. You can check it by looking at:<br>
<br>
$ sysctl net.core.somaxconn<br>
net.core.somaxconn = 128<br>
<br>
128 is too low compared with 256, of course.<br>
<br>
If the allowed listen queue length (backlog) is too low, lots of retry<br>
happens in kernel&#39;s TCP layer.<br>
<br>
Best regards,<br>
--<br>
Tatsuo Ishii<br>
SRA OSS, Inc. Japan<br>
English: <a href="http://www.sraoss.co.jp/index_en.php" target="_blank">http://www.sraoss.co.jp/index_en.php</a><br>
Japanese: <a href="http://www.sraoss.co.jp" target="_blank">http://www.sraoss.co.jp</a><br>
<div><div class="h5"><br>
&gt; Greetings!<br>
&gt;<br>
&gt; We are having an issue with PGPool and I wanted to post my analysis to this<br>
&gt; list to see if: A). My analysis seems correct to you all and B). To see if<br>
&gt; you folks might have any advice on tuning.<br>
&gt;<br>
&gt;<br>
&gt; For the last month plus, we have been experiencing an intermittent fault<br>
&gt; state on our production cluster.  When the fault occurs, any request to the<br>
&gt; Apache+PHP web server will either time out connecting, or will connect but<br>
&gt; return with a &quot;Could not connect to DB&quot; message from PHP.  I&#39;ve done some<br>
&gt; analysis on the problem and this is what I&#39;ve found.<br>
&gt;<br>
&gt; First let me describe the cluster as it is configured today.  We have one<br>
&gt; web front end running Apache+PHP, which has a MaxClients setting of 256,<br>
&gt; meaning that it&#39;s possible to have 256 concurrently running processes.  The<br>
&gt; PHP application is configured to connect to PGPool 3.2.1 for its database<br>
&gt; connection.  PGPool is configured with max_init_children of 32 and max_pool<br>
&gt; of 8.  The application runs on 10-12 different databases, all with the same<br>
&gt; Postgres username+password.<br>
&gt;<br>
&gt; When the fault occurs, it looks like this: Apache has 256 running processes<br>
&gt; and load on the web front end drops to near 0.  PGPool has all 32 sockets<br>
&gt; that face Apache filled, and all 256 sockets that face Postgres filled.<br>
&gt;  Postgres has 256 connections and its load goes to near 0.  If you try to<br>
&gt; connect to PGPool from the command line, it will time out in connecting, or<br>
&gt; sometimes partially connect and then receive a connection closed message.<br>
&gt;<br>
&gt; Using our test cluster, I ran some tests that give me high confidence that<br>
&gt; PGPool is actually working correctly, as are Apache and Postgres, and that<br>
&gt; the fundamental problem is just a badly tuned configuration.  This is the<br>
&gt; test that shows that best:<br>
&gt;<br>
&gt;<br>
</div></div>&gt;    1. Stop Apache, restart PGPool<br>
&gt;    2. Start up 100 psql command line clients to connect to PGPool with a<br>
&gt;    single database<br>
&gt;    3. The first 32 psql clients connect and work fine<br>
&gt;    4. The 33rd psql client blocks waiting to connect (it will time out<br>
<div class="im">&gt;    after 30 seconds, but in this test we don&#39;t wait that long)<br>
</div>&gt;    5. fg the psql client #1, then exit the client, freeing up one of<br>
&gt;    PGPool&#39;s connections<br>
&gt;    6. One of the 68 blocking psql clients now gets through and can run<br>
&gt;    queries<br>
&gt;    7. Any of the 32 connected psql clients can get through as well<br>
<div class="im">&gt;<br>
&gt; This shows that PGPool is working as expected.<br>
&gt;<br>
&gt; Now we try a test that is more like the real world:<br>
&gt;<br>
</div>&gt;    1. Restart PGPool<br>
&gt;    2. Start up 10-20 psql command line clients.  These are simulating long<br>
&gt;    running php processes.<br>
&gt;    3. Start siege web testing tool with 100-200 concurrent requests to<br>
&gt;    Apache.<br>
&gt;    4. At 100 clients, the response time from Apache slows down and the time<br>
<div class="im">&gt;    taken to service each request goes up to around 15s (from &lt; 1s).  Psql<br>
&gt;    command line client can get through most of the time, but it takes some<br>
&gt;    time to connect as it is contending for one of the 32 slots to PGPool with<br>
&gt;    all of the Apache processes.<br>
</div>&gt;    5. At 200 clients, response time goes up more and we start to see<br>
<div class="im">&gt;    failures in Apache, as well as &quot;Could not connect to DB&quot; responses.  Psql<br>
&gt;    command line client often will timeout before it gets a connection to<br>
&gt;    PGPool.<br>
</div>&gt;    6. Once lots of failures are happening at the 200 clients level, load on<br>
<div class="im">&gt;    Postgres goes to near 0 as well as load on Apache.<br>
</div>&gt;    7. Failure will also happen with 250 siege clients and no psql command<br>
<div class="HOEnZb"><div class="h5">&gt;    line clients running.<br>
&gt;<br>
&gt;<br>
&gt; In step 4, I believe the response time from Apache goes up due to PGPool<br>
&gt; having to spend so much time managing incoming connections from Apache as<br>
&gt; well as managing connections to Postgres.  Database load is not high in<br>
&gt; this case, so the slowness is not due to Postgres being overloaded.<br>
&gt;<br>
&gt; I believe that on the live cluster the load is even more severe as there<br>
&gt; are more databases being used, and occasionally high load, long running<br>
&gt; queries.<br>
&gt;<br>
&gt; It&#39;s also notable that restarting Apache has been our fix to get everything<br>
&gt; running again.  I believe that this is because PGPool gets a chance to<br>
&gt; catch up, which it does fairly quickly, and resumes with 32 available<br>
&gt; sockets for Apache.  If we do nothing, PGPool reaches a 10 minute timeout<br>
&gt; specified in its config, and closes all 32 sockets, which causes everything<br>
&gt; to resume working again.<br>
&gt;<br>
&gt;<br>
&gt; In the end, I believe the problem is that Apache is just sending too many<br>
&gt; requests to PGPool, and PGPool spends all of its time managing connections,<br>
&gt; causing it to be slow at everything.  That slowness and contention for 32<br>
&gt; slots among up to 256 Apache processes leads to connection timeouts (it<br>
&gt; should be noted that Apache seems to have no connect timeout defined and<br>
&gt; will wait for a connection until the PHP max execution time is reached).<br>
&gt;  Once a threshold is reached, we enter a state where no Apache process is<br>
&gt; able to connect to PGPool in enough time and we see the browser requests<br>
&gt; either timing out entirely or returning the &quot;Could not connect to DB&quot;<br>
&gt; message.<br>
&gt;<br>
&gt;<br>
&gt; The proposed solution to all of this is to adjust the configuration of<br>
&gt; PGPool and Apache to ensure that we can never reach this overwhelmed state.<br>
&gt;  Specifically, we need to increase the number of PGPool processes and<br>
&gt; decrease the maximum number of Apache processes.  We need to be careful as<br>
&gt; we do this, as there is surely an upper limit to how many PGPool processes<br>
&gt; can be sustained and increasing that increases overhead on Postgres since<br>
&gt; it increases the number of persistent open connections between it and<br>
&gt; PGPool.  The same for Apache, we need to lower MaxClients but not so low<br>
&gt; that it turns away requests that could have been handled.<br>
&gt;<br>
&gt;<br>
&gt; There are a few other adjustments that I believe will help that I&#39;ll<br>
&gt; describe below.<br>
&gt;<br>
&gt; Apache MaxClients:<br>
&gt; This is how many concurrent Apache processes can run at once.  The current<br>
&gt; setting of 256 is clearly more than the system can handle.  I suggest we<br>
&gt; drop it down to 128 to begin with and monitor the results.  I&#39;d like to<br>
&gt; make this change before the others.<br>
&gt;<br>
&gt; Apache PHP DB connection timeout:<br>
&gt; I can see that it&#39;s waiting as long as 150s before returning with &#39;Could<br>
&gt; not connect to DB&#39; at times, which indicates that no timeout is being<br>
&gt; specified.  This must be sent as part of the connection string, like:<br>
&gt; &quot;pgsql:host=127.0.0.1;port=5432;dbname=vw_bepensa;timeout=10&quot;.  I&#39;m not<br>
&gt; sure at this point what a reasonable value would be, but I&#39;m thinking 10<br>
&gt; seconds is a good start.<br>
&gt;<br>
&gt; PGPool backends:<br>
&gt; We currently have 2 backends specified in the config.  One has<br>
&gt; backend_weight of 1 and the other, that is not used, has backedn_weight of<br>
&gt; 0.  I have confirmed that whenever a client connects to PGPool and requests<br>
&gt; a connection to a database, for example, PGPool opens a persistent<br>
&gt; connection to both backends.  We will comment out the backend that<br>
&gt; specifies the backup server, which should help PGPool a lot.<br>
&gt;<br>
&gt;<br>
&gt; PGPool max_init_children:<br>
&gt; This is the config parameter that specifies how many PGPool processes can<br>
&gt; run, and therefore how many sockets are available to Apache.  Increasing<br>
&gt; this number by one increases the number of persistent connections to the DB<br>
&gt; by max_pool, currently 8.  Postgres is currently configured to only allow<br>
&gt; 300 connections maximum, so that would need to be changed as well.  More<br>
&gt; research and testing is needed to find the sweet spot.<br>
&gt;<br>
&gt; PGPool max_pool:<br>
&gt; This parameter specifies how many different DBs each PGPool process keeps<br>
&gt; in its cache of persistent connections to Postgres.  It is currently set to<br>
&gt; 8, yet we have more than 8 different databases in production (I see 12<br>
&gt; connected right now).  If a connection to a database is requested of PGPool<br>
&gt; by Apache, and the PGPool process servicing Apache&#39;s request does not have<br>
&gt; a connection to that database, it will drop one and use the slot to make a<br>
&gt; new connection to the requested DB on Postgres.  If max_pool was set to 12,<br>
&gt; this would stop happening and there would always be a persistent connection<br>
&gt; to the db requested ready to go when requested by apache.  Postgres would<br>
&gt; ideally get no new db connections.  Increasing from 8 to 12 would mean that<br>
&gt; total connections to Postgres would be 32*12 = 384, which is above<br>
&gt; Postgres&#39;s connection limit.  So this parameter, max_init_children, and<br>
&gt; Postgres&#39;s connection limit must all be tuned to eachother, and kept low<br>
&gt; enough to not overwhelm Postgres.<br>
&gt;<br>
&gt;<br>
&gt; I suggest that we begin by commenting out the second backend in<br>
&gt; pgpool.conf, and lowering MaxClients on Apache to 128.  This should prevent<br>
&gt; PGPool being hammered past the point that it can handle.  If PGPool does<br>
&gt; fall behind, only 128 Apache connections will be hitting PGPool and it<br>
&gt; seems to be able to handle that many in an orderly fashion.<br>
&gt;<br>
&gt; I also think adding a PHP connection timeout will help keep the system from<br>
&gt; grinding to a stop.<br>
&gt;<br>
&gt;<br>
&gt; Thank you for reading and any help or insight you can provide!<br>
&gt;<br>
&gt; Justin Cooper<br>
</div></div></blockquote></div><br></div>