<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div>I &quot;feel like&quot; it should be working since so much of it is working, except the main function of the s/w seems to be failing me.</div><div><br></div><div>my repmgr95 says this:</div><div><br></div><div><div>ID | Name | Role | Status | Upstream | Location | Connection string</div><div>----+---------+---------+-----------+----------+----------+----------------------------------------------------------</div><div>1 | r01sv05 | standby | running | r01sv04 | default | host=r01sv05 user=repmgr dbname=repmgr connect_timeout=2</div><div>2 | r01sv04 | primary | * running | | default | host=r01sv04 user=repmgr dbname=repmgr connect_timeout=2</div><div>3 | r01sv03 | standby | running | r01sv04 | default | host=r01sv03 user=repmgr dbname=repmgr connect_timeout=2</div></div><div><br></div><div>(actually 05 is now the primary, that is an old shot)</div><div><br></div><div>r01sv02 is the pgpool server btw, and they are all on the same subnet.</div><div><br></div><div>my pgpool says this:</div><div><br></div><div><div>-bash-4.2$ psql -U pgpool --dbname=pgpool --host r01sv02 -c &quot;show pool_nodes&quot;</div><div> node_id | hostname | port | status | lb_weight |  role   | select_cnt | load_balance_node | replication_delay | last_status_change  </div><div>---------+----------+------+--------+-----------+---------+------------+-------------------+-------------------+---------------------</div><div> 0       | r01sv03  | 5432 | up     | 1.000000  | standby | 0          | true              | 0                 | 2019-04-11 19:48:43</div><div>(1 row)</div></div><div><br></div><div>pgpool keeps logging this:</div><div><br></div><div><div>Apr 12 14:03:03 <a href="http://r01sv02.change.me">r01sv02.change.me</a> pgpool[14630]: [259-1] 2019-04-12 14:03:03: pid 14630: LOG:  find_primary_node: standby node is 0</div><div>Apr 12 14:03:03 <a href="http://r01sv02.change.me">r01sv02.change.me</a> pgpool[14630]: [259-2] 2019-04-12 14:03:03: pid 14630: LOCATION:  pgpool_main.c:3438</div><div>Apr 12 14:03:04 <a href="http://r01sv02.change.me">r01sv02.change.me</a> pgpool[14630]: [260-1] 2019-04-12 14:03:04: pid 14630: LOG:  find_primary_node: standby node is 0</div><div>Apr 12 14:03:04 <a href="http://r01sv02.change.me">r01sv02.change.me</a> pgpool[14630]: [260-2] 2019-04-12 14:03:04: pid 14630: LOCATION:  pgpool_main.c:3438</div><div>Apr 12 14:03:05 <a href="http://r01sv02.change.me">r01sv02.change.me</a> pgpool[14630]: [261-1] 2019-04-12 14:03:05: pid 14630: LOG:  find_primary_node: standby node is 0</div></div><div>and occasionally the find_primary_node_repeatedly line</div><div><br></div><div>Quick summary of my setup:</div><div>3 postgresql-9.5 db nodes, one is primary, the other two are standby, in a streaming replication cluster built and managed with repmgr95.  This is working fine.</div><div><br></div><div>1 pgpool 4.0.4 server that has the same version of postgresql-9.5 and postgres user setup as the other 3.</div><div>- pgpool is running as postgres</div><div><br></div><div>what does work:</div><div>-the postgres user has ssh access to/from any of the four servers. I can remotely run repmgr from the pgpool server as postgres user with no problem</div>-psql can access all the db&#39;s says with simple \list or \dt or whatever from any of the 4 nodes asking for 5432 access from any of the four nodes, even from the pgpool server</div><div>-i can use the postgres user or pgpool user with psql</div><div>- dns is working too, but I changed from using the hostname to the IP&#39;s in the config file in case it made a difference, but it did not.</div><div><br></div><div>I&#39;ve even run this commands by hand and it gets the right answers:</div><div><br></div><div><div>-bash-4.2$ psql -U pgpool --dbname=pgpool --host r01sv02 -c &quot;SELECT pg_is_in_recovery();&quot;</div><div> pg_is_in_recovery </div><div>-------------------</div><div> t</div><div>(1 row)</div><div><br></div><div>-bash-4.2$ psql -U pgpool --dbname=pgpool --host r01sv03 -c &quot;SELECT pg_is_in_recovery();&quot;</div><div> pg_is_in_recovery </div><div>-------------------</div><div> t</div><div>(1 row)</div><div><br></div><div>-bash-4.2$ psql -U pgpool --dbname=pgpool --host r01sv04 -c &quot;SELECT pg_is_in_recovery();&quot;</div><div> pg_is_in_recovery </div><div>-------------------</div><div> t</div><div>(1 row)</div><div><br></div><div>-bash-4.2$ psql -U pgpool --dbname=pgpool --host r01sv05 -c &quot;SELECT pg_is_in_recovery();&quot;</div><div> pg_is_in_recovery </div><div>-------------------</div><div> f</div><div>(1 row)</div></div><div><br></div><div>pgpool for some reason finds one of the three nodes, a standby node, and it has the right.</div><div><br></div><div>the pgpool database I created, I created on my primary.  I had thought that when pgpool started up it might put some stuff in that database, but I haven&#39;t seen anything, in case that is the problem.  i found notes on creating said database and user, but have seen nothing on actually putting anything in it by hand.--anyway, I was just looking at that in case it is something</div><div><br></div><div>Main question -- where are the other two nodes?</div><div><br></div><div>Also, I&#39;ve noted that each time I start pgpool, it throws those errors (above) until the steps reaches 300, then it finally says &quot;successfully started&quot; and at that point the pcp_* commands will work, before then it has not yet created the pcp socket.  Don&#39;t know if that is normal/expected or not.  Seemed odd to me, for basic commands to take 5 minutes to even be available.</div><div><br></div><div>The other thing is that while it will come up for a while, pgpool seems to be stopping itself after about 10 minutes or so.  the log just says that pgpool was told to stop (but I didn&#39;t do it).</div><div><br></div><div>I&#39;ve attached a sanitized version of my pgpool.conf file</div><div dir="ltr"><br></div><div>In case it helps, here also is the sanitized contents of the .pgpass and .pcppass files in the postgres home dir of all four of my servers and the pool_passwd, in case you see a problem with these (they are 600 owned by postgres).</div><div><br></div><div><div>-bash-4.2$ cat .pgpass</div><div>r01sv02:5432:*:pgpool:sanitized</div><div>r01sv05:5432:*:postgres:pgpool:sanitized</div><div>r01sv04:5432:*:postgres:pgpool:sanitized</div><div>r01sv03:5432:*:postgres:pgpool:sanitized</div><div>r01sv05:5432:replication:repmgr:pgpool:sanitized</div><div>r01sv04:5432:replication:repmgr:pgpool:sanitized</div><div>r01sv03:5432:replication:repmgr:pgpool:sanitized</div></div><div><br></div><div><div>-bash-4.2$ cat .pcppass</div><div>*:*:pgpool:pgpool:sanitized</div><div>*:*:postgres:pgpool:sanitized</div></div><div><br></div><div>pcp.conf</div><div><div>pgpool:sanitized</div><div>nrpe:sanitized</div><div>postgres:sanitized</div></div><div><br></div><div>pool_passwd</div><div><div>pgpool:sanitized</div><div>nrpe:sanitized</div><div>postgres:sanitized</div></div><div><br></div><div><br></div><div><div>-bash-4.2$ cat pool_hba.conf</div><div># pgpool Client Authentication Configuration File</div><div><br></div><div># &quot;local&quot; is for Unix domain socket connections only</div><div>local   all         all                               trust</div><div># IPv4 local connections:</div><div>host    all         all         <a href="http://127.0.0.1/32">127.0.0.1/32</a>          trust</div><div>host    all         all         ::1/128               trust</div><div>host    all         all         192.x.y.0/24             md5</div></div><div><br></div><div>Thanks,</div><div>Rob</div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br></div><div dir="ltr"><br clear="all"><div><br></div></div></div></div></div></div></div></div></div></div></div>