记一次nginx配置不当引发的499与failover 机制失效问题|世界微资讯
脚本之家 2023-05-02 05:59:05
目录
背景499的含义与可能原因一个客户端主动行为导致499的例子一个客户端被动行为导致499的例子服务端问题可能导致499?nginx中的504判定相关超时配置服务端耗时过长导致的499通过proxy_ignore_client_abort配置解决499问题?非高峰时期单个upstream偶发响应缓慢、导致超时的原因总结参考资料

背景

nginx 499在服务端推送流量高峰期长期以来都是存在的,间或还能达到告警阈值触发一小波告警,但主观上一直认为499是客户端主动断开,可能和推送高峰期的用户打开推送后很快杀死app有关,没有进一步探究问题根源。
然而近期在非高峰期也存在499超过告警阈值的偶发情况,多的时候一天几次,少的时候则几天一次,持续一般也就数分钟,并且该类告警一般集中于一台api机器,与推送高峰时多台机器同时499告警明显不同,不由得脑海中升起了问号,经过和小伙伴的共同探究,最后发现之前对于499是客户端主动断开因而和服务端关系不大的想当然认知是错误的,这里记录一下。


(资料图)

499的含义与可能原因

499其实并不是HTTP协议的标准状态码,而是nginx自定义的状态码,并没有在nginx官方文档中找到对该状态码的明确说明,这里引用一个感觉比较专业的博文上的解释:

HTTP error 499 simply means that the client shut off in the middle of processing the request through the server. The 499 error code puts better light that something happened with the client, that is why the request cannot be done. So don’t fret: HTTP response code 499 is not your fault at all.

大意是499一般意味着客户端在HTTP请求还在处理时主动结束的处理过程--断开了对应的网络连接,499一般意味着客户端侧发生了一些问题,和服务端没有关系。
以下则是nginx源码中的注释说明:

/*
* HTTP does not define the code for the case when a client closed
* the connection while we are processing its request so we introduce
* own code to log such situation when a client has closed the connection
* before we even try to send the HTTP header to it
*/
#define NGX_HTTP_CLIENT_CLOSED_REQUEST     499

意思是nginx引入了自定义的code 499来记录客户端断开连接时nginx还没有处理完其请求的场景。
回想多年以前首次碰到499场景时在网络搜索资料也是看到了类似的解答,所以一直认为499和服务端关系不大,应该都是客户端的原因。

一个客户端主动行为导致499的例子

曾经遇到过一个搜索联想接口,其499比例比其他api高上几十倍--一骑绝尘,单看该api基本上长期位于告警阈值之上,也追踪过其具体异常原因,最后联合客户端小伙伴给出了结论:搜索联想接口的499比例偏高时正常的,因为:

该api的调用场景是用户在搜索框输入搜索词时,用户每输入一个字符都会立刻用最新的输入调用api并将返回的联想结果展示给用户,以此达到一个近实时搜索联想的功能。既然每次用户输入新字符都触发了最新的api调用请求,那即便之前的调用请求还在进行中,客户端也应该直接结束这些已无实际作用的旧请求,这反映在nginx log上就是客户端主动断开了连接的499。

所以搜索联想api虽然有异于普通api的高比例499,却是完全合理的,客户端要负主动断开连接的责任,但是并没有做错任何事情,服务端也没有任何问题。

一个客户端被动行为导致499的例子

另一个之前认为客户端行为导致499的例子是推送高峰,部分用户在通过推送打开app后可能会秒杀app,而推送高峰时期一般服务端压力比较大本身响应就会比平峰时期慢一些,此时有些api请求可能还正在进行中,此时用户杀死了app--app含冤而死无能为力--对应连接自然就被OS断开回收了,于是也导致了499,这种场景下服务端也是没有问题的。

服务端问题可能导致499?

通过上面两个例子乍看下去,499都是客户端侧的原因,无论是其主动还是被动行为,也正是这两个例子加深了博主心中对于499服务端应该无责任的意识。
总结服务端出错可能导致的nginx错误码,主要应该是以下几个场景:

500: 内部错误,一般为请求参数直接导致了upstream 的处理线程执行代码出错,业务代码或者框架直接返回 Internal Error502: 一般为upstream server直接挂了无法连接,nginx无法访问upstream所以返回 Bad Gateway503: upstream负载过高--但是没挂,直接返回了Service Unavailable504: upstream处理请求时间过长,nginx等待upstream返回超时返回Gateway Timeout

所以无论是代码执行出错、服务挂了、服务过于繁忙、请求处理耗时过长导致HTTP请求失败,都是返回的5XX,压根不会触发499。
一般情况来说确实是这样的,但是这次新出现的平峰499并非一般情况,在网上查找资料时时有人提出过nginx 499可能是服务端处理耗时过长导致客户端超时后主动断开,但是这种情况按照上面的描述不应该属于场景4-- upstream处理请求时间过长,nginx返回504才对吗?
所以看上去服务端处理耗时过长既可能导致客户端主动断开的499也可能导致nginx返回Gateway Timeout的504,那导致这个区别的关键因素是什么?
简单来说就是如果客户端先断开被nginx检测到那就是499,而如果upstream 耗时过长超时先被nginx判定就是504,所以关键就是nginx对于upstream 超时的时间设置,捋到这里赶紧去看了下nginx的超时相关配置,嗯,没有明确配置相关超时时间--!

nginx中的504判定相关超时配置

由于api与nginx是通过uwsgi协议通信,因此关键的超时配置参数如下:

Syntax:	uwsgi_connect_timeout time;
Default:	
uwsgi_connect_timeout 60s;
Context:	http, server, location
Defines a timeout for establishing a connection with a uwsgi server. It should be noted that this timeout cannot usually exceed 75 seconds.
Syntax:	uwsgi_send_timeout time;
Default:	
uwsgi_send_timeout 60s;
Context:	http, server, location
Sets a timeout for transmitting a request to the uwsgi server. The timeout is set only between two successive write operations, not for the transmission of the whole request. If the uwsgi server does not receive anything within this time, the connection is closed.
Syntax:	uwsgi_read_timeout time;
Default:	
uwsgi_read_timeout 60s;
Context:	http, server, location
Defines a timeout for reading a response from the uwsgi server. The timeout is set only between two successive read operations, not for the transmission of the whole response. If the uwsgi server does not transmit anything within this time, the connection is closed.

在未明确指定的情况下其超时时间均默认为60s,简单来说(实际情况更复杂一些但这里不进一步探讨)只有在upstream处理请求耗时超过60s的情况下nginx才能判定其Gateway Timeout 并按照504处理,然而客户端设置的HTTP请求超时时间其实只有15s--这其中还包括外网数据传输的时间,于是问题来了:每一个服务端处理耗时超过15s的请求,nginx由于还没达到60s的超时阈值不会判定504,而客户端则会由于超过本地的15s超时时间直接断开连接,nginx于是就会记录为499。
通过回查nginx log,非高峰期的499告警时段确实是存在单台upstream 请求处理缓慢,耗时过长,于是可能导致:

用户在需要block等待请求的页面等待虽然不到15s但是已经不耐烦了,直接采取切页面或者杀死app重启的方式结束当前请求。用户耐心等待了15s、或者非阻塞的后台HTTP请求超过了15s超过超时阈值主动断开连接结束了当前请求。

服务端耗时过长导致的499

上面已经知道近期新出现的单台upstream 偶发499是由于响应缓慢引起的,既然是由于客户端超时时间(15s)远小于nginx upstream超时时间(60s)引起的,这应该属于一个明显的配置不当,会导致三个明显的问题:

将用户由于各种原因(如杀app)很快主动断开连接导致的499与客户端达到超时时间(这里是15s)导致的499混在了一起,无法区分客户端责任与服务端责任导致499问题。对于nginx判定为499的请求,由于认为是客户端主动断开,不会被认为是服务端导致的unsuccessful attempt而被计入用于failover判定的max_fails计数中,所以即便一个upstream大量触发了499,nginx都不会将其从可用upstream中摘除,相当于摘除不可用节点的功能失效,而由于负载过高导致499的upstream收到的请求依然不断增加最终可能导致更大的问题。对于判定为499的请求,也是由于不会被认为是unsuccessful attempt,所以uwsgi_next_upstream这一配置也不会work,于是当第一个处理请求的upstream耗时过长超时后,nginx不会尝试将其请求转发为下一个upstream尝试处理后返回,只能直接失败。

那是不是把客户端超时时间调大?或者把nginx upstream超时时间调小解决呢?
调大客户端超时时间当然是不合理的,任何用户请求15s还未收到响应肯定是有问题的,所以正确的做法应该是调小upstream的超时时间,一般来说服务端对于客户端请求处理时间应该都是在数十、数百ms之间,超过1s就已经属于超长请求了,所以不但默认的60s不行,客户端设置的15s也不能用于upstream的超时判定。
最终经过综合考虑服务端各api的耗时情况,先敲定了一个upstream 5s的超时时间配置--由于之前没有经验首次修改步子不迈太大,观察一段时间后继续调整,这样做已经足以很大程度解决以上的3个问题:

将用户由于各种原因(如杀app)很快主动断开连接导致的499与nginx达到upstream超时时间时主动结束的504区分开了。504会被纳入max_fails计算,触发nginx摘除失败节点逻辑,在单台机器故障响应缓慢时可以被识别出来暂时摘除出可用节点列表,防止其负载进一步加大并保证后续请求均被正常可用节点处理返回。当nginx等待upstream处理达到5s触发超时时,其会按照uwsgi_next_upstream配置尝试将请求(默认仅限幂等的GET请求)转交给下一个upstream尝试处理后返回,这样在单一upstream由于异常负载较高超时时,其他正常的upstream可以作为backup兜底处理其超时请求,这里客户端原本等待15s超时的请求一般在5~10s内可以兜底返回。

通过proxy_ignore_client_abort配置解决499问题?

在网上查找资料时还有网友提出解除nginx 499问题的一个思路是设置proxy_ignore_client_abort参数,该参数默认为off,将其设置为on 后,对于客户端主动断开请求的情况,nginx会ignore而以upstream实际返回的状态为准,nginx官方文档说明如下:

Syntax:	proxy_ignore_client_abort on | off;
Default:	
proxy_ignore_client_abort off;
Context:	http, server, location
Determines whether the connection with a proxied server should be closed when a client closes the connection without waiting for a response.

但是在客户端主动断开连接时,设置这个参数的意义除了使nginx log中记录的状态码完全按照upstream返回确定,而非表示客户端断连的499之外,对于实际问题解决完全没有任何帮助,感觉颇有把头埋进沙子的鸵鸟风格,不知道这个参数设置到底会有什么实用的场景。

非高峰时期单个upstream偶发响应缓慢、导致超时的原因

这是个好问题,这个问题是近期才出现的,在解决了上面说的nginx错配问题后尝试排查这个问题,从现象上看应该是某些特定请求触发了upsteam CPU飙升,响应缓慢后进一步影响了后续请求的处理,最终导致所有请求响应缓慢触发客户端499。
在nginx错配问题解决后,再次出现这种单台upstream缓慢超时情况后,nginx会很快通过failover摘除掉问题upstream避免情况进一步恶化,而对于首次访问问题upstream超时的GET请求也会backup转发至其他可用upstream处理后返回,已经很大程度上降低了此类异常情况的影响。
最终,修正配置后单upstream的偶发异常会以几天一次的频率触发部分POST api的少量504阈值告警,其问题的根本原因还在探寻中。

总结

人生有太多错误的想当然,nginx 499一般是客户端责任便是一个例证,对于线上长期存在的少量异常告警,还是要怀有一丝敬畏之心,小心温水煮青蛙,在时间允许的情况下多探究、多思考。

转载请注明出处,原文地址:https://www.cnblogs.com/AcAc-t/p/nginx_499_and_504_for_uwsgi.html

参考资料

https://www.belugacdn.com/499-error-code/

https://juejin.cn/post/6844903876315873293http://nginx.org/en/docs/

http/ngx_http_uwsgi_module.html#uwsgi_read_timeout

https://www.cnblogs.com/AcAct/p/nginx_499_and_504_for_uwsgi.html

http://nginx.org/en/docs/http/ngx_http_upstream_module.html

http://nginx.org/en/docs/http/ngx_http_proxy_module.html#proxy_ignore_client_abort

到此这篇关于记一次nginx配置不当引发的499与failover 机制失效问题的文章就介绍到这了,更多相关nginx配置不当引发的499与failover 机制失效 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

记一次nginx配置不当引发的499与failover 机制失效问题|世界微资讯

2023-05-02 05:59:05

每日消息!甘油怎么做最简单-甘油怎么做

2023-05-02 03:43:55

每日速看!哈尔滨江北大学城_哈尔滨江北

2023-05-02 00:50:08

微信8.0.0怎么发布状态 微信8.0版本状态怎么写 当前最新

2023-05-01 22:43:14

与狂欢的世界撞个满怀,来年再会

2023-05-01 21:15:24

中国太平开出“港车北上”跨境车险首单-当前速读

2023-05-01 20:15:45

环球热门:小米手机突然fastboot_小米手机fastboot画面不动

2023-05-01 19:00:06

亚洲最深油气井在新疆塔里木盆地开钻

2023-05-01 17:59:48

千岛湖原生态峡谷成为旅游新热点 自然生态之美让人流连忘返 焦点速递

2023-05-01 16:40:03

看热讯:儿童有声读物3-6岁_儿童有声读物

2023-05-01 15:54:14

今日看点:汝州职业技术学院是野鸡大学吗是正规学校吗公办还是民办

2023-05-01 15:02:56

全球报道:所谓中国之国是指租借地_国中之国是指租借地

2023-05-01 13:46:27

阿维塔11的智能驾驶有多强,谭本宏这样说

2023-05-01 12:43:18

百度、新浪微博、豆瓣、斗鱼等2203家网站被国家网信办约谈

2023-05-01 11:42:55

指南针n指的是哪_在指南针上的n是哪个方向 全球新视野

2023-05-01 10:46:37

华侨豪生品牌介绍_华侨豪生酒店

2023-05-01 10:11:25

环球聚焦:“五一”我在岗丨寨上街道:优化市场环境 护航“向海乐活节”

2023-05-01 09:25:01

丁晖调研重点项目建设工作

2023-05-01 08:24:58

孙晓丹 天天新要闻

2023-05-01 06:47:01

环球快资讯:塔利班是哪个国家的_塔利班简单介绍

2023-05-01 05:59:26

汉武帝之父汉景帝_汉武帝之子刘据?

2023-05-01 01:55:37

假期旅游市场火爆 武警张家界支队加强执勤力量守护“国际张” 环球新动态

2023-04-30 22:22:35

重磅!留鄂创业安居最新政策

2023-04-30 21:20:25

保利尼奥出球后,吴曦附带动作从身后将其扫倒

2023-04-30 20:10:48

氯氰菊酯药效长吗?如何使用?

2023-04-30 19:12:49

全球速讯:崇明老人记文言文翻译初三网_崇明老人记文言文翻译

2023-04-30 18:01:38

2023年4月30日ETF白银最新净持仓量数据_环球热头条

2023-04-30 16:42:54

惊险!刚刚2名乘客坐飞机在万米高空斗殴,原因竟是因为这个 每日信息

2023-04-30 15:04:36

北京环球度假区客流火爆,6成京外游客来自这个省|全球微动态

2023-04-30 14:03:19

焦点观察:西铁城光动能手表寿命是几年 西铁城光动能手表寿命

2023-04-30 13:13:36

N型产品发力,晶科能源去年净利同比增1.57倍 速讯

2023-04-30 12:04:39

天天快看点丨多地晒假期首日旅游成绩单:刷新“五一”文旅消费顶流场景

2023-04-30 11:09:14

4月份制造业采购经理指数回落 非制造业商务活动指数继续较快扩张_每日热议

2023-04-30 10:25:09

总计358亿元“消费大礼包” 第四届上海“五五购物节”启动 环球消息

2023-04-30 09:57:23

湖南杂技赴多米尼加、巴哈马开展文化交流

2023-04-30 08:58:47

施少平“莫非·无限涂谱”个展隆重开幕

2023-04-30 07:05:56

成功!中国撤离940名中国公民、231名外籍人员|焦点快报

2023-04-30 06:02:16

环球关注:广汽本田全新雅阁车型开启预订

2023-04-30 04:57:25

pages转为word格式有变化_pages文件格式转换器_每日消息

2023-04-30 01:36:47

环球焦点!真正有气质的女人,随便披件外套也很好看,看看刘亦菲你就知道

2023-04-29 23:17:16

庞晓杰后续_庞晓杰真实身份大揭秘-世界最资讯

2023-04-29 21:44:08

天天简讯:豆奶粉的功效_豆奶粉对人体的好处

2023-04-29 21:03:57

一以贯之:从城市网络到“城市一张网” 全球新消息

2023-04-29 19:43:54

中国上市公司协会:2022年境内上市公司共实现营业收入71.53万亿元

2023-04-29 18:50:35

烈火青春part1_烈火青春同人-全球快播

2023-04-29 17:41:12

美好生活 劳动创造 | 灼灼花海绘就乡村振兴新画卷 当前快讯

2023-04-29 17:03:46

葛健豪故居(关于葛健豪故居的简介)_全球热闻

2023-04-29 15:16:14

第五届蔷薇地景艺术节开幕!假期快来打卡~

2023-04-29 14:36:15

九龙福铂金多少钱一克(2023年04月29日)参考价格 天天播资讯

2023-04-29 13:40:16

广州天河公布2023年义务教育阶段学校招生细则

2023-04-29 12:57:42

优理氏眼膜怎么样_优理氏护肤品怎么样-全球微速讯

2023-04-29 11:48:16

米哈游的新游戏,居然把王者干趴下了?

2023-04-29 11:04:15

城市癌症早诊早治项目已启动 涉及三区7个街镇4000名高危人群_每日短讯

2023-04-29 10:04:12

事关今日及假期出行!去往天安门、故宫、香山地区请注意

2023-04-29 09:58:31

北京文旅局:“五一”期间全市预计接待游客885万人次 世界快看

2023-04-29 08:40:01

智通ADR统计 | 4月29日

2023-04-29 07:42:35

快消息!晨鸣纸业:4月28日召开董事会会议

2023-04-29 06:41:58

无线桥接路由器怎么设置_无线网设置时有 ldquo 工作模式 ldquo 里面有什么11g什么的 那个最好 最快 全球热消息

2023-04-29 05:47:02

飒特发布消费品战略 红外迎来消费品发展黄金10年

2023-04-29 04:44:42

卓沿防晒霜怎么样_卓沿_天天速递

2023-04-29 02:56:21

孙峤

2023-04-29 00:54:43

全球快资讯丨“五一”气氛组上线,990余万盆花卉装点上海街头

2023-04-28 22:58:40

“五一”假期,秦皇岛加开多趟临客→

2023-04-28 22:21:28

*ST方科股东户数下降5.32%,户均持股8万元_时讯

2023-04-28 21:36:54

孙小祥

2023-04-28 21:13:42

万科:一季度实现归母净利润14.5亿元,新增5个开发项目

2023-04-28 20:11:21

打造制造与服务融通发展样板,东莞启动服务型制造梯度培育计划

2023-04-28 19:51:23

普洱茶饼保质期多久一年为茶 普洱茶饼保质期

2023-04-28 19:20:53

航空工业制造院车志刚:智者逐光 勇者追梦 每日观点

2023-04-28 18:51:01

天天微速讯:人民网评:“五一”假期,让“绿色消费”引领新风尚

2023-04-28 18:00:55

武汉客运段护航五一小长假,发布旅客乘车提示

2023-04-28 17:48:22

【原耽双男主小说推荐】《出嫁从夫》by可爱橙txt 全球今头条

2023-04-28 17:06:41

世界快看点丨直吐血保级惨烈!诺丁汉后卫内科-威廉姆斯下巴骨折赛季报销

2023-04-28 16:57:21

秦皇岛新华保险电子化回访率达99.5%

2023-04-28 16:30:19

环球今日讯!微型货车运费怎么计算_货车运费怎么计算

2023-04-28 16:06:04

2023重庆助理会计师考试准考证打印

2023-04-28 15:33:44

三星无与伦比的软件更新现在包括一款令人惊讶的实惠手机|全球热讯

2023-04-28 14:49:21

太龙股份4月28日盘中涨幅达5%

2023-04-28 14:10:16

周杰伦歌单下载_周杰伦的歌下载免费

2023-04-28 13:57:40

真实事迹改编!这部关于文昌少年“破壁”的微电影今日首发 当前快看

2023-04-28 13:22:07

每日简讯:“五一”假期,2023北京草莓音乐节将在延庆精彩上演

2023-04-28 12:47:24

十大热门传奇手游私服合集 最火的手机版传奇私服推荐

2023-04-28 12:02:02

第六届数字中国建设峰会“最佳成果”公布 天天快看点

2023-04-28 11:40:37

1.5亿不买姆巴佩!皇马酝酿王炸签约,造新典礼中场全欧嗅到不安 当前视点

2023-04-28 11:06:22

吃扁桃仁有什么作用与功效_吃扁桃仁有什么好处-世界短讯

2023-04-28 10:55:45

“五一”假期 走!去西华公园赏鸢尾花看成果展|世界微头条

2023-04-28 10:31:36

拜登宣布美国进入国家紧急状态 以打击贩毒

2023-04-28 10:04:44

【当前热闻】再见天涯社区,BBS时代终究已随风而去

2023-04-28 09:50:48

宝城期货:甲醇以偏空思路对待

2023-04-28 09:15:03

迎新春手抄报内容文字清晰_迎新春手抄报内容文字_世界消息

2023-04-28 08:50:07

最新!云南多个场馆发布重要公告

2023-04-28 08:10:25

《黑暗之魂3》道具暗示剧情线索分析 黑暗之魂三支线剧情-全球新动态

2023-04-28 07:42:34

用科技连接善意,快手2022年ESG报告正式发布

2023-04-28 06:33:10

每日资讯:柴油动力从韩国品牌的大型轿车系列中消失

2023-04-28 05:45:20

世界看热讯:买SUV送MPV座椅!试驾魏牌蓝山DHT-PHEV

2023-04-28 04:38:12

重点聚焦!摇荡之王什么时候出 公测上线时间预告

2023-04-28 02:15:30

word第二页开始设置页码1_最新word页码如何从第二页开始|世界速看料

2023-04-28 00:01:29

全球新消息丨中信建投等7家上市券商一季度营收、净利均创新高!天风证券实现扭亏并抛出40亿定增预案

2023-04-27 22:47:16

焦点报道:广州“五一”假期旅客到发量约589.5万人次 旅游热度排名靠前

2023-04-27 21:49:17

2023年庆祝“五一”国际劳动节大会在京举行|天天滚动

2023-04-27 21:05:58