【早阅】编码差异：为什么字符集很重要

科技 2024-10-24 08:01 福建

作者：@Stefan Schiller
原文：https://thenewstack.io/encoding-differentials-why-charset-matters/

背景

关于 HTTP 响应中的字符编码（charset）的问题引起了广泛关注。具体来说，一个常见的 HTTP 响应示例中，Content-Type 头缺少了 charset 属性，这可能导致跨站脚本（XSS）漏洞。

可能存在跨站脚本的漏洞风险，如下：

 HTTP/1.1 200 OK
 Server: Some Server
 Content-Type: text/html
 Content-Length: 1337

 <!DOCTYPE html>
 <html>
 <head><title>Some Page</title></head>
 <body>
 …

有一个小瑕疵：头部缺少 charset 属性。charset 是一组计算机可以用来表示文本的字符集。这听起来可能不是大问题，但攻击者可以轻易利用这一点，通过有意改变浏览器假设的字符集来注入任意的 JavaScript 代码到网站中。

要点

Content-Type 头中的 charset 属性缺失或不正确，可能导致浏览器在解析 HTML 文档时使用错误的字符编码，从而为攻击者提供注入恶意 JavaScript 代码的机会。

【第3335期】XSS终结者-CSP理论与实践

分析

字符编码的重要性

字符编码（如 UTF-8、ISO-8859-1 等）定义了字符与字节之间的映射关系。浏览器需要知道服务器使用的字符编码，以便正确解码 HTTP 响应体中的字节。
如果 Content-Type 头中缺少 charset 属性，浏览器可能会尝试自动检测字符编码，但这可能会导致错误的编码选择。

浏览器的行为

当 Content-Type 头中没有 charset 属性时，浏览器会尝试从 HTML 文档中的 <meta> 标签或字节顺序标记（BOM）中获取字符编码信息。
如果这些信息都缺失，浏览器会使用自动检测机制（如 Chromium 的 Compact Encoding Detection 库）来猜测字符编码。

攻击者的利用

攻击者可以利用字符编码的不确定性，通过特定的字符编码（如 ISO-2022-JP）来绕过安全检查，注入恶意 JavaScript 代码。
例如，ISO-2022-JP 编码中的特定转义序列可以欺骗浏览器的自动检测机制，使其错误地认为响应体使用 ISO-2022-JP 编码，从而导致安全漏洞。
攻击者可以根据自己的能力使用两种不同的利用技术来利用 IOS-2022-JP 字符集：
否定反斜杠转义：此技术可用于否定原本用于转义的反斜杠，例如在 JavaScript 字符串上下文中，原本用于转义的双引号。
打破 HTML 上下文：通常在支持 Markdown 的网站中使用，此技术要求攻击者控制两个不同的 HTML 上下文。通过消耗指定 HTML 上下文结束的 HTML 特殊字符，此技术允许攻击者将数据注入到非预期的 HTML 上下文。
这两种技术都可以被攻击者用于将恶意的 JavaScript 代码注入到网站中。

影响

安全风险

缺少 charset 属性或错误的字符编码设置可能导致严重的 XSS 漏洞，攻击者可以借此注入恶意代码，窃取用户数据或执行其他恶意操作。

行业影响

这一问题不仅影响单个网站，还可能影响整个互联网生态系统，因为许多网站可能未正确设置 charset 属性。
随着浏览器技术的不断发展，自动检测机制可能会变得更加复杂，但这也意味着攻击者有更多机会利用这些机制中的漏洞。

结论

Content-Type 头中的 charset 属性对于确保浏览器正确解析 HTML 文档至关重要。开发者在编写和部署代码时，应始终确保正确设置 charset 属性，以防止潜在的安全漏洞。未来，随着浏览器和 Web 标准的进一步发展，字符编码的处理可能会变得更加严格，但在此之前，开发者需要保持警惕，确保其应用的安全性。

【第3241期】利用Png做持久型XSS攻击

AI 阅：了解技术资讯的一种方式。有兴趣可直接查看原文了解。

http://mp.weixin.qq.com/s?__biz=MjM5MTA1MjAxMQ==&mid=2651273662&idx=2&sn=5a4305302d3ef7736bbf5100ca80eb26

前端早读课

探索前端技术，体验产品的情感，项目思考的指引，塑造独立开发者的未来。

最新文章

【第3419期】vivo 游戏中心包体积优化方案与实践

【早阅】浏览器中的"隐藏"紫色：rebeccapurple

【早阅】8 条设计高效 API 的建议

【第3418期】HTML 表单验证：未被充分利用的利器

【早阅】David A. Patterson：职业生涯前半个世纪的人生教训

【早阅】深入探索 JavaScript Promises：.all、.allSettled、.race 与 .any

【第3417期】LangChain RAG&Agent实践：活动组件AI助手的实现

【第3416期】JavaScript的??=运算符：轻松实现默认值

【早阅】代码注释自动化：使用 VS Code 和 Ollama

【第3415期】AI生成中后台前端代码

【第3414期】提升ServiceWorker性能的新特性

【早阅】es-toolkit：一个Lodash的替代品

【第3413期】2024年CSS状态调查报告

【第3412期】CSS 终于在 2024 年添加了垂直居中功能

【第3411期】AIGC在活动业务中的探索与应用

【第3410期】如何将JavaScript单体代码库的Git大小缩小到原来的94%的？

【招聘】上海蔚来招聘前端技术专家\资深前端开发工程师

【第3409期】不小心把线下数据配到线上？

【第3408期】懂车帝体验洞察-前端性能管理及运营

【第3407期】2024年前端技术现状报告

【活动】第七届前端开发者大会将于12月7日在厦门举办，开始报名啦~

【第3406期】为什么前端打包出来的静态文件名字是一串 Hash 值？

【第3405期】了解npm audit以及修复漏洞

【图书】高质效交付：软件集成、测试与发布精进之道

【第3404期】git bisect：基于二分法快速找到有问题的提交

【早阅】GitHub Copilot 宣布将支持多个人工智能模型

【第3403期】一种新颖的替代setTimeout()的方法

【招聘】北京美团核心业务招前/后端开发工程师

【第3402期】编译拦截？

【第3401期】Svelte 5.0 全新响应式 API

【早阅】防止针对 JavaScript 生态系统的供应链攻击

【早阅】Node.js 性能hooks和度量 API

【早阅】Svelte 5 新功能

【第3400期】单点登录实现思路和方案

【早阅】React useReducer Hook 指南

【第3399期】如何为上传文件取一个唯一的文件名

【早阅】编码差异：为什么字符集很重要

【第3398期】Vue项目基于源码实现可视化编程技术的探索

【早阅】深入理解 TypeScript 中的 infer 关键字

【第3397期】客服工作台的实践总结

【早阅】滚动页面布局形式的探索

【第3396期】Monaco Editor 实现一个日志查看器

【早阅】可能不知道的CSS交互属性

【早阅】如何将 CommonJS 转换为 ESM

【早阅】@scope 与 HTML style：一个强大的组合

【早阅】改掉10个不好的TypeScript习惯

【第3395期】Chrome Canary 130 版本：可定制的select

【早阅】可能不知道的JavaScript的6件事

【第3394期】《Flutter CTO 2024报告》的关键洞察

【第3393期】使用 CSS content-visibility 提高渲染性能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉