首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

绝了，图片秒变代码，开发越来越简单了！

科技 2024-11-21 21:34 广东

来源：Jack Cui

大家好，今天继续聊聊科技圈发生的那些事。

一、screenshot-to-code

一款将屏幕截图转换成代码的开源工具。

通过截取屏幕图像，screenshot 工具可以识别出代码的页面布局，生成HTML、CSS、Javascript 等常用的代码，同时还能预览代码实现的效果。

透过这个功能，似乎就像是 screenshot 帮我们戴上一副透视眼镜。仅仅根据截图，我们就能透过图像，直接看到背后的代码结构。当然，这背后的工作仍然要交给 AI 。

我们尝试将 Taylor Swift 的 Instagram 个人主页截图下来，并将其上传给 screenshot。

可以看到， screenshot 在很短的时间内就生成了新代码，将 Taylor 的主页以很高的还原度“复制”了下来。

对于 NYTimes 的新闻， screenshot-to-code 也有不错的表现。

单看这两个示例，我们可以发现，抛开选用的图像，只谈页面布局的话，说不上是一模一样，但 screenshot 至少能给出相似且舒服的代码，实现类似的布局效果。

在项目的主页上，作者团队声明使用了以下的AI大模型：

GPT4-Vision
Claude 3 Sonnet
DALL-E

工具主要使用 GPT4-Vision 生成代码，而 Claude 3 Sonnet 用于辅助（在某些输入情况下，它比 GPT4-Vision 性能更好），并使用 DALL-E 生成图像。

目前 screenshot-to-code 有两种使用方式。一种是在作者团队的网站上在线使用，需要付费。

地址：https://screenshottocode.com

另一种是本地部署。

项目地址：

https://github.com/abi/screenshot-to-code

除了上传截图生成代码外，工具同样支持输入网页URL在线获取截图。

还可以将网站的视频/录屏转换成网页，演示如下：

项目已开源，可以自己部署进行体验。

二、manga-image-translator

当你作为一名资深二次元，跑遍了论坛，求遍了群友，终于，找到了一份期待已久的漫画资源。

嗯，画面和之前看到的切片差不多，可就是哪不对..

生肉？！可没人说看个漫画还得精通语言啊！看不懂，咋办？

于是，manga-image-translator来了。

正如其名，manga 即日语的漫画， manga-image-translator 是一款开源的图像翻译器，上传图片，它能够识别图像中的文本部分，并将其翻译成你想要的语种。

OCR（Optical Character Recognition），光学字符识别技术。基于这项技术， manga-image-translator 可以通过亮-暗检测的模式，精准的提取出图片中的文字，将其转换成可处理的数据。

manga-image-translator 接入了很多翻译器，将OCR提取出的文字进行翻译。

此外，manga-image-translator 还有去除文本气泡里面内容的功能，方便后续进行编辑美化。当然，在进行文本去除后，manga-image-translator 还会对余下的气泡部分进行修复，保证了视图的美观和完整。

去除气泡内文字

项目地址：

https://githu‍b.com/zyddnys/manga-image-translator

目前项目已经开源，支持命令行执行和Web服务器执行两种模式。感兴趣的小伙伴可以自己试一试。

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉