Inpaint Anything：一个能“抹去”与“重绘”图像、视频和3D场景的开源工具

你是否曾想从照片中抹去一个碍眼的路人，或者给视频里的天空换一种颜色？过去，这需要专业的图像处理技能。现在，一个名为“Inpaint Anything”的开源项目，试图通过结合多种前沿的AI模型，让这类复杂的编辑操作变得简单。它不仅能处理静态图片，还能扩展到视频和3D场景。

它能做什么？

简单来说，Inpaint Anything 的核心功能围绕三个关键词：移除、填充和替换。这一切都始于一个简单的点击操作——你只需要在图像中点击想要处理的对象。

移除任何内容：点击一个物体，比如照片中多余的垃圾桶，工具会将其识别并“抹去”，同时智能地填充背景，让画面看起来自然无痕。
填充任何内容：点击一个区域，并输入文字描述，比如“长凳上的一只泰迪熊”，工具就会根据你的描述，在该区域生成并填充相应的新内容。
替换任何内容：这主要用于替换背景。点击前景物体，输入对新背景的描述（如“办公室里的一名男子”），工具便会将原背景替换成你描述的场景。

我的理解是，这就像一位高度智能的数字修图师，不仅能擦除，还能根据你的文字指令进行创造性的绘制。

背后的技术组合

Inpaint Anything 本身并非一个全新的底层模型，而更像一个巧妙的“组装工”。它通过串联几个强大的开源AI模型来协同工作。

根据素材介绍，其典型的工作流程是：首先，由 SAM（Segment Anything Model） 负责精准识别和分割出你点击的物体。然后，根据不同的任务，调用不同的模型来完成“修补”工作。例如，在“移除”任务中，可能会使用 LaMa 这样的图像修复模型来填充被移除物体留下的“空洞”；而在“填充”或“替换”任务中，则会调用类似 稳定扩散（Stable Diffusion） 的文生图模型，根据你的文字提示来生成新内容。

这种模块化的设计，使得项目能够灵活地集成当时最先进的各类视觉模型。

不止于图片：视频与3D场景

这个项目的野心不止于处理静态图像。根据其更新日志，它已经将类似的能力扩展到了视频和3D场景中。

对于视频，原理是先在视频的第一帧中点击选中目标物体，然后利用目标跟踪模型（如OSTrack）在整个视频序列中追踪这个物体，再逐帧进行修复或替换。对于3D场景（通常由多视角图像构成），它也是从其中一个视角选中物体，通过跟踪和修复技术在所有视角的图像中移除该物体，最终合成一个全新的、没有该物体的3D场景视图。这为3D内容的后期编辑提供了新的可能性。

如何使用与获取

Inpaint Anything 是一个完全开源的项目，代码托管在 GitHub 上，这意味着任何有技术背景的人都可以免费获取、研究甚至改进它。从素材中提供的安装说明来看，使用它需要一定的技术门槛，比如配置 Python 环境、安装依赖库、下载必要的预训练模型文件等。

项目也提供了相对友好的尝试方式，例如在 Hugging Face 上部署了在线演示网站，以及支持在本地运行的网页用户界面。对于普通用户而言，通过这些界面进行体验可能比直接部署代码要容易得多。

结语

Inpaint Anything 展示了当前AI技术在图像理解和生成领域的强大能力。它将复杂的多模型协作封装成一个相对直观的操作（点击+输入文字），降低了高级图像编辑的门槛。虽然完全自主部署对非专业人士仍有难度，但其开源属性和提供的在线演示，让所有人都能一窥这项技术的潜力。它或许预示着，未来我们与数字内容互动的方式将变得更加直接和富有创意。

```excel_export_meta {"belongs_channel_1":"科技前沿","summary":"Inpaint Anything是一个开源AI工具，能通过点击和文字指令，智能移除、填充或替换图像、视频及3D场景中的内容。它整合了SAM、LaMa、稳定扩散等多个先进模型，降低了复杂视觉编辑的技术门槛。","tag_names":