
据微软官方消息,微软推出视觉基础模型Florence-2,该模型现已能够在支持WebGPU的浏览器中100%本地运行。 Florence-2-base-ft是一个拥有2.3亿参数的视觉基础模型,采用基于提示的方法来处理广泛的视觉和视觉语言任务。
Florence-2是 Microsoft 在 MIT 许可下开源的轻量级视觉语言模式。 该模型在字幕、对象侦测、接地和分割等任务中展示了强大的零样本和微调功能。
尽管尺寸很小,但它所取得的结果与大许多倍的模型(如 Kosmos-2)相当。 该模型的优势不在于复杂的架构,而在于大规模的FLD-5B数据集,其中包含1.26亿张影像和54亿个综合视觉注释。

该模型支持多种功能,可用于生成图像、识别字符、分割图像、检测物体等等。
Florence-2 比其前身更小、更精确。 Florence-2系列由两个模型组成:Florence-2-base和Florence-2-large,分别有2.3亿和7.7亿参数。 此尺寸甚至允许部署在移动设备上。
尽管规模较小,但Florence-2在所有基准测试中都取得了比Kosmos-2更好的零样本结果,尽管Kosmos-2拥有16亿个参数。
Florence-2的本地化运行得益于 Transformers.js和ONNX Runtime Web技术的支持。 这一突破不仅提高了用户隐私保护水平,还大大降低了使用成本,为AI视觉技术的普及应用铺平了道路。