当前位置:首页 >科技 >

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

来源：机器之心Pro 2021-12-31 13:45:59

编辑：杜伟

这个项目登上了今天的GitHub Trending。

近一两年，Transformer 跨界 CV 任务不再是什么新鲜事了。

自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来，各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。

之后，在 PyTorch 中实现 Vision Transformer 成为了研究热点。GitHub 中也出现了很多优秀的项目，今天要介绍的就是其中之一。

该项目名为「vit-pytorch」，它是一个 Vision Transformer 实现，展示了一种在 PyTorch 中仅使用单个 transformer 编码器来实现视觉分类 SOTA 结果的简单方法。

项目当前的 star 量已经达到了 7.5k，创建者为 Phil Wang，ta 在 GitHub 上有 147 个资源库。

项目地址：https://github.com/lucidrains/vit-pytorch

项目作者还提供了一段动图展示：

项目介绍

首先来看 Vision Transformer-PyTorch 的安装、使用、参数、蒸馏等步骤。

第一步是安装：

$pipinstallvit-pytorch

第二步是使用：

importtorch

fromvit_pytorchimportViT

v=ViT(

image_size=256,

patch_size=32,

num_classes=1000,

dim=1024,

depth=6,

heads=16,

mlp_dim=2048,

dropout=0.1,

emb_dropout=0.1

)

img=torch.randn(1,3,256,256)

preds=v(img)#(1,1000)

第三步是所需参数，包括如下：

image_size：图像大小

patch_size：patch 数量

num_classes：分类类别的数量

dim：线性变换 nn.Linear(..., dim) 后输出张量的最后维

depth：Transformer 块的数量

heads：多头注意力层中头的数量

mlp_dim：MLP（前馈）层的维数

channels：图像通道的数量

dropout：Dropout rate

emb_dropout：嵌入 dropout rate

……

最后是蒸馏，采用的流程出自 Facebook AI 和索邦大学的论文《Training data-efficient image transformers & distillation through attention》。

论文地址：https://arxiv.org/pdf/2012.12877.pdf

从 ResNet50（或任何教师网络）蒸馏到 vision transformer 的代码如下：

importtorchfromtorchvision.modelsimportresnet50fromvit_pytorch.distillimportDistillableViT,DistillWrapperteacher=resnet50(pretrained=True)

v=DistillableViT(

image_size=256,

patch_size=32,

num_classes=1000,

dim=1024,

depth=6,

heads=8,

mlp_dim=2048,

dropout=0.1,

emb_dropout=0.1

)

distiller=DistillWrapper(

student=v,

teacher=teacher,

temperature=3,#temperatureofdistillationalpha=0.5,#tradebetweenmainlossanddistillationlosshard=False#whethertousesoftorharddistillation

)

img=torch.randn(2,3,256,256)labels=torch.randint(0,1000,(2,))

loss=distiller(img,labels)loss.backward()

#afterlotsoftrainingabove...pred=v(img)#(2,1000)

除了 Vision Transformer 之外，该项目还提供了 Deep ViT、CaiT、Token-to-Token ViT、PiT 等其他 ViT 变体模型的 PyTorch 实现。

对 ViT 模型 PyTorch 实现感兴趣的读者可以参阅原项目。

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

编辑：杜伟这个项目登上了今天的GitHub Trending。近一两年，Transformer 跨界 CV 任务不再是什

特斯拉中国：Model 3和Y起售价分别涨1万和2.1万元

原标题：特斯拉中国：Model 3和Y起售价分别涨1万和2 1万元鞭牛士 12月31日消息，今日，特斯拉中国官网显示，M

专访李家庆：君联资本的双碳科技投资观

原标题：专访李家庆：君联资本的双碳科技投资观21世纪经济报道 21财经APP 赵娜 21世纪经济报道记者赵娜北京报道

消息称小米12 Ultra确定春节后登场：主打影像、或与徕卡联名

小米12系列前两天已经正式发布了，并且将会在今天晚上8点正式迎来首销，包括小米12、小米12 Pro和小米12X。而此次

经济日报刊评：美国航企“自编自演”要不得

原标题：经济日报刊评：美国航企“自编自演”要不得来源：经济日报航班取消怪我喽？美国航企，别“自编自演”了…近日，多架自

商汤科技在港上市第二日盘中大涨20％市值超1600亿港元

新浪科技讯 12月31日上午消息，商汤科技在港上市第二日盘中大涨20％，现报4 94港元，其发行价为3 85港元每股，市

猜你喜欢

今日头条

1中药结合科技，中科爱特荣获第23届高交会优秀产品奖

2021-12-31 13:17:04

2拍短视频赢大奖！龙岗区首届旅游短视频大赛正式启动

2021-12-31 13:16:59

3游古镇、赏春灯、剧本杀……元旦来龙岗开启元气满满的新年！

2021-12-31 13:16:42

42022“时间的朋友”跨年演讲如约而至罗振宇将不惧“空场”跨年

2021-12-31 13:16:32

512月30日深圳新增1例境外输入确诊病例

2021-12-31 13:16:22

6购房能力强、多才多艺……原来你是这样的深圳女性

2021-12-31 13:16:08

72021，我们记得！2022，我们来了！

2021-12-31 11:18:17

8光明区归国留学人员“青桐计划”启动

2021-12-31 11:18:11

9积极建言推动我市绿色建筑高质量发展

2021-12-31 11:17:56

10《广东省综合立体交通网规划纲要》发布，深圳又有哪些利好？

2021-12-31 11:17:50

图文推荐

精彩文章

随机推荐

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

相关文章

猜你喜欢