-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathlocal-search.xml
976 lines (462 loc) · 767 KB
/
local-search.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title>X-profiler startup Arch.</title>
<link href="/2020/08/14/x-profiler/index/"/>
<url>/2020/08/14/x-profiler/index/</url>
<content type="html"><![CDATA[<div class="note note-success"> <p style="text-align:center;color:#f00056;font-size:1.5em;font-weight: bold;">摘要</p>一个涵盖CPU、GPU、XPU的性能perf工具,在AI以及通用场景下的底层性能调优工具。 </div><a id="more"></a><style> /* 设置整个页面的字体 */ /* "html," will cover commit [partial.]*/ body, .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 20px; } /* 只设置 markdown 字体 */ .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 15px; }</style><h1 id="前言"><a href="#前言" class="headerlink" title="前言"></a>前言</h1><ul><li>之前就一直考虑要做一个移动端的CPU perf工具,不仅能够提供工程级别的perf,还能提供函数级别,甚至是算子级别,代码块级别的perf工具,当时做了个简陋版本,然后就没做下去了,现在刚好接触了NPU,同时也有小伙伴一起做,因此决定要好好的做一下,看是否能为这个AI HPC社区做些什么贡献,大致的初步框架如下:</li></ul><p><img src="/img/x-profiler/Arch.jpg" alt="Arch"></p><!-- 下面图片来自[知乎大佬KPLIN回答](https://www.zhihu.com/question/399443653/answer/1270653394):![](/img/x-profiler/13.jpg) --><hr><h2 id="CPU-partial"><a href="#CPU-partial" class="headerlink" title="CPU partial"></a>CPU partial</h2><p>CPU部分可以参见之前的知乎专栏:</p><div class="note note-success"> <!-- - [AI移动端优化](https://zhuanlan.zhihu.com/zhangxiaolongOptimization) --><p><a class="btn" href="https://zhuanlan.zhihu.com/zhangxiaolongOptimization" title="点击跳转" target="_blank">专栏地址:《AI移动端优化》</a><br><a class="btn" href="https://zhuanlan.zhihu.com/p/75484211" title="点击跳转" target="_blank">文章地址:《CPU体系结构之手排流水线专题》番外篇之PowerPerf工具介绍呀~</a></p> </div><hr><p>我把内容大致描述如下:</p><h3 id="零-·-前言"><a href="#零-·-前言" class="headerlink" title="零 · 前言"></a>零 · 前言</h3><p>紧接上次《CPU体系结构之手排流水线专题一》应该是写《CPU体系结构之手排流水线专题0x02》了的,但是考虑到其中我会用到我写的那个PowerPerf工具,因此有必要在这之前简单介绍下我的这个工具:</p><p>再说下业内有哪些在用的perf工具,优点以及不足,然后我的这个优点又是啥?</p><p>接着,说下我这个是怎么做的,技术架构是啥?</p><p>结合实例说明下我这个工具的精度如何?</p><p>最后在实际卷积算子的撰写过程中说明这个工具能做到些啥,解决啥问题!</p><hr><h3 id="壹-·-perf背景介绍"><a href="#壹-·-perf背景介绍" class="headerlink" title="壹 · perf背景介绍"></a>壹 · perf背景介绍</h3><p>关于perf的介绍,这里有大佬整体介绍过了的:</p><div class="note note-success"> <p><a class="btn" href="https://zhuanlan.zhihu.com/p/52107689" title="点击跳转" target="_blank">恒生研究院:超全整理!Linux性能分析工具汇总合集</a></p><!-- [恒生研究院:超全整理!Linux性能分析工具汇总合集](https://zhuanlan.zhihu.com/p/52107689) --> </div><p><img src="/img/x-profiler/0.png" alt="图片来源: 官网"></p><p style="text-align:left;color:#f00056;font-size:1.0em;font-weight: bold;">简单来说就是linux系统在驱动级别就提供了一整套的perf接口,能做很多事!能在应用函数级别perf到很多的数据的呀!比如你看下面能获得各个函数的一些event数据!</p><p><img src="/img/x-profiler/1.png" alt="linux perf软件(图片来源:google)"></p><p><img src="/img/x-profiler/2.png" alt="火焰图(图片来源:google)"></p><p>但是缺点是<span class="label label-success">不够灵活</span>,不能做到获取工程中<span class="label label-success">任意某段代码的perf数据</span>。</p><p>为啥一定要说这是个缺点呢?</p><p>我还是啰嗦地说,你看哈,写底层推理框架,通常分了两层,一层就是框架层,一层就是算子层,假如是做一般的优化我们直接用linux的perf软件就ok了的,能得到比较好的算子了,甚至可以得到最优的算子!</p><p>但是,我这个人有个毛病,就是做技术要追求最优点,追求全局最优点!既然我们都优化算子了,那么何不把算子的核心“汇编代码块”也优化到极致呢?</p><p>你看我们的算子构成是这样的:</p><pre><code class="hljs c++"><span class="hljs-keyword">operator</span>(){<span class="hljs-comment">// code 前处理</span><span class="hljs-comment">// 循环最内层asm汇编部分</span><span class="hljs-comment">//code 后处理</span>}</code></pre><p>我做过大量的实验,在各种算子的实现方式下,“循环最内层asm汇编部分”占了算子总耗时90%+(除了某些特定的算子),因此矛盾的主要点就在这个汇编算子呀!</p><p>但是发现问题点没,这部分需要重点优化的就是某段汇编代码,我们需要实现一种<span class="label label-success">灵活方便且相对精确的</span>perf工具来在线perf这段代码块的性能参数!</p><hr><h3 id="贰-·-perf要得到的参数"><a href="#贰-·-perf要得到的参数" class="headerlink" title="贰 · perf要得到的参数"></a>贰 · perf要得到的参数</h3><p><strong>如何优化?</strong></p><p>循环展开、并行、指令流水重排、cache优化、减少内存复用。。。总共也就这些呀!</p><p>但是我们通常就是靠经验来优化一些代码呀,并没有很好的性能参数量化指导方案呀!因此我们可以这么设想:</p><div class="note note-warning"> <p>“要是我写了某一段代码,然后在开发project内编译一跑,就直接得到一组硬件性能参数,并告诉你这段代码只利用了硬件资源的百分之多少,还有多少的上升空间,需要改进的方面有哪哪哪几个方面!”</p> </div><p>这样无论是对于理解硬件特性还是优化代码性能,都是一个很不错的设想呀~</p><p>嗯就从这个出发,我们可以大概分这么两大类,instruction + cache:</p><ul><li>指令流水线这块主要是获取IPC参数,需要的性能参数有指令数、CPU cycles数;</li><li>cache这块就主要关注:Lx cache hit, Lx cache miss,writeback…..;</li></ul><p>要的东西列出来了,那么接下来的问题就是去哪获取的问题了,这个好办,看芯片手册嘛!</p><p> <img src="/img/x-profiler/3.png" alt="ARM PMU function"></p><p>你看这个模块叫做PMU,你的代码在CPU硬件上跑的过程中就会被这个模块给默默地记录下来了!是硬件级别的记录啊,从我们软件er的角度来说可以认为是实时获取的。</p><p>好了知道从哪获取了那我们接下来要考虑的就是如何获取了!</p><p>如何获取?我就想到了在前公司使用过的DS-5,当时用它在裸板上调试代码,能看到超多的硬件实时参数信息,我想着我是不是也可以仿照做个阉割版。。。。</p><p>直接上官网一看:</p><p><img src="/img/x-profiler/4.png"></p><p>里面有段介绍:</p><p><img src="/img/x-profiler/5.png"></p><p>得了,这下清楚了,总结下来实现方案就是:</p><div class="note note-warning"> <p>代理:收集数据 → 传输数据;</p> </div><p>接下就是好玩的部分了,我们可以凭空想象,想怎么实现就怎么实现,任何技术任何想法,这种“创造”的感觉太TM爽了!咳咳,来,咋们还是再扯扯具体怎么实现吧!</p><hr><h3 id="叁-·-perf应用框架系统搭建"><a href="#叁-·-perf应用框架系统搭建" class="headerlink" title="叁 · perf应用框架系统搭建"></a>叁 · perf应用框架系统搭建</h3><p>总之想了几天之后,实现的技术框架就是这个样子,当然里面还是有很多细节的,比如究竟如何获取PMU里面的数据,也是碰到了好多的坑,一步一步才填过来的!这里只做介绍,细节暂且不表,以后有机会再细说实现代码呀!</p><p><img src="/img/x-profiler/6.png"></p><p>是吧,思路超简单呀,分两大块上位机显示界面加移动端数据提供端,中间通过自定义的简单通信协议进行数据传递。</p><p><img src="/img/x-profiler/7.png"></p><p>最终的实现效果如图所示呀!还是蛮粗糙!但也凑合着用了哇~</p><hr><h3 id="肆-·-perf工具精度验证"><a href="#肆-·-perf工具精度验证" class="headerlink" title="肆 · perf工具精度验证"></a>肆 · perf工具精度验证</h3><p>自己写了得验证精度不是,不然咋知道我测的数据准不准啊!</p><p><img src="/img/x-profiler/8.png"></p><p>反正一顿操作得到一组数据:</p><div class="note note-success"> <p style="text-align:center;color:#f00056;font-size:1.5em;font-weight: bold;">实测数据及结论</p><p>理论访存次数 = 4000000<br>CPU_CYCLES = 341089056<br>L1D_CACHE_REFILL = 4014193<br>L1D_CACHE = 4000188<br>LD_RETIRED = 4000120<br>Average latency = CPU_CYCLES/LD_RETIRED=85 cycles</p><p>L1D_CACHE_REFILL:<br> 就是cache miss数,由于每次访存都miss了,因此,总共是4000000+系统扰动约等于4014193,误差为0.3%;<br>LD_RETIRED:<br> 访存指令数,理论值为40000000,测试误差为0.03‰;<br>L1D_CACHE<br> 为CPU实际访问cache的次数,误差为0.05‰;</p> </div><p>注意这里我就测了个普通场景的精度,因此在一定的测试环境下精度还是可以的,严苛场景的话就需要我们做一些转换啦~</p><hr><h3 id="伍-·-举两个栗子"><a href="#伍-·-举两个栗子" class="headerlink" title="伍 · 举两个栗子"></a>伍 · 举两个栗子</h3><p>首先就是举个指令流水的例子,我们的例子是线性访存,如右图所示:</p><p><img src="/img/x-profiler/9.png"></p><p>按图所示访存,出现了两个阶梯,第一个阶梯是平均latency为1 cycles,第二个阶梯为2 cycles,第三个就稍微复杂些了,属于cache的范畴,暂且不表,我们来分析下第一二个阶梯的区别及产生的原因;</p><p>第一二个阶梯的区别就是一个加了地址偏移0,另外一个没加,因此就是累加地址偏移值的这个操作需要花费一个cycles,从而导致指令耗时增加,我们可以画了流水图看一下:</p><p><img src="/img/x-profiler/10.png"></p><p>可以看到理论值跟实测值还是蛮吻合的嘛~</p><p>第二个例子就是可以构建出特定硬件的存储器山三维图呀,我们先不看三维就看个二维的,也就是说获取某个特定硬件的L1 latency,L2 latency, memory latency呀~</p><p><img src="/img/x-profiler/11.png"></p><p>第三个例子就是在写算子过程中,发现某些特定size下性能的缺陷,通过这个工具可以轻松定位到是cache way conflict的问题呀!(当然,经验丰富的高工前辈们还是能一眼就看出来的呀!向前辈们学习!)</p><hr><h3 id="陆-·-总结"><a href="#陆-·-总结" class="headerlink" title="陆 · 总结"></a>陆 · 总结</h3><blockquote><p>总之,这篇文章我实现希望告诉大家我大概做了个啥,能干啥(辅助调优算子)!为下一篇博文做铺垫而已呀! 因此就在这草草搁笔啦!当然我还是希望今后能有机会把这个工具开源出来跟大家一起学习摸索呀!<br>笔心~</p></blockquote><p>所以当初自己挖的坑,现在终于想起来要填啦,欢迎大家关注呀AI-performance呀!</p><h2 id="GPU-partial"><a href="#GPU-partial" class="headerlink" title="GPU partial"></a>GPU partial</h2><h2 id="XPU-partial"><a href="#XPU-partial" class="headerlink" title="XPU partial"></a>XPU partial</h2><h2 id="点击下面找寻彩虹"><a href="#点击下面找寻彩虹" class="headerlink" title="点击下面找寻彩虹~"></a>点击下面找寻彩虹~</h2><p><a id="rainbow" href=''>🌈 获取中...</a></p> --><script>fetch('https://api.eatrice.top') .then(response => response.json()) .then(data => { var rainbow = document.getElementById('rainbow'); rainbow.innerHTML = data.Content; rainbow.href = "https://rainbow.eatrice.top/?ID=" + data.ID; }) .catch(console.error)</script>]]></content>
<categories>
<category>x-profiler</category>
</categories>
</entry>
<entry>
<title>AI-Performance SPEC.</title>
<link href="/2020/08/14/SPEC/index/"/>
<url>/2020/08/14/SPEC/index/</url>
<content type="html"><![CDATA[<div class="note note-success"> <p style="text-align:center;color:#f00056;font-size:1.5em;font-weight: bold;">摘要</p>业界新闻,论文,开源项目,博文,硬件加速 </div><a id="more"></a><style> /* 设置整个页面的字体 */ /* "html," will cover commit [partial.]*/ body, .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 20px; } /* 只设置 markdown 字体 */ .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 15px; }</style><p><a id="rainbow" href=''>🌈 获取中...</a></p> --><script>fetch('https://api.eatrice.top') .then(response => response.json()) .then(data => { var rainbow = document.getElementById('rainbow'); rainbow.innerHTML = data.Content; rainbow.href = "https://rainbow.eatrice.top/?ID=" + data.ID; }) .catch(console.error)</script>]]></content>
<categories>
<category>SPEC</category>
</categories>
</entry>
<entry>
<title>ALL inference Arch benchmark.</title>
<link href="/2020/08/14/benchmark/index/"/>
<url>/2020/08/14/benchmark/index/</url>
<content type="html"><![CDATA[<div class="note note-success"> <p style="text-align:center;color:#f00056;font-size:1.5em;font-weight: bold;">摘要</p>AI推理框架,性能,模型,基准 </div><a id="more"></a><p style="text-align:center;color:#f00056;font-size:2.5em;font-weight: bold;">Echarts展示:</p><style> /* 设置整个页面的字体 */ /* "html," will cover commit [partial.]*/ body, .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 20px; } /* 只设置 markdown 字体 */ .markdown-body { font-family: KaiTi,"Microsoft YaHei",Georgia, sans, serif; font-size: 15px; }</style><script language="javascript" type="text/javascript">//读文件function readFile(filename){var fso = new ActiveXObject("Scripting.FileSystemObject");var f = fso.OpenTextFile(filename,1);var s = "";while (!f.AtEndOfStream)s += f.ReadLine()+"\n";f.Close();return s;}//写文件function writeFile(filename,filecontent){var fso, f, s ;fso = new ActiveXObject("Scripting.FileSystemObject");f = fso.OpenTextFile(filename,8,true);f.WriteLine(filecontent);f.Close();alert('ok');}// alert("js Read/Write提示信息!"); // v = fs.readFile(path.join(__dirname, './index.md'), function (error, result){};// alert(v); </script><!-- <!-- <script src="./requirejs.js"></script> --><script>'use strict';// var fs = require('fs');// fs.readFile('./sample.png', function (err, data) {// if (err) {// console.log(err);// } else {// console.log(data);// console.log(data.length + ' bytes');// }// });var fs = require('fs')fs.stat('first.js', (err, stat)=>{ if(err) { console.log(err) } else { // 是否是文件: console.log('isFile: ' + stat.isFile()); // 是否是目录: console.log('isDirectory: ' + stat.isDirectory()); if (stat.isFile()) { // 文件大小: console.log('size: ' + stat.size); // 创建时间, Date对象: console.log('birth time: ' + stat.birthtime); // 修改时间, Date对象: console.log('modified time: ' + stat.mtime); } }})</script><!-- <script>// const fs = require('hexo-fs');// var datas = fs.readFile(path, ['utf-8', r, true])</script> --><div id="echarts1149" style="width: 85%;height: 400px;margin: 0 auto"></div><script type="text/javascript"> // 基于准备好的dom,初始化echarts实例 var myChart = echarts.init(document.getElementById('echarts1149')); // 指定图表的配置项和数据 var option = option={ tooltip : { trigger: 'axis', axisPointer : { // 坐标轴指示器,坐标轴触发有效 type : 'shadow' // 默认为直线,可选为:'line' | 'shadow' } }, legend: { data:['利润', '支出', '收入'] }, grid: { left: '3%', right: '4%', bottom: '3%', containLabel: true }, xAxis : [ { type : 'value' } ], yAxis : [ { type : 'category', axisTick : {show: false}, data : ['周一','周二','周三','周四','周五','周六','周日'] } ], series : [ { name:'利润', type:'bar', itemStyle : { normal: { label: {show: true, position: 'inside'} } }, data:[200, 170, 240, 244, 200, 220, 210] }, { name:'收入', type:'bar', stack: '总量', itemStyle: { normal: { label : {show: true} } }, data:[320, 302, 341, 374, 390, 450, 420] }, { name:'支出', type:'bar', stack: '总量', itemStyle: {normal: { label : {show: true, position: 'left'} }}, data:[-120, -132, -101, -134, -190, -230, -210] } ]}; // 使用刚指定的配置项和数据显示图表。 myChart.setOption(option);</script><script> var data = [ [[28604,77,17096869,'Australia',1990],[31163,77.4,27662440,'Canada',1990],[1516,68,1154605773,'China',1990],[13670,74.7,10582082,'Cuba',1990],[28599,75,4986705,'Finland',1990],[29476,77.1,56943299,'France',1990],[31476,75.4,78958237,'Germany',1990],[28666,78.1,254830,'Iceland',1990],[1777,57.7,870601776,'India',1990],[29550,79.1,122249285,'Japan',1990],[2076,67.9,20194354,'North Korea',1990],[12087,72,42972254,'South Korea',1990],[24021,75.4,3397534,'New Zealand',1990],[43296,76.8,4240375,'Norway',1990],[10088,70.8,38195258,'Poland',1990],[19349,69.6,147568552,'Russia',1990],[10670,67.3,53994605,'Turkey',1990],[26424,75.7,57110117,'United Kingdom',1990],[37062,75.4,252847810,'United States',1990]], [[44056,81.8,23968973,'Australia',2015],[43294,81.7,35939927,'Canada',2015],[13334,76.9,1376048943,'China',2015],[21291,78.5,11389562,'Cuba',2015],[38923,80.8,5503457,'Finland',2015],[37599,81.9,64395345,'France',2015],[44053,81.1,80688545,'Germany',2015],[42182,82.8,329425,'Iceland',2015],[5903,66.8,1311050527,'India',2015],[36162,83.5,126573481,'Japan',2015],[1390,71.4,25155317,'North Korea',2015],[34644,80.7,50293439,'South Korea',2015],[34186,80.6,4528526,'New Zealand',2015],[64304,81.6,5210967,'Norway',2015],[24787,77.3,38611794,'Poland',2015],[23038,73.13,143456918,'Russia',2015],[19360,76.5,78665830,'Turkey',2015],[38225,81.4,64715810,'United Kingdom',2015],[53354,79.1,321773631,'United States',2015]] ];</script><div id="echarts4065" style="width: 85%;height: 400px;margin: 0 auto"></div><script type="text/javascript"> // 基于准备好的dom,初始化echarts实例 var myChart = echarts.init(document.getElementById('echarts4065')); // 指定图表的配置项和数据 var option = { backgroundColor: new echarts.graphic.RadialGradient(0.3, 0.3, 0.8, [{ offset: 0, color: '#f7f8fa' }, { offset: 1, color: '#cdd0d5' }]), title: { text: '1990 与 2015 年各国家人均寿命与 GDP' }, legend: { right: 10, data: ['1990', '2015'] }, xAxis: { splitLine: { lineStyle: { type: 'dashed' } } }, yAxis: { splitLine: { lineStyle: { type: 'dashed' } }, scale: true }, series: [{ name: '1990', data: data[0], type: 'scatter', symbolSize: function (data) { return Math.sqrt(data[2]) / 5e2; }, emphasis: { label: { show: true, formatter: function (param) { return param.data[3]; }, position: 'top' } }, itemStyle: { shadowBlur: 10, shadowColor: 'rgba(120, 36, 50, 0.5)', shadowOffsetY: 5, color: new echarts.graphic.RadialGradient(0.4, 0.3, 1, [{ offset: 0, color: 'rgb(251, 118, 123)' }, { offset: 1, color: 'rgb(204, 46, 72)' }]) } }, { name: '2015', data: data[1], type: 'scatter', symbolSize: function (data) { return Math.sqrt(data[2]) / 5e2; }, emphasis: { label: { show: true, formatter: function (param) { return param.data[3]; }, position: 'top' } }, itemStyle: { shadowBlur: 10, shadowColor: 'rgba(25, 100, 150, 0.5)', shadowOffsetY: 5, color: new echarts.graphic.RadialGradient(0.4, 0.3, 1, [{ offset: 0, color: 'rgb(129, 227, 238)' }, { offset: 1, color: 'rgb(25, 183, 207)' }]) } }]}; // 使用刚指定的配置项和数据显示图表。 myChart.setOption(option);</script><script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/echarts.min.js"></script><!-- 为 ECharts 准备一个具备大小(宽高)的 DOM --><div id="main" style="width: 85%;height:400px;margin: 0 auto"></div><script type="text/javascript"> // 基于准备好的dom,初始化echarts实例 var myChart = echarts.init(document.getElementById('main')); // 指定图表的配置项和数据var colors = ['#FFAE57', '#FF7853', '#EA5151', '#CC3F57', '#9A2555'];var bgColor = '#2E2733';var itemStyle = { star5: { color: colors[0] }, star4: { color: colors[1] }, star3: { color: colors[2] }, star2: { color: colors[3] } };var data = [{ name: '虚构', itemStyle: { color: colors[1] }, children: [{ name: '小说', children: [{ name: '5☆', children: [{ name: '疼' }, { name: '慈悲' }, { name: '楼下的房客' }] }, { name: '4☆', children: [{ name: '虚无的十字架' }, { name: '无声告白' }, { name: '童年的终结' }] }, { name: '3☆', children: [{ name: '疯癫老人日记' }] }] }, { name: '其他', children: [{ name: '5☆', children: [{ name: '纳博科夫短篇小说全集' }] }, { name: '4☆', children: [{ name: '安魂曲' }, { name: '人生拼图版' }] }, { name: '3☆', children: [{ name: '比起爱你,我更需要你' }] }] }] }, { name: '非虚构', itemStyle: { color: colors[2] }, children: [{ name: '设计', children: [{ name: '5☆', children: [{ name: '无界面交互' }] }, { name: '4☆', children: [{ name: '数字绘图的光照与渲染技术' }, { name: '日本建筑解剖书' }] }, { name: '3☆', children: [{ name: '奇幻世界艺术\n&RPG地图绘制讲座' }] }] }, { name: '社科', children: [{ name: '5☆', children: [{ name: '痛点' }] }, { name: '4☆', children: [{ name: '卓有成效的管理者' }, { name: '进化' }, { name: '后物欲时代的来临', }] }, { name: '3☆', children: [{ name: '疯癫与文明' }] }] }, { name: '心理', children: [{ name: '5☆', children: [{ name: '我们时代的神经症人格' }] }, { name: '4☆', children: [{ name: '皮格马利翁效应' }, { name: '受伤的人' }] }, { name: '3☆', }, { name: '2☆', children: [{ name: '迷恋' }] }] }, { name: '居家', children: [{ name: '4☆', children: [{ name: '把房子住成家' }, { name: '只过必要生活' }, { name: '北欧简约风格' }] }] }, { name: '绘本', children: [{ name: '5☆', children: [{ name: '设计诗' }] }, { name: '4☆', children: [{ name: '假如生活糊弄了你' }, { name: '博物学家的神秘动物图鉴' }] }, { name: '3☆', children: [{ name: '方向' }] }] }, { name: '哲学', children: [{ name: '4☆', children: [{ name: '人生的智慧' }] }] }, { name: '技术', children: [{ name: '5☆', children: [{ name: '代码整洁之道' }] }, { name: '4☆', children: [{ name: 'Three.js 开发指南' }] }] }] }]; for (var j = 0; j < data.length; ++j) { var level1 = data[j].children; for (var i = 0; i < level1.length; ++i) { var block = level1[i].children; var bookScore = []; var bookScoreId; for (var star = 0; star < block.length; ++star) { var style = (function (name) { switch (name) { case '5☆': bookScoreId = 0; return itemStyle.star5; case '4☆': bookScoreId = 1; return itemStyle.star4; case '3☆': bookScoreId = 2; return itemStyle.star3; case '2☆': bookScoreId = 3; return itemStyle.star2; } })(block[star].name); block[star].label = { color: style.color, downplay: { opacity: 0.5 } }; if (block[star].children) { style = { opacity: 1, color: style.color }; block[star].children.forEach(function (book) { book.value = 1; book.itemStyle = style; book.label = { color: style.color }; var value = 1; if (bookScoreId === 0 || bookScoreId === 3) { value = 5; } if (bookScore[bookScoreId]) { bookScore[bookScoreId].value += value; } else { bookScore[bookScoreId] = { color: colors[bookScoreId], value: value }; } }); } } level1[i].itemStyle = { color: data[j].itemStyle.color }; } } option = { backgroundColor: bgColor, color: colors, series: [{ type: 'sunburst', center: ['50%', '48%'], data: data, sort: function (a, b) { if (a.depth === 1) { return b.getValue() - a.getValue(); } else { return a.dataIndex - b.dataIndex; } }, label: { rotate: 'radial', color: bgColor }, itemStyle: { borderColor: bgColor, borderWidth: 2 }, levels: [{}, { r0: 0, r: 40, label: { rotate: 0 } }, { r0: 40, r: 105 }, { r0: 115, r: 140, itemStyle: { shadowBlur: 2, shadowColor: colors[2], color: 'transparent' }, label: { rotate: 'tangential', fontSize: 10, color: colors[0] } }, { r0: 140, r: 145, itemStyle: { shadowBlur: 80, shadowColor: colors[0] }, label: { position: 'outside', textShadowBlur: 5, textShadowColor: '#333', }, downplay: { label: { opacity: 0.5 } } }] }] }; // 使用刚指定的配置项和数据显示图表。 myChart.setOption(option); // 刷新调整 window.onresize = function () { myChart.resize(); }</script><p><a id="rainbow" href=''>🌈 获取中...</a></p> --><script>fetch('https://api.eatrice.top') .then(response => response.json()) .then(data => { var rainbow = document.getElementById('rainbow'); rainbow.innerHTML = data.Content; rainbow.href = "https://rainbow.eatrice.top/?ID=" + data.ID; }) .catch(console.error)</script>]]></content>
<categories>
<category>benchmark</category>
</categories>
</entry>
<entry>
<title>2020-06-17@Bi-weekly</title>
<link href="/2020/06/17/bi-weekly/2020-06-17/"/>
<url>/2020/06/17/bi-weekly/2020-06-17/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-06-17"><a href="#嵌入式AI简报-2020-06-17" class="headerlink" title="嵌入式AI简报 (2020-06-17)"></a>嵌入式AI简报 (2020-06-17)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次18条。「新闻」ARM中国剧情不停反转,ARM正式断供华为,高通6月17日上午新品发布,AMD移动处理器X1+A78及GPU性能惊人;「论文」中两篇TransFormer压缩的文章分别出自MIT Han Song团队和微软团队,ICLR2020满分文章解读梯度裁剪为何能加速模型训练,针对轻量网络的动态卷积方法,及精度不输EfficientNet的FBNetV3;「开源」腾讯优图开源端侧CPU和GPU性能精心调优的深度学习推理框架TNN,Uber开源Server端深度学习推理引擎Neuropod;「博文」两篇讨论发展架构的文章:从A78浅谈ARM架构发展、Arm Mali GPU四大架构概述,嵌入式AI推理框架Tengine从架构到部署定制算子全解析,从A100 GPU浅谈细粒度结构化稀疏方法,最后是一篇关于X86 Intel CPU上做算法优化的步骤讲解与分析(从逻辑到SSE到AVX)。</p></blockquote><blockquote><p>注:个别链接打不开,请点击文末阅读原文跳转</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/npIsOUJR-bph0BAEMrOboA">ARM正式断供华为 | 半导体行业联盟</a><br>摘要:ARM与华为的合作关系正式终止。虽后者已获ARMv8指令集授权,后续也可基于该指令集研发新一代的手机处理器,但对ARM未来新推出的CPU内核IP等新指令集架构授权,包括新Mali系列GPU和多媒体IP授权也无法获得。 </li><li><a href="https://mp.weixin.qq.com/s/_WDfFjjCBkCq-J8HpH6A_g">AMD搅局移动处理器:Cortex-X1+A78,规格数据惊人 | EETOP</a><br>摘要:AMD 将有望发布一款全新的移动 SoC 芯片:AMD Ryzen C7。<br>曝光信息显示,这款芯片将配备两个基于3.0Ghz Cortex-X1 的 Gaugin_Pro mobile 内核、两个基于2.6Ghz Cortex-A78 的 Gaugin_Mobile 内核、四个2.0Ghz Cortex-A55 内核、AMD Radeon RDNA 2 移动 GPU以及联发科 5G UltraSave 调制解调器。曝光信息还透露 Ryzen C7 将与联发科携手合作,引入最新的 MTK 5G 基带。<br>AMD Radeon RDNA 2 移动 GPU包括 4 个 CU,最高 700 Mhz,支持光线跟踪、可变速率着色技术、2K × 144 Hz 显示技术以及 HDR10 + 技术,综合性能超骁龙865的 Adreno 650 约 45% 左右。 </li><li><a href="https://mp.weixin.qq.com/s/xHNOqNGekbe5Ov5HMri7lw">高通新品发布会官宣 | 安兔兔</a><br>摘要:6月12日下午,高通宣布将于6月17日上午10点召开线上新品发布会。<br>在邀请函中,高通表示“5G商用第二年,5G网络建设和中端产业取得的成绩有目共睹。5G不仅快速地走进了消费者的生活,也开始为各行各业赋能产生重要影响,带来全新的机遇。”<br>由此来看,本次发布会的主角可能和5G有关,但具体有待官方揭晓答案。从时间点来推测的话,高通本次发布的应该并不会是旗舰级平台,很有可能是此前传闻中的骁龙600系列5G平台,面向中端,有望进一步拉低5G手机的售价。 </li><li><a href="https://www.zhihu.com/question/400557481">如何看待 ARM 中国上演「抢公章」, CEO吴雄昂被免职后公司马上申明罢免无效 | 知乎</a><br>摘要:安谋中国(Arm China)和安谋公司(Arm Limited)围绕吴雄昂先生的“争论”引起了行业人士的高度关注。近日,安谋中国各部门高管共同署名发布了《星辰山海不负韶华 凝芯聚力砥砺前行》的联名信,在联名信中高管团队表示,作为公司管理团队,绝大部分都是与Allen(Allen Wu,吴雄昂英文名)共事十年以上、彼此深入了解的同事,他们对于近期媒体报道中对Allen的莫须有的指控感到非常震惊和气愤。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[ICLR2020] <a href="https://mp.weixin.qq.com/s/RZ0wnMNfLvQGobj0kq82_w">MIT韩松等人提出新型Lite Transformer:模型压缩95% | 机器之心</a><br>标题:Lite Transformer with Long-Short Range Attention<br>链接:<a href="https://arxiv.org/abs/2004.11886v1">https://arxiv.org/abs/2004.11886v1</a><br>摘要:MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。该论文已被人工智能顶会 ICLR 2020 收录。<br>其核心是长短距离注意力(Long-Short Range Attention,LSRA),该架构分别捕获局部和全局上下文。其中一组注意力头(通过卷积)负责局部上下文建模,而另一组则(依靠注意力)执行长距离关系建模。最后为了进一步减少计算量,普通卷积被替换为由线性层和深度卷积。<br>在资源有限的情况下(500M/100M MACs),Lite Transformer 在 WMT’14 英法数据集上的 BLEU 值比分别比 transformer 高 1.2/1.7。Lite Transformer 比 transformer base 模型的计算量减少了 60%,而 BLEU 分数却只降低了 0.3。结合剪枝和量化技术,研究者进一步将 Lite Transformer 模型的大小压缩到原来的 5%。 </li><li><a href="https://mp.weixin.qq.com/s/CkAHKXWi24tDBz4HiWkhBw">预训练语言模型 Transformer 通用压缩方法MiniLM助你模型小快好 | 微软研究院AI头条</a><br>标题:MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers<br>链接:<a href="https://arxiv.org/abs/2002.10957">https://arxiv.org/abs/2002.10957</a><br>摘要:本文介绍了基于 Transformer 预训练语言模型的通用压缩方法:深度自注意力知识蒸馏(Deep Self-Attention Distillation),深度迁移“老师”模型最后一层自注意力知识。<br>该压缩方法核心思想是迁移大模型自注意力知识,以让小模型自注意力模块的行为和大模型尽可能相似。但只迁移大模型最后一层的自注意力知识。因为若每一层都做知识迁移,那就需手动设计大小模型间的层对应关系来完成迁移。相较而言,只迁移最后一层知识简单有效,训练速度更快,而且不需要手动设计大小模型的层对应关系。<br>深度自注意力知识蒸馏的方法,主要由两种知识迁移构成,第一种就是自注意力得分/分布迁移(Self-Attention Distribution Transfer),主要迁移自注意力得分/分布知识(Attention Scores/Distributions)。自注意力得分矩阵由Queries 和 Keys 通过点积操作得到,矩阵中每个值表示两个词的依赖关系。自注意力得分矩阵是自注意力模块中至关重要的知识,通过相对熵(KL-Divergence)来计算大模型和小模型自注意力得分矩阵的差异。<br>该压缩方法简单有效,由不同预训练大模型压缩得到的英文和多语言 MiniLM 预训练模型更小更快,在自然语言理解和生成任务上均取得了出色的结果。 </li><li>[ICLR2020满分] <a href="https://mp.weixin.qq.com/s/--8s2fA80Md82MqcrwOsKw">为什么梯度裁剪能加速模型训练 | 夕小瑶的卖萌屋</a><br>标题:Why gradient clipping accelerates training: A theoretical justification for adaptivity<br>链接:<a href="https://arxiv.org/abs/1905.11881">https://arxiv.org/abs/1905.11881</a><br>摘要:本文简要介绍了ICLR2020的一篇分析梯度裁剪的满分论文,分析了为什么梯度裁剪能加速深度学习的训练过程。主要思路是引入了更宽松普适的假设条件,在新的条件下能体现出了梯度裁剪的必要性,并且由于放松了传统的约束,理论结果的适用范围更广,也表明了梯度裁剪确实是很多场景下都适用的技巧之一。 </li><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/eRZ3jNuceMYKE3lEj-g1aw">动态卷积:自适应调整卷积参数,显著提升模型表达能力 | 微软研究院AI头条</a><br>标题:Dynamic Convolution: Attention over Convolution Kernels<br>链接:<a href="https://arxiv.org/abs/1912.03458">https://arxiv.org/abs/1912.03458</a><br>摘要:为了让轻量网络保持低计算量的同时不失去表达能力。微软 AI 认知服务团队提出了动态卷积。<br>相比传统静态卷积(每层单个卷积核),根据注意力动态叠加多个卷积核的动态卷积方法,会根据输入动态地调整每个卷积核的权重,从而生成自适应的动态卷积。由于注意力是输入的函数,动态卷积不再是一个线性函数。通过注意力以非线性方式叠加卷积核具有更强的表示能力。<br>动态网络引入了两部分额外计算:注意力模型和卷积核的叠加。注意力模型计算复杂度很低,由 avg pool 和两层全卷积组成。得益于小的内核尺寸,叠加多个卷积核在计算上也非常高效。因此,动态卷积引入的额外计算是非常少的。少量的额外计算与显著的表达能力的提升使得动态卷积非常适合轻量级的神经网络。 </li><li><a href="https://mp.weixin.qq.com/s/y7v-hcxdqIFwgKU2nS6lSA">Facebook最新力作FBNetV3来了!相比ResNeSt提速5倍,精度不输EfficientNet | 极市平台</a><br>标题:FBNetV3: Joint Architecture-Recipe Search using Neural Acquisition Function<br>链接:<a href="https://arxiv.org/abs/2006.02049">https://arxiv.org/abs/2006.02049</a><br>摘要:这篇论文提到一个有趣的点:网络架构与训练策略同时进行搜索。先前的方法只注重网络架构不注重训练方法(也就是说采用常规的训练方式),但当精度达到一定程度之后,训练方式的这点影响就变得尤为重要了。<br>所以Facebook的研究员从这点出发提出了FBNetV3,它将网络架构与对应的训练策略通过NAS联合搜索。在ImageNet数据集上,FBNetV3取得了媲美EfficientNet与ResNeSt性能的同时具有更低的FLOPs(1.4x and 5.0x fewer),此外该方案可跨网络、跨任务取得一致性的性能提升。除了上面架构和训练方式,参数初始化方式等等其它方式也可纳入到搜索空间呢,感兴趣的小伙伴还不快点去尝试一下。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><blockquote><p>注:每条内容前缀为github地址的仓库拥有者和仓库名,补全地址后为<code>github.com/<repo_owner>/<repo_name></code>。</p></blockquote><ul><li><a href="https://github.com/Tencent/TNN">Tencent/TNN:腾讯优图开源深度学习推理框架TNN</a><br>摘要:6月10日,腾讯优图实验室宣布正式开源新一代移动端深度学习推理框架 TNN。支持主流安卓、iOS 等操作系统,适配 CPU、 GPU、NPU 硬件平台。通过 ONNX 可支持 TensorFlow、PyTorch、MXNet、Caffe 等多种训练框架。<br>通过 GPU 深度调优、ARM SIMD 深入汇编指令调优、低精度计算等技术手段,TNN 在性能上取得了进一步提升。引入了 INT8、 FP16、 BFP16 等多种计算低精度的支持。通过采用 8bit 整数代替 float 进行计算和存储,使模型尺寸和内存消耗均减少至 1/4,计算性能提升 50% 以上。<br>此外,TNN 还引入 arm 平台 BFP16 的支持。相比浮点模型,BFP16 使模型尺寸、内存消耗减少 50%,在中低端机上的性能提升约 20%。 </li><li><a href="https://mp.weixin.qq.com/s/2TVvbunzAPzdqyluruFaQw">Uber/Neuropod:Uber开源深度学习推理引擎Neuropod:支持调用TensorFlow、PyTorch等框架 | AI前线</a><br>摘要:Neuropod 是现有深度学习框架之上的一个抽象层,它提供了一个统一的接口来运行深度学习模型。Neuropod 让研究人员可以轻松地在自己选择的框架中构建模型,同时也简化了这些模型的生产化过程。<br>Neuropod 支持的框架包括:TensorFlow、PyTorch、Keras 和 TorchScript,同时也可以轻松地添加新的框架。<br>通过 Neuropod,应用程序只与与框架无关的 API 进行交互,并且 Neuropod 将这些与框架无关的调用转换为对底层框架的调用,调用过程尽可能使用零拷贝操作来高效地实现。 </li><li><a href="https://mp.weixin.qq.com/s/Rrmk-SteZnJ0M5s2fChq7w">NVIDIA Jetson强力工具jtop:比htop更强 | 吉浦迅科技</a><br>摘要:这不算是开源只是一个小工具。通过jtop工具,可以查看Jetpack版本,Xavier工作模式,CPU数量,风扇状态,RAM,GPU状态频率。工具安装简单pip3 install jetson-stats,直接sudo jtop来执行就能查看各种信息,结合-h参数查看更多使用方法。 </li><li><a href="https://mp.weixin.qq.com/s/L3fxviRuQBh6Uk9cA3_QGQ">PantsuDango/Dango-Translator:B站UP主自制OCR翻译器,自动截屏翻字幕,还是论文阅读神器 | 量子位</a><br>摘要:这个翻译器只需在界面上截图,论文、游戏、动画新番字幕,也能截屏翻译。OCR翻译利用了百度AI的文字识别,通过识别图片上的外文文字进翻译。不仅支持百度翻译的API还有彩云、腾讯等翻译接口。你作为用户,需要做的只是截图,然后翻译即可。<br>b站演示视频:<a href="https://www.bilibili.com/video/BV1gp4y1Q7Ts">https://www.bilibili.com/video/BV1gp4y1Q7Ts</a> </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/349MAZWE4cvqt1p6q9kccw">渐入佳境的ARM:从A78浅谈ARM架构的发展 | NeuralTalk</a><br>摘要:作者MikeslCroom是一位十年芯片老兵,本文将对ARM的移动端新一代核心A78、X1,对其架构的发展历程做一个分析。 </li><li><a href="https://mp.weixin.qq.com/s/Iv-__XF6z3EtUYIka4sKAg">Arm Mali GPU 四大微架构概述 | NeuralTalk</a><br>摘要:本文翻译自ARM官方的GPU Architecture页面,并结合作者的经验写就而成,简单介绍了Mali的GPU的四个架构系列(Utgard、Midgard、Bifrost、Valhall)的特点。 </li><li><a href="https://mp.weixin.qq.com/s/NiJVuIokVrCWfnJv7pxklw">34页PPT全解嵌入式AI框架Tengine的架构、算子定制和引擎推理 | 智东西公开课</a><br>摘要:本文全面解析Tengine架构及推理API的组成。最后,手把手教你如何通过Tengine定制个性化算子及在CPU/GPU/NPU/DLA上的推理。主要分为以下几个部分:嵌入式AI的挑战和Tengine的解决方案、Tengine架构解析、Tengine API简介,最后是2个实践部分:定制和添加Tengine算子和在CPU/GPU/NPU/DLA上做推理的实操。 </li><li><a href="https://mp.weixin.qq.com/s/bg8rdl8W-wohLDMYMRJlYA">从英伟达A100 GPU说起,浅谈细粒度结构化稀疏 | 机器之心</a><br>摘要:本文要讲的是模型轻量化方法中的稀疏化等做法。以往单个权重的剪枝是随机的,导致中间很多0访存不连续,后来有了针对权重向量、单个卷积通道,整个卷积核的卷积。虽然这种结构化稀疏提升了推理速度,但是牺牲了模型精度,而原始的细粒度剪枝在推理速度上提升效果不佳。<br>英伟达提出,对网络的稀疏化过程首先将权重分组,这里所举的示例以 4 个相邻的权重为一组。而后在每个权重组内限定固定个数的非零权重数目对权重进行稀疏化。在稀疏化处理后,每个权重组(同一颜色块)中都正好留下 2 个非零权重,也就是 50% 的稀疏度。<br>通过这一结构约束,获得了规整的结构,而随机性被限制在了每个组内。随机性带来的问题可通过将同一组权重对应的数据完全装载到计算核心的寄存器上来解决,以避开随机访问外存的延迟。这一结构也允许对网络推理计算在组边界上做分割,从而将计算分块化以最大程度利用的加速器的多核并行计算能力。<br>作者建议首先训练非稀疏网络,而后对网络进行细粒度结构化剪枝,再使用学习率重卷 (learning rate rewinding) 的方式对网络进行重训练。这里的 learning rate rewinding 就是对剪枝后的网络使用原始网络的学习率安排表进行重训练。细粒度结构化稀疏的研究应用目前还处在较初期的阶段,由于其独特的硬件友好特性相信这一设计未来会被更多的加速器采用。 </li><li><a href="https://mp.weixin.qq.com/s/nQ-CevrSkVj4kyS3q360VA">X86 Intel CPU上的小半径中值滤波的极速优化 | GiantPandaCV</a><br>摘要:本文以一个的中值滤波作为切入点,讨论了一下针对这个具体问题的优化思路,从算法逻辑到SSE、再到AVX等,速度也从最开始普通实现的8293.79ms优化到了9.32ms,具有一定参考意义。 </li></ul><blockquote><p>注:个别链接打不开,请点击文末阅读原文跳转</p></blockquote><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center"><a href="../embedded-ai-report/2020-06-17.md">2020-06-17</a></td><td align="center"><a href="../embedded-ai-report/2020-06-03.md">2020-06-03</a></td><td align="center"><a href="../embedded-ai-report/2020-05-15.md">2020-05-15</a></td><td align="center"><a href="../embedded-ai-report/2020-04-26.md">2020-04-26</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-04-04.md">2020-04-04</a></td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>WeChat: NeuralTalk </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-06-03@Bi-weekly</title>
<link href="/2020/06/03/bi-weekly/2020-06-03/"/>
<url>/2020/06/03/bi-weekly/2020-06-03/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-06-03"><a href="#嵌入式AI简报-2020-06-03" class="headerlink" title="嵌入式AI简报 (2020-06-03)"></a>嵌入式AI简报 (2020-06-03)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次16条。【业界新闻】TensorFlow Lite亮相TF DevSummit性能方面支持OpenCL且CPU基于ruy性能也有提升,微控制器方面持续发力等等;ARM Cortex-A78和旗舰X1的新架构发布,树莓派4发布;【论文】谷歌提出数据回波榨干训练时的GPU资源、CVPR2020不引入约束的剪枝方法,以及BERT压缩方面的DynaBERT。【开源】本月可能会有2家推理框架开源。华为Mindspore发布新版本支持二阶优化,训练速度快到爆炸、端上手写体训练项目MNIST-CoreML-Training;【博文】Tengine支持armv8.2的cpu fp16特性加速推理,且支持加载NCNN模型;一篇对TFLite的Delegate的科普;Face++在端侧框架cpu方面所做的工作总结;TVM在Web上对WebAssembly和WebGPU的尝试;探秘嵌入式系统内存管理机制。</p></blockquote><p>首先是端侧芯片方面的新闻,开胃:</p><ul><li>去年,华为就开始将更多的中低端移动芯片项目分配给联发科。今年,华为已经成为联发科中端5G移动芯片的关键客户之一; </li><li><a href="https://mp.weixin.qq.com/s/l-0ygc3jmcOFXDbLdEWxPg">三星5nm Exynos SoC 今年8月即将量产:性能大涨</a>,且会使用Cortex A78和Mali G78等公版架构来提升性能,毕竟自研团队已经解散;</li><li><a href="https://mp.weixin.qq.com/s/OGj2cnfxpReoo0skO13pjg">联发科这次5G SoC虽然没有主频高到2.8的单个核心,但其长期高负载使用中,还能保持步调一致的相对高频,超过对手剩下的中小核心</a>; </li><li>索尼宣布即将发布两款智能视觉传感器:IMX500和IMX501,这是全球首款配备人工智能(AI)处理功能的CMOS图像传感器,且集成AI处理功能,可实现高速边缘AI处理; </li><li><a href="https://mp.weixin.qq.com/s/D_SCX0sEObSsWp1JoCHU4A">OPPO首次公开了关于自研芯片的“马里亚纳计划”</a>,从供应商方面如紫光展锐和联发科方面招募了不少工程师等高管;</li><li>神盾与抖音联合研发的AI芯片,采用台积电的7nm制程,用于影像处理等方面,量产时间落在2021年初。抖音方面回应:消息不实。</li></ul><blockquote><p>注:个别链接打不开,请点击文末阅读原文跳转</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/G-LyRhJwhYk1rvj6vmMFLg">TensorFlow Lite 新功能亮相 TF DevSummit‘20 | TensorFlow</a><br>摘要:摘一下半年内的特性要点:新模型支持MobileBERT 和 ALBERT-Lite(支持多种 NLP 任务的轻量级版本 BERT)、EfficientNet-Lite的支持;新的 TensorFlow Lite 转换器支持如DeepSpeech V2,Mask R-CNN,MobileBERT,MobileNetSSD 等;控制流方面的op支持,也支持 Keras 模型的训练时量化。<br>性能方面。新的arm cpu矩阵乘法库 ruy(<a href="https://github.com/google/ruy">https://github.com/google/ruy</a> ),以及xnnpack、Hexagon DSP、CoreML、OpenCL(安卓)等Delegate的推理支持。支持对内部事件(如算子调用)的日志记录,可结合Android的System Tracing追踪性能瓶颈。详见:<a href="https://developer.android.com/topic/performance/tracing">https://developer.android.com/topic/performance/tracing</a><br>微控制器方面。Arduino官方提供了支持,如<a href="https://mp.weixin.qq.com/s/2rEM7T5WiaS8ft4WLYCNsg">5 分钟内将语音检测部署到 Arduino Nano</a>、Cadence 宣布旗下的 Tensilica HiFi DSP 系列支持 TF Micro等。<br>另外,长期计划图见:<a href="https://tensorflow.google.cn/lite/guide/roadmap">https://tensorflow.google.cn/lite/guide/roadmap</a> 。 </li><li><a href="https://mp.weixin.qq.com/s/FP3yRFnzoGmtpPG39Oatsg">ARM的新架构Cortex-A78和Cortex-X1,Mali-G78和G68 | 三易生活</a><br>摘要:今年的Cortex-A78架构上,ARM故技重施, 再次使用不对等制程和频率条件,得出一个“性能大幅提升”的结论。<br>具体来说,ARM使用5nm制程、主频高达3GHz的Cortex-A78核心,与使用7nm制程、主频仅有2.6GHz的Cortex-A77核心进行性能对比,然后得出一个“在功耗均为1W每核心(请注意这是一个很高的功耗)的前提下,A78比A77性能高20%”的结论。同时又将5nm制程、主频低到2.1GHz的A78核心,与7nm制程、主频反而更高一点到2.3GHz的A77架构对比,然后说性能相同的情况下,新设计的功耗少了一半。<br>为什么要这样做呢?因为发布A78架构的同时,还推出定位更高的“超大核设计”——Cortex-X1。与Cortex-A78相比,Cortex-X1是前者的“解除封印”版,没有为了缩减成本,在设计上缩水,此外,作为ARM首次针对移动计算推出的全新旗舰核心设计,Cortex-X1还很明显从苹果的A系列和三星的“猫鼬”大核心当中吸取经验。例如它可以配置到最高8MB的三级缓存,具备4条128bit的NEON多媒体指令单元(但受限于指令集兼容性,无法实现合并为256bit或512bit的模式),具备超大的224条乱序执行窗口,更大缓存提取带宽,更多操作缓存、更强调度能力等。<br>ARM还发布了全新的旗舰GPU架构Mali-G78以及定位次旗舰的Mali-G68。Mali-G78可以看作是Mali-G77的续作,依然基于全新的Valhall图形架构,最高可配置24颗核心(G77仅为16核心)。<br>Mali-G78架构调整,原本G77只有一个全局时钟域,而G78则改为两级结构,实现了异步时钟域,也就是上层共享GPU模块与实际着色器核心频率的分离。好处就是GPU核心频率可以和GPU其它部分的频率不同,实现动态调整,从而降低功耗、提高能效。Mali-G78重构了FMA引擎,包括新的乘法架构、新的加法架构、FP32/FP16浮点,执行效率更高,号称可以节省30%的功耗。<br>Mali-G68的架构实际上和Mali-G78是一样的,但最多只能配置6个核心。简单来说,配置1-6个核心就叫Mali-G68,配置7-24个核心就叫你Mali-G78,和Mali-G57/G77类似。 </li><li><a href="https://mp.weixin.qq.com/s/QnaX9_JcBuF4kVSpcD-O7Q">树莓派4首发8GB版本,售价75刀,还可尝鲜64位操作系统 | 机器之心</a><br>摘要:树莓派 4 使用四核 64 位的 ARM Cortex-A72 处理器,具有千兆以太网,双频 802.11ac 无线网,蓝牙 5.0,两个 USB 3.0 和两个 USB 2.0,支持连接两台 4K 显示器,GPU 支持 OpenGL ES 3.x,4K 60fps HEVC 视频硬件解码等。<br>基于TensorFlow Lite在同样的数据集上,树莓派4代的推理性能可达到普通TensorFlow的3~4倍,且4代推理速度超过树莓派3B+ 4 倍以上,性能直逼 Jetson Nano。配合使用 Coral USB 加速棒,速度甚至比 MBP 还快。Jetson Nano Developer Kit 官方标价 99 美元。 </li><li><a href="https://mp.weixin.qq.com/s/SXQ7eGNvVsOJUJHLEkIKUg">深扒英伟达安培新架构,五大技术新招刀刀见血 | 芯东西</a><br>摘要:基于83页的《NVIDIA A100 Tensor Core GPU Architecture》白皮书及采访信息,本文将会提炼安培GPU架构在计算和内存层次结构的关键创新与改进,深度解析这一全新架构怎样实现NVIDIA迄今为止最大的性能飞跃。其中特向包括不限于:<ol><li>安培架构:全球最大7nm芯片,拥有542亿个晶体管,采用40GB三星HBM2,内存带宽可达到1.6 Tbps。高带宽的HBM2内存和更大、更快的缓存为增加的CUDA Core和Tensor Core提供数据;</li><li>第三代Tensor Core:处理速度更快、更灵活,TF32精度可将AI性能提升20倍;</li><li>结构化稀疏:进一步将AI推理性能提升2倍;</li><li>多实例GPU:每个GPU可分成7个并发实例,优化GPU利用率;</li><li>第三代NVLink和NVSwitch:高效可扩展,带宽较上一代提升2倍有余。</li></ol></li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/QLf7x5l1aok4pJ5xfZcdtw">为了不让GPU等CPU,谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多 | 量子位</a><br>链接:<a href="https://arxiv.org/abs/1907.05550">https://arxiv.org/abs/1907.05550</a><br>博客:<a href="https://ai.googleblog.com/2020/05/speeding-up-neural-network-training.html">https://ai.googleblog.com/2020/05/speeding-up-neural-network-training.html</a><br>摘要:训练时GPU或者是更快的AI加速器实际上在等上游如图像预处理等的计算,且由于上游和加速器的下游的串行流水排布,导致AI加速器的使用率并非100%。本文作者提出,加速器空置50%情况下,预处理batch的第一个优化步骤之后,可重复利用该batch再进行一次训练。如果重复数据与新数据一样有用,既降低磁盘IO,训练效率也提高一倍。<br>将数据复制到训练管道中某个位置的随机缓冲区中,无论哪个阶段产生瓶颈,都可将缓存数据插入任意位置。数据回波在样本级别对数据Shuffle,而batch回波则对重复批次的序列做Shuffle。另外还可以在数据扩充之前插入缓冲区,以使重复数据的每个副本略有不同,因此不是简单机械重复,而是更接近一个新样本。<br>随着如TPU等AI专用加速器的性能提升,即也表示和通用处理器的差距会越来越大,Google期望数据回波和类似策略将成为神经网络培训工具包中越来越重要的一部分。 </li><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/tAF-16XK8a8DusMxEDgDtQ">纪荣嵘教授团队提出基于高秩特征图的滤波器剪枝方法:不引入约束,浮点运算和参数量显著减少 | 机器之心</a><br>链接:<a href="https://arxiv.org/abs/2002.10179">https://arxiv.org/abs/2002.10179</a><br>项目:<a href="https://github.com/lmbxmu/HRank">https://github.com/lmbxmu/HRank</a><br>摘要:HRank 的灵感来自于这样一个发现:无论 CNN 接收的图像批数是多少,由单个滤波器生成的多个特征图的平均秩总是相同的。在 HRank 的基础上,研究者还提出了一种针对低秩特征图所对应滤波器进行剪枝的算法。剪枝的原理是低秩特征图包含的信息较少,因此剪枝后的结果可以很容易地再现。<br>算法流程:首先,计算某个特征图的秩的平均,对这些秩进行降序排列;然后,确定某一卷积层的待保留滤波器数量和待修剪滤波器数量,其实也就是确定卷积层对应的压缩率;最后,根据计算得到的秩,从所有滤波器中筛选出秩较高的那些,从而建立剪枝后的模型。<br>实验基于 CIFAR-10 和 ImageNet 两个数据集,使用 VGGNet、GoogLeNet、ResNet 和 DenseNet 作为 Baseline 模型,测试本文方法对于各种结构的适用性,实验结果优秀。 </li><li><a href="https://mp.weixin.qq.com/s/QdrwlaFZi3VRGptw4cYJSQ">DynaBERT:动态一次获得多个尺寸的小模型 | 夕小瑶的卖萌屋</a><br>链接:<a href="https://www.researchgate.net/publication/340523407_DynaBERT_Dynamic_BERT_with_Adaptive_Width_and_Depth">https://www.researchgate.net/publication/340523407_DynaBERT_Dynamic_BERT_with_Adaptive_Width_and_Depth</a><br>摘要:本文对于BERT的压缩流程是这样的:训练时,对宽度和深度进行裁剪,训练不同的子网络;推理时,根据速度需要直接裁剪,用裁剪后的子网络进行预测。整体的训练分为两个阶段,先进行宽度自适应训练,再进行宽度+深度自适应训练。<br>本篇论文的创新点主要在于Adaptive width的训练方式,考虑到后续的裁剪,作者对head和neuron进行了排序,并利用蒸馏让子网络学习大网络的知识。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><blockquote><p>注:每条内容前缀为github地址的仓库拥有者和仓库名,补全地址后为<code>github.com/<repo_owner>/<repo_name></code>。</p></blockquote><ul><li><a href="https://mp.weixin.qq.com/s/5dvKTKgXt1Rl6hdKwWPr2A">mindspore-ai/mindspore:新版本v0.3.0-alpha发布!差分隐私、二阶优化、Pytorch模型支持等六大杀器来袭! | MindSpore</a><br>摘要:暨v0.2.0-alpha版本发布1个月,v0.3.0-alpha按时推出。新增支持了DeepFM、DeepLabV3、Wide&Deep等新的模型,修复了一些关键bug,增添了网络迁移教程、自定义算子教程等。本次特性包含不限于:<ol><li>差分隐私,MindSpore的安全组件提供了差分隐私模块Differential-Privacy,提供支持基于高斯机制的差分隐私优化器(SGD、Momentum),同时还提供差分隐私预算监测器,方便观察差分隐私效果变化。文档:<a href="https://www.mindspore.cn/tutorial/zh-CN/0.3.0-alpha/advanced_use/differential_privacy.html%EF%BC%9B">https://www.mindspore.cn/tutorial/zh-CN/0.3.0-alpha/advanced_use/differential_privacy.html;</a> </li><li>二阶优化,ResNet达到精度(0.759)仅用了42个迭代(epoch),比同软硬件环境的一阶优化快了近1倍(一阶优化使用了81epoch达到目标精度)。文档:<a href="https://gitee.com/mindspore/mindspore/tree/r0.3/example/resnet50_imagenet2012_THOR%EF%BC%9B">https://gitee.com/mindspore/mindspore/tree/r0.3/example/resnet50_imagenet2012_THOR;</a></li><li>支持Pytorch模型转换。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/3Z_ZvJ7p2z-TqfHwtCp_5Q">matazure/mtensor:同时支持C++和cuda延迟计算的异构计算库 | 极市平台</a><br>摘要:mtensor是一个tensor计算库,主要用于多维数组及其计算。其可以结构化高效地在CPU/GPU上实现遍历、滤波、转换等多种操作。也便于数据在CPU与GPU之间的传输交互。mtensor主要特点是延迟计算。<br>延迟计算有多种实现方式,最为常见的是eigen所采用的模板表达式。但该种方式每实现一种新的运算就要实现一个完整的模板表达式class且过程繁琐,不易拓展新运算。<br>mtensor自研的基于闭包算子的lambda tensor是一种更为通用简洁的延迟计算实现。此外,目前绝大部分支持延迟计算的库都没支持cuda,而对于gpu这种计算能里远强于内存带宽的设备来说延迟计算尤为重要。cuda 9版本以来,cuda C++逐渐完善了对 C++11 和 C++14 的支持,使得cuda的延迟计算可以得到简洁的实现。 </li><li><a href="https://mp.weixin.qq.com/s/JNYjA7hctJlkwW6prUEEvQ">JacopoMangiavacchi/MNIST-CoreML-Training:Training MNIST with CoreML on Device</a><br>摘要:在这篇文章中,作者介绍了如何在端上设备使用 MNIST 数据集训练图像分类模型。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/140968716">Tengine armv8.2 with ncnn serializer | 知乎</a><br>摘要:本文将会为大家评估armv8.2的FP16的FMLA指令和Int8的SDOT指令的计算能力,并结合Tengine开源版本,采用Hybrid-FP16策略,让计算核心模块(im2col+sgemm)采用FP16的前提下,使用 Tengine 来跑 NCNN 模型,解锁更强性能。 </li><li><a href="https://mp.weixin.qq.com/s/jxW7mcysdl-CsUHb5oYVVQ">TensorFlow Lite的 GPU 委托代理(Delegate)是什么 | NeuralTalk</a><br>摘要:目前TFLite的 Delegate支持了 OPENCL 、Hexagon DSP、XNNPACK等。本文从TensorFlow Lite的文档出发并结合作者思考,为大家尽可能通俗地讲解什么是TensorFlow Lite 的 Delegate 。 </li><li><a href="https://mp.weixin.qq.com/s/FKIibmuNrpSnR7tXlXs8Pg">旷视 MegEngine 推理性能极致优化之综述篇 | 旷视研究院</a><br>摘要:MegEngine「训练推理一体化」的独特范式,通过静态图优化保证模型精度与训练时一致,无缝导入推理侧,再借助工业验证的高效卷积优化技术,打造深度学习推理侧极致加速方案,实现当前业界最快运行速度。<br>本文从推理侧的数据排布(Inference Layout)讲起,接着介绍MegEngine的Im2col+MatMul、Winograd、Fast-Run工程优化实践。经典的轻量卷积神经网络实验表明,经过MegEngine加速,ResNet18和ResNet50最高加速比可达2x以上,ShuffleNet V2和MobileNet V2执行效率也得到显著提升,实现了业界当前最佳推理性能。 </li><li><a href="https://zhuanlan.zhihu.com/p/141008345">面向下一代Web的深度学习编译:WebAssembly和WebGPU的TVM初探 | 知乎</a><br>摘要:目前有很多框架如tf.js, onnx.js在支持浏览器部署,但往往浏览器端无法充分利用GPU资源。即使WebGL可通过图形渲染的方式去访问GPU,但依然无法引入shared memory、generic storage buffer的概念去优化程序(虽然OpenGL新版本部分解决,但目前WebGL依然是基于旧的OpenGL标准)。<br>最近Web端两个重要的新元素 – WebAssembly 和 WebGPU 给了解决浏览器端机器学习一个新的希望。WebGPU是下一代互联网的图形学接口,目前已经进入了实现阶段,主要浏览器的nightly版本已经加入了WebGPU的支持。从API上,WebGPU支持了compute shader,使得更加极致优化浏览器端的算子成为可能。<br>为了探索这个可能性,TVM社区最近加入了WebAssembly和WebGPU后端的支持。通过已有的架构生成嵌入WebGPU compute shader的wasm模块。在Chrome预览版本上的测试结果展示了很大的潜力 – tvm生成的WebGPU模块在MacOS上可以获得和直接本地运行native metal几乎一样的效率。 </li><li><a href="https://mp.weixin.qq.com/s/YV2lY9uUbWUq_HWh8z_hSw">深入理解C11/C++11内存模型 | Linux阅码场</a><br>摘要:现代计算机体系结构上,CPU执行指令的速度远远大于CPU访问内存的速度,于是引入Cache机制来加速内存访问速度。除了Cache以外,分支预测和指令预取也在很大程度上提升了CPU的执行速度。随着SMP的出现,多线程编程模型被广泛应用,在多线程模型下对共享变量的访问变成了一个复杂的问题。于是我们有必要了解一下内存模型,这是多处理器架构下并发编程里必须掌握的一个基础概念。 </li><li><a href="https://mp.weixin.qq.com/s/e8WOuMdMK5Ypctb221snTw">解读嵌入式操作系统的内存 | strongerHuang</a><br>摘要:linux 内存是后台开发人员,需要深入了解的计算机资源。合理的使用内存,有助于提升机器的性能和稳定性。本文主要介绍 linux 内存组织结构和页面布局,内存碎片产生原因和优化算法,linux 内核几种内存管理的方法,内存使用场景以及内存使用的那些坑。从内存的原理和结构,到内存的算法优化,再到使用场景,去探寻内存管理的机制和奥秘。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center"></td><td align="center"><a href="../embedded-ai-report/2020-06-03.md">2020-06-03</a></td><td align="center"><a href="../embedded-ai-report/2020-05-15.md">2020-05-15</a></td><td align="center"><a href="../embedded-ai-report/2020-04-26.md">2020-04-26</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-04-04.md">2020-04-04</a></td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><blockquote><p>注:个别链接打不开,请点击文末阅读原文跳转</p></blockquote><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>WeChat: NeuralTalk </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-05-15@Bi-weekly</title>
<link href="/2020/05/15/bi-weekly/2020-05-15/"/>
<url>/2020/05/15/bi-weekly/2020-05-15/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-05-15"><a href="#嵌入式AI简报-2020-05-15" class="headerlink" title="嵌入式AI简报 (2020-05-15)"></a>嵌入式AI简报 (2020-05-15)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次15条。「新闻」高通发布中端Soc 768G,骁龙875性能规格曝光,联发科方面跟进,发布天玑1000+,中高端的天玑800系列。CUDA11特性曝光。「论文」部分,一篇关于深度学习编译器架构的综述论文,详细剖析常用的设计思想,对现有的深度学习编译器进行全面总结。「开源」MNN PR一年来的总结回顾及armv8.2等新特性、PaddleLite PR对瑞芯微AI芯片的支持、OpenCL3.0发布、NervanaSystem当年关于GPU上的优化项目分析、TF新的Runtime。「博文」解析MegEngine的显存优化技术分析,Tengine和PaddleLite算子选择策略浅析。</p></blockquote><p>手机SOC方面较多,单独一段总结:<a href="https://mp.weixin.qq.com/s/DQ2aRx276KFUXFYGvHaMig">三星Exynos992曝光6nm制程可能超越骁龙865</a>,Imagination新闻频频,Imagination已经将IMG A系列GPU在多个市场中授权给了客户,首批搭载该IP的SoC器件将在今年供货,<a href="https://mp.weixin.qq.com/s/sgPyQjLModuvpa8jLh352Q">高通与Imagination同时宣布支持Google的Android GPU Inspector在各家的Adreno或PowerVR GPU上的负载分析</a>,<a href="https://mp.weixin.qq.com/s/cGezbnF8O-whKjpkMbl-bw">小米迎来高通Adreno GPU驱动更新 | Qualcomm中国</a>,<a href="https://mp.weixin.qq.com/s/DncvhgPYRAld-jcvK_WLoQ">荣耀发布Play 4T新机,搭载中芯国际14nm代工的麒麟710A,且已成功量产</a>。 </p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://www.netded.com/news/2020/051150357.html">Redmi K30 5G首发高通全新SoC 768G | 迷你手机网</a><br>摘要:从命名上看,骁龙768G是骁龙765G的升级版,应该类似于骁龙855和骁龙855+的关系。<br>根据爆料,骁龙768G处理器采用了1+1+4(2.8GHz+2.4GHz+1.8GHz)组合,GPU为Adreno 620,骁龙768G的2颗大核A76都提升了主频,GPU主频提升到了750MHz,整体性能提升在10%~15%。据测试安兔兔跑分达到了36万分。<br>并且骁龙768G采用7nm EUV工艺制程,是一款集成式双模5G SoC,CPU部分拥有两颗A76架构性能大核,相较骁龙765G,其主频部分提升到了2.8GHz,同时,骁龙768G的GPU频率也提升到了750MHz。 </li><li><a href="https://mp.weixin.qq.com/s/3tLjsPUHjsQSGbtEcK75tQ">高通骁龙875性能规格曝光!或集成X60 5G基带,台积电5nm工艺 | 智东西</a><br>摘要:高通即将推出的骁龙875,将采用台积电5nm工艺预计2021年发布。此外,该芯片组规格代号为SM8350,其上一代骁龙865代号为SM8250。目前不清楚骁龙875芯片的5G调制解调器是否采用集成式方案。<br>性能方面,骁龙875采用Armv8 Cortex架构的Kryo 685 CPU,Adreno 660 GPU、Adreno 665 VPU和Adreno 1095 DPU,以及一颗Spectra 580图像处理引擎,支持3G/4G/5G调制解调器mmWave(毫米波)和低于6GHz频段。 </li><li><a href="https://mp.weixin.qq.com/s/M6rm5rYER9U7idAD3ix1qQ">联发科天玑1000+升级亮相,中高端800系列发布 | 三易生活</a><br>摘要:GPU性能方面,天玑1000+在天玑1000的基础上增强,将屏幕高帧率显示的上限从120Hz提升到144Hz,新的“MiraVision 画质引擎”可实现独立AI处理单元(联发科叫APU)和专用画质处理电路的联动计算,支持4K分辨率视频的AI实时处理。无论是从5G、AI、GPU设计这些“底子”上的技术水准,还是从游戏与视频优化这些“面子”上锦上添花的功能来说,联发科的天玑1000+这次都算是更上了一层楼。<br>此外,作为联发科中高端系列的代表,也是天玑800系列的升级款,但命名上并不是天玑800+,很有可能会改名为天玑820。听说天玑800系列一共有三种工程方案,主频分别是中杯2.0GHz、大杯2.2GHz左右和超大杯2.6GHz左右。 </li><li><a href="https://devblogs.nvidia.com/cuda-11-features-revealed/">CUDA 11 Features Revealed | NVIDIA Developer</a><br>摘要:The A100 GPU has revolutionary hardware capabilities and we’re excited to announce CUDA 11 in conjunction with A100. <ol><li>Support for the NVIDIA Ampere GPU architecture, including the new NVIDIA A100 GPU for accelerated scale-up and scale-out of AI and HPC data centers; multi-GPU systems with the NVSwitch fabric such as the DGX A100 and HGX A100.</li><li>Multi-Instance GPU (MIG) partitioning capability that is particularly beneficial to cloud service providers (CSPs) for improved GPU utilization.</li><li>New third-generation Tensor Cores to accelerate mixed-precision, matrix operations on different data types, including TF32 and Bfloat16.</li><li>Programming and APIs for task graphs, asynchronous data movement, fine-grained synchronization, and L2 cache residency control.</li><li>Performance optimizations in CUDA libraries for linear algebra, FFTs, and matrix multiplication.</li><li>Updates to the Nsight product family of tools for tracing, profiling, and debugging of CUDA applications.</li><li>Full support on all major CPU architectures, across x86_64, Arm64 server and POWER architectures.</li></ol></li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/139552817">一篇关于深度学习编译器架构的综述论文 | 知乎</a><br>标题:The Deep Learning Compiler: A Comprehensive Survey<br>链接:<a href="https://arxiv.org/abs/2002.03794">https://arxiv.org/abs/2002.03794</a><br>摘要:目前还都没有全面分析深度学习编译器这种独特设计架构。本文详细剖析常用的设计思想,对现有的深度学习编译器进行全面总结,重点是面向深度学习的多级中间表示(IR)以及前后端的优化。具体来说,作者从各个方面对现有编译器做全面比较,对多级IR的设计进行了详细分析,并介绍了常用的优化技术。最后,文章强调对今后编译器潜在研究方向的一些见解。基本上这是深度学习编译器设计体系结构(不是硬件方面)的第一个综述。 </li><li><a href="https://mp.weixin.qq.com/s/OHUPfgwxQEb2CxhBX0Ik3g">Facebook发布提高设备AI工作能效的AutoScale | 将门创投</a><br>摘要:Facebook和亚利桑那州立大学建立了一个支持AI减轻设备负荷的模型——AutoScale。AutoScale通过观察当前AI执行效率,包括算法架构特征和运行时间。协同处理器等硬件之间选择,找到能最大限度提高能效的硬件。<br>AutoScale基于强化学习算法,计算累计奖励(R值),来选择AI工具的最佳运行方式。例如:对于给定的处理器,系统使用基于AI能效利用率的模型计算奖励,假设处理器内核消耗的功率是可变的,内核在繁忙和空闲状态下花费的时间不同,能源使用情况也不同。此外,当推理扩展到连接的数据中心时,AutoScale可以借助基于信号强度的模型来计算奖励,预测传输延迟度和网络消耗的能量。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><blockquote><p>注:每条内容前缀为github地址的仓库拥有者和仓库名,补全地址后为<code>github.com/<repo_owner>/<repo_name></code>。</p></blockquote><ul><li><a href="https://mp.weixin.qq.com/s/VBE54nbPn8zmvh6l1UZaag">alibaba/MNN: 开源一年,阿里轻量级AI推理引擎MNN 1.0.0正式发布 | AI科技大本营</a><br>摘要:MNN在阿里巴巴集团内部得到广泛推广,覆盖了如手机淘宝、天猫、优酷、钉钉、闲鱼等20多个App。在这次release中,包括且不限于以下特点:<ol><li>新增模型训练的支持,从此MNN不再是单纯的推理引擎,可Quantization Aware Training (QAT);</li><li>利用ARMv8.2指令集,获得了两倍的性能提升;</li><li>进一步完善Python工具链,累计新增超过150个接口;</li><li>开源了应用层开箱即用的解决方案MNNKit,包含了人脸跟踪与检测、人像分割、手势识别等。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/WwJ-Qv27AYUbkflSZa3sKg">PaddlePaddle/Paddle-Lite:百度PaddleLite适配瑞芯微AI芯片,携手加速AI应用落地 | 飞桨PaddlePaddle</a><br>摘要:百度PaddleLite与瑞芯微Rockchip旗下AI芯片RK1808、RK1806正式完成适配,充分兼容飞桨轻量化推理引擎Paddle Lite。<br>瑞芯微AI芯片RK1808及RK1806,内置独立NPU神经计算单元,INT8 算力高达3.0TOPs;采用22nm FD-SOI工艺,相同性能下的功耗相比主流28nm工艺产品降低约30%,在算力、性能、功耗等指标上均有优异的表现。经实测,瑞芯微AI芯片在Paddle Lite中运行MobileNet V1耗时仅为6.5 ms,帧率高达153.8 FPS,二者充分兼容并高效稳定运行。 </li><li><a href="https://www.khronos.org/opencl/">OpenCL 3.0 release发布:更灵活、异步DMA扩展支持 | khronos.org</a><br>摘要:OpenCL 3.0 integrates subgroup functionality into the core specification, ships with a new OpenCL C 3.0 language specification, uses a new unified specification format, and introduces extensions for asynchronous data copies to enable a new class of embedded processors. The provisional OpenCL 3.0 specifications enable the developer community to provide feedback before the specifications and conformance tests are finalized.<br><a href="https://www.zhihu.com/question/391599659">更多,见如何评价 OpenCL 3.0 | 知乎</a> </li><li><a href="https://mp.weixin.qq.com/s/OYSzol-vufiKPuU9YxtbuA">NervanaSystems/maxas:矩阵相乘在GPU上的终极优化:深度解析Maxas汇编器工作原理 | 机器之心</a><br>摘要:Nervana汇编代码生成器项目Maxas,可生成性能超过nVidia官方版本的矩阵相乘的GPU机器码,其作者 Scott Gray 在代码外提供了详细的文档<a href="https://github.com/NervanaSystems/maxas/wiki/SGEMM">NervanaSystems/maxas/wiki/SGEMM</a>,本文可以看作按作者对该文档的理解进行的重写。 </li><li><a href="https://mp.weixin.qq.com/s/62Eaa5iF6mH4N6eW4liAzg">tensorflow/runtime:全新的 TensorFlow 运行时 | TensorFlow</a><br>摘要:TensorFlow RunTime (TFRT) 旨在提供一个统一、可扩展的基础架构层,在各种领域特定硬件上实现一流性能。高效利用多线程主机的 CPU,支持完全异步的编程模型,同时专注于底层效率。<br>现有 TensorFlow 的设计初衷是针对图执行和训练工作负载搭建,而新运行时则首要关注即时执行和推理,同时注重架构可扩展性和模块化。更具体地说,TFRT 已实现以下设计亮点:<ol><li>为提升性能,TFRT 配备无锁计算图执行器,支持并行操作执行,且同步开销较低。此外,其还配备一个轻量的即时算子分发栈,便于异步即时 API 调用和提高效率; </li><li>为了更加轻松地扩展 TF 技术栈,我们已将设备运行时与主机运行时(即驱动主机 CPU 和 I/O 工作的核心 TFRT 组件)解耦; </li><li>为确保行为一致,TFRT 在即时和图执行模式中均使用通用抽象,例如形状函数和内核。<br>TFRT 还与 MLIR 紧密集成。例如: </li><li>TFRT 利用 MLIR 的编译器基础架构,为特定目标的运行时执行计算图生成优化表征;</li><li>TFRT 使用 MLIR 的可扩展类型系统支持运行时中的任意 C++ 类型,消除了仅支持特定张量的限制。<br><a href="https://www.zhihu.com/question/391811802">如何评价TensorFlow开源的新运行时TFRT | 知乎</a> </li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/N-bjcUEF4cQbH5vT0RM9CA">深度解析MegEngine亚线性显存优化技术 | 旷视研究院</a><br>摘要:深度学习框架有几种降低显存占用的常用方法,其示例如下:<ol><li>通过合适的梯度定义,让算子的梯度计算不再依赖于前向计算作为输入,从而in-place地完成算子的前向计算,比如Sigmoid、Relu等;</li><li>在生命周期没有重叠的算子之间共享显存;</li><li>通过额外的计算减少显存占用,比如利用梯度检查点重新计算中间结果的亚线性显存优化方法[1];</li><li>通过额外的数据传输减少显存占用,比如把暂时不用的数据从GPU交换到CPU,需要时再从CPU交换回来。<br>上述显存优化技术在MegEngine中皆有不同程度的实现,这里重点讨论基于梯度检查点的亚线性显存优化技术。<br>此外,亚线性优化方法采用简单的网格搜索(grid search)选择检查点,MegEngine在此基础上增加遗传算法,采用边界移动、块合并、块分裂等策略,实现更细粒度的优化,进一步降低了显存占用。 </li></ol></li><li><a href="https://zhuanlan.zhihu.com/p/122943688">FLOPs与模型推理速度 | 知乎</a><br>摘要:两个layer的FLOPs和参数量完全相同。但是推理速度方面,depthwise卷积要远远慢于普通卷积。其原因就是访存数据量的不同:<br>由于卷积计算本身已经是flatten的,不需要考虑重复读取问题,那么总共读取的数据量就是feature的大小加上卷积核weight的大小,对于普通卷积来说,总读取数据量为:<code>100*56*56 + 3*3*100*100 = 4.0e+05</code>。类似的,depthwise卷积读取的数据总量为:<code>56*56*10000 + 3*3*10000 = 3.1e+07</code>。<br>可以看到,在同等FLOPs的情况下,depthwise卷积对应的feature size比普通卷积大的多,受制于GPU访存带宽,过高的数据读取与写入量就成为了限制推理速度的瓶颈。 </li><li><a href="https://zhuanlan.zhihu.com/p/139241788">Tengine多平台的算子调度与选择分析 | 知乎</a><br>摘要:Tengine目前已开源部分的算子对不同平台有各自的实现和优化,包括不限于arm32、arm64、x86等。对于其余的算子则是通过加载reference算子实现。那么当模型执行时,对于多平台下的同一算子,Tengine是如何选择的呢,本文将会进行介绍与分析。 </li><li><a href="https://mp.weixin.qq.com/s/jEB1McrkU8iay1klc0DIfQ">Paddle Lite底层backend的kernel选择策略 | NeuralTalk</a><br>摘要:Paddle Lite是Paddle Mobile和Anakin的推理框架继任者。定位安卓/iOS移动端,以及X86端在内的多场景高性能预测,兼容支持ONNX、TensorFlow、Caffe等模型的部署。本文将描述Paddle Lite在模型转换过程(模型转换opt工具)中,静态kernel选择的策略以及一些思考。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center"></td><td align="center"></td><td align="center"><a href="../embedded-ai-report/2020-05-15.md">2020-05-15</a></td><td align="center"><a href="../embedded-ai-report/2020-04-26.md">2020-04-26</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-04-04.md">2020-04-04</a></td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>WeChat: NeuralTalk </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-04-26@Bi-weekly</title>
<link href="/2020/04/26/bi-weekly/2020-04-26/"/>
<url>/2020/04/26/bi-weekly/2020-04-26/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-04-26"><a href="#嵌入式AI简报-2020-04-26" class="headerlink" title="嵌入式AI简报 (2020-04-26)"></a>嵌入式AI简报 (2020-04-26)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本期内容23条。「业界新闻」除了提到的三星下一代旗舰Soc外,还有与骁龙835麒麟970的GPU在同一档次的Exynos980。以及最近华为刚发布Nova7的麒麟985,公主身子丫鬟的命。TensorFlow.js的2.0和3.0持续发力包体积大小,去年微信官方账号(微信开发者)发文<a href="https://mp.weixin.qq.com/s/3qLkvFh4gYKQ9WQaWJxZDg">零基础也能在小程序上实现机器学习</a>,实际便是TensorFlow.js提供的微信小程序插件。<br>「论文」部分除了这两天被大家津津乐道的,工程优化大于实际创新的YOLOv4,还有商汤小伙伴们在int8训练方面做得工作,小型化BERT模型方面的MobileBERT、手机GPU实现视频风格迁移的新方法等等。<br>「开源」部分,腾讯推出的X86/CUDA的TurboTransformers,比TF和Pytorch性能好不少。<a href="https://mp.weixin.qq.com/s/-KyjpaMJOefAh1nGV4Ic7w">OpenCV4.3发布,ARM上集成Tengine提升性能可观</a>;比TF性能更好的Pytorch版本的EfficientDet;“博文”部分包括且不限于压缩、量化相关总结、微信扫一扫识物的技术揭秘等,都非常值得一看。</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/4IqvHID7B0sBADr_qiM66Q">三星全新旗舰SoC曝光:最强公版架构 | 安兔兔</a><br>摘要:此前三星方面已经明确表示将放弃自家的猫鼬架构,外媒报道显示,下一代三星旗舰Soc的CPU部分将会采用ARM公版架构,Soc将采用5nm LPE工艺打造。<br>CPU部分包含两颗Cortex A78超大核、两颗Cortex A76大核以及4颗Cotex A55小核,GPU则集成了ARM代号Borr(北欧神话)的新Mali,核心数20(Mali-G78?)。 </li><li><a href="https://mp.weixin.qq.com/s/ieBCdM_hC8IoztZLzzCZCA">vivo的中高端5G手机S6,搭载三星Exynos980 | 三易生活</a><br>摘要:vivo S6此次发布的顶配版本,具备8+256GB的存储组合,以及标配的Exynos 980主控方案。<br>Exynos 980使用了2+6核的大小核设计,这是当前中高端主流SoC的共通做法。但在具体的核心架构上,它率先用上了最新的Cortex-A77大核。拜此所赐,vivo S6在Geekbench 5.1的CPU核心性能测试中,仅以2.2GHz的最高主频就在单核性能上追平了具有2.84GHz大核的前旗舰骁龙855,同时多核性能也超过了Exynos 9810和骁龙845,新架构的优势可谓显露无疑。<br>从3DMARK的跑分结果来看,Exynos 980配备的Mali-G76MP5图形处理器在3D游戏性能上,和骁龙835、Exynos8895、麒麟970等处于同一档次。类比同世代的高通方案的话,则是远高于骁龙730G。<br>基于安兔兔综合跑分,Exynos 980在综合性能上略胜骁龙765G的,基本达到骁龙845水平。 </li><li><a href="https://mp.weixin.qq.com/s/2VbgjdKWkhsJ8Hh6ImvNFg">华为麒麟985背后,藏着国产芯片设计的一丝辛酸 | 魔铁的世界</a><br>摘要:一般来说,在芯片的产品线规划里,旗舰产品居于金字塔顶端,是唯一的存在,如果要推出系列,也往往是先发标准版,在市场树立威名后,再发售加强版,比如高通的骁龙8系的标准版和8系Plus版。<br>为了平衡硬件错配,让麒麟990跑分不那么丢脸,华为在麒麟985上不惜使用诸多压制手法:<ol><li>麒麟985的CPU内核族群布局变了,没有采用麒麟990的“4大核+4小核”的形式,而是“1大核+3中核+4小核”;</li><li>降低麒麟985的CPU最高运行频率,大核(2.58GHz)、小核(1.84GHz)分别比麒麟990的低280MHz和110MHz。不要小看这不足0.3GHz的差距,在高通那里,0.11GHz的差距就是骁龙855和骁龙855 Plus的差别;</li><li>麒麟985的GPU内核是比麒麟990先进的Mali-G77,如果两颗芯片的GPU核心数相同,麒麟990将被985捶得渣渣都不剩,于是,麒麟985的GPU内核数被定为8个,麒麟990的则是16个,16个“小矮人”以人海战术保住了旗舰的面子。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/ef_P2dofxPeTKyghBe1aSw">谷歌自研终端AI芯片曝出重大进展,联手三星,用于手机笔记本 | 量子位</a><br>摘要:谷歌透露,代号为”白教堂“(Whitechaple)的自研处理器芯片取得了重大进展,明年就可能应用在下一代谷歌手机和笔记本上,”白教堂“芯片由谷歌和三星联合开发。<br>芯片将会采用三星的5nm半导体工艺打造,搭载8个ARM核心。这一技术也用在了三星自主设计的Exynos芯片上。<br>在已经推出的Pixel手机上,谷歌已经搭载了图像处理的专用AI芯片Visual Core,用于编译HDR+图像的速度比应用处理器快5倍,功耗仅为其1/10。Visual Core还处理与相机相关的复杂成像和机器学习任务,其中包括基于场景的自动图像调整以及其他用途。 </li><li><a href="https://mp.weixin.qq.com/s/uSmI5ZhGdcBmnSYrTS-3gw">TensorFlow.js 的2.x和3.x的 更新计划 | TensorFlow</a><br>摘要:tfjs团队在2.0和3.0版本,都侧重生产环境优化的包体积与相关优化。 </li></ul><p>2.x 中,唯一重大变化是 CPU 和 WebGL 后端从 tfjs-core 移到各自的 NPM 包中(对应tfjs-backend-cpu 和 tfjs-backend-webgl),让包更小。<br>3.0版本将完全模块化所有算子和内核,并支持动态梯度的内核注册模式,并提供工具来协助创建仅包含给定模型或 TensorFlow.js 程序内核的自定义包。且还将开始默认支持 ES2017。 </p><ul><li><a href="https://mp.weixin.qq.com/s/74mxLKAOIyYCWLe81dfB8A">为 TensorFlow.js 引入 WebAssembly 后端 | TensorFlow</a><br>摘要:TensorFlow.js 现在为浏览器和 Node.js 提供 WebAssembly (WASM) 后端!WASM 是 WebGL 后端的替代方案,尤其是缺乏 WebGL 支持或 GPU 速度慢的低端移动设备,可实现基于XNNPack 库来加速 CPU 的推理。Chrome 已在实验性的状态下部分支持了 SIMD,Firefox 和 Edge 尚在开发之中,而 Safari 尚未给出任何公开信号。<br>SIMD 非常有发展前景。在热门 ML 模型上使用 SIMD-WASM 进行的基准测试表明,速度相比非 SIMD WASM 可提高2-3倍。<br>除了原始的 SIMD 方案外,LLVM WASM 后端近期已实现对实验性 QFMA SIMD 指令的支持,这将进一步提高内核性能。根据常见模型上的benchmark,QFMA SIMD 与普通 SIMD 相比,可额外提速 26-50%。TF.js WASM 后端将通过 XNNPACK 库来使用 SIMD,该库包括已针对 WASM SIMD 优化的微内核。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/DdyvZLDb7D-dQ9okhwQreA">Riptide:12倍端到端加速,陈天奇创业公司OctoML提出克服二值网络瓶颈新方法 | 机器之心</a><br>摘要:(Ps:之前简报似乎发过)OctoML 的研究者提出了 Riptide,这是一种找出并解决端到端二值网络瓶颈的方法。Riptide 基于深度学习系统编译器 TVM,可自动生成调优过的高性能二值化算子。<br>假设二值化可以使卷积的速度提高近 43 倍(计算见文章),但网络也有卷积外的算子如WeightScale/Act/BN/Dequant层等,即使卷积二值化加速了,但其它层将消耗大约 50%以上的总推理时间。因此,作者基于定点量化近似(fixed point quantized approximations)对其它层也做了二值化。构建出了完全二值化网络。<br>此外,TVM框架层面做了tiling、vectorization、多核MIMD、Loop unroll常规操作,以及结合基于《Automating Generation of Low Precision Deep Learning Operators》论文中提到的 fast popcount 算子,还提出bitpack fusion尽可能将 bitpacking 折叠到前面的卷积核中,将中间内存需求减少到原来的 1/16。基于以上,在树莓派 3b 基于 ARM Cortex-A53 处理器与全精度基于For循环的MKL-DNN的性能相比【我这里就有点迷惑了,为何不和华为Bolt或者dabnn比较呢】,在ResNet18模型上看到 10 倍的实际加速。 当然,10 倍的加速远小于论文中所期望的 43 倍加速。<br>论文链接:<a href="https://proceedings.mlsys.org/static/paper_files/mlsys/2020/155-Paper.pdf">https://proceedings.mlsys.org/static/paper_files/mlsys/2020/155-Paper.pdf</a><br>GitHub 项目:<a href="https://github.com/jwfromm/Riptide">https://github.com/jwfromm/Riptide</a> </li><li><a href="https://mp.weixin.qq.com/s/XEPhK81Ms-wdDnoz5oPZgA">AlexeyAB的Darknet发布YOLO v4及论文:速度效果双提升 | 机器之心</a><br>摘要:俄罗斯开发者Alexey Bochkovskiy 对比了 YOLOv4 和当前最优目标检测器,发现 YOLOv4 在取得与 EfficientDet 同等性能的情况下,速度是 EfficientDet 的二倍。与 YOLOv3 相比,新版本的 AP 和 FPS 分别提高了 10% 和 12%。<br>YoloV4 的作者提出了两种实时神经网络:对于 GPU,研究者在卷积层中使用少量组(1-8 组):CSPResNeXt50 / CSPDarknet53;对于 VPU,研究者使用了分组卷积(grouped-convolution),但避免使用 Squeeze-and-excitement(SE)块。具体而言,它包括以下模型:EfficientNet-lite / MixNet / GhostNet / MobileNetV3。<br>文章:<a href="https://arxiv.org/abs/2004.10934">https://arxiv.org/abs/2004.10934</a><br>代码:<a href="https://github.com/AlexeyAB/darknet">https://github.com/AlexeyAB/darknet</a> </li><li>[CVPR 2020] <a href="https://mp.weixin.qq.com/s/yC2Jb4feobD1MttblHw_xg">用于加速卷积神经网络训练过程INT8训练技术 | 商汤泰坦公开课</a><br>摘要:模型量化是一种将浮点计算转成低比特定点计算的技术,可以有效的降低模型计算强度、参数大小和内存消耗,但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时,带来的精度挑战更大。<br>由商汤研究院–链接与编译团队的两位研究员分享了团队在模型量化方面的的一系列研究工作,其中包含CVPR 2020、ICCV 2019等多篇与北航刘祥龙老师团队合作的论文成果。 </li><li>[ACL2020] <a href="https://mp.weixin.qq.com/s/GcEVQrqnWK2jL7_qv1uq2w">MobileBERT:用于资源受限设备的任务无关“瘦版”BERT | 专知</a><br>摘要:作者提出了压缩和加速流行的BERT模型的MobileBERT。与最初的BERT一样,MobileBERT是与任务无关的。即通过简单的微调应用于各种下游NLP任务。基本上,MobileBERT是BERT_LARGE的瘦版,同时配备了瓶颈结构和精心设计的自关注和前馈网络之间的平衡。<br>为了训练MobileBERT,我们首先训练一个特别设计的教师模型,一个倒瓶颈合并BERT_LARGE模型。然后,我们把这个老师的知识传递给MobileBERT。实证研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同时在著名的基准上取得了有竞争力的结果。在GLUE的自然语言推断任务中,MobileBERT实现了GLUEscore o 77.7(比BERT_BASE低0.6),在Pixel 4手机上实现了62毫秒的延迟。在team v1.1/v2.0的问题回答任务中,MobileBERT获得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。 </li><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/MJA6FgSPlCtlByPGUgGvaQ">RANet:分辨率自适应网络,效果和性能的best trade-off | 晓飞的算法工程笔记</a><br>摘要:基于对自适应网络的研究,论文提出了自适应网络RANet(Resolution Adaptive Network)来进行效果与性能上的取舍,该网络包含多个不同输入分辨率和深度的子网,难易样本的推理会自动使用不同的计算量,并且子网间的特征会进行融合,从实验结果来看,在性能和速度上取得了很不错的trade-off。 </li><li><a href="https://mp.weixin.qq.com/s/GDe3gRFhckR172pQIKx4zw">手机GPU实现4K视频实时风格迁移 | 极市平台</a><br>标题:Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer<br>摘要:风格迁移指的是将图像A的艺术风格迁移到图像B的内容中,从而媲美相加拍摄的效果。但以往的方法都存在速度慢或伪影问题,导致难以实际产品化落地。<br>作者提出一种的快速的端到端的风格迁移架构。该方法核心:一个可以学习局部边缘敏感仿射变换(edge-aware affine transforms)的前向神经网络,训练完成后,可在任意对图像上实施鲁棒风格迁移。相比其他SOTA方法,视觉效果更逼真,同时更快在手机端可达实时@4K。看是以手机GPU完成的推理,但并未提及具体型号。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><blockquote><p>注:每条内容前缀为github地址的仓库拥有者和仓库名,补全地址后为<code>github.com/<repo_owner>/<repo_name></code>。</p></blockquote><ul><li><a href="https://mp.weixin.qq.com/s/JEzZRajR7O8-ctUpbWCQJg">Tencent/TurboTransformers:腾讯开源第100个Github项目TurboTransformers | 机器之心</a><br>摘要:在多种 CPU 和 GPU 硬件测试中,Transformer 推理加速工具超越 PyTorch/TensorFlow 和目前主流优化引擎的性能。<br>性能的提升得益于,调优 Intel MKL 和 cuBLAS 的 GEMM 调用方式,并在硬件允许条件下,可在 GPU 上使用 tensor core 方式进行 GEMM 运算。<br>此外,类似于 NVIDIA FasterTransformers 方案,TurboTransformers 将所有 GEMM 运算之间的计算融合成一个调用核心。这样有两个好处,一是减少了内存访问开销,二是减少多线程启动开销。<br>对于这些核心,TurboTransformers 在 CPU 上采用 openmp 并行,在 GPU 上用 CUDA 优化实现。对较复杂的 LayerNorm 和 Softmax 算子,虽然它们包含了不适合 GPU 上并行的规约操作,但TurboTransformers 设计了创新的并行算法,降低算子延迟。 </li><li><a href="https://mp.weixin.qq.com/s/F5ItX1EFeH-k5kJrdkb1MQ">opencv/opencv:OpenCV4.3正式发布,深度神经网络模块支持全面升级 | OpenCV学堂</a><br>摘要:OpenCV4.3正式发布,包括集成ARM上Tengine推理加速引擎框架支持,OpenVINO加速引擎默认使用 nGraph API等重大改动。对层与激活函数支持提升包括不限于:ONNX对LSTM、广播、分片输入支持等;Darknet支持组卷积、通道尺度、sigmoid与switch;支持MobileNet V3。英特尔OpenVINO的Inference Engine的支持方面:加入nGraph的自定义层支持;默认使用nGraph API作为后台。 </li><li><a href="https://mp.weixin.qq.com/s/_GJE0ZqykUGeT7GzIij7SQ">zylo117/Yet-Another-EfficientDet-Pytorch: The pytorch re-implement of the official efficientdet with SOTA performance in real time and pretrained weights.</a><br>摘要:去年 11 月份,谷歌大脑提出兼顾准确率和模型效率的新型目标检测器 EfficientDet,实现了新的 SOTA 结果。前不久,该团队开源了 EfficientDet 的 TensorFlow 实现代码。<br>如此高效的 EfficientDet 还能更高效吗?最近,有开发者在 GitHub 上开源了「PyTorch 版本的 EfficientDet」。该版本的性能接近原版,但速度是官方 TensorFlow 实现的近 26 倍。<br>EfficientNets 的效率超过之前常用的主干网络。于是研究者将 EfficientNet 主干网络和 BiFPN、复合缩放结合起来,开发出新型目标检测器 EfficientDet,其准确率优于之前的目标检测器,同时参数量和 FLOPS 比它们少了一个数量级。 </li><li><a href="https://zhuanlan.zhihu.com/p/134115239">breezedeus/cnocr: 更轻量的中英文OCR包 cnocr-V1.1.0 发布,最小模型只有 6.8M</a><br>摘要:cnocr 是Python3下的中英文OCR包,通过pip命令安装后即可直接使用。V1.1.0 对代码做了很大改动,重写了大部分训练的代码,也生成了更多更难的训练和测试数据。训练好的模型相较于之前版本的模型精度有显著提升,尤其是针对英文单词的识别。 </li><li><a href="https://github.com/dlunion/DBFace">dlunion/DBFace: DBFace is a real-time, single-stage detector for face detection, with faster speed and higher accuracy</a><br>摘要:DBFace 是一个模型仅有7M的轻量级实时人脸识别方法,该项目在保持较小参数量的前提下,识别精度要高很多,并且只需要 OpenCV 和 PyTorch 就能运行。 </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/dpwS96kEqcaHWiDi2g1d2w">闲话模型压缩之网络剪枝(Network Pruning)| 极市平台</a><br>摘要:简化模型来减少计算量和存储占用。本文主要谈的就是这一类方法,称为模型压缩(Model compression)。它是软件方法,应用成本低,而且与硬件加速方法并不矛盾,可以相互加成。细分来说,模型压缩又可分很多方法,如剪枝(Pruning)、量化(Quantization)、低秩分解(Low-rank factorization)、知识蒸馏(Knowledge distillation)。每一子类方法展开都可以是很大的话题,来本文主要限于pruning方法。 </li><li><a href="https://mp.weixin.qq.com/s/yC2Jb4feobD1MttblHw_xg">模型量化总结 | 商汤泰坦公开课</a><br>摘要:模型量化是一种将浮点计算转成低比特定点计算的技术,可以有效的降低模型计算强度、参数大小和内存消耗,但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时,带来的精度挑战更大。<br>由商汤研究院–链接与编译团队的两位研究员分享了团队在模型量化方面的的一系列研究工作,其中包含CVPR 2020、ICCV 2019等多篇与北航刘祥龙老师团队合作的论文成果。 </li><li><a href="https://mp.weixin.qq.com/s/W8YlrSyM7K84-_jwiD6E7g">微信扫一扫识物的技术揭秘:抠图与检索 | 腾讯技术工程</a><br>摘要:微信扫一扫识物是典型的“离线写,在线读”的业务,业务数据的存储和检索库的构建都是在离线环节完成。我们通过爬虫系统收录了小程序生态下的商品图片,下载后进行检测抠图,提取检索特征,最终构建成检索库交付到线上环境。这篇文章将主要介绍这一部分的工作。 </li><li><a href="https://mp.weixin.qq.com/s/IZ-nbrCL8-9w32RSYeP_bg">深入理解深度可分离卷积计算量公式推导 | GiantPandaCV</a><br>摘要:再次复习对比普通卷积与depthwise+pointwise卷积的计算量分析。 </li><li><a href="https://zhuanlan.zhihu.com/p/125717458">OpenCV 4.3 with Tengine(飙车版) | 知乎</a><br>摘要:OpenCV 4.3.0已在GitHub上悄悄更新,Tengine作为DNN Module中新增Arm平台的推理后端(Backend)在OpenCV官方版本(稳定版)中便提供了可见的速度提升。 </li><li><a href="https://mp.weixin.qq.com/s/xlzL4KHvwxE8bk-TsnAm7Q">基于Padde-Lite C++ API在树莓派4B上实现视频流的人脸检测与口罩识别 | 飞桨PaddlePaddle</a><br>摘要:百度Paddle-Lite推理框架在树莓派上部署口罩识别的方案介绍,附代码。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center"><a href="../embedded-ai-report/2020-04-04.md">2020-04-04</a></td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>WeChat: NeuralTalk </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-04-04@Bi-weekly</title>
<link href="/2020/04/04/bi-weekly/2020-04-04/"/>
<url>/2020/04/04/bi-weekly/2020-04-04/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-04-04"><a href="#嵌入式AI简报-2020-04-04" class="headerlink" title="嵌入式AI简报 (2020-04-04)"></a>嵌入式AI简报 (2020-04-04)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本期19条。「新闻」部分三个最近开源的框架:清华大学计算机图形学组的Jittor、<a href="https://mp.weixin.qq.com/s/wGGFZJOxgJVzf30ZrfI2lQ">旷视动态图和静态图合一且训练推理一体的MegEngine(ARM部分6月开源)</a>、<a href="https://mp.weixin.qq.com/s/fgGOtAxLmP0huZOrE5m74w">华为自动实现分布式并行训练的MindSpore</a>,也期待今年上半年将要开源的OneFlow,华为最近也推出了基于完整解决方案的<a href="https://mp.weixin.qq.com/s/CfFVxD6fYKA-J9tka4eg2g">华为云ModelArts Pro</a>。<br>「论文」GAN压缩基于训练方案+NAS、信息保留的二值神经网络且落地性能和实用性俱佳的IR-Net、超越EfficientNet的RegNet。<br>「开源」Google发布了更轻量的EfficienctNet-Lite,百度飞桨发布视觉分割库PaddleSeg并可结合Slim工具做压缩,Android Valgrind工具等等。<br>「博文」仍旧是微信在小网络设计方面的最佳实践(是上期的前篇),以及两篇关于深度学习框架的灵魂和如何欣赏一个深度学习框架,非常值得阅读,有一篇是使用Arduino Cortex-M4基于TFLite做语音识别和手势识别。<br>硬件厂商这边,<a href="https://mp.weixin.qq.com/s/Fs0py4zuTH8_wZ4qSYWoeg">三星目前正与超微半导体公司(AMD)合作发新的定制GPU解决方案,把Radeon GPU技术应用到Exynos芯片中</a>。但是,Exynos 990与骁龙865在CPU/GPU性能上差距明显,也导致<a href="https://mp.weixin.qq.com/s/6dcZUbjmaN5s4vEAN8FR0Q">数万网友联名请愿:要求三星停用Exynos处理器</a>。不仅麒麟820,<a href="https://mp.weixin.qq.com/s/7YvQtOE_HEaekPaDDW7OOQ">麒麟7系列将至,在5G上的爆发力不容小觑</a>,<a href="https://mp.weixin.qq.com/s/5N-MASmVm2d-xA_h4Dz92A">华为P40系列也发布了</a>。<a href="https://mp.weixin.qq.com/s/toQvejvnmb0uTXJPtNAgow">联发科技也发文大力PR自家天玑系列5G芯片搭载的AI处理器APU3.0</a>,但我们却迟迟不见搭载天玑1000的手机。 </p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/u5_4g7V-6Rl7hKk54V_j2w">苹果A12Z处理器揭秘:A12X打开第八个隐藏GPU核心 | 半导体行业观察</a><br>摘要:最近发布的iPad Pro 2020款配备了一颗特殊的A12Z处理器,这也是苹果第一次使用“Z”字母作为处理器型号的后缀,A12X处理器采用台积电7nm工艺制造,拥有多达100亿个晶体管,集成八核心CPU、七核心GPU、神经网络引擎,每秒运算高达五万亿次,还支持先进的机器学习。<br>A12Z在芯片层面和A12X一样,区别主要是A12Z开启了隐藏的第八个GPU核心,也就是拥有八核心CPU、八核心GPU,图形性能因此有所提升。另外,A12Z还在A12X的基础上优化了性能控制器,增强了散热架构,CPU核心的频率也有可能更高。 </li><li><a href="https://mp.weixin.qq.com/s/S4UGWqEioWvW3b4FHsddsQ">搭载5G SOC麒麟820的荣耀30S即将发布 | 电脑爱好者</a><br>摘要:一颗SoC的性能几何,在很大程度上取决于制程工艺,工艺越先进,SoC就能更长时间满血运行,发热量还低,在同级别SoC中容易占据优势。据悉,麒麟820将基于台积电最成熟的7nm工艺制造,采用Cortex-A76架构的CPU,以及Mali-G77架构的GPU。同时,麒麟820还将集成华为自研的最新达芬奇架构NPU,ISP性能更强。<br>Cortex-A76和Mali-G77的组合强吗?答案是还凑合。Cortex-A76是ARM在2018年发布的CPU核心(同期GPU为Mali-G76),而Mali-G77则是ARM在2019年发布的GPU核心(同期CPU为Cortex-A77),它们的组合属于跨代的混搭,没能用A77+G77的黄金搭档是麒麟820的最大遗憾之处。<br>在中高端5G SoC中,目前只有联发科天玑1000L采用了A77+G77的组合,Exyno 980是A77+G76,联发科还未上市的天玑800则是A76+G77,后者和麒麟820的思路一样。 </li><li><a href="https://www.zhihu.com/question/377416272">如何看待3月25号开源的旷视深度学习框架天元MegEngine | 知乎</a><br>地址:<a href="https://github.com/MegEngine/MegEngine">https://github.com/MegEngine/MegEngine</a><br>摘要:高效的、灵活的 LocalConv/GroupLocalConv,任意图、全自动 sublinear memory,内存不够时进行碎片整理。然而,要想成为主流,就得解决一个tensorflow和pytorch没能解决的痛点,目前看来国内的情况都不是很乐观。 </li><li><a href="https://www.zhihu.com/question/380993685">如何评价清华大学发布的自研深度学习框架-计图(Jittor) | 知乎</a><br>地址:<a href="https://github.com/Jittor/jittor">https://github.com/Jittor/jittor</a><br>摘要:实现了一个比较经典的DAG graph,以及在图上来做fusion和各种pass。从op的实现上,选择了细粒度的op,例如bcast,reduce,等等,然后通过这种方式来形成meta op,比如说convolution:<a href="https://github.com/Jittor/jittor/blob/master/notebook/meta_op.src.md">https://github.com/Jittor/jittor/blob/master/notebook/meta_op.src.md</a> <ol><li>值得关注的一点是,在XLA的早期,也有过对于op粒度的探索,目前大家的一些结论是,常见的op,比如说convolution,gemm,如果用细粒度op来实现,然后这些细粒度op是在一个op graph当中来做jit的,对性能会是一个很大的挑战(除了在代码里面embed constant value,loop reordering等等)之外,很多关于计算的细节信息都丢失了,会对后面的fusion pass有很大的挑战。 </li><li>现在一般的自动编译框架选择的方式其实是选择两层IR,一层做计算图DAG,一层做数学表达(比如说bcast,reduce,最典型的是Halide)。可能值得一看。 </li></ol></li><li><a href="https://www.zhihu.com/question/383135317">如何看待 2020 年 3 月 28 日华为开源的深度学习框架 MindSpore | 知乎</a><br>地址:<a href="https://gitee.com/mindspore/mindspore">https://gitee.com/mindspore/mindspore</a><br>摘要:引用老师木的评价:Mindspore 带来了惊喜,在众所周知的难题上勇闯无人区,auto-parallel完成度很高,数据并行,模型并行和混合并行。好像我应该算在社区最多鼓吹这个概念,也比较早,但并没有发表论文,近些年Google Mesh-tensorflow, gpipe也都出了论文,之前MXNet团队的Wang Minjie也发过相关论文,斯坦福的FlexFlow等都曾讨论过相关思路,尽管有这些先行者,但完整的在框架内实现出来是非常不易的。Mindspore团队集合了大学教授,2012实验室编译、分布式系统方向造诣很深的架构师,最顶级的工程师团队,既谦逊又无畏,令人敬畏,只要是好的想法,都可以为我所用,如果一个问题很重要,还没有可模仿的先例,也一定不惜任何代价搞定,有人说Mindspore团队说“是一帮狠人”,可以说是非常高的评价了。Mindspore的代码不是那么美观,类似Google style,但细节上并没有严格执行,和Tensorflow一样不嫌麻烦的抽象,这种方式适合大规模协同研发,又一定程度上保证质量。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/X0YLUk90jPpo1mNyAUZhVw">GAN Compression:计算量减少20倍,生成效果不变,GPU、CPU统统能加速 | 量子位</a><br>文章:<a href="https://arxiv.org/abs/2003.08936">https://arxiv.org/abs/2003.08936</a><br>代码:<a href="https://github.com/mit-han-lab/gan-compression">https://github.com/mit-han-lab/gan-compression</a><br>摘要:来自MIT、Adobe研究院和上海交通大学的团队琢磨出了一个通用压缩框架。将CycleGAN的计算量减少了20倍以上,将GauGAN的计算量减少了9倍,简笔画到实物图的pix2pix也能驾驭,效果却未差分毫。<br>压缩GAN,并不像压缩其他CNN模型那样容易。主要原因:GAN的训练动力学高度不稳定,生成器与鉴别器之间存在巨大的结构差异,让我们很难使用现有的CNN压缩算法。为了解决这个问题,作者提出了针对有效生成模型量身定制的训练方案,并通过神经架构搜索(NAS)进一步提高压缩率。 </li><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/TaMSQulDR9zeFOX13qn0_g">IR-Net:信息保留的二值神经网络,落地性能和实用性俱佳 | 机器学习研究组</a><br>文章:<a href="https://arxiv.org/abs/1909.10788">https://arxiv.org/abs/1909.10788</a><br>代码:<a href="https://github.com/htqin/IR-Net">https://github.com/htqin/IR-Net</a><br>摘要:不同于以往二值神经网络大多关注量化误差方面,本文首次从统一信息的角度研究了二值网络的前向和后向传播过程,为网络二值化机制的研究提供了全新视角。<br>本文首次从信息流的角度研究了网络二值化,提出了一种新的信息保持网络(IR-Net):(1)在前向传播中引入了一种称为Libra参数二值化(Libra-PB)的平衡标准化量化方法,最大化量化参数的信息熵和最小化量化误差;(2) 在反向传播中采用误差衰减估计器(EDE)来计算梯度,保证训练开始时的充分更新和训练结束时的精确梯度。<br>IR-Net提供了一个全新的角度来理解二值神经网络是如何运行的,并且具有很好的通用性,可以在标准的网络训练流程中进行优化。作者使用CIFAR-10和ImageNet数据集上的图像分类任务来评估提出的IR-Net,同时借助开源二值化推理库daBNN进行了部署效率验证。<br>在ARM设备上进行了先进二值化算法效率验证,显示了IR-Net部署时的优异性能和极高的实用性,有助于解决工业界关注的神经网络二值化落地的核心问题。 </li><li>[CVPR2020] <a href="https://zhuanlan.zhihu.com/p/122557226">RegNet: Designing Network Design Spaces 的整体解读(一篇更比六篇强) | 知乎</a><br>文章:<a href="https://arxiv.org/pdf/2003.13678.pdf">https://arxiv.org/pdf/2003.13678.pdf</a><br>摘要:各种自媒体的PR标题就是:超越EfficientNet…,所以我这里转一篇知乎解读。<br>文章作者实验中发现的几个关于性能的打脸结论:<ol><li>无论模型多大,20个block的深度是最合适的。大网络越深越好是不对的;</li><li>bottleneck ratio设置成1是最好的;</li><li>width multiplier设置成2.5是最优质的。<br>剩下的初始网络宽度,group数量,宽度的增长斜率,这些随着模型增大而增加会是最佳选择。再就是,activation定义为所有conv层的输出张量的大小,flpos跟速度之间的关系明显没activations好。 </li></ol></li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><blockquote><p>注:每条内容前缀为github地址的仓库拥有者和仓库名<code><repo_owner>/<repo_name></code>。</p></blockquote><ul><li><a href="https://mp.weixin.qq.com/s/sFPSen3f9d1WvO0ggdyHMA">Google发布EfficientNet-Lite,有效提高视觉模型精度 | TensorFlow</a><br>地址:<a href="https://github.com/google/automl/tree/master/efficientdet">https://github.com/google/automl/tree/master/efficientdet</a><br>摘要:2019 年 5 月,Google 发布了一系列名为 EfficientNet 的图像分类模型,参数和算力消耗实现了最前沿 (SOTA) 的精度。这次的 EfficientNet-Lite (GitHub,TFHub)模型在 TensorFlow Lite 上已针对 CPU、GPU 和 EdgeTPU 进行性能优化,让边缘设备也能利用 EfficientNet 的强大性能,并提供五个不同版本,让用户能够按照自己的需求从低延迟/小模型 (EfficientNet-Lite0) 到高精度 (EfficientNet-Lite4) 之间进行灵活选择。<br>其中计算量最大的版本,纯整型量化(Integer-Only Quantized EfficientNet-Lite4) 的 EfficientNet-Lite4,在 ImageNet 上可达到 80.4% 的 Top-1 精度,同时可实时运行在 Pixel 4 CPU (30 毫秒/图像)上。<br>除了量化模型外,为了解决异构硬件问题,对原本的 EfficientNets 进行了如下改进: <ol><li>删除 Squeeze-and-Excitation 网络,因在这类设备上支持欠佳; </li><li>用 RELU6 替代所有 swish 激活函数,从而显著提升训练后量化的质量; </li><li>放大模型时固定住其 stem 与 head 模块,以减少缩放后模型的大小与计算量。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/W-cSWlw_qdEkwoEtC5wsPQ">PaddlePaddle/PaddleSeg: PaddleSeg图像分割库再添新武器,新增压缩部署方案FLOPs降低51% | 飞桨PaddlePaddle</a><br>摘要:在某些场景中,语义分割模型在实际部署时,可能会由于耗时、体积等多方面因素导致模型无法满足要求。此时模型压缩通常是解决内存占用和速度问题的有效手段。PaddleSlim为PaddleSeg提供了多种分割模型的压缩方案,以L1 Pruning裁剪方案为例,该方案通过裁剪掉卷积核来减小模型体积并降低模型计算复杂度。 </li><li><a href="https://github.com/sunShuShu/ValgrindHelperForAndroid">sunShuShu/ValgrindHelperForAndroid: A easy way to use valgrind on Android device.</a><br>摘要:现在有很多安卓应用因为性能或安全方面原因,会通过JNI调用原生代码。排查原生的C、C++代码时可以使用Valgrind。Valgrind工具包括Memcheck(用于检测C和C++中与内存相关的错误)、Cachegrind(缓存分析器)、Massif(堆分析器)和其他几种工具。Valgrind在Linux开发中应用广泛,但在安卓开发中用起来比较麻烦,官方文档和网上的资料也比较少。这就是这个工具诞生的原因。 </li><li><a href="https://github.com/jpinedaa/Voice-ML">jpinedaa/Voice-ML: MobileNet trained with VoxCeleb dataset and used for voice verification</a><br>摘要:Model Training folder contains code for processing and training of tensorflow model. App folder contains android app that uses converted tensorflow model for verification. </li><li><a href="https://github.com/xiangweizeng/mobile-lpr">xiangweizeng/mobile-lpr: Mobile-LPR 是一个面向移动端的准商业级车牌识别库</a><br>摘要:以NCNN作为推理后端,使用DNN作为算法核心,支持多种车牌检测算法,支持车牌识别和车牌颜色识别。特点如下: <ol><li>超轻量,核心库只依赖NCNN,并且对模型量化进行支持; </li><li>多检测,支持SSD,MTCNN,LFFD等目标检测算法; </li><li>精度高,LFFD目标检测在CCPD检测AP达到98.9,车牌识别达到99.95%, 综合识别率超过99%; </li><li>易使用,只需要10行代码即可完成车牌识别; </li><li>易扩展,可快速扩展各类检测算法。 </li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/2rEM7T5WiaS8ft4WLYCNsg">在Arduino上基于TFLite使用机器学习 | TensorFlow</a><br>摘要:Arduino 是一个专注于让每个人都能使用微控制器进行应用开发的开源平台和社区。本教程中使用的开发板配置为运行频率 64 MHz,1MB 闪存和 256 KB RAM 的 Arm Cortex-M4 微控制器。本文先讲了如何在 Arduino 开发板上安装一个神经网络,并识别简单语音指令。之后,作者将会在 Colab 中使用 TensorFlow 为 Arduino 训练自定义手势识别的模型。 </li><li><a href="https://zhuanlan.zhihu.com/p/117269565">如何欣赏一个深度学习框架 | 知乎</a><br>摘要:深度学习框架发展到今天,有些功能已经变成常规需求了,譬如易用,高效,完备(算子、模型、配套工具链、文档、案例),一个新的框架在这些方面应该没有明显的短板。一个后出现的框架要追求成功,仅仅没有短板还不够,还必须有长板,独门功法,有超越于其它框架的地方,或者其它框架根本做不到,或者很难做到,只有这样,才有可能先从细分市场切开一个小口,进而站稳脚本。 </li><li><a href="https://mp.weixin.qq.com/s/lfT2xuWfA6MYY3n7l_zz0A">深度学习框架的灵魂 | 知乎</a><br>摘要:2020年是中国深度学习框架年,清华Jittor,旷视MegEngine,华为Mindspore已经接连在3月份开源,一流科技的Oneflow也在为开源做着紧锣密鼓的准备。绝大多数人认为深度学习框架已陷入思路枯竭,没有什么花样可做了,但创新势不可挡,总还是有新的思路出现。框架已进入疯狂弥补自身短板的白热化竞争,同时,有杀手锏创新的话,有可能一剑封喉。国内研发的框架虽然个性还不够强,但已经实现了局部突破,未来可期。 </li><li><a href="https://mp.weixin.qq.com/s/fiUUkT7hyJwXmAGQ1kMcqQ">微信「扫一扫识物」 的背后技术揭秘 | 腾讯技术工程</a><br>摘要:上一期简报,分享了《揭秘微信「扫一扫」识物为什么这么快》这篇文章,本文作为上一篇的前传。<br>微信扫码已经深入人心,从识别特定编码形态的图片(二维码/小程序码/条形码/扫翻译),到精准识别自然场景中商品图片(鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他商品),有哪些难点需要去克服? 扫物以图片(视频)作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行展示, 会催生哪些新的落地场景?本文将细细道来。 </li><li><a href="https://zhuanlan.zhihu.com/p/113338890">详细记录超轻量中文OCR LSTM模型ncnn实现 | 知乎</a><br>摘要:前阵子ouyanghuiyu的OCR一条龙项目用到了LSTM,效果不错。本文作者用作实验模型把LSTM搞出来提升识别准确性,一方面算是填上ncnn LSTM的坑。ncnn没有batch维度,跑LSTM模型需要一些特殊手法,作者把LSTM和OCR在ncnn上的实现过程写出来,作为参考。 </li><li><a href="https://mp.weixin.qq.com/s/y7Iax6jb4Go7g-0gh9JHGw">通过vmstat学习CPU和进程性能监控 | 人人都是极客</a><br>摘要:性能监控和优化是一个庞大而又严谨的体系,要深入研究只能通过原理、实现和工具三方面结合,本文只是管中窥豹学习了CPU调度和进程管理,希望对大家的运维工作有所帮助。虽然文中以Linux Server端为例,但是也同样适用于Android和ARM Linux。 </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center"><a href="../embedded-ai-report/2020-04-04.md">2020-04-04</a></td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>WeChat: NeuralTalk </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-03-19@Bi-weekly</title>
<link href="/2020/03/19/bi-weekly/2020-03-19/"/>
<url>/2020/03/19/bi-weekly/2020-03-19/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-03-19"><a href="#嵌入式AI简报-2020-03-19" class="headerlink" title="嵌入式AI简报 (2020-03-19)"></a>嵌入式AI简报 (2020-03-19)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:距离我们比较近的,国内疫情形势已经收敛,坐等3月底旷视框架开源,<a href="https://mp.weixin.qq.com/s/lvKYhLx8Sgz_88IQIDOP6g">华为云发布了旗下的2020“新旗舰”——鲲鹏云手机</a>;距离我们比较远的,国外疫情在大爆发,<a href="https://mp.weixin.qq.com/s/a0EVvemSfoxPk-uox4Dxpw">图像传感器自带神经网络登上Nature,40纳秒完成图像分类</a>,<a href="https://mp.weixin.qq.com/s/d5NidRFw6-lXnW---Qe9Tw">乔治亚理工大学用RISC-V指令集体系结构(Vortex)打造OpenCL兼容 GPGPU,即将开源</a>。<br>近期英国AI芯片创企Graphcore和美国AI芯片创企SambaNova都已顺利完成了新一轮分别为1.5亿和2.5亿美元的融资,据悉在微软和Cirrascale的云计算产品,以及戴尔的DSS8440 IPU服务器中,都已经配置了Graphcore的IPU芯片。<br>本次内容20条,「业界新闻」苹果的A14、华为、联发科、紫光展锐的新Soc值得默认关注,谷歌开源移动端3D目标检测demo,「论文」有来自<a href="https://proceedings.mlsys.org/book/2020">MLsys2020</a>的一篇关于CPU上训练速度比GPU快的,<a href="https://proceedings.mlsys.org/book/2020">MLsys2020</a>第一篇是MNN可以抽空看看,二值网络综述作者也做了很详尽的对比,前几期就有BERT压缩,这次特修斯之船的思想做BERT压缩。「开源」仅17M的超轻量中文OCR模型,静默人脸活体算法;「博文」部分第一篇微信扫一扫的轻量网络设计最佳实践、NCNN的BF16加速都值得一读。</p></blockquote><p>文末,这篇《对不起,因为之前的代码写的烂,所以我也只能继续烂》,送给大家。</p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/wCD_k3iTVm8E01AGzjDgug">苹果5纳米A14主频高达3.1GHz,单核跑分远高于安卓最强芯 | EETOP</a><br>摘要:目前有关苹果iPhone 12的爆料逐渐增多,近日有博主晒出疑似苹果A14芯片的Beta 1版Geekbench5跑分。<br>苹果A14处理器Beta 1版Geekbench5的单核跑分为1658,多核跑分为4612,主频高达3.1GHz。作为对比的是,现在的A13处理器同一基准下的单核是1330分,多核3435分,也远超安卓目前最强芯片高通骁龙865的单核901,多核3315。 </li><li><a href="https://mp.weixin.qq.com/s/F0uSzHSYVY8zgQusH2QBsA">华为全新旗舰SoC曝光:9月发布 | 安兔兔</a><br>摘要:处理器芯片流片(Tape Out)分为流片前验证和流片后验证,去年9月份时候@手机晶片达人已经表示,5nm的海思处理器已经正式流片,所以应该是流片完成后准备上开发板验证功能是否符合设计预期,然后再进入工程机测试阶段。<br>目前关于麒麟下一代旗舰处理器的正式命名暂时不得而知,有消息称它会命名为麒麟1020,也有消息称会命名为麒麟1000。<br>按照惯例,华为每一年的9月份会举行新一代麒麟旗舰处理器的发布会,然后再由Mate系列首发。因此不出意外的话,Mate 40系列将成为首批搭载5nm制程工艺处理器的机型,华为由于先发优势将会领先对手,值得期待。 </li><li><a href="https://mp.weixin.qq.com/s/_fkYP2SfjWqJI3qguhOStg">联发科发布Helio P95 SoC:搭载PowerVR GM 9446 | Imagination Tech</a><br>摘要:2月27日消息,联发科在官网低调上线了Helio P95的页面,从命名规则上,也能看出这颗SoC是基于Helio P90的迭代升级。联发科称这颗芯片加入了新一代AI处理器单元(APU 2.0)。<br>Helio P90还是一个4G SoC,不支持5G网络。支持Wi-Fi 5 /蓝牙5.0、Cat 12下行/ Cat 13上行速率、4x4 MIMO。<br>CPU方面,Helio P95采用了2×Cortex A75(2.2GHz)+6× Cortex A55(2.0GHz)的“2大核6小核”组合。<br>GPU 方面,该SoC集成Imagination PowerVR GM9446,支持2520×1080分辨率,联发科称GPU基准测试分数上比上一代提高了10%,算是小有提升。 </li><li><a href="https://mp.weixin.qq.com/s/RLXNwCh9OB-4Tz5TfB17bQ">6nm EUV紫光展锐推出全新5G SoCT7520 | 安兔兔</a><br>摘要:全球领先的移动通信及物联网核心芯片供应商紫光展锐上个月宣布了一系列重磅产品的发布,包括搭载紫光展锐5G芯片的多款商用5G终端:联通5GCPE和海信首款5G手机F50,以及全新5G SoC移动平台—虎贲T7520。<br>全新5G SoC移动平台T7520重磅发布。T7520集成大算力、高能效NPU, 以典型的ResNet/MobileNet等模型为例,对比友商旗舰,T7520 在能效比(FPS/w)上保持了2倍左右的优势。 </li><li><a href="https://mp.weixin.qq.com/s/wwGxnq9aNJnkuUMsWKHpPA">全志科技与Arm中国强势联合,推出首款AI语音专用芯R329 | 全志科技</a><br>摘要:全志科技于近期正式发布主打AI语音专用的重磅产品R329,这是全志科技首款搭载Arm中国全新AI处理单元(AIPU)的高算力、低功耗AI语音专用芯片。通过集成高性能的AIPU、DSP、CPU,将为智能音箱、智能家居带来崭新的AI交互体验。<br>全志科技R329搭载了Arm中国“周易”AIPU,提供最高达0.256TOPS的运算能力,周易AIPU作为AI专核,其理论AI算力是单核A7 1.2GHz的25倍,也是单核HIFI4 600MHz的25倍。此外,它采用2个主频高达1.5GHz 的Arm Cortex-A53,为智能语音产品应用提供更充足的系统算力基础。 </li><li><a href="https://mp.weixin.qq.com/s/Bus80NU_Y74Hvb47lJ7c0A">谷歌开源移动端实时3D目标检测,安卓下载就能用 | 磐创AI</a><br>摘要:谷歌推出 MediaPipe Objectron,这是一种适用于日常物体的移动端实时 3D 目标检测 pipeline,它能够检测 2D 图像中的目标,并通过新创建 3D 数据集上训练的机器学习模型来估计这些目标的姿态和大小。<br>具体而言,MediaPipe 是一个用于构建 pipeline 进而处理不同模态感知数据的跨平台开源框架,Objectron 则在 MediaPipe 中实现,其能够在移动设备上实时计算目标的定向 3D 边界框。<br>MediaPipe 是谷歌去年 7 月份发布的一个多媒体框架,它在安卓、IOS 网页等各种平台上都能应用机器学习媒体模型。近日MediaPipe 发布 0.7 版,并加入了移动端试试 3D 检测模型。目前 MediaPipe 包含人脸检测、手部检测、头发分割和视频自动横竖屏转换等功能。<br>框架:<a href="https://github.com/google/mediapipe/">https://github.com/google/mediapipe/</a><br>项目:<a href="https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md">https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md</a> </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/111344855">SLIDE:在CPU上利用sparsity加速训练 | 知乎</a><br>标题:SLIDE : In Defense of Smart Algorithms over Hardware Acceleration for Large-Scale Deep Learning Systems<br>链接:<a href="https://proceedings.mlsys.org/static/paper_files/mlsys/2020/105-Paper.pdf">https://proceedings.mlsys.org/static/paper_files/mlsys/2020/105-Paper.pdf</a><br>摘要:SLIDE这个paper讲的是如何在CPU上面提速,在训练一个模型时,每次更新gradient的时候,不需要看所有的neuron,只要看activation高的就可以了。但是之前利用sparsity的算法都没有算法优化,即使值设成0了也还是得做矩阵运算。这个paper会利用LSH + lookup table来加速算法。 </li><li><a href="https://mp.weixin.qq.com/s/QGva6fow9tad_daZ_G2p0Q">二值神经网络(Binary Neural Networks)最新综述 | PaperWeekly</a><br>标题:Binary Neural Networks: A Survey<br>链接:<a href="https://www.sciencedirect.com/science/article/abs/pii/S0031320320300856">https://www.sciencedirect.com/science/article/abs/pii/S0031320320300856</a><br>摘要:在本文中,作者对二值网络方法进行了全面的总结和概括,主要分为直接量化的朴素二值化方法,以及使用最小化量化误差、改善网络损失函数和减小梯度误差等技术的改进二值化方法。<br>作者还调研了二值神经网络的其他实用方面,例如硬件友好的设计和训练技巧。然后对图像分类,目标检测和语义分割等不同任务进行了评估和讨论。最后,展望了未来研究可能面临的挑战。 </li><li>[CVPR2020] <a href="https://mp.weixin.qq.com/s/GlMANqpEiiDVgilb7fou2w">CARS: 华为基于进化算法和权值共享的神经网络结构搜索,CIFAR-10上仅需单卡半天 | 智东西</a><br>标题:CARS: Continuous Evolution for Efficient Neural Architecture Search<br>链接:<a href="https://arxiv.org/abs/1909.04977">https://arxiv.org/abs/1909.04977</a><br>摘要:现如今进化算法、梯度、强化学习都可以做结构搜索,有研究表明进化算法能比强化学习搜索到更好模型,但搜索耗时较多,主要在于对个体的训练验证环节费事。但可借鉴ENSA的权重共享策略进行验证加速,但如果直接应用于进化算法,超网会受到较差的搜索结构的影响,因此需要修改目前神经网络搜索算法中用到的进化算法。<br>为了最大化上一次进化过程学习到的知识的价值,作者提出了连续进化结构搜索方法(continuous evolution architecture search, CARS):<br>首先初始化一个有大量cells和blocks的超网(supernet),超网通过几个基准操作(交叉、变异等)产生进化算法中的个体(子网),使用Non-dominated 排序策略来选取几个不同大小和准确率的优秀模型,然后训练子网并更新子网对应的超网中的cells,在下一轮的进化过程会继续基于更新后的超网以及non-dominated排序的解集进行。<br>另外,论文提出一个保护机制来避免小模型陷阱问题。额外添加考虑准确率的增长速度的non-dominated排序,最后结合两种排序进行选择。这样,准确率增长较慢的大模型也能得到保留。 </li><li><a href="https://mp.weixin.qq.com/s/HdG3_CaSdZP3lCp8J_VRQA">BERT压缩之特修斯之船: 以渐进式的模块替换压缩BERT | 机器之心</a><br>标题:BERT-of-Theseus: Compressing BERT by Progressive Module Replacing<br>链接:<a href="https://arxiv.org/abs/2002.02925">https://arxiv.org/abs/2002.02925</a><br>摘要:作者提出了一种新型模型压缩方法,能够通过逐步模块替换,有效地压缩 BERT。首先,将原版 BERT 分割成多个模块,并构建更加紧凑的替代模块;然后,用替代模块随机替换原始模块,训练替代模块来模仿原始模块的行为。在训练过程中,研究者逐步增加模块的替换概率,从而实现原始模型与紧凑模型之间的更深层次交互,使得训练过程流畅进行。<br>与显式地利用蒸馏损失函数来最小化教师模型与学生模型距离的 KD 不同,该研究提出一种新型模型压缩方法。研究者受到著名哲学思想实验「特修斯之船」的启发(如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),提出了 Theseus Compression for BERT (BERT-of-Theseus),该方法逐步将 BERT 的原始模块替换成参数更少的替代模块。研究者将原始模型叫做「前辈」(predecessor),将压缩后的模型叫做「接替者」(successor),分别对应 KD 中的教师和学生。<br>推荐:与之前用于 BERT 压缩的知识蒸馏方法相比,该方法仅利用一个损失函数和一个超参数,将开发者从调参这一繁琐过程中解放出来。该方法在 GLUE 基准上的性能优于现有的知识蒸馏方法,为模型压缩开启了新方向。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/DJYrsobPWVod9nho4GKcdg">ouyanghuiyu/chineseocr_lite:实测超轻量中文OCR开源项目,总模型仅17M</a><br>地址:<a href="https://github.com/ouyanghuiyu/chineseocr_lite">https://github.com/ouyanghuiyu/chineseocr_lite</a><br>摘要:目前比较常用的中文 OCR 开源项目是 chineseocr,但它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别,目前该项目已经有 2.5K 的 Star 量。而本文介绍文 OCR 项目,基于 chineseocr 改进,是一个超轻量级的中文字符识别项目。<br>该 chineseocr_lite 项目表示,相比 chineseocr,它采用了轻量级的主干网络 PSENet,轻量级的 CRNN 模型和行文本方向分类网络 AngleNet。尽管要实现多种能力,但 chineseocr_lite 总体模型只有 17M。目前 chineseocr_lite 支持任意方向文字检测,在识别时会自动判断行文本方向。 </li><li><a href="https://github.com/zeusees/HyperFAS">zeusees/HyperFAS: HyperFAS 基于深度学习人脸静默活体算法</a><br>地址:<a href="https://github.com/zeusees/HyperFAS">https://github.com/zeusees/HyperFAS</a><br>摘要:人脸活体验证是人脸识别过程中重要的一环,主要用以区分真实人脸与假脸图像,能够识别通过纸张打印、屏幕翻拍、3D模型等场景的欺骗行为。<br>本项目作者在算法设计阶段,尝试了不同的方法,包括SVM、LBP、深度学习等,针对单一场景或者摄像头,能够得到不错的效果,但是没有得到一个能够适配多种摄像头的活体算法,作者将训练的其中一个模型开放出来,逆光等情况下效果不是很好,大家可以作为参考。 </li><li><a href="https://github.com/ShiqiYu/libfacedetection">ShiqiYu/libfacedetection: 极速人脸检测库libfacedetection升级v3版,新增五点检测</a><br>地址:<a href="https://github.com/ShiqiYu/libfacedetection">https://github.com/ShiqiYu/libfacedetection</a><br>摘要:在众多人脸检测开源库中,南方科技大学于仕琪老师组开源的libfacedetection向来以CPU下极速而著称,又因为其使用BSD协议故可商用,一直在开发者社区拥有极高的关注量,目前Github仓库已有 8K 颗星。该库悄然发布了v3版,新增功能就一个:人脸五点检测,这在很多人脸识别应用中是必须的。作者称计算代价几乎无增。 </li><li><a href="https://github.com/fossfreedom/indicator-sysmonitor">fossfreedom/indicator-sysmonitor: Ubuntu系统参数显示工具-indicator-sysmonitor</a><br>地址:<a href="https://github.com/fossfreedom/indicator-sysmonitor">https://github.com/fossfreedom/indicator-sysmonitor</a><br>摘要:indicator-sysmonitor是Ubuntu下的系统参数显示的桌面开源小工具, 可以在桌面显示cpu 温度,内存,网速, cpu使用率, 网络 IP ,以及 网络连接状态。支持Unity, Xubuntu, Gnome-Shell Linux桌面,遵从GPL开源协议。 </li><li><a href="https://github.com/google/trax">google/trax: Trax — your path to advanced deep learning</a><br>地址:<a href="https://github.com/google/trax">https://github.com/google/trax</a><br>摘要:Trax code is structured in a way that allows you to understand deep learning from scratch. We start with basic maths and go through layers, models, supervised and reinforcement learning. We get to advanced deep learning results, including recent papers such as Reformer - The Efficient Transformer, selected for oral presentation at ICLR 2020. </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/EBCcBWob_iFa51-gOVPYQA">揭秘微信「扫一扫」识物的轻量网络设计的最佳实践 | 腾讯技术工程</a><br>摘要:改了下文章标题。微信“扫一扫”识物已上线一段时间,相比于行内相关竞品的“拍”,“扫一扫”识物的特点在于“扫”,带来更为便捷的用户体验。“扫”离不开高效的移动端物体检测,本文将从模型设计选型到最终落地,为你揭秘。 </li><li><a href="https://mp.weixin.qq.com/s/fijBUHKtu2XHuk1AWrGBKA">网红直播时的瘦脸、磨皮等美颜功能是如何实现的 | AI科技大本营</a><br>摘要:美颜的目的就是要让人看起来更美,包括皮肤细腻、白皙、光滑,脸部各个器官及脸型可以进行细致的调整,通过美妆调节可以达到快速上妆的效果,最终吸引用户提升平台收入。<br>本文从技术角度,讲解四个关键步骤的实现。最终,性能方面,在iphone6p等中低端机型上,可实现720p 24fps 实时人脸美颜;效果方面,通过对皮肤的处理,可使人脸皮肤达到白皙细腻的效果,同时主播可按照自己的喜好对脸部的任意器官进行调整。 </li><li><a href="https://zhuanlan.zhihu.com/p/112564372">用bf16加速ncnn | 知乎</a><br>摘要:简单来说,就是把float后面16bit直接砍掉,牺牲掉有效位数。同样表示一个数,bf16所用的内存空间比fp32少一半。手机cpu的cache才多大,少一半可不得了啊!即使fp32运算需要移位转换,仍然能从更少的读和更高的cache命中率得到收益。@圈圈虫:这个bf16和fp16不同。bf16支持早期的armv7a和armv8.1的CPU的,并不是GPU上的fp16。就是什么Cortex-A7/A9/A15/A17/A53/A72/A73都能带来15%-30%的速度提升的。 </li><li><a href="https://mp.weixin.qq.com/s/97W4BUTO_Ah7oAap6fdFjg">飞桨自动混合精度技术详解:一行代码让训练速度提升2倍 | 机器之心</a><br>摘要:飞桨 AMP (Automatic Mixed Precision) 技术,仅通过一行代码即可帮助用户将单精度训练的模型改为自动混合精度训练。同时通过黑白名单和动态 Loss Scaling 来保证训练的稳定性,避免出现 INF 或者 NAN 问题。飞桨 AMP 可以充分发挥新一代 NVIDIA GPU 中 Tensor Core 的计算性能优势,ResNet50、Transformer 等模型的训练速度与单精度训练相比可以提升到 1.5~2.9 倍。 </li><li><a href="https://mp.weixin.qq.com/s/ZqjZVuPW4HQvAULMX7iu9g">对不起,因为之前的代码写的烂,所以我也只能继续烂 | 头哥侃码</a><br>摘要:这是一个管理问题,不仅仅是开发人员的问题。很多时候,工期非常紧张,没有那么多时间,不是开发人员想重构就重构的。如果给了时间,那再写垃圾代码 就真的是自己水平不够了。但是很多时候都是不给时间的。一个小需求,假如涉及10个接口,是在原来基础上改动,领导觉得这个事情一天就可以搞完。开发忙得水都来不及喝,才能写完,难道通宵重构吗?而且通宵重构也未必完的成。一旦完不成领导又说,代码应以业务实现为先。啥理由都让领导占了?而且为什么要让员工自己通宵去重构。员工自己可以有技术追求,私下里在自己的项目里 可以写很好的代码,但是没有时间的情况下,不改公司的垃圾代码,也无可厚非,主要是时间要给,给了时间一切都好说,否则光说员工不改前任的垃圾代码,没有意义。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center">-</td><td align="center"><a href="../embedded-ai-report/2020-03-19.md">2020-03-19</a></td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>Wechat ID: NeuroMem </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-03-02@Bi-weekly</title>
<link href="/2020/03/02/bi-weekly/2020-03-02/"/>
<url>/2020/03/02/bi-weekly/2020-03-02/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-03-02"><a href="#嵌入式AI简报-2020-03-02" class="headerlink" title="嵌入式AI简报 (2020-03-02)"></a>嵌入式AI简报 (2020-03-02)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次内容20条。「业界新闻」Face++即将开源自己的深度学习框架,国产5G SoC新星虎贲T7520都值得关注,两家国外AI芯片边缘端创业公司,多多少少都与Cortex-M系列有关。压缩剪枝相关的「论文」有两篇,其中一篇采取无训练的剪枝非常有创意,还有篇「博文」讲的压缩实战很有意思,「博文」部分的《春秋到战国—论Nervana的倒掉》写的非常精彩,《使用自动代码生成技术TVM优化深度学习算子的一些思考》作者也结合自身经历写了一些体会!<br>最近,<a href="https://mp.weixin.qq.com/s/IEPducW5U-hhHQD1omTcvw">寒武纪计划A股上市、旷视港股IPO失效(上市进程仍在正常推进中,正在更新材料)</a>。疫情这边,上个月说到安防系「最热」AI测温产业,这次,作为国产CPU的代表,<a href="https://mp.weixin.qq.com/s/jVtdYC7LH7WjaOi5sqr_kg">龙芯也在捐款200万后,再捐赠20台基于龙芯CPU的医疗自助终端抗击疫情</a>,希望疫情尽快结束,不会有世界范围的爆发。</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/Eq8L-NuESY1uIqUO2Qxcew">旷视深度学习框架MegEngine:三月底即将开源 | 机器之心</a><br>摘要:来自旷视 Brain++的 核心深度学习框架即将于 3 月底开源。旷视将通过开源和开放的形式将其强大的算力、各类 SOTA 模型和框架资源赋能给所有开发者和高校师生使用。根据旷视内部研发人员介绍,MegEngine 的架构先进且支持训练推理一体化,开发者可以利用最新的技术、最合理的 API、最好用的展现方式实现自己的构想,在性能、易用性等方面都有独到的特点。<br>在运算速度上,旷视 MegEngine 具备高性能计算核心,动态静态结合的内存优化机制运算速度更快,且占用更少的内存资源;其次在易用性上,MegEngine 封装了平台细节,且接口兼容 PyTorch,新人用户可快速上手;最后,MegEngine 还支持多种硬件平台和异构计算,整个框架既可用于训练又同时支持推理,实现模型一次训练,多设备部署,能够免除了不必要的转换流程导致的性能下降和精度损失。<br>除以上性能,MegEngine 据称也为 IoT 和视觉任务进行了特别的优化,广泛支持各种芯片。通过领先的量化计算支持,其可以通过统一量化模型来支持多种设备,同时支持低于 8bit 的网络推理。 </li><li><a href="https://www.zhihu.com/question/306496943">如何评价谷歌开源的 TensorFlow 简化库 JAX | 知乎</a><br>摘要:@袁进辉:如果说tensorflow 是主打lazy, 偏functional 的思想,但实现的臃肿面目可憎;pytorch 则主打eager, 偏imperative 编程,但内核简单,可视为支持gpu的numpy, 加上一个autograd。JAX 像是这俩框架的混合体,取了tensorflow的functional和PyTorch的精简,即支持gpu的 numpy, 具有autograd功能,非常追求函数式编程的思想,强调无状态,immutable,加上JIT修饰符后就是lazy,可以使用xla对计算流程进行静态分析和优化。当然JAX不带jit也可像pytorch那种命令式编程和eager执行。JAX有可能和PyTorch竞争。 </li><li><a href="https://mp.weixin.qq.com/s/t4QvLxLGsEj7eyXuTJUQnA">高通骁龙865 Plus确定,暂定今年Q3上市 | 安兔兔</a><br>摘要:去年7月,高通正式发布骁龙855 Plus SoC,作为骁龙855的升级版,用于下半年的旗舰手机。<br>日前,据博主@数码闲聊站消息,骁龙865 Plus版本确定,暂定今年Q3上市,大概过两个月会有工程机参数。<br>他还透露,小米下半年将采用这颗升级版的旗舰SoC。<br>按照此前的升级可以猜测,骁龙865 Plus预计是以骁龙865做出升级,其中CPU频率或会提升至2.96GHz(骁龙865为2.84GHz),GPU也会有所提升。 </li><li><a href="https://mp.weixin.qq.com/s/j-BrtXGPXHxZGXQvQby1oA">国产5G SoC新星虎贲T7520驾到 | 电脑爱好者</a><br>摘要:紫光展锐推出了旗下首款5G SoC——虎贲T7520,采用了和麒麟990 5G一样的SoC单芯片设计,在一颗芯片内整合了包括CPU、GPU、ISP、NPU和基带等单元。<br>和我们熟悉的其他5G SoC相比,虽不能指望虎贲T7520一上来就能跟骁龙865、麒麟990、Exyno 990和天玑1000这种定位顶级的前辈比拼,它的实际定位属于中端偏主流,也就是和骁龙765、Exyno 980、天玑800等5G SoC掰一掰手腕。<br>虽然工艺最先进,但虎贲T7520的架构就稍显落伍了。它的CPU架构选用了ARM在2018年主推的Cortex-A76,由4颗Cortex-A76+4颗Cortex-A55构成,但主频未公布。虎贲T7520的GPU架构选用的是4个计算核心的Mali-G57MP4,这是ARM在2019年10月底最新发布的GPU IP,它虽然隶属Mali-G5系,但却采用了和最新Mali-G77相同的Valhall架构。 </li><li><a href="https://mp.weixin.qq.com/s/SJtoDkzEdmHC9q2S59Qj_Q">AI芯片初创公司Eta Compute首款量产的边缘AI芯片ECM3532:仅100µW的功率可实现在线图像处理 | 芯东西</a><br>摘要:AI芯片初创公司Eta Compute推出首款量产的边缘AI芯片ECM3532,以仅100µW的功率可实现物联网中的在线图像处理和传感器应用,号称能效是其竞品的100-1000倍。<br>ECM3532为双核(Arm Cortex-M3和NXP CoolFlux DSP)SoC,可支持用于电池供电或能源采集设计的微瓦级传感器融合应用。超低功耗的一个关键因素是混合多核架构,基于Arm Cortex-M3 MCU内核和NXP CoolFlex DSP内核的组合。它们可以在不同的电压和频率下运行,以最大程度地减少能耗。工作负载可通过软件在内核之间分配。此外,也针对性地对特定应用的神经网络优化,相比标准TensorFlow框架的设计,它可将电源效率提高一个数量级。ECM3532的样品现已上市,预计将于2020年第二季度开始量产。 </li><li><a href="https://mp.weixin.qq.com/s/tjp6ftgIeNDtEVcKfY1gog">英国半导体设计公司XMOS:推出1美元边缘处理AI芯片xcore.ai | 智东西</a><br>摘要:xcore.ai芯片配有400Gb/s带宽的1MB内存、16个逻辑内核,支持标量、浮点和矢量指令运算,多达128个低延迟、可互连的软件可编程I/O引脚、集成式USB 2.0 PHY和MIPI接口,可用于摄像机、ToF传感器、雷达芯片之间的跨设备数据收集和处理。另外,xcore.ai还具有用于加密功能的高性能指令集。<br>xcore.ai可用C语言编程,配有机器学习库,支持FreeRTOS(FreeRTOS是已被移植到35个微控制器平台上的嵌入式设备实时操作系统)。<br>xcore.ai拥有一个TensorFlow转换器,并针对低功耗设备进行了优化,可实现AI模型的原型设计、部署。<br>XMOS声称,与Arm用于低成本、高能效微控制器的32位RISC处理器内核相比,xcore.ai的整体AI性能提高了32倍,I/O处理性能提高了16倍,信号处理性能提高了15倍。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[CVPR 2020] <a href="https://mp.weixin.qq.com/s/PgIKbWXljOf4r5WGChONmg">GhostNet:线性变换生成特征图,准确率超MobileNetv3 | 华为诺亚、北大</a><br>文章:<a href="https://arxiv.org/abs/1911.11907">https://arxiv.org/abs/1911.11907</a><br>代码:<a href="https://github.com/huawei-noah/ghostnet">https://github.com/huawei-noah/ghostnet</a><br>摘要:本篇仍旧是针对嵌入式设备的小网络。一般来说,CNNs中特征图的冗余性是保证精度的关键,但网络冗余性却鲜有研究。作者提出通过减少诸如CNNs中的卷积核数量等来减少所需的资源需求。说通俗点,就是某一层featuremap的某个个通道可以通过对另一个通道的特征图做简单变换,来近似得到。这些相似的特征映射对,就类似彼此的虚像,作者用Ghost表示,十分形象。<br>作者引入的Ghost模块,旨在通过更少的参数生成更多更丰富的特征。具体来说,Ghost模块将传统的卷积层划分为两部分。第一部分:数量会受到严格的限制的常规卷积,将第一部分得到的特征图作为固有卷积,应用一系列的线性变换生成更多特征图。在不改变输出特征图尺寸的情况下,与普通卷积神经网络相比,Ghost模块的参数总需求和计算复杂度都有所降低。GhostNet就是在Ghost模块的基础上建立的。<br>作者首先在基准神经架构中替换原有的卷积层来证明Ghost模块的有效性,然后在多个数据集上验证GhostNets的性能。实验结果表明,所提出的Ghost模块在保持相似的识别性能的同时,能够有效降低计算成本,并且GhostNets精度超越目前最先进的MobileNetV3,适用于移动计算。 </li><li>[MLsys] <a href="https://mp.weixin.qq.com/s/dc2KJENJuwOJE6Mg8sfvTA">Federated Optimization in Heterogeneous Networks</a><br>地址:<a href="https://arxiv.org/pdf/1812.06127.pdf">https://arxiv.org/pdf/1812.06127.pdf</a><br>摘要:在这篇文章中,作者提出了 FedProx–一个解决联邦学习固有的系统和统计异质性问题的优化框架。FedProx 允许在设备之间局部地执行可变量的工作,并且依赖一个修正项来确保方法的稳定性。作者对一组联邦数据集的实证评估验证了其理论分析,并证明了 FedProx 框架可以显著改善现实异质网络中联邦学习的收敛行为。 </li><li>[AAAI 2020] <a href="https://mp.weixin.qq.com/s/FQ_r40qDUcAM4UG-xrPS9Q">基于可解释性通道选择的动态网络剪枝方法 | 蚂蚁金服</a><br>标题:Dynamic Network Pruning with Interpretable Layerwise Channel Selection<br>摘要:动态剪枝网络可以通过根据不同的输入动态决定推理路径,实现实时线上加速目的。作者提出通过显示建模离散权重通道决策来实现动态剪枝算法。具体来说,针对每一计算层(如CNN的卷积层),附属一个决策单元,用以输出对应于一组有限通道选择掩码的概率分布。该分布决定了哪一组通道选择掩码用了提取权重,进行实际上的运算过程。在实验中我们发现该方法可以提供明确且可理解的动态模型决策过程。针对不同输入,模型各层决策单元产生的决策特征与输入类别语义高度相关。<br>同时还发现正常样本和对抗样本在动态网络中有着明显不同的决策路径。基于此也提出一种高效的对抗样本检测方法。实验表明动态剪枝网络不仅可以减少模型实时计算量,提高模型预测准确性,还可以有效防御对抗样本攻击,构建更为鲁棒的模型。 </li><li>[AAAI 2020] <a href="https://mp.weixin.qq.com/s/FQ_r40qDUcAM4UG-xrPS9Q">无训练过程的网络剪枝技术 | 蚂蚁金服</a><br>标题:Pruning from Scratch<br>摘要:我在这里改了下标题,原文标题有点问题,一般来说,网络剪枝的传统方法遵循固定流程:先训练冗余的大网络,之后用各种剪枝策略将次要权重通道删除,最后再微调提升性能。 </li></ul><p><strong>作者研究发现,无需利用预训练及冗余参数即可得到有效的压缩网络结构,完全可从随机初始化权重即可得到剪枝结构。而且,直接从随机初始化权重即可以剪枝得到更多样且最终性能更好的剪枝结构</strong> </p><ul><li>[AAAI 2020]<a href="https://mp.weixin.qq.com/s/WL87b7SdW00sH05TJZwwtg">基于长短期老师的样本蒸馏方法 | 蚂蚁金服</a><br>标题:Long Short-Term Sample Distillation<br>摘要:作者提出了Long Short-Term Sample Distillation(LSTSD)方法来从两方面提升深度神经网络的效果。<br>一方面,LSTSD将历史训练过程的信息分为两部分:长期信号和短期信号。长期信号来自于n(n>1)训练周期之前,并在较长的一段时间内保持稳定,从而保证学生模型和老师模型之间的差异性。短期信号来自于上一个训练周期,并在每个周期都更新为最新的信息,从而保证老师模型的质量。另一方面,每一个样本的老师信号都来自于不同的历史训练时刻,因此在训练的每个时刻,模型都是同时向多个历史时刻的模型学习,集百家之所长,从而得到更好的训练效果。<br>作者在NLP和CV上多个任务上的实验结果,表面了LSTSD的有效性。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/109687817">SRMD ncnn vulkan 通用图片超分放大工具 | 知乎</a><br>项目:<a href="https://github.com/nihui/srmd-ncnn-vulkan">https://github.com/nihui/srmd-ncnn-vulkan</a><br>摘要:ncnn成功移植SRMD超分网络,现已打包成一个通用图片超分辨率工具。提供源码以及Windows 版 exe 下载,适用于 intel/amd/nvidia GPU。 </li><li><a href="https://github.com/andreasfertig/cppinsights">Ewenwan/cppinsights: C++ Insights - 用编译器的眼睛看你的源代码 C++ Insights - See your source code with the eyes of a compiler</a><br>项目:<a href="https://github.com/andreasfertig/cppinsights">https://github.com/andreasfertig/cppinsights</a><br>摘要:C++ Insights is a clang-based tool which does a source to source transformation. Its goal is it to make things visible which normally, and intentionally, happen behind the scenes. It’s about the magic the compiler does for us to make things work. </li><li><a href="https://github.com/ARMmbed/mbed-os">ARMmbed/mbed-os: Arm Mbed OS is a platform operating system designed for the internet of things</a><br>项目:<a href="https://github.com/ARMmbed/mbed-os">https://github.com/ARMmbed/mbed-os</a><br>摘要:Arm Mbed OS is an open source embedded operating system designed specifically for the “things” in the Internet of Things. It includes all the features you need to develop a connected product based on an Arm Cortex-M microcontroller, including security, connectivity, an RTOS and drivers for sensors and I/O devices. Mbed OS provides a platform that includes: </li></ul><ol><li>Security foundations. </li><li>Cloud management services. </li><li>Drivers for sensors, I/O devices and connectivity. </li></ol><ul><li><a href="https://github.com/jwfromm/Riptide">jwfromm/Riptide: Simple Training and Deployment of Fast End-to-End Binary Networks</a><br>项目:<a href="https://github.com/jwfromm/Riptide">https://github.com/jwfromm/Riptide</a><br>摘要:Riptide is a collection of functions, scripts, and tools that enable ultra low-bitwidth neural networks to be easily trained and deployed at high speeds. </li></ul><p><strong>Riptide is built on top of Tensorflow for training and TVM for deployment.</strong> Riptide models uses a novel operator called Fused Glue to replace all floating point operations inside of a binary neural network. By combining Fused Glue layers with other optimizations such as Bitpack Fusion, Riptide is able to generate models that run 4-12X faster than floating point equivalents on the Raspberry Pi. For full implementation details see our paper, which was presented at MLSys 2020. </p><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/z4OEPrAAtaNmBQoyvEd7Nw">从春秋到战国—论Nervana的倒掉 | 徐凌杰 StarryHeavensAbove</a><br>摘要:作者复盘了Intel收购并关停Nervana的始末和收购Habana事件,或许会成为AI芯片历史上重要事件的思考,作为case study供大家参考。最后也写下Nervana带来的启示:<br>Habana不是一个完美的例子,以色列团队传统也是硬件强,软件偏弱,但人家毕竟在没有把产品卖出去的情况下先把自己卖了,从思路到执行力还是值得好好研究的。<br>Nervana的倒掉,在作者看来,标志着AI芯片的竞争即将从从春秋进入战国阶段。虽然皮衣教主还有着绝对的统治力,但无可否认越来越多资金雄厚的玩家会更加重视这个市场,面对几百亿美元的大市场,资金、技术、产品能力还有眼光缺一不可。 </li><li><a href="https://aijishu.com/l/1110000000021582">Winograd快速卷积算法 | 极术社区</a><br>摘要:去年年底OPENAI LAB的视频课程活动,从介绍自家的推理引擎Tengine开始,包括不限于Winograd计算流程理解、Winograd算法为什么能加速卷积计算、Tengine的Winograd加速效果等。 </li><li><a href="https://mp.weixin.qq.com/s/K1R_thLJqegm6QDj2GA5ww">模型压缩实践系列之——layer dropout | AINLP</a><br>摘要:本文是作者的压缩论文实践小总结,作者研究重点在结构性剪枝,并选取了比较简单的layer dropout来实践验证其有效性。参考论文:<a href="https://arxiv.org/abs/1909.11556">Reducing Transformer Depth on Demand with Structured Dropout</a><br>layer dropout 属于结构化剪枝方法的范畴。非结构化剪枝包含目前比较经典的weight pruning,即通过对部分权重进行mask计算,间接得对权重进行剪枝。非结构化剪枝会改变模型原有的结构,在某些情况下反而会降低模型的计算效率。因此与此相对的,结构化剪枝正在逐渐被人们关注,结构化剪枝专注于对于相关的结构进行整体的剪枝,以确保最大限度保留模型原有的架构。</li><li><a href="https://zhuanlan.zhihu.com/p/107548509">海思NNIE之Mobilefacenet量化部署 | 知乎</a><br>摘要:海思35xx系列芯片对比起nvidia TX2、Intel Movidius神经计算棒等一众边缘计算产品,有其惊艳的地方,因其集成了强大的算力模块,集成度和功能模块齐全,最重要的是成本低,成为了安防行业的首选芯片。作者使用海思NNIE,进行Mobilefacenet量化部署,本篇文章记录了这一完整流程。 </li><li><a href="https://zhuanlan.zhihu.com/p/101026192">使用自动代码生成技术TVM优化深度学习算子的一些思考 | 知乎</a><br>摘要:作者首先说明什么是算子优化,后以mmdetection里的delta2bbox函数为例,说明算子手动优化和深度学习框架的实现相比,为什么能够获得加速。最后结合个人的经验。以GPU平台为例,谈一些算子优化的体会。1)op融合;2)借助高效的计算库;3)自动代码生成和auto-tuning;4)手动实现。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center">-</td><td align="center">-</td><td align="center"><a href="../embedded-ai-report/2020-03-02.md">2020-03-02</a></td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>Wechat ID: NeuroMem </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-02-16@Bi-weekly</title>
<link href="/2020/02/16/bi-weekly/2020-02-16/"/>
<url>/2020/02/16/bi-weekly/2020-02-16/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-02-16"><a href="#嵌入式AI简报-2020-02-16" class="headerlink" title="嵌入式AI简报 (2020-02-16)"></a>嵌入式AI简报 (2020-02-16)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次内容20条。ARM 和 恩智浦 在低功耗Cortex-M和单片机上地动态、AI测温产业非常值得关注。<br>ARM 发布 Cortex-M55 和 Ethos-U55 系列,适合语音AI模型推理,ARM也发布用Cortex-M系列<a href="https://pages.arm.com/machine-learning-on-arm-cortex-m-microcontroller.html">部署机器学习</a>、<a href="https://community.arm.com/developer/ip-products/processors/b/processors-ip-blog/posts/deploying-convolutional-neural-network-on-cortex-m-with-cmsis-nn">Cortex-M结合CMSIS-NN 部署卷积网络模型</a>的白皮书等等,NXP工程师也在 MCU 上实现并发布人脸识别、性别识别Demo及相关工具组件。<br>「开源项目」中的人脸口罩检测数据集、模型,谷歌的一项试验性MLIR执行环境的项目,都值得关注。<br>「博文」部分MNN两次直播的视频回顾和PPT、MLsys方向综述和Winograd算法通俗详解值得一看。<br>其它手机厂商的内容放在文末,想必也没几个人看到结尾_(:з」∠)_。</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/AEImgdeTA99O27bo1Lx0Ag">Arm推出最新Cortex-M55和Ethos-U55处理器内核:AI推理性能最高可提高50倍,支持自定义指令集,适用于语音推理 | EETOP</a><br>摘要:Arm推出了两个新IP(Cortex-M55和Ethos-U55)用来扩展其与AI相关的产品。<br>Cotex-M55 CPU:该CPU带来了Arm在过去一年中宣布的许多新功能。第一个新功能是支持自定义指令,Arm还把Cortex-M55称为“最具AI功能的Cortex-M处理器”,因为第一个实现Helium功能的处理器。<br>Helium也称为M-Profile Vector Extension (MVE),是Armv8.1-M体系结构的扩展,它引入了新的SIMD 128位矢量操作,旨在增强DSP和ML应用和性能。它更多地依赖于现有寄存器,而不是像NEON这样的矢量寄存器,并引入了对诸如lane预测、loop预测和复杂操作(如scatter-gather)的新支持。更重要的是,它通过执行较小的数据块(32位)来做到这一点,以使IP的硅面积保持最小。对于机器学习,Helium提供了诸如VMLAV水平向量乘累加指令之类的指令。<br>Ethos-U55:是专用的 microNPU 推理加速器,可与 Cortex-M 系列 CPU 结合使用,带来专门面向于 NPU 的性能与能效提升。<br>了解更多Arm Helium、Armv8.1-M扩充架构、机器学习与讯号处理性能提升见:<a href="https://learn.arm.com/introduction-armv8.1m-cn.html">https://learn.arm.com/introduction-armv8.1m-cn.html</a> </li><li><a href="https://mp.weixin.qq.com/s/IqMoAV_GD9i6Ft9SxHWQTQ">ARM Mali-G77 GPU 获林立集团“最佳处理器IP”奖 | EETOP</a><br>摘要:1月21日,ARM公司宣布旗下的Mali-G77GPU获得了美国芯片市场研究咨询机构林利集团的“最佳处理器IP”大奖,这是ARM最新一代的移动GPU,性能大涨了60%,搭载Mali-G77GPU的高端智能手机今年Q1季度会正式出货。<br>Mali-G77是ARM去年5月份发布的最新一代移动GPU,采用Valhall架构设计,新架构带来了全新的ISA总线和计算核心设计,弥补了上代Bifrost体系结构的主要缺点。<br>在当前的移动处理器厂商中,高通、苹果的GPU是自己研发的,华为的麒麟990系列使用的还是Mali-G76,三星的Exynos980也是Mali-G76,用上Mali-G77的只有联发科的天玑1000、三星Exynos990,不过真正上市的仅有天玑1000,ARM所说的本季度高端机型上市指的就是基于天玑1000处理器的智能手机,主要是OPPO的Reno3系列。<br>联发科天玑1000采用了主频高达2.6GHz的4个ARM Cortex-A77大核+4个主频为2.0GHz的ARMCortex-A55核心,A77架构的性能相比上一代的A76架构提升了20%。而GPU方面,则采用了同样是最新的ARM Mali-G77MC9,主频为836MHz,相比上一代的Mali-G77提升了40%。天玑1000也是全球首款采用ARMCortex-A77架构+Mali-G77GPU的芯片。 </li><li><a href="https://mp.weixin.qq.com/s/Tl1-W07D_wePI5o8u9IBAw">英特尔砍掉“首款AI芯片”,改推刚收购的Habana | 量子位</a><br>摘要:英特尔方面还称,将以更大力度推进Habana Labs的Gaudi和Goya处理器——前者主打训练后者主打推理,以取代Nervana芯片。Habana Labs,于2016年创办于以色列,主打可编程深度学习加速器,瞄准数据中心。仅创办3年,在训练和推理两大市场均有芯片发布。训练芯片Gaudi,对标英伟达T4,4倍性能优势,推理芯片Goya,2倍性能优势。当然,英特尔旗下Nervana,在2019年发布首款推理芯片,NNP-I,性能3.7倍于英伟达T4。但要知道Goya上一次披露性能跑分,还是2018年年底,那时候英特尔自家产品并没有能同台竞技者。这或许也是最终英特尔决定全资收购的原因。 </li><li><a href="https://zhuanlan.zhihu.com/p/103580669">苹果2亿美元收购初创企业Xnor.ai | AI报道</a><br>摘要:据了解,Xnor.ai成立于2017年,在边缘AI技术方面名气初显。2019 年,Xnor.ai开发了能够在太阳能或硬币大小的电池上运行的独立 AI 芯片,可以自动监控杂货店货架的 Gizmo。除此之外,Xnor.ai与 Wyze Labs 达成协议,将其基于边缘的人员识别技术安置到 Wyze Labs 低成本安全摄像机中。Xnor.ai开发的产品可不必依赖于云计算,直接在智能手机、摄像头、无人机甚至嵌入式低功耗移动CPU等设备上运行。 </li><li><a href="https://mp.weixin.qq.com/s/ifuA0Y0W9FFvsNtvToym4A">摸底安防系「最热」AI测温产业:日供百套设备,单台报价过万 | 机器之心</a><br>摘要:为了赶工 AI 测温项目,不少员工直接吃住在公司,有的每天睡眠仅 2~3 小时……<br>目前,无论百度、商汤、旷视、格灵深瞳,还是高德红外、海康威视、大华、宇视等公司,均推出 AI 红外测温产品。<br>从市面落地方案来看,行业多采用红外/可见光双传感器,结合红外热成像和人脸识别,以非接触的方式实现多目标温度筛查,测温精度多在±0.3℃。<br>从技术逻辑上来说,它需要 AI 算法来做人像的识别和追踪,即在摄像头画面中准确定位每一张人脸,然后结合红外温度点阵计算出人脸(多为额头)的温度。这背后所涉及的戴口罩下的人脸识别、ReID(行人再识别),以及两个摄像头间的校准等细节问题直接影响各家方案的效果。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/ncjPE99wEyaFm5NJZnMYFg">可逆残差网络(The Reversible Residual Network)大幅减少GPU显存占用 | 我爱计算机视觉</a><br>标题:<a href="http://arxiv.org/pdf/1707.04585">The Reversible Residual Network:Backpropagation Without Storing Activations</a><br>摘要:多伦多大学的Aidan N.Gomez和Mengye Ren提出了可逆残差神经网络,当前层的激活结果可由下一层的结果计算得出,也就是如果我们知道网络层最后的结果,就可以反推前面每一层的中间结果。这样我们只需要存储网络的参数和最后一层的结果即可,激活结果的存储与网络的深度无关了,将大幅减少显存占用。令人惊讶的是,实验结果显示,可逆残差网络的表现并没有显著下降,与之前的标准残差网络实验结果基本旗鼓相当。 </li><li><a href="https://zhuanlan.zhihu.com/p/104447447">剪枝实践:图像检索如何加速和省显存 | 知乎</a><br>标题:<a href="https://arxiv.org/abs/2001.08878">Progressive Local Filter Pruning for Image Retrieval Acceleration</a><br>摘要:图像检索速度是考核应用系统重要指标之一,但图像检索网络对于压缩算法更加敏感。网络微小改动,可能导致输出特征发生较大变化。为解决此问题,作者提出以下两点解决方案: <ol><li>采用基于局部的方法:优先选择并删除局部关系最紧密的filter,即若某个filter与其邻接的filter足够相似,则其可被安全删除。由于该方法是对filter的局部修改,因此易于保持filter的整体分布不变; </li><li>尽量保持预训练模型的表征力。然而,删除filter容易造成网络容量(Capacity)变小,进而影响网络输出特征。软剪枝(Soft pruning)类方法将待删除filter先置0,并在微调过程中给予其一定机会恢复权重,能够在一定程度上缓解直接删除filter带来的网络容量损失的问题。但若删除filter的比例较大时,其也会严重影响网络表征力。为此,我们提出一种filter权重衰减策略,在训练过程中对待删除filter的权重缓慢减小,即权重乘以衰减因子г,直至其收敛为0或接近于0。 </li></ol></li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/google/iree">google/IREE: An Experimental MLIR Execution Environment</a><br>摘要:IREE (Intermediate Representation Execution Environment, pronounced as “eerie”) is an experimental compiler backend for MLIR that lowers ML models to an IR that is optimized for real-time mobile/edge inference against heterogeneous hardware accelerators.<br>The IR produced contains the sequencing information required to communicate pipelined data dependencies and parallelism to low-level hardware APIs like Vulkan and embed hardware/API-specific binaries such as SPIR-V or compiled ARM code. As the IR is specified against an abstract execution environment there are many potential ways to run a compiled model, and one such way is included as an example and testbed for runtime optimization experiments. </li><li><a href="https://github.com/zamhown/wear-a-mask">zamhown/wear-a-mask: 给你的头像戴上口罩(Wear a Mask)</a><br>摘要: 项目使用了基于TensorFlow.js的face-api.js库。 人脸检测任务使用了SSD MobileNet V1模型(用WIDERFACE数据集进行训练),人脸关键点检测任务使用了face-api.js作者构建的基于CNN的68点检测模型(在约有35,000张面部图像的数据集上进行训练),模型权重数据来源于face-api.js。 </li><li><a href="https://github.com/hikariming/virus-mask-dataset">hikariming/virus-mask-dataset: 人员佩戴口罩检测数据集</a><br>摘要:目前已有200多张,基本为2020年一月疫情爆发后数据,后期会加入监控、医院照片等数据,争取使得数据集1000张以上。<br>标注方式为:标注人体全头部+肩膀上部,数据集总共有三类标签: rightmask/此人佩戴了可预防病毒口罩、wrongmask/此人佩戴了无预防病毒作用的口罩、nomask/未佩戴口罩。 </li><li><a href="https://github.com/jason9075/mask_checker">jason9075/mask_checker: 脸部口罩检测模型</a><br>摘要:模型用 tf.keras 內建的預訓練模型 MobileNetV2 來訓練,資料集從網路上找有/無口罩各400張的臉而成。 </li><li><a href="https://mp.weixin.qq.com/s/iCz1ls5RV73LEGUJm9Gevg">百度宣布免费开源业内首个口罩人脸检测及分类模型 | 机器之心</a><br>在线演示:<a href="https://www.paddlepaddle.org.cn/hub/scene/maskdetect">https://www.paddlepaddle.org.cn/hub/scene/maskdetect</a><br>摘要:该模型可以有效检测在密集人流区域中携带和未携戴口罩的所有人脸,同时判断出他们是否佩戴口罩。人脸识别和佩戴口罩判断在移动端部署的示例地址为:<a href="https://github.com/PaddlePaddle/Paddle-Lite/tree/develop/lite/demo/cxx">https://github.com/PaddlePaddle/Paddle-Lite/tree/develop/lite/demo/cxx</a> </li><li><a href="https://github.com/UoB-HPC/openmp-tutorial">UoB-HPC/openmp-tutorial: Exercises and Solutions for “Programming Your GPU with OpenMP: A Hands-On Introduction”</a><br>PPT:<a href="https://sc18.supercomputing.org/presentation/?id=tut138&sess=sess245">https://sc18.supercomputing.org/presentation/?id=tut138&sess=sess245</a><br>摘要:This is a hands-on tutorial that introduces the basics of targetting GPUs with OpenMP 4.5 through a series of worked examples.<br>Starting with serial code, the tutorial takes you thorugh parallellising, exploring the performance characteristics, and optimising the following small programs: <ol><li>vadd – A simple vector addition program, often considered the “hello world” of GPU programming.</li><li>pi – A numerical integration program that calculates and approximate value of π.</li><li>jac_solv – A Jacobi solver.</li><li>heat - An explicit finite difference 5-point stencil code.</li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/3jLItQtxuoT7Th8EKt1UmQ">小米CC9背后的计算机视觉算法丨 InfoQ</a><br>摘要:小米人工智能部总监黄英。在 AICon2019 北京站针对“从研究到落地:小米计算机视觉算法实用化探讨”做了精彩的演讲,黄英在分享中首先简单介绍了小米在计算机视觉方向的业务,然后以魔法换天、人脸检测和智能挑片几个案例为例阐述了小米是如何将计算机算法进行落地,以及在落地中遇到的难点和解决方案。 </li><li><a href="https://mp.weixin.qq.com/s/rbfVQyUFnCBcIJwp0Cnw7g">在 MCU 上实现人脸识别、性别识别 | 嵌入式资讯精选</a><br>摘要:让深度学习模型在MCU上跑起来,其意义在于,可以将MCU功耗小、成本低、体量大、开发周期短、上市快、实时性好、响应稳等特性与深度学习的强大能力相融合,这势必会解锁一个庞大的市场,让海量的设备智能起来!<br>NXP的工程师基于i.MX RT1050跨界 MCU 实现了人脸识别功能,30多层的深度学习模型跑一圈只要295mS。NXP的工程师开发这些用例的同时,将所需的配套工具都做好了,并且提供测试版本供大家下载使用,还贴心地附上了一份万余字的用户指南。 </li><li><a href="https://mp.weixin.qq.com/s/MTL_c5Eq1NAoEjQ8JeqSNw">王川: 为什么摩尔定律一直没死, 但人们还会继续预测摩尔定律要死 | 硅谷王川</a><br>摘要:本文剖析了为什么摩尔定律会一直发展, 但人们还会继续错误地预测摩尔定律要死的本质原因。”预测摩尔定律要死掉的人数,每两年翻一番“。 </li><li>MNN两次直播 | 淘系技术<br>第一次直播:端智能与MNN初探:⾯面向未来的移动开发<br>视频回放:<a href="https://mudu.tv/watch/4308076">https://mudu.tv/watch/4308076</a><br>在线PDF:<a href="https://docs.qq.com/pdf/DVXVZdGdTeFlSRFVH">https://docs.qq.com/pdf/DVXVZdGdTeFlSRFVH</a><br>第二次直播-深⼊浅出谈 MNN 原理,为什么能这么快 | 淘系技术<br>视频回放:<a href="https://mudu.tv/watch/4397479">https://mudu.tv/watch/4397479</a><br>在线PDF:<a href="https://docs.qq.com/pdf/DVUNHb0VIc2FJVlJH">https://docs.qq.com/pdf/DVUNHb0VIc2FJVlJH</a> </li><li><a href="https://zhuanlan.zhihu.com/p/104444471">MLsys各方向综述 | 知乎</a><br>摘要:作者以自己的角度,写了当前MLsys的各方向的总结,从分布式机器学习、深度学习模型压缩加速,再到框架系统设计,用ML优化传统的system问题等。最后结合招聘岗位需求总结了对应偏工程和算法的岗位技能树。 </li><li><a href="https://zhuanlan.zhihu.com/p/102351953">详解Winograd变换矩阵生成原理 | 知乎</a><br>摘要:网上已有不少从数学原理的角度去解说Winograd[1,2,3,4,5,6,10]这个算法的文章了,但作者没法完全理解,尤其是Winograd的变换矩阵究竟是如何生成的。许多细节部分都没有很详细的说明,只能通过额外去查找资料和手推公式来理解,作者针对这部分用比较通俗的方式给读者描述了一遍。 </li></ul><p>手机厂商这边,<a href="https://mp.weixin.qq.com/s/2UPZrm3CmJAMK3raRdJP1g">小米10系列</a>和<a href="https://mp.weixin.qq.com/s/QRgqqfdwF6DIkfRQszSBBQ">三星Galaxy S20系列发布</a>,二者都有配备骁龙865。<a href="http://qualcomm-challenge.com/">高通为推自家SNPE,也同TFLite等合作伙伴携手搞起了AI创新应用大赛</a>。联发科因疫情的影响,表示Q1营收最多下降15%。 </p><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><table><thead><tr><th align="center">2</th><th align="center">0</th><th align="center">2</th><th align="center">0</th></tr></thead><tbody><tr><td align="center">-</td><td align="center">-</td><td align="center">-</td><td align="center"><a href="../embedded-ai-report/2020-02-16.md">2020-02-16</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2020-01-27.md">2020-01-27</a></td><td align="center"><a href="../embedded-ai-report/2020-01-06.md">2020-01-06</a></td><td align="center"><a href="../embedded-ai-report/2019-12-17.md">2019-12-17</a></td><td align="center"><a href="../embedded-ai-report/2019-12-02.md">2019-12-02</a></td></tr><tr><td align="center">2</td><td align="center">0</td><td align="center">1</td><td align="center">9</td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-11-30.md">2019-11-30</a></td><td align="center"><a href="../embedded-ai-report/2019-11-18.md">2019-11-18</a></td><td align="center"><a href="../embedded-ai-report/2019-10-31.md">2019-10-31</a></td><td align="center"><a href="../embedded-ai-report/2019-10-17.md">2019-10-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-10-03.md">2019-10-03</a></td><td align="center"><a href="../embedded-ai-report/2019-09-16.md">2019-09-16</a></td><td align="center"><a href="../embedded-ai-report/2019-08-30.md">2019-08-30</a></td><td align="center"><a href="../embedded-ai-report/2019-08-15.md">2019-08-15</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-07-30.md">2019-07-30</a></td><td align="center"><a href="../embedded-ai-report/2019-07-15.md">2019-07-15</a></td><td align="center"><a href="../embedded-ai-report/2019-06-29.md">2019-06-29</a></td><td align="center"><a href="../embedded-ai-report/2019-06-17.md">2019-06-17</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-05-30.md">2019-05-30</a></td><td align="center"><a href="../embedded-ai-report/2019-05-15.md">2019-05-15</a></td><td align="center"><a href="../embedded-ai-report/2019-04-27.md">2019-04-27</a></td><td align="center"><a href="../embedded-ai-report/2019-04-13.md">2019-04-13</a></td></tr><tr><td align="center"><a href="../embedded-ai-report/2019-03-31.md">2019-03-31</a></td><td align="center"></td><td align="center"></td><td align="center"></td></tr></tbody></table><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>Wechat ID: NeuroMem </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-01-27@Bi-weekly</title>
<link href="/2020/01/27/bi-weekly/2020-01-27/"/>
<url>/2020/01/27/bi-weekly/2020-01-27/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-01-27"><a href="#嵌入式AI简报-2020-01-27" class="headerlink" title="嵌入式AI简报 (2020-01-27)"></a>嵌入式AI简报 (2020-01-27)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><blockquote><p>导读:本次内容20条,关于BERT有4条。「业界新闻」搜狗的手机AR实景导航挺有意思,其中「论文」三篇BERT量化/加速方面的文章,「开源项目」基于端MNN的上层SDK MNNKit、浏览器端BLAS库值得关注,「博文」关于兼顾速度精度与工程实现的CNN结构设计的技巧值得一看,以及TFLITE端侧基于部分层训练的迁移学习实战!</p></blockquote><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li>iPhone 12将采用5纳米A14处理器 | IT之家<br>摘要:1月17日,据国外媒体报道, iPhone 12将采用5纳米制造工艺的A14处理器,配备ToF 3D摄像头(AR能力和人像模式显著提升)和6GB RAM,支持5G网络。5纳米工艺意味着A14芯片可能拥有125亿个晶体管,甚至比桌面和服务器CPU更多。此外,苹果还可以将芯片面积缩小至约85平方毫米,这将使其性能大幅提升,尤其是在多核性能方面。 </li><li><a href="https://mp.weixin.qq.com/s/2BO_UXIY1qGoqLlp5tdYMQ">Qualcomm推出三款全新骁龙移动平台460,662,720以满足对4G智能手机的持续需求 | Qualcomm中国</a><br>摘要:因为比较关注CPU/GPU/DSP部分,简单摘录了一下: <ul><li>骁龙720G支持最新的第五代Qualcomm® AI Engine,集成了增强的Qualcomm® Hexagon™张量加速器。 </li><li>骁龙460是面向新一代大众市场智能手机的移动平台,在骁龙4系中实现了性能的巨大飞跃,同时在连接、AI和拍摄等方面也有显著的提升。骁龙460首次在骁龙4系中引入CPU性能内核以及新的GPU架构,分别实现了70%和60%的性能提升。整体系统性能是前代平台的2倍。骁龙460还首次在骁龙4系中引入了支持HVX的Hexagon处理器,因此通过对第三代Qualcomm AI Engine的支持再加上Qualcomm传感器中枢,可为拍摄和语音助理带来全新的AI体验。 </li><li>骁龙662首次将令人惊叹的拍摄和AI功能带入骁龙6系。支持Hexagon向量扩展内核(HVX)的第三代Qualcomm AI Engine与Qualcomm Spectra 340T ISP一起。 </li></ul></li><li><a href="https://mp.weixin.qq.com/s/3WBQtHzqI4oaDfrDYHKiPg">搜狗地图:国内首个手机 AR 实景驾驶导航上线,还能识别车辆行人 | 量子位</a><br>摘要:搜狗地图支持手机 AR 实景行车驾驶导航,能贴合道路给出路径指引,转弯处还有立体箭头引导,能够识别车辆、行人,及时给出碰撞预警,夜间识别,也不在话下。无需额外购买昂贵的设备,只需一台手机,一个App,即可体验。 </li><li><a href="https://mp.weixin.qq.com/s/oJWWYEbw7JsZ7jplOcNTIw">谷歌 GMS 服务替代方案;华为移动核心服务——HMS Core | 机器之心</a><br>摘要:去年 5 月以来,在美国政府的「禁令」之下,谷歌宣布停止与华为合作,尤其是不再提供谷歌移动服务(GMS)。为打破谷歌封锁,华为一手推动鸿蒙系统问世,一手发力自有华为移动核心服务——HMS Core,取代谷歌 GMS 服务。<br>HMS Core 4.0新开放的机器学习服务(ML Kit)。它为开发者提供文字识别、人脸识别、标签识别、对象检测和跟踪、地标识别等 AI 能力。以地标识别为例,该数据集中包含了 300 万张图片,囊括全球 3 万处独特地表,量级是普通数据集的 30 倍,基于华为云强大的计算能力和高效的地标识别算法,应用软件可以瞬间精准识别地标,为用户提供智能化的体验。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/mObuD4ijUCjnebYIrjvVdw">AdaBERT:推理速度提升29倍,参数少1/10,阿里提出 BERT 压缩方法 | 机器之心</a><br>论文:AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search<br>链接:<a href="https://arxiv.org/pdf/2001.04246v1.pdf">https://arxiv.org/pdf/2001.04246v1.pdf</a><br>摘要:阿里巴巴的压缩方案 AdaBERT,该方案特点是能针对具体任务得到性能不会显著下降的小型模型。现有的方法是将 BERT 压缩成小型模型,但这种压缩方法与任务无关,也就是说对于不同的下游任务而言,压缩方法是一样的。面向任务的 BERT 压缩方法是有必要的而且很有用,为此阿里巴巴的研究者提出了一种全新的压缩方法 AdaBERT。该方法利用了可微神经架构搜索来自动将 BERT 压缩成适应不同特定任务的小型模型。<br>研究者为 AdaBERT 提出了两种不同的损失函数。一是面向任务的知识注入损失,可为搜索过程提供提示;二是效率感知型损失,这能提供搜索约束。这两个损失能为任务适应型 BERT 压缩提供效率和有效性之间的平衡。在多个 NLP 任务上对 AdaBERT 进行了评估,结果表明这些任务适应型压缩模型在保证表现相当的同时,推理速度比 BERT 快 12.7 到 29.3 倍,同时参数缩小至 BERT 的 11.5 到 17.0 之一的规模。 </li><li>[AAAI 2020] <a href="https://mp.weixin.qq.com/s/0qBlnsUqI2I-h-pFSgcQig">Q-BERT:超低精度量化BERT,UC伯克利提出用二阶信息压缩神经网络 | 机器之心</a><br>论文:Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT<br>地址:<a href="https://arxiv.org/pdf/1909.05840.pdf">https://arxiv.org/pdf/1909.05840.pdf</a><br>摘要:加州大学伯克利分校 Zhewei Yao 博士分享了他的 AAAI 论文。该研究介绍了一种使用二阶信息进行模型压缩的新型系统性方法,能够在图像分类、目标检测和自然语言处理等一系列具有挑战性的任务中产生前所未有的小模型,最小化性能下降幅度,同时保持硬件效率。为此,研究者使用了多项新技术,并提出了新模型 Q-BERT。对二阶信息(即 Hessian 信息)进行大量逐层分析,进而对 BERT 执行混合精度量化。研究发现,与计算机视觉领域中的神经网络相比,BERT 的 Hessian 行为存在极大的不同。因此,该研究提出一种基于 top 特征值均值和方差的敏感度度量指标,以实现更好的混合精度量化。这与仅利用均值的研究相反。<br>提出新的量化机制——组量化(group-wise quantization),该方法能够缓解准确率下降问题,同时不会导致硬件复杂度显著上升。具体而言,组量化机制将每个矩阵分割为不同的组,每个组拥有独立的量化范围和查找表。调查了 BERT 量化中的瓶颈,即不同因素(量化机制,以及嵌入、自注意力和全连接层等模块)如何影响 NLP 性能和模型压缩率之间的权衡。 </li><li><a href="https://mp.weixin.qq.com/s/W668zeWuNsBKV23cVR0zZQ">LTD-BERT:内存用量1/20,速度加快80倍,腾讯QQ提出全新BERT蒸馏框架,未来将开源 | 机器之心</a><br>摘要:BERT 的运算速度和资源开销是很难权衡的问题。GPU 上线速度较快,但是成本很高;CPU 上线的话运算速度较慢,需要做大量的底层优化工作。为此,QQ 团队提出一种基于知识蒸馏的方法。基于从 BERT 得到的 sentence embedding 去完成更上层任务的需求,这也能满足当前对于 BERT 的大部分的需求,囊括了文本分类、文本聚类、相似度计算等等。当然,word-level 的压缩也可以以近似的方法去实现。<br>从 2019 年 8 月份在腾讯内部开源至今,LTD-BERT 的效果已经在 QQ、腾讯新闻、腾讯游戏、腾讯看点、腾讯健康等服务海量用户的产品的实际任务中得到验证,确保算法拥有足够的泛化能力和实用性。此外,该团队还表示 LTD-BERT 相关代码和更多结果将在近期开源。 </li><li><a href="https://mp.weixin.qq.com/s/Xvlxs-Os2meduHrEQFc7vg">MeliusNet:第一次胜过MobileNet的二值神经网络,-1与+1的三年艰苦跋涉 | 机器之心</a><br>论文:MeliusNet: Can Binary Neural Networks Achieve MobileNet-level Accuracy?<br>地址:<a href="https://arxiv.org/pdf/2001.05936v1.pdf">https://arxiv.org/pdf/2001.05936v1.pdf</a><br>摘要:来自德国波茨坦大学的 Joseph Bethge 和 Haojin Yang 等研究者提出了 MeliusNet ,其准确度上能击败之前所有二值模型,甚至超越了 MobileNetV1。MeliusNet 的计算复杂度不高,能充分利用二值网络的速度优势。整体而言,MeliusNet 继续在 BNN 定制化架构上进行探索,为二值网络设计了一套高效简洁的架构。它主要由 Dense Block 与 Improvement Block 组成。其中 Dense Block 主要用于扩充特征的表达能力,而 Improvement Block 主要用于提升特征的质量。 </li><li>[AAAI 2020] <a href="https://mp.weixin.qq.com/s/VbvCTEYC2FSMAff6bkjAjQ">UVA-Net:速度提升200倍,爱奇艺&北航等提出基于耦合知识蒸馏的视频显著区域检测算法 | 机器之心</a><br>论文:Ultrafast Video Attention Prediction with Coupled Knowledge Distillation<br>地址:<a href="https://arxiv.org/pdf/1904.04449.pdf">https://arxiv.org/pdf/1904.04449.pdf</a><br>摘要:作者设计了一个超轻量级网络 UVA-Net,并提出了一种基于耦合知识蒸馏的网络训练方法,在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的FPS分别达到 10、106、404,比之前的模型提升了 206 倍。 </li><li><a href="https://mp.weixin.qq.com/s/bki5Axgct2-RFIQWLumGcA">AdderNets:深度学习可以不要乘法,北大、华为诺亚新论文:加法替代,效果不变,延迟大降 | 机器之心</a><br>论文:AdderNet: Do We Really Need Multiplications in Deep Learning?<br>地址:<a href="https://arxiv.org/pdf/1912.13200v2.pdf">https://arxiv.org/pdf/1912.13200v2.pdf</a><br>摘要:北大、华为诺亚方舟实验室等的研究者提出了一个为减少计算量的网络:AdderNets,用于将深度神经网络中特别是卷积中的乘法,转换为加法运算。<br>在 AdderNets 中,研究者采用了 L1 正则距离,用于计算滤波器和输入特征之间的距离,并作为输出的反馈。为了取得更好的性能,研究者构建了一种特殊的反向传播方法,并发现这种几乎完全采用加法的神经网络能够有效收敛,速度与精度优秀。<br>从结果来看,AdderNets 在 ResNet-50 上 对 ImageNet 数据集进行训练后,能够取得 74.9% 的 top-1 精确度和 91.7% 的 top-5 精确度,而且在卷积层上不使用任何乘法操作。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/ylfoNHnZRailjvb3tDdfSQ">阿里开源MNNKit:基于MNN的移动端深度学习SDK,支持安卓和iOS | 机器之心</a><br>摘要:近日,阿里开源了基于 MNN 引擎的项目 MNNKit,面向安卓和 iOS,以 SDK 的方式提供 AI 端侧推理能力,不能把模型从里面掏出来用。Kit的逻辑相比 MNN 比较上层。开发者不需要了解算法细节就可以直接使用。<br>目前,MNNKit 已经有人脸检测、手势识别、人像分割等,后续可能有更多 API 接入。<br>据悉,MNNKit 是 MNN 团队在阿里系应用大规模业务实践后的成熟解决方案,历经双十一等项目考验,在不依赖于后端的情况下进行高性能推理,使用起来稳定方便。<br>项目地址:<a href="https://github.com/alibaba/MNNKit">https://github.com/alibaba/MNNKit</a> </li><li><a href="https://github.com/waylonflinn/weblas">waylonflinn/weblas: GPU Powered BLAS for Browsers</a><br>摘要:GPU accelerated Javascript. Numerical computing in your browser with performance comparable to native. Currently includes hundreds of unit tests, which verify correctness on hundreds of millions of data points.<br>Our focus is on numerical operations useful for neural networks and machine learning. So far, we’ve got 32-bit versions of each of these:<br>sscal - Matrix (and Vector) Scale (with addition)<br>sgemm - Matrix Multiply<br>sdwns - Matrix (and Image) Downsample (for Max Pooling)<br>sclmp - Matrix clamp (for ReLU)<br>项目地址:<a href="https://github.com/waylonflinn/weblas">https://github.com/waylonflinn/weblas</a> </li><li><a href="https://github.com/brendangregg/FlameGraph">brendangregg/FlameGraph: Stack trace visualizer</a><br>摘要:Flame graphs are a visualization of profiled software, allowing the most frequent code-paths to be identified quickly and accurately. They can be generated using my open source programs on github.com/brendangregg/FlameGraph, which create interactive SVGs.<br>文档:<a href="http://www.brendangregg.com/flamegraphs.html">http://www.brendangregg.com/flamegraphs.html</a><br>项目:<a href="https://github.com/brendangregg/FlameGraph">https://github.com/brendangregg/FlameGraph</a> </li><li><a href="https://mp.weixin.qq.com/s/TjSxiRxCx7A-lz_KorUFrw">Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低 | AI前线</a><br>摘要:Facebook 人工智能研究院(FAIR)开源了基于深度学习的推理框架 wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。<br>Wav2letter @ anywhere 是由 wav2letter 和 wav2letter ++ 这两个基于神经网络的语言模型构建的,在 2018 年 12 月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统。<br>wav2letter 项目地址:<br><a href="https://github.com/facebookresearch/wav2letter">https://github.com/facebookresearch/wav2letter</a> </li><li><a href="https://mp.weixin.qq.com/s/EHYmsSc9OqHcK_54Dw2d4w">微软开源ONNX Runtime模型以加速Google BERT | AI前线</a><br>摘要:微软人工智能研究院 1 月 21 日称计划开源 BERT 自然语言模型优化版本,该模型可以与 ONNX Runtime 推理引擎配合使用。在为 Bing 搜索引擎提供语言表达功能时,Microsoft 使用相同的模型来降低 BERT 的延迟。该模型“为 Bing 用户带来了最佳搜索体验” ,2019年秋天发表的一篇论文中对该模型进行了详细介绍。<br>公司发言人表示,这意味着开发人员可以使用 ONNX Runtime 和 Nvidia V100 GPU 大规模部署 BERT,而延迟只有 1.7 毫秒,这样的性能表现过去只能在大型科技公司中实现。<br>微软在其他自然语言开发上也取得了一定进展。在 2019 年温哥华 NeurIPS 上,微软和浙江大学联合发布了语音合成系统 FastSpeech,与自回归的 Transformer TTS 相比,FastSpeech 将梅尔谱的生成速度提高了近 270 倍,将端到端语音合成速度提高了 38 倍,单 GPU 上的语音合成速度达到了实时语音速度的 30 倍。<br>原文地址:<a href="https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/">https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/</a> </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/100609339">CNN结构设计技巧-兼顾速度精度与工程实现 | 知乎</a><br>摘要:CNN结构设计技巧,本文从分割、low-level、检测、metric learning、分类、landmark、视频理解、3D等角度对CNN的结构设计进行了解读,非常值得一看。 </li><li><a href="https://mp.weixin.qq.com/s/vhdWstSIeqnCv2fK7abhJA">详谈ARM架构与ARM内核发展史 | CSDN云计算</a><br>摘要:目前为止,ARM总共发布8种架构:ARMv1、ARMv2、ARMv3、ARMv4、ARMv5、ARMv6、ARMv7 、ARMv8,这是ARM架构指令集的多个v版本。<br>基于不同的ARM架构可以设计出不同特点的内核处理器。比如基于ARMv3架构设计出的处理器ARM6、ARM7,这两款处理器适用于不同的场景,硬件可能不同,但是架构指令集是一样的。 </li><li><a href="https://mp.weixin.qq.com/s/4z-4Fd17BT7tnVe5iLNTBw">5nm工艺问世,CPU工艺与性能是一种什么样的关系 | strongerHuang</a><br>摘要:现在半导体工艺上所说的多少nm工艺其实是指线宽,也就是芯片上的最基本功能单位门电路的宽度,因为实际上门电路之间连线的宽度同门电路的宽度相同,所以线宽可以描述制造工艺。缩小线宽意味着晶体管可以做得更小、更密集,而且在相同的芯片复杂程度下可使用更小的晶圆,于是成本降低了。<br>更先进半导体制造工艺另一个重要优点就是可以提升工作频率,缩减元件之间的间距之后,晶体管之间的电容也会降低,晶体管的开关频率也得以提升,从而整个芯片的工作频率就上去了。 </li><li><a href="https://zhuanlan.zhihu.com/p/101544149">深度学习加速:算法、编译器、体系结构与硬件设计 | 知乎</a><br>摘要:NeurlPS2019 大会的「Efficient Processing of Deep Neural Network: from Algorithms to Hardware Architectures」的演讲概括性地介绍了目前深度学习加速领域的进展,这个演讲的逻辑清晰,结合演讲ppt内容和近期调研的一些加速器相关内容,总括性地理一下深度学习加速领域的内容。首先关于深度学习加速,一般会想到的就是关于深度学习加速器的硬件设计,但其实更宽泛地讲,从算法顶层,到编译器,到体系结构,硬件最底层都有涉及。下面的介绍也大致围绕这几个方面展开。 </li><li><a href="https://mp.weixin.qq.com/s/4tBJplpdhceBw6z_vO3Cag">用 TensorFlow Lite 实现设备端个性化模型 | TensorFlow</a><br>摘要:虽然 TensorFlow Lite 训练解决方案仍在开发中,但已有设备端上座迁移学习的例子了。本文会向您介绍可现学现用的设备端机器学习模型个性化方法、使用场景,以及这背后的工作原理。<br>现有的例子有一个 Android 应用可学习对相机图像进行实时分类,使用迁移学习技术,这款应用能够在所有适用的最新 Android 设备(系统版本为 5.0 及以上)上运行。在此应用中,我们可以针对不同目标类别拍摄样本照片,然后在设备端对其进行训练。<br>该应用会对 MobileNetV2 量化模型在端上使用迁移学习技术,而我们先前已(在服务器上)基于 ImageNet 对该模型进行了预训练,并将最后几层替换成可训练的 softmax 分类器。可以通过训练最后几层来识别四个任意的新类别,而准确率则取决于要捕获的类别的“难度”。我们观察到,即使只有数十个样本,也足以取得良好的结果。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2020-01-06.md">2020-01-06</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-12-17.md">2019-12-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-12-02.md">2019-12-02</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-11-18.md">2019-11-18</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-31.md">2019-10-31</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><blockquote><p>往期回顾:见公众号主菜单【历史消息】</p></blockquote><ul><li>Wechat ID: NeuroMem </li><li>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a> </li><li>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </li></ul><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2020-01-06@Bi-weekly</title>
<link href="/2020/01/06/bi-weekly/2020-01-06/"/>
<url>/2020/01/06/bi-weekly/2020-01-06/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2020-01-06"><a href="#嵌入式AI简报-2020-01-06" class="headerlink" title="嵌入式AI简报 (2020-01-06)"></a>嵌入式AI简报 (2020-01-06)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong> </p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/Msww0DBSM4qd-kPtDJK1KA">苹果5nm A14处理器:和华为抢产能 | 安兔兔</a><br>摘要:按照苹果的惯例,明年秋季发布的iPhone 12系列将配备全新的A14处理器,目前产业链已经给出了A14处理器的部分信息。<br>产业链透露,苹果A14处理器将采用台积电的5nm工艺制造,明年初开始小范围试产,第二季度将正式量产。目前台积电5nm工艺的客户基本上只有苹果和海思,对应的产品分别是A14处理器以及麒麟1000系列SoC。<br>产能方面,据称目前台积电5nm工艺的良率可达50%以上,预计最快明年第一季度量产,初期月产能5万片,随后将逐步增加到7~8万片。<br>全新的5nm工艺相比7nm来说有何提升呢?按照台积电官方数据,相较于7nm(第一代DUV),基于Cortex A72核心的全新5nm芯片能够提供1.8倍的逻辑密度、速度增快15%,或者功耗降低30%,同样制程的SRAM也十分优异且面积缩减。 </li><li><a href="https://mp.weixin.qq.com/s/taUeCMJSRtzaeG6_z-h6UA">华为中端神U麒麟820,亮相 6nm工艺 | 安兔兔</a><br>摘要:SoC命名为麒麟820,将采用三星6nm制程工艺,几乎没有成本限制,将于今年第二季度量产,很可能会集成5G基带。<br>消息指出,6nm意味着芯片单位空间能容纳更多晶体管数量,相比台积电7nm工艺有着更多的EUV层,提供额外18%的密度改进,理论上同面积芯片的运算能力也就更强。<br>此前爆料的消息称,麒麟1020定位旗舰级别,代号巴尔的摩(Baltimore),基于台积电5nm工艺制造,同时内置晶体管继续增加(麒麟990 5G集成103亿个),CPU架构升级到Cortex-A78,相比麒麟990来说性能提升可达50%。</li><li><a href="https://mp.weixin.qq.com/s/mt5YWJs7Tv_uYAud6W19KQ">探境量产不到一年,AI语音芯片出货量达百万级 | 雷锋网</a><br>摘要:探境科技设计出的非冯诺依曼架构的计算架构——存储构SFA(Storage First Architecture)。SFA架构解决内存墙挑战的方法比较独特,以存储调度为核心的计算架构,数据在存储之间的搬移过程之中就完成了计算,计算对于数据来说只是一种演变。<br>SFA架构实现的方法是通过硬件、架构调度、数据调度管理等创新。实验数据表明,SFA架构所采用的各种微观和宏观调度算法,比较’类CPU架构‘采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。”鲁勇表示。<br>其量化技术,保证即使量化为8比特也不会丢失一定精度下的信息。同时通过软硬结合的方式,甚至可以做到量化到4比特,模型都不需要重新训练。 </li><li><a href="https://mp.weixin.qq.com/s/hIGFeQVSgAbvlpCc2OzKdg">NVIDIA CEO黄仁勋亮相GTC China:英伟达已售出15亿块GPU,发布TensorRT7 | 新智元</a><br>摘要:英伟达GTC China大会,NVIDIA创始人兼CEO黄仁勋分享了英伟达取得的成绩:NVIDIA已经售出15亿块GPU,并发布TensorRT 7,以及支持L2-L5自动驾驶的系统级芯片Orin。此外,NVIDIA与 ARM平台现在可以结合进行高性能计算;TensorRT 7 现在可以加速所有种类模型的线上推理-CNN,Transformer & RNN网络。<br>Orin 是NVIDIA最新的机器人平台芯片——更快,可以处理更高精度的传感器感知数据,以及拥有世界级的安全和防范能力。全面助力L2-L5自动驾驶,内置全新Orin系统级芯片,晶体管数量达到170亿个,集成NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算,几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1911.05289] <a href="https://arxiv.org/abs/1911.05289">The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design</a><br>摘要:深度学习和硬件怎样结合,谷歌人工智能主管Jeff Dean发表了独自署名论文《The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design》,17页pdf论文,长文介绍了后摩尔定律时代的机器学习研究进展,以及他对未来发展趋势的预测判断。<br>专知译文见:<a href="https://mp.weixin.qq.com/s/S5Kjt4tuf_o6o3Qag8sukQ">https://mp.weixin.qq.com/s/S5Kjt4tuf_o6o3Qag8sukQ</a> </li><li><a href="https://mp.weixin.qq.com/s/0kGJfKARKs2TuIQ4YJYbUA">比手工模型快10~100倍,谷歌揭秘视频NAS三大法宝 | 机器之心</a><br>摘要:Tiny Video Networks(TinyVideoNets)有很高的准确率和运行效率,能够以实时或更高的速度高效运行。要想识别大约 1 秒钟的视频片段,在 CPU 上只需要运行 37 至 100 ms,在 GPU 上只需要运行 10 ms,比以前手动设计的网络快了数百倍。<br>模型架构的设计,是通过演化过程中明确定义模型运行时间,并限制算法探索的搜索空间(同时包括空间和时间分辨率以及通道大小)得到的,实现了性能的提升。这三大法宝对应三篇文章: </li></ul><ol><li>EvaNet:第一批进化的视频结构:<a href="https://arxiv.org/abs/1811.10636">https://arxiv.org/abs/1811.10636</a> </li><li>AssembleNet:建立更强更好的(多流)模型:<a href="https://arxiv.org/abs/1905.13209">https://arxiv.org/abs/1905.13209</a> </li><li>Tiny Video Networks:最快的视频理解网络:<a href="https://arxiv.org/abs/1910.06961">https://arxiv.org/abs/1910.06961</a> </li></ol><ul><li>[1908.09791] <a href="https://arxiv.org/abs/1908.09791">Once for All: Train One Network and Specialize it for Efficient Deployment</a><br>摘要:传统方法需要 AutoML 专门定制化检索网络结构并训练。作者引入 Once for All (OFA) 解决多场景部署问题,将架构搜索与模型训练解耦,只需训练一个 once-for-all 网络来支持预设的多种架构(depth, width, kernel size, and resolution). 给出一个部署场景,根据场景无须训练即可搜索一个子网络满足场景要求。其中,困难在于解开不同子网络间的干扰,为此作者提出 shrinking algorithm,可将训练一个支持1019种子网络的结构,且他们还能保持一样的精度。<br>在端上设备验证了精度达到了比 NAS 的SOTA更优。其实嘛,主要是更节省训练时的GPU耗时,比方 OFA 在设定了场景数目 N = 40 时,比 ProxylessNAS、FBNet、MnasNet 的训练过程分别快了 14 倍、 16 倍、 1142 倍。 </li><li>[1912.06218] <a href="https://arxiv.org/abs/1912.06218">YOLACT++: Better Real-time Instance Segmentation</a><br>摘要:ICCV 2019的实时实例分割YOLACT的改进版:YOLACT++。实时(> 30 fps)实例分割提供了一个简单的全卷积模型,在单个Titan Xp上评估的MS COCO上取得了SOTA结果。此外,仅在一个GPU上训练后即可获得此结果。YOLACT ++模型可以在MS COCO上以33.5 FPS的实现34.1 mAP。<br>代码:<a href="https://github.com/dbolya/yolact">https://github.com/dbolya/yolact</a> </li><li><a href="https://mp.weixin.qq.com/s/q5-91AAKwBiYzTMmqadEcg">RefineDetLite:腾讯提出轻量级高精度目标检测网络 | 我爱计算机视觉</a><br>摘要:腾讯公布了一篇论文RefineDetLite: A Lightweight One-stage Object Detection Framework for CPU-only Devices,提出一种面向CPU设备的轻量级一阶段目标检测网络RefineDetLite,其在MSCOCO 上可以达到精度29.4 AP,同时在Intel 6700 @3.4G HZ 型号CPU上可以跑到130ms/图片(320X320),是目前轻量级通用目标检测网络的佼佼者。<br>论文:<a href="https://arxiv.org/pdf/1911.08855.pdf">https://arxiv.org/pdf/1911.08855.pdf</a> </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/7_KRT-rRojQbNuJzkjFMuA">微软开源自动机器学习工具NNI概览及新功能详解 | 微软研究院AI头条</a><br>摘要:微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ,目前已在 GitHub 上获得 3.8K 星,成为最热门的自动机器学习(AutoML)开源项目之一。<br>作为为研究人员和算法工程师量身定制的自动机器学习工具和框架,NNI 在过去一年中不断迭代更新,我们发布了稳定 API 的 1.0 版本,并且不断将最前沿的算法加入其中,加强对各种分布式训练环境的支持。<br>最新版本的 NNI 对机器学习生命周期的各个环节做了更加全面的支持,包括特征工程、神经网络架构搜索(NAS)、超参调优和模型压缩在内的步骤,你都能使用自动机器学习算法来完成。<br>项目地址:<a href="https://github.com/microsoft/nni">https://github.com/microsoft/nni</a> </li><li><a href="https://github.com/signatrix/efficientdet">signatrix/efficientdet: EfficientDet: Scalable and Efficient Object Detection implementation</a><br>摘要:Here is our pytorch implementation of the model described in the paper <a href="https://arxiv.org/abs/1911.09070">EfficientDet: Scalable and Efficient Object Detection paper</a>:<a href="https://arxiv.org/abs/1911.09070">https://arxiv.org/abs/1911.09070</a> </li><li><a href="https://github.com/NVIDIA-AI-IOT/torch2trt">NVIDIA-AI-IOT/torch2trt: An easy to use PyTorch to TensorRT converter</a><br>摘要:torch2trt is a PyTorch to TensorRT converter which utilizes the TensorRT Python API. The converter is <ul><li>Easy to use - Convert modules with a single function call torch2trt </li><li>Easy to extend - Write your own layer converter in Python and register it with @tensorrt_converter </li></ul></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/qP0zsSA7SQWXDqWGEAXmOg">深度剖析AI芯片初创公司Graphcore的IPU | StarryHeavensAbove</a><br>摘要:2017年我曾经基于Graphcore的CTO Simon Knowles的演讲两次分析了它们的AI芯片。最近,我们看到更多关于IPU的信息,包括来自第三方的详细分析和Graphcore的几个新的演讲。基于这些信息,我们可以进一步勾勒(推测)出IPU的架构设计的一些有趣细节。 </li><li><a href="https://zhuanlan.zhihu.com/p/99660496">卷积神经网络在移动端集成显卡上的加速 | 知乎tvm专栏</a><br>摘要:本文谈的是在移动端加速卷积神经网络。虽然AWS是个云服务公司,但只要可能,都希望计算在本地解决。<br>好处:减小网络带宽压力,避免网络传输时延,用户数据安全。现代终端设备一般用一个片上系统 (SoC)做计算,上面有CPU和集成显卡。<br>虽然移动端的CPU(多数ARM,少数x86)优化实现相对简单(参见我们对CPU的优化),但此处它并非最佳选择,因为:1)移动端CPU算力一般弱于集成显卡(相差在2-6倍之间);2)更重要的是,已经有很多程序运行在CPU上,如果将模型推理也放在上面会导致CPU耗能过大或者CPU节流,造成耗电过快同时性能不稳定。所以在移动端进行模型计算,集成显卡是更好的选择。 </li><li><a href="https://mp.weixin.qq.com/s/MZxzx-4Y2ZWFy050I7HQ6Q">在 Qualcomm Hexagon DSP 上加速 TensorFlow Lite | TensorFlow</a><br>摘要:与 CPU 和 GPU 等其他计算单元一样,数字信号处理器 (Digital Signal Processors, DSP,如 Hexagon DSP)也是大多数现代手机所采用的微处理器。这些芯片专为改善通信和加快多媒体处理而开发,可以大幅提升移动设备 / 边缘设备上的模型推理速度。此外,DSP 通常也比 GPU 更具能效,而这一点对解锁依赖低功耗使用场景的用例至关重要。<br>TensorFlow Lite Delegate可以在数百万台搭载 Hexagon DSP 的移动设备上利用 Hexagon NN Direct 加速量化模型的运行。借助该方法,MobileNet 和 Inceptionv3 等模型的性能提升了 3 到 25 倍。 </li><li><a href="https://zhuanlan.zhihu.com/p/98704479">ChinaSys 17th论文点评 | 知乎专栏大规模机器学习</a><br>摘要:ChinaSys是由国内计算机系统研究人员发起的一个研讨会,从2011年开始持续到现在,通常一年两期,基本的形式是将当年系统领域华人学者的学术工作进行一个集中式的分享,包括已经发表的,已经接受还未发表的,或正在研究的工作,形式上比较casual,旨在通过研讨会的形式促进国内系统方向研究人员的交流,国内的系统领域的学术研究进展成长很快,2011年全国一年发表在系统顶会的论文不超过十篇,而这一次ChinaSys评选的优秀博士和优秀研究员,手上的顶会论文都已经超过了5篇,并且这次研讨会上介绍的工作,基本上全部是在一流系统会议上已经被accept的工作,由此也可以看到国内系统方向的工作进展。 </li><li><a href="https://mp.weixin.qq.com/s/RpTQ4lirj0mlMUFeM8mrtw">模型加速5个方法供参考附代码 | AI科技大本营</a><br>摘要:诸如权重稀疏化等模型裁剪方法的核心思路是去掉那些不重要的权重和链接,整个网络的权重变少了,那么模型自然而然也就变小了,但是这种方法会带来比较明显的信息丢失,虽然我们会在最后的性能与模型体积中采取一种折中的方案,但性能的损失最后还是不可避免的。在下面的内容中,我们就和大家讨论并分享工业界的权重压缩,deepCompression,二值化,三值化,DoReFa-net。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-12-17.md">2019-12-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-12-02.md">2019-12-02</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-11-18.md">2019-11-18</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-31.md">2019-10-31</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-12-17@Bi-weekly</title>
<link href="/2019/12/17/bi-weekly/2019-12-17/"/>
<url>/2019/12/17/bi-weekly/2019-12-17/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-12-17"><a href="#嵌入式AI简报-2019-12-17" class="headerlink" title="嵌入式AI简报 (2019-12-17)"></a>嵌入式AI简报 (2019-12-17)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/lTQglawCjFGJKzidPfXgNw">华为全新5nm芯片曝光 A78架构/性能暴涨50% | 安兔兔</a><br>摘要:麒麟1020在网上曝光,在性能方面进行了升级,性能较麒麟990系列提升了50%,据GSMArena报道,麒麟1020有可能越过Cortex-A77,直接使用Cortex-A78架构,并采用台积电5nm制程工艺。 </li><li><a href="https://mp.weixin.qq.com/s/2v9g4FLFU5NPjIsRQghOWA">骁龙865跑分首秀:一骑绝尘猛如虎 | 安兔兔</a><br>摘要:骁龙865的CPU部分为Kryo 585架构,相比上代提升超过25%。包括一颗2.84GHz的超大核心(Prime Core)、三个2.4GHz的性能核心(Performance Core)以及四颗1.8GHz的能效核心(Efficency Core)。其中,大核心及性能核心都是基于Cortex-A77架构,能效核心是基于Cortex-A55架构。<br>GPU型号为Adreno 650,具体架构和规格信息官方并未公布,官方宣称性能比上代提升最多25%。<br>此外,骁龙865移动平台还支持LPDDR5内存,频率最高为2750MHz,厂商也可继续搭配LPDDR4X内存使用。 </li><li><a href="https://mp.weixin.qq.com/s/MjJ300apqnrzcgqy6q8rNA">高通发布骁龙865、765,2020年Q1上市 | 雷锋网</a><br>摘要:北京时间12月5日凌晨,高通公司详细介绍了骁龙865和765,这两款芯片模组的性能以及在5G功能上的差异,并承诺将首批搭载这两款移动平台的消费设备预计将于2020年第一季度上市。<br>骁龙865专为旗舰机设备设计,涵盖了高通所有的最新无线和处理器组件,包括新款2.84GHz Kryo 585 CPU、Adreno 650 GPU、Spectra 480图像信号处理器(ISP)和第五代AI Engine。这些改进共同为下一代安卓手机在摄像头、图形和网络性能方面取得重大进展奠定了基础。<br>第五代AI Engine:实现高达每秒15万亿次运算(15 TOPS),AI性能是第四代移动平台的2倍。Qualcomm® Hexagon™张量加速器是AI Engine的核心,其TOPS性能是前代张量加速器的4倍,同时运行能效2提升35%。它可以为基于AI的实时翻译提供支持,将用户语音实时翻译成外语文本和语音。此外,还包括对深度学习带宽的全新无损50%压缩,从而将SoC释放给其他任务。<br>骁龙765的先进特性包括4K HDR视频传输功能,以及性能远低于15 TOPS第五代AI Engine。同时集成了X52 5G调制解调器,具有3.7 Gbps峰值下载速率和1.6 Gbps的上传速率,5G毫米波和6 GHz以下频段、5G独立(SA)和非独立(NSA)组网模式、TDD和FDD以及动态频谱共享(DSS)、全球5G漫游,以及支持多SIM卡等。此外,Kryo™ 475主频高达2.3GHz,Qualcomm® Adreno™ 620 GPU实现了20%的性能提升,可支持流畅游戏、视频渲染等特性。 </li><li><a href="https://mp.weixin.qq.com/s/mWFjt0xf5Y-7c1hz92ip9w">Imagination发布PowerVR第十代GPU:IMG A系列,将在中国建研发中心 | 芯东西</a><br>摘要:Imagination Technologies公司针对图像及视频应用,发布了PowerVR 第十代(Series10)图形处理架构IMG A系列(IMG A-Series)。据称,IMG A系列是Imagination Technologies有史以来发布的性能最强大的图形处理器(GPU)半导体知识产权(IP)产品,首次搭载该IP的SoC器件预计在2020年出货。<br>IMG A系列在相同的时钟和半导体工艺上,比正在出货的PowerVR设备性能提高了2.5倍,机器学习处理速度提高了8倍,且功耗降低了60%。据称,与当前可用的其它GPU IP相比,IMG A在性能、功耗、带宽和面积上都有优化,并且具有包括确保50%的图像压缩数据等特异性优势。<br>紫光展锐已获得其最新一代神经网络加速器(NNA)PowerVR Series3NX半导体IP授权许可,以用于未来面向中高端移动设备市场的系统级芯片。<br>IMG A系列是Imagination Technologies有史以来发布过的性能最高的移动GPU IP,主要提供四种高性能配置: <ol><li>IMG AXT-64-2048旗舰版,拥有2.0 TFLOPS,64 Gpixels的性能,以及8 TOPS的AI性能。 </li><li>IMG AXT-48-1536面向高端手机,其性能为1.5 TFLOPS、48 Gpixels和6 TOPS。 </li><li>IMG AXT-32-1024面向高性能移动设备和汽车应用,其性能为1 TFLOP、32 Gpixels和4TOPS。 </li><li>IMG AXT-16-512面向中高性能移动设备和汽车应用,其性能为0.5 TFLOPS、16 Gpixels和2 TOPS。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/iPcc-Ah5O6X9CdCaa27DKQ">英特尔第二代10nm处理器架构大改:L2缓存翻5倍,发力移动端 | 芯东西</a><br>摘要:据外媒报道,英特尔Tiger Lake处理器架构将对缓存结构进行调整,L2高速缓存增加400%,达到5MB;L3高速缓存大小增加50%,达到12MB;L1指令缓存(Instruction cache)的大小提高到48KB。<br>Tiger Lake为英特尔第二代10nm处理器,于今年5月推出,预计将主要用于移动端。根据目前英特尔产能情况,Tiger Lake距离完全投产还有一段时间。 </li><li><a href="https://mp.weixin.qq.com/s/rCgK0gQRZTs72XpdKoH50w">AI芯片创企燧原科技推出首款云端AI训练芯片邃思DTU:单卡单精度20TFLOPS且支持混合精度 | 芯东西</a><br>摘要:AI芯片创企燧原科技推出首款云端AI训练芯片邃思DTU,其采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,实现2.5D高级立体封装,据称单卡单精度算力为业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精度下算力达80TFLOPS,最大功耗仅225W,将于2020年第一季度上市。<br>同时,发布首款计算及编程平台“驭算”,完全支持TensorFlow,下一阶段支持PyTorch、MXNet、ONNX等业界主流框架,零迁移成本,并为深度开发者提供SDK和定制化方案。 </li></ul><h2 id="应用"><a href="#应用" class="headerlink" title="应用"></a>应用</h2><ul><li><a href="https://mp.weixin.qq.com/s/eBvzlzVv5-8rR5-Ux73c8w">Google 实时翻译功能登陆移动设备,支持 44 种语言 | 雷锋网</a><br>摘要:Google 的 interpreter 实时翻译模式现已登陆移动设备,能够在装有 Google Assistant 的 Android 和 iOS 设备上使用。这一实时翻译功能支持 26 种语言,只需借助 Google Assistant,便可以进行实时交流翻译。<br>在英语语种上,Google 在今年秋季推出了新版 Google Assistant,支持英语翻译脱机工作,并且以“接近零”的延迟处理语音,提供的答复速度也比上一代设备快了近 10 倍。 </li><li><a href="https://mp.weixin.qq.com/s/daREJnIApz1cXXYsiJ-wpQ">谷歌 ARCore 推出一项新功能,仅用单目相机就可获取深度图像 | 雷锋网</a><br>摘要:Android增强现实(AR)取得重大进步,近日谷歌正在为开发工具包ARCore添加Depth API,这项新功能仅用单个摄像头就可以创建深度图,而不像之前需要从两个摄像头或ToF传感器。当移动摄像头时,它会自动捕捉多个图像,然后比较这些图像来估计你与每个像素的距离。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/ZyLAOtgOZQwa10JW5TXL4w">Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度 | AI科技大本营</a><br>摘要:深度卷积(Depthwise convolution)在追求高性能的卷积网络中的应用变得越来越流行,但很多忽略了卷积核的大小。<br>作者研究了不同内核大小的影响,发现将多种卷积核大小的优势结合在一起可以带来更高的准确性和性能。基于此,作者提出混合深度卷积(Mixed Depthwise Convolution, MDConv),用单个卷积中混合了多个内核大小,来代替普通深度卷积。这种MDConv提升了现有MobileNet在ImageNet图像分类和COCO目标检测方面的准确性和性能。<br>通过将 MDConv 集成到AutoML搜索空间中,作者进一步开发了一个名为 MixNets 的系列模型,其性能明显优于以前的模型,包括MobileNetV2(ImageNet top-1精度提升为+4.2%),ShuffleNetV2](+3.5%),MnasNet( +1.3%),ProxylessNAS(+ 2.2%)和FBNet(+ 2.0%)。特别是MixNet-L模型在传统的移动端设备条件(<600M FLOPS)下达到了最新的SOTA结果,ImageNet top-1精度为78.9%。<br>论文:<a href="https://arxiv.org/pdf/1907.09595v3.pdf">https://arxiv.org/pdf/1907.09595v3.pdf</a><br>代码:<a href="https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet">https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet</a> </li><li>[NeurIPS 2019] <a href="https://mp.weixin.qq.com/s/ABNPCpgyk_2EeYwnJFFehg">NAT: Neural Architecture Transformer for Accurate and Compact Architectures</a><br>摘要:腾讯AI Lab主导,和华南理工大学合作完成的论文中,作者利用强化学习的方法学习了一种神经网络结构转换器,它能对任意的神经网络结构进行优化,将其转换为更紧凑、识别精度更高的结构。<br>现有网络结构要么是人工设计的,要么是网络结构搜索 (NAS) 方法自动搜索得到的。然而,这些结构可能有冗余操作,为了实现结构优化,作者提出了网络结构转换器(Neural Architecture Transformer,简称为 NAT)方法。该方法用计算复杂度更低的计算操作代替网络结构中冗余的操作,性能提高的同时,保证不引入额外参数和计算量。 </li><li>[NeurIPS 2019] <a href="https://mp.weixin.qq.com/s/stOtEPr--z_o5KuTsZSaEQ">四篇快手特效中的模型压缩 | 机器之心</a><br>摘要:本文将介绍快手四篇模型压缩方面的研究成果:<ol><li>Adversarially Trained Model Compression: When Robustness Meets Efficiency:<a href="https://papers.nips.cc/paper/8410-model-compression-with-adversarial-robustness-a-unified-optimization-framework">https://papers.nips.cc/paper/8410-model-compression-with-adversarial-robustness-a-unified-optimization-framework</a> </li><li>Global Sparse Momentum SGD for Pruning Very Deep Neural Networks:<a href="https://papers.nips.cc/paper/8867-global-sparse-momentum-sgd-for-pruning-very-deep-neural-networks">https://papers.nips.cc/paper/8867-global-sparse-momentum-sgd-for-pruning-very-deep-neural-networks</a> </li><li>LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning:<a href="https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning">https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning</a> </li><li>Efficient Smooth Non-Convex Stochastic Compositional Optimization via Stochastic Recursive Gradient Descent:<a href="https://papers.nips.cc/paper/8916-efficient-smooth-non-convex-stochastic-compositional-optimization-via-stochastic-recursive-gradient-descent">https://papers.nips.cc/paper/8916-efficient-smooth-non-convex-stochastic-compositional-optimization-via-stochastic-recursive-gradient-descent</a> </li></ol></li><li>[1912.04488] <a href="https://arxiv.org/abs/1912.04488">SOLO: 简单且高效的实例分割新网络</a><br>摘要:本文作者来自阿德莱德大学和字节跳动,提出了一种新的简单方法来对图像中的实例进行分割。与许多其他密集的预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性。为了预测每个实例的 Mask,主流方法要么遵循“Mask R-CNN”所使用的“检测后分割(detect-then-segment)”策略,要么先预测类别masks,然后使用聚类方法将像素分组为单个实例。<br>作者通过引入“实例类别(instance categories)”的概念以全新的视角解决实例分割的任务,根据实例的位置和大小为实例中的每个像素分配类别,从而将实例 mask 分割很好地转换为可分类的类别问题。现在,实例分割被分解为两个分类任务。我们展示了一个简单且灵活的实例分割框架,具有强大的性能,可达到Mask R-CNN同等的准确性,并且在准确性方面优于最近的singleshot实例分割算法。我们希望这个非常简单而强大的框架可以作为实例分割以外的许多实例级识别任务的基准。 </li><li>[1912.04749] <a href="https://arxiv.org/abs/1912.04749">Efficient Differentiable Neural Architecture Search with Meta Kernels</a><br>摘要:作者来自华科、依图和新加坡国立大学。本文提出的结构在ImageNet上77.0% Top-1 acc,仅357M FLOP,性能优于EfficientNet、MobileNetV3和MixNet等网络。<br>网络架构搜索(NAS)的搜索过程非常耗时。作者提出了一种具有 meta kernels 的高效新颖的搜索策略。通过进行大量的实验来证明我们的搜索策略的有效性。具体而言,仅用 357M FLOPs即可在ImageNet基准数据集上达到77.0%的top-1准确性,在相同的FLOP约束下均优于EfficientNet和MobileNetV3。与通过最先进的NAS方法发现的模型相比,本文方法具有相同甚至更好的性能,但速度却快了三个数量级。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/666DZY666/model-compression">666DZY666/model-compression</a><br>摘要:model compression based on pytorch: <ol><li>quantization: 8/4/2bits(dorefa)、ternary/binary value(twn/bnn/xnor-net); </li><li>pruning: normal、regular and group convolutional channel pruning; </li><li>group convolution structure; </li><li>batch-normalization folding for binary value of feature(A)。 </li></ol></li><li><a href="https://github.com/huawei-noah/bolt">huawei-noah/bolt: Bolt is a deep learning toolbox with high performance and heterogeneous flexibility.</a><br>摘要:支持的框架:caffe, onnx, tflite, pytorch (via onnx), tensorflow (via onnx);<br>支持精度:fp16, int8, binary;<br>支持的CV模型包括squeezenet, resnet50, mobilenet_v1, mobilenet_v2, mobilenet_v3, birealnet18等;<br>支持的NLP模型包括:lstm、bert、tinybert、albert等。<br>更多评价见知乎:华为移动端推理框架Bolt怎么样,<a href="https://www.zhihu.com/question/359393305">https://www.zhihu.com/question/359393305</a><br>摘要:支持的框架:caffe, onnx, tflite, pytorch (via onnx), tensorflow (via onnx);支持精度:fp16, int8, binary;目前验证的模型:CV模型包括squeezenet, resnet50, mobilenet_v1, mobilenet_v2, mobilenet_v3, birealnet18等,以及NLP模型包括:lstm、bert、tinybert、albert等。更多评价见知乎:华为移动端推理框架Bolt怎么样,<a href="https://www.zhihu.com/question/359393305">https://www.zhihu.com/question/359393305</a> </li><li><a href="https://github.com/XiuYuLi/flexible-gemm">XiuYuLi/flexible-gemm: flexible-gemm conv of deepcore</a><br>摘要:deepcore是一款基于CUDA的针对NVIDIA的GPU进行了深度优化的超轻量级、专为CNN批量训练量身打造的高度优化的核心计算库,在相同的算法下矩阵乘法和卷积的性能同于甚至大于最新版本的cudnn。支持的硬件:计算能力为5.0,5.2,6.0,6.1,7.0的NVIDIA GPU。其中,vdeepcore是deepcore的一个分支版本,专门针对volta优化的版本且仅支持volta GPU,由于专门针对tensor core进行了优化,因此数据结构差别很大,因此为简单以及避免代码过度膨胀,从volta开始会有一个新的分支版本且与之前的版本不兼容。该项目仍在持续开发中。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/OutkkfCpJND9RBqqmUB9dg">吴恩达deeplearning.ai新课上线:TensorFlow移动和web端机器学习 | 机器之心</a><br>摘要:Coursera 又有 TensorFlow 专项课程了,这回的主要内容放在了 TensorFlow.js、TensorFlow Lite 等 web 或移动端的使用。<br>课程地址:<a href="https://www.coursera.org/specializations/tensorflow-data-and-deployment">https://www.coursera.org/specializations/tensorflow-data-and-deployment</a> </li><li><a href="https://mp.weixin.qq.com/s/Z4xVQ1cpuDwyGzWUdj_O3w">利用 AutoML 的功能构建和部署 TensorFlow.js 模型 | TensorFlow</a><br>摘要:TensorFlow.js (tensorflow.google.cn/js) 是一个开源库,使用 Javascript 定义、训练和运行机器学习模型。TF.js 库帮助广大 JavaScript 社区中的开发者构建和部署机器学习模型,并开创新型边缘计算。<br>TensorFlow.js 支持所有主流浏览器、Node.js 中的服务器端,最近开始支持微信和 React Native。混合应用无需离开 JS 生态系统即可使用 ML 模型。在 JavaScript 应用中借助 Google Cloud 的 AutoML 服务,可用自定义模型便捷地训练与部署。 </li><li><a href="https://mp.weixin.qq.com/s/AQDzgsvYIbX_gaPgF4ewKw">处理器相同为啥性能有别?留心手机的散热设计 | 电脑爱好者</a><br>摘要:不止一次提到过,搭载相同SoC的智能手机之间,在跑分和游戏帧数上会存在一定的差异,很大程度就是受到了散热设计的影响。<br>当手机屏占比越来越高、玻璃后盖的光影效果越来越酷、摄像头数量和像素值不断增加的今天,我们更应需要留心手机在散热设计上的精简和强化。 </li><li><a href="https://mp.weixin.qq.com/s/C-ek7Ss92T3jgCkdUiNseA">众核结构的稀疏化:eyeriss V2加速器的设计思路 | MikesICroom</a><br>摘要:eyeriss V2是MIT团队在2018年提出的升级版。在V1的基础上,主要进行了2点改进,第一是引入了被称为hierarchical mesh的NOC结构,用来获取更好的数据和权重的重用性。其次是增加了对权重和数据的压缩处理,用来支持稀疏矩阵的运算。 </li><li><a href="https://mp.weixin.qq.com/s/Qt-6Q0o1dEmUb6exKoIObg">SGADC2019丨拥抱方舟编译器:Maple IR 分析及 Toy Runtime 介绍 | 开源方舟编译器</a><br>摘要:11月19日,在软件绿色联盟开发者大会开源与跨平台开发分论坛上,史宁宁发表了主题为《拥抱方舟开源编译器:Maple IR 分析及 Toy Runtime 介绍》的演讲,基于方舟编译器已经开源的代码和文档,对方舟编译器的IR的设计以及具体实现做介绍和分析,并将其设计与LLVM、Open64做简要的横向对比。同时,对基于方舟编译器IR的Phase体系做分析,展示其针对IR的转换和优化。除此以外,还对Toy runtime的基本情况进行介绍。本文内容主要有五个部分: <ol><li>方舟编译器概况 </li><li>MAPLE IR的设计与实现 </li><li>MIR与其他IR的横向对比 </li><li>Phase体系的设计与实现 </li><li>Toy Runtime简介 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/XsyXkaOIJ3m8sdCt8Pl5Ig">计算密集型服务的负载均衡策略 | 携程技术中心</a><br>摘要:一般情况下,在计算密集型服务中,即使处理单个请求也需要使用到服务器的所有CPU。如果单台服务器连续接收到两个请求,要么两个请求互相争抢CPU,要么后来的请求排在前面的后面等待处理。最终,会导致平均处理时间变长。常规的负载均衡策略(如轮询、随机等)下,负载均衡器不关心服务器的负载情况,这就很容易造成服务器同时收到多个请求,从而使服务器的服务质量下降。 </li><li><a href="https://mp.weixin.qq.com/s/n76fYJz6nSB2Hk4TYkrw6w">阿里巴巴强大GPU算力助力搜索平台支撑双11流量洪峰、优化推荐模型推理性能 | 阿里巴巴基础设施</a><br>摘要:虽然阿里巴巴的搜索平台采用大量异构硬件(包括GPU和FPGA等)来满足算法迭代以及搜索对象增长的需求,但是仅通过硬件堆叠所带来的性能提升是低效的,巨大的硬件资源成本已无法承受业务日益增长的计算需求。因此,对硬件资源的使用效率进行优化已经迫在眉睫。GPU在支撑算力需求起到很大作用,但相比常见的CPU系统,CPU-GPU异构系统存在着不同的特性,例如数据存储、数据传输、并行计算特征等,因此原生的算法模型在CPU-GPU异构系统中并不能完全发挥出计算性能。<br>针对CPU-GPU异构系统中的计算特点,阿里巴巴采用资源分配、量化和图变换三种优化策略,从根本上对CPU-GPU异构系统的性能问题进行分析和优化,这些优化策略最终应用在搜索和推荐等多个主要场景,取得了2~3倍的性能提升,使得淘宝搜索平台的硬件资源能够支撑双11的流量洪峰。 </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-12-02.md">2019-12-02</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-11-18.md">2019-11-18</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-31.md">2019-10-31</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-12-02@Bi-weekly</title>
<link href="/2019/12/02/bi-weekly/2019-12-02/"/>
<url>/2019/12/02/bi-weekly/2019-12-02/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-12-02"><a href="#嵌入式AI简报-2019-12-02" class="headerlink" title="嵌入式AI简报 (2019-12-02)"></a>嵌入式AI简报 (2019-12-02)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/s8thWGNdkYwKl7eQVIlJPw">谷歌发布人体图像分割工具BodyPix 2.0,支持在浏览器上多人识别,可在iPhone上流畅运行 | 量子位</a><br>摘要:Google官方推出了使用TensorFlow.js的人体图像分割工具BodyPix2.0,加入多人支持,并提高准确率。BodyPix能将图像分割为属于人的和不属于人的像素,属于人的部分可以进一步分类为二十四个身体部位之一。可直接在浏览器中运行,开发者只需加入几行代码,即可与电脑或手机的摄像头配合使用。<br>在使用默认设置的情况下,BodyPix可以在15寸MacBook Pro上以25 fps的速度估计,并渲染人和身体部位的分割。而在iPhone X上,BodyPix能以21 fps的速度进行估计。<br>试玩Demo:<a href="https://storage.googleapis.com/tfjs-models/demos/body-pix/index.html">https://storage.googleapis.com/tfjs-models/demos/body-pix/index.html</a><br>官方博客:<a href="https://blog.tensorflow.org/2019/11/updated-bodypix-2.html">https://blog.tensorflow.org/2019/11/updated-bodypix-2.html</a><br>GitHub地址:<a href="https://github.com/tensorflow/tfjs-models/tree/master/body-pix">https://github.com/tensorflow/tfjs-models/tree/master/body-pix</a> </li><li><a href="https://mp.weixin.qq.com/s/IKvjqv9u1SPDcgcJ_i3i-A">联发科发布史上跑分最强5G SoC芯片——天玑1000!,超华为麒麟990 | 芯东西</a><br>摘要:芯片大厂联发科宣布推出5G芯片新品牌天玑,名源于北斗七星之一,其意为领先,并推出该品牌首款产品5G SoC芯片——天玑1000。天玑1000采用7nm工艺制造,基于此前联发科推出的多模5G Modem M70打造,5G网度最快在Sub-6GHz下行可达4.7Gbps,上行2.5Gbps。据称,这也是目前市面上推出的5G芯片中网速最快的芯片。<br>CPU基于Arm最新的Cortex-A77核,单核频率2.6GHz,采用四合一架构。GPU采用Arm最新的Mali-G77核,采用九合一架构,比上一代G76运算速率提升40%。AI独立处理单元APU 3.0,并首次引入大小核概念,采用2大核+3小核+1微小核的架构。在运算能力上,特别针对浮点运算优化。 </li><li><a href="https://mp.weixin.qq.com/s/zgAhELILW7HdFvZWLpEc9w">小米开发者大会:MACE 进化, 小爱同学 3.0 问世,IoT 进军 B 端 | 雷锋网</a><br>摘要:2019 年 11 月 19 日,小米开发者大会(MIDC,MI Developer Conference)在北京举行,这是小米继去年的 MIDC 开发者大会之后举行的第二届开发者大会。本次大会正值 5G 商用落地不久,因而有着不一样的意义。<br>小米移动端深度学习框架 MACE。它是在 2018 年 6 月开源的,开源以后获得了广泛好评;目前,它的调用次数已经超过 5000 万次。<br>在现场,崔宝秋发布了升级后的 MACE 0.12.0,它能够支持更丰富的异构计算算子、降级跨设备运行性能损失,新增 Kaldi 语音识别算子支持,新增了 CMake 支持。<br>崔宝秋表示,MACE 未来将发布更多的功能。其中,MACE-Kit 即将开源,未来还将支持更多的微控制器,全面支持手机和 IoT 设备超低功耗推理场景。<br>谈到 NLP 技术,在公布小米的 MiNLP 平台调用次数每天超过 60 亿之后,崔宝秋正式发布了 MiNLP 1.2 版本,MiNLP 1.2 显然有不少功能点,其中最重要的是从词法分析扩展到句法和语义分析。<br>同时,崔宝秋也宣布小米分布式 KV 存储系统 Pegasus 1.12 版本上线,目前已经可以在 GitHub 下载。<br>在现场,崔宝秋宣布,小爱同学 3.0 正式上线,用户动动嘴就能够升级。小爱同学 3.0 是首个在智能手机上实现自然连续对话的语音助理。同时,它将拥有更加自然甜美的女声,并且新增了男声版本。 </li><li><a href="https://mp.weixin.qq.com/s/HBFiTjxV7Ttkab22BV8zZA">OPPO自研芯片曝光 M1处理器已注册商标 | 安兔兔</a><br>摘要:越来越多的手机厂家开始进行或自主研发(如小米澎湃系列)或寻求合作(vivo和三星)的路径,以备自己的不时之需,国产厂商OPPO最近也开始有所举动了。据网络消息,OPPO已经招募了多名Speadtrum和联发科的工程师,负责生产OPPO自主研发的移动芯片系列,首款芯片或被命名为”OPPO M1“。目前“OPPO M1”商标已经通过了欧盟知识产权局(EUIPO)的批准。<br>OPPO M1的商标说明包括“芯片[集成电路];半导体芯片;电脑芯片;多处理器芯片;用于集成电路制造的电子芯片;生物芯片;智能手机;手机;屏幕。”这清楚地表明它确实是智能手机芯片组。而且鉴于OPPO对于5G网络的布局和承诺,该自研芯片可能会支持5G网络。 </li><li><a href="https://mp.weixin.qq.com/s/mBFsss4F89DRzgKxV5JCEQ">Win10 Mobile退场的余波,微软小娜告别移动端 | 安兔兔</a><br>摘要:照常理来说,既然长期带着“智障”帽子的Siri都能活得好好的,微软小娜自然也没理由退出。没错,微软小娜折戟移动端显然并不是微软在AI上“技不如人,甘拜下风”,恰恰相反,小娜的退出完全与技术无关,其只是微软在移动端上全面收缩的一个缩影。<br>为什么“智障”的Siri能够有被逐步完善的机会,是因为苹果iPhone自带的智能语音助手就是她,iPhone用户长按HOME键就只能呼出Siri,这也为被吐槽的Siri能拥有超过5亿活跃用户的“秘籍”。同理,亚马逊Alexa能够日渐壮大,是因为有上亿销量的智能音箱Echo,而Google Assistant的层出不穷的黑科技,则是因为有十位数的Android设备作为后盾。<br>反观微软小娜为什么会退出iOS以及Android端,究其原因则还是因为自家的Windows 10 Mobile一直不给力,以至于在去年微软确定自家的移动操作系统因为硬件缺乏支持,以及软件丰富程度远逊竞争对手的情况下,已经进入了“维护期”。自然就又双叒叕一次Windows 10 Mobile面临着“先有鸡还是先有蛋”的问题,也就是没有用户就吸引不到第三方开发者,没有第三方开发者贡献的内容,用户体验就无法保证。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1909.09757] <a href="https://arxiv.org/pdf/1909.09757.pdf">Positive-Unlabeled Compression on the Cloud | Yixing Xu、Yunhe Wang、Hanting Chen、Kai Han、Chunjing Xu、Dacheng Tao、Chang Xu</a><br>摘要:卷积神经网络被广泛应用于诸多 CV 领域的任务中。为了保证性能,神经网络会存在大量的冗余参数。为了将 神经网络应用于移动设备中,往往需要压缩网络。但是上传模型到云端进行压缩时,耗时较长。为了解决这个问题,本文提出了一种基于少样本的云端网络压缩技术,实验表明,论文中的算法只需要依赖少量原始训练数据,达到和使用全部样本的压缩算法相当的准确率。 </li><li>[1911.08609] <a href="https://arxiv.org/pdf/1911.08609.pdf">Hybrid Composition with IdleBlock: More Efficient Networks for Image Recognition | Bing Xu、Andrew Tulloch、Yunpeng Chen、Xiaomeng Yang、Lin Qiao</a><br>摘要:近年来,卷积神经网络(CNN)已经主宰了计算机视觉领域。自 AlexNet 诞生以来,计算机视觉社区已经找到了一些能够改进 CNN 的设计,让这种骨干网络变得更加强大和高效,其中比较出色的单个分支网络包括 Network in Network、VGGNet、ResNet、DenseNet、ResNext、MobileNet v1/v2/v3 和 ShuffleNet v1/v2。近年来同样吸引了研究社区关注的还有多分辨率骨干网络。<br>作者认为目前实现高效卷积网络的工作流程可以分成两步:1)设计一种网络架构;2)对该网络中的连接进行剪枝。在第一步,作者研究了人类专家设计的架构与搜索得到的架构之间的共同模式:对于每种骨干网络,其架构都是由其普通模块和归约模块(reduction block)的设计所确定的。第二步会将某些连接剪枝去掉,这样就不能保证每个模块都有完整的信息交换了。Facebook AI 的研究者在这篇论文中通过在网络设计步骤中考虑剪枝,为图像识别任务设计了一种更高效的网络。他们创造了一种新的模块设计方法:Idle。 </li><li>[1911.09723v1] <a href="https://arxiv.org/abs/1911.09723v1">Fast Sparse ConvNets | Erich Elsen、Marat Dukhan、Trevor Gale、Karen Simonyan</a><br>摘要:从历史发展的角度来看,对有效推理(efficient inference)的追求已经成为研究新的深度学习架构和构建块背后的驱动力之一。近来的一些示例包括:压缩和激发模块(squeeze-and-excitation module)、Xception 中的深度级可分离卷积(depthwise seperable convolution)和 MobileNet v2 中的倒置瓶颈(inverted bottleneck)。在所有这些示例中,生成的构建块不仅实现了更高的有效性和准确率,而且在领域内得到广泛采用。在本文中,来自 DeepMind 和 Google 的研究者们进一步扩展了神经网络架构的有效构建块,并且在没有结合标准基本体(standard primitive)的情况下,他们主张用稀疏对应(sparse counterpart)来替换这些密集基本体(dense primitive)。利用稀疏性来减少参数数量的想法并不新鲜,传统观点也认为理论浮点运算次数的减少不能转化为现实世界的效率增益。<br>研究者通过提出一类用于 ARM 和 WebAssembly 的有效稀疏核来纠正这种错误观点,并且进行开源作为 XNNPACK 库的组成部分。借助于稀疏标准体(sparse primitive)的有效实现,研究者表明,MobileNet v1、MobileNet v2 和 EfficientNet 架构的稀疏版本在有效性和准确率曲线(efficiency-accuracy curve)上显著优于强大的密集基线(dense baseline)。在骁龙 835 芯片上,他们提出的稀疏网络比同等的密集网络性能增强 1.3-2.4 倍,这几乎相当于 MobileNet-family 一整代的性能提升。研究者希望他们的研究成果可以促进稀疏性更广泛地用作创建有效和准确深度学习架构的工具。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/google/XNNPACK">google/XNNPACK: High-efficiency floating-point neural network inference operators for mobile and Web</a><br>摘要:XNNPACK is a highly optimized library of floating-point neural network inference operators for ARM, WebAssembly, and x86 (SSE2 level) platforms. XNNPACK is not intended for direct use by deep learning practitioners and researchers; instead it provides low-level performance primitives for accelerating high-level machine learning frameworks, such as MediaPipe, TensorFlow Lite, and TensorFlow.js. </li><li><a href="https://github.com/rbonghi/jetson_stats">rbonghi/jetson_stats: 📊 Simple package to monitoring and control your NVIDIA Jetson</a><br>摘要:jetson-stats is a package to monitoring and control your NVIDIA Jetson [Nano, Xavier, TX2i, TX2, TX1] embedded board. </li><li><a href="https://github.com/pytorch/FBGEMM">pytorch/FBGEMM: FB (Facebook) + GEMM (General Matrix-Matrix Multiplication) - https://code.fb.com/ml-applications/fbgemm/</a><br>摘要:FBGEMM (Facebook GEneral Matrix Multiplication) is a low-precision, high-performance matrix-matrix multiplications and convolution library for server-side inference.<br>The library provides efficient low-precision general matrix multiplication for small batch sizes and support for accuracy-loss minimizing techniques such as row-wise quantization and outlier-aware quantization. FBGEMM also exploits fusion opportunities in order to overcome the unique challenges of matrix multiplication at lower precision with bandwidth-bound operations.<br>FBGEMM is used as a backend of Caffe2 and PyTorch quantized operators for x86 machines: <ol><li>Caffe2: <a href="https://github.com/pytorch/pytorch/tree/master/caffe2/quantization/server">https://github.com/pytorch/pytorch/tree/master/caffe2/quantization/server</a> </li><li>PyTorch: <a href="https://github.com/pytorch/pytorch/tree/master/aten/src/ATen/native/quantized/cpu">https://github.com/pytorch/pytorch/tree/master/aten/src/ATen/native/quantized/cpu</a><br><a href="https://engineering.fb.com/ml-applications/fbgemm/">https://engineering.fb.com/ml-applications/fbgemm/</a> </li></ol></li><li><a href="https://github.com/DynamoRIO/drmemory">DynamoRIO/drmemory: Memory Debugger for Windows, Linux, Mac, and Android</a><br>摘要:Dr. Memory is a memory monitoring tool capable of identifying memory-related programming errors such as accesses of uninitialized memory, accesses to unaddressable memory (including outside of allocated heap units and heap underflow and overflow), accesses to freed memory, double frees, memory leaks, and (on Windows) handle leaks, GDI API usage errors, and accesses to un-reserved thread local storage slots.<br>Dr. Memory operates on unmodified application binaries running on Windows, Linux, Mac, or Android on commodity IA-32, AMD64, and ARM hardware.</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/q7YpDssTcMLZrhV_JIikpg">微软小冰是怎样学会对话、唱歌和比喻?我们听三位首席科学家讲了讲背后的原理 | 量子位</a><br>摘要:“爱情和葡萄酒一样,对程序员来说都是奢侈品”,这是学习“比喻”这种修辞手法时,微软小冰的一句话。现在,已经有4.5亿台第三方智能设备搭载了小冰,小冰多轮对话的轮数(CPS)最高已经达到了23轮。过去5年来,小冰团队有48篇论文发在了AAAI I JCAI ACL KDD EMNLP等顶会上,已经申请了72个专利,其中,今年发了3篇ACL、4篇EMNLP、1篇Interspeech和1篇ACM MM long paper。<br>在前不久的一次workshop上,微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑分享了近年来小冰的技术成就。 </li><li><a href="https://mp.weixin.qq.com/s/RpLAHbfYDBF2M4khWMgTmw">CPU与GPU两者之间的区别与是什么?xPU又是什么 | 电子森林</a><br>摘要:先了解什么是异构并行计算,同构计算是使用相同类型指令集和体系架构的计算单元组成系统的计算方式。而异构计算主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,常见的计算单元类别包括CPU、GPU、DSP、ASIC、FPGA等。<br>异构计算用简单的公式可以表示为“CPU+XXX”。举例来说,AMD着力发展的APU就属于异构计算,用公式表示就是CPU+GPU。<br>由于术业有专攻,CPU、GPU、DSP、ASIC、FPGA各有所长,在一些场景下,引入特定计算单元,让计算系统变成混合结构,就能让CPU、GPU、DSP、FPGA执行自己最擅长的任务。 </li><li><a href="https://mp.weixin.qq.com/s/cjPhpyS9TXtOHfRPs5pVPQ">TVM在CPU上加速卷积神经网络的策略与性能对比 | ApacheMXNet</a><br>摘要:无论是在云上还是在终端没有一款深度学习框架可以在各种主流CPU(包括Intel, AMD和ARM)都高效地进行卷积神经网络推理,主要原因是大家的做法都过于依赖第三方库,再加上框架本身不可避免地带来了一些overhead。为了做一个面向不同CPU,依赖度尽量少的高效模型推理方案,我们把目光投向了深度学习编译器。<br>当前功能最全社区活跃度最高的开源深度学习编译器是TVM,它可以接受不同框架(Keras/MXNet/TensorFlow/…)的模型并编译到多种设备(CPU/GPU/FPGA/…)上。由于TVM的编译做了不同粒度的优化,在端到端(end-to-end)性能上有时甚至能得到几十倍的加速。 </li><li><a href="https://mp.weixin.qq.com/s/RoZj64VW-RFOSMSEpEpFqg">ETHZ计算机系统结构课程 | 量子位</a><br>摘要:苏黎世联邦理工(ETH Zurich)今年的计算机系统结构的秋季课程在线开放。授课老师是ETH Zurich的Onur Mutlu教授。他是UT奥斯丁的博士,之前也是CMU的Strecker Professor。还曾经在Google、VMware、微软、Intel、AMD这些国际大厂工作过。校内,这门课被分成了10个星期的课程,目前已经更新了8个星期。<br>课程链接:<a href="https://safari.ethz.ch/architecture/fall2019/doku.php?id=schedule">https://safari.ethz.ch/architecture/fall2019/doku.php?id=schedule</a></li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-11-18.md">2019-11-18</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-31.md">2019-10-31</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">知识共享署名-相同方式共享 4.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-11-18@Bi-weekly</title>
<link href="/2019/11/18/bi-weekly/2019-11-18/"/>
<url>/2019/11/18/bi-weekly/2019-11-18/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-11-18"><a href="#嵌入式AI简报-2019-11-18" class="headerlink" title="嵌入式AI简报 (2019-11-18)"></a>嵌入式AI简报 (2019-11-18)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/I1r2s7hohUZ1rc80c_ZOrw">NVIDIA推出Jetson Xavier™NX,用于边缘的机器人和嵌入式计算设备 | 吉浦迅科技</a><br>摘要:NVIDIA推出了Jetson Xavier™NX,这是世界上最小、最强大的人工智能超级计算机,适用于边缘的机器人和嵌入式计算设备。<br>具有紧凑的外形因素比信用卡的大小,节能的Jetson Xavier NX模块提供服务器级的性能,最高可运行21个现代人工智能的工作负载,功耗低至10瓦。<br>Jetson Xavier NX最多可提供14TOPS(10W)或21TOPS(15W),并行运行多个神经网络,并以NANO尺寸(70x45毫米)同时处理来自多个高分辨率传感器的数据。对于已经在构建嵌入式机器的公司,Jetson Xavier NX运行在与所有Jetson产品相同的CUDA-X AI™软件架构上,确保了快速上市和低开发成本。<br>作为NVIDIA “同一套软件同一个梦想”架构方法的一部分,Jetson Xavier NX由NVIDIA JetPack™软件开发工具包支持,这是一个完整的AI软件堆栈,可以运行现代和复杂的AI网络、用于深度学习的加速库以及计算机视觉、计算机图形、多媒体等。 </li><li><a href="https://mp.weixin.qq.com/s/MoP_1eE2vwKmT29_gFs0ZA">麒麟990下放:华为nova 6曝光 | 安兔兔</a><br>摘要:nova 6已经通过工信部入网许可,它提供4G、5G双版本,其中5G版本将搭载麒麟990 5G芯片,这是华为今年下半年推出的旗舰SOC。<br>麒麟990 5G采用业界最先进的7nm+ EUV工艺制程,首次将5G Modem集成到SOC中,也是世界第一款晶体管数量超过103亿的移动终端芯片。<br>规格方面,麒麟990 5G芯片采用Cortex A76架构,使用的是2+2+4的组合方案,大核CPU主频达到了2.86GHz,中核CPU主频为2.36GHz,小核CPU主频为1.95GHz,GPU为Mali-G76 MP16。nova 6可能会在12月份亮相。 </li><li><a href="https://mp.weixin.qq.com/s/XMhPdCc85It_AL-34g9mpA">三星解散自研CPU团队:Exynos旗舰芯片重回ARM公版 | 安兔兔</a><br>摘要:近日,外媒消息称,三星将解散自研CPU团队,未来将完全使用ARM公版架构。<br>三星的Exynos 9830将回归到ARM A77公版大核,并且未来完全依赖ARM的核心架构来完成芯片的研发设计。<br>分析师Patrick Moorhead认为,三星近几代的自研核心性能不错,但耗电问题始终没能较好的解决,尤其是对比竞品骁龙Kryo。<br>有消息称三星正在和AMD密谋合作GPU架构,未来或推出一款搭载AMD GPU技术的游戏手机。 </li><li><a href="https://mp.weixin.qq.com/s/YScNsSJDJTYS5828x3st7A">高通骁龙865提前爆料:多核性能已接近苹果A13,三星7nm EUV工艺,分两个版本(附:旗舰处理器大比拼) | EETOP</a><br>摘要:高通将在12月3日在夏威夷毛伊岛举行2019年骁龙技术峰会,不出意外的话,高通骁龙865也会跟着亮相。<br>知名爆料人@Roland Qunandt曾透露,高通骁龙865拥有Kona和Huracan两个版本。其中一个版本将内置骁龙X55基带,支持mmWave和sub-6GHz 5G波段。爆料称,“骁龙865”的综合性能提升了20%。<br>现在,知名数码爆料达人@数码闲聊站曝光了高通骁龙865的部分参数,它将搭载一个高频A77+3个A77+4个A55内核。<br>结合此前的爆料消息,“骁龙865”有望采用三星7nm EUV工艺打造,并整合5G基带,CPU设计为1个A77定制Kryo大核,频率2.84GHz,3个A77定制Kryo中核和4个1.8GHz A55定制小核。GPU为Adreno 650,频率587MHz。芯片支持8K HDR内容,支持LPDDR5内存。 </li><li><a href="https://mp.weixin.qq.com/s/YScNsSJDJTYS5828x3st7A">Achronix FPGA新动作:发布最新7nm高性能FPGA 数据中心加速卡,对标赛灵思、英特尔 | EETOP</a><br>摘要:2019年10月31日, Achronix半导体公司与Molex旗下的FPGA加速器产品供应商BittWare在北京举办了面向高性能计算和数据加速应用,采用Speedster7t独立FPGA芯片的VectorPath加速卡新品发布会。<br>专为高性能和高带宽数据应用所设计的VectorPath加速卡具有以下硬件功能:400GbE QSFP-DD和100GbE QSFP56接口;8组GDDR6存储器可提供4 Tbps的总带宽;1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器;符合PCIe的要求并获得了认证;Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC);692K的6输入查找表(LUT);40K Int8 MAC提供高于80 TOps的算力;OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器。此外。VectorPath加速卡具备丰富的生态开发环境以及高性能的存储接口。</li><li><a href="https://mp.weixin.qq.com/s/DokAiDgHqgeAY6S_eA4ggA">20+移动端硬件,Int8极速推理,端侧推理引擎Paddle Lite 2.0 正式发布 | 机器之心</a><br>摘要:今年 8 月,飞桨(PaddlePaddle)对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版。经过近两个多月的迭代和发展,2019 Wave Summit+ 深度学习开发者峰会上 Paddle Lite 2.0 正式版发布。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/Ev2vBSIPyLpFa9pU4ybcTA">谷歌提出TVN视频架构:单CPU处理1s视频仅需37ms、GPU仅需10ms | 机器之心</a><br>摘要:谷歌机器人团队利用进化算法,获得低计算成本、高性能的视频网络架构 TVN,该网络运行高效,速度可达之前视频模型的 100 倍。<br>视频理解是计算机视觉领域中的重要问题,它有很多应用,如视频自动标注、行为识别和机器人感知。视频理解对自动智能体在现实世界中的应用有重大影响,目前它仍是一道难题。现有的解决方案计算成本高昂,最快速的算法需要在强大的 GPU 上运行才能处理超过 0.5 秒的视频片段。<br>为了解决该问题,谷歌机器人团队提出使用进化算法,自动设计出以原来计算成本的一部分提供相当性能的网络(即低计算成本、高性能)。具体来说,谷歌研究者提出了一种为视频理解任务设计「微」神经网络(tiny neural network)族的通用方法。<br>这些微神经网络可实现相当高的准确率,且运行高效,可实时或者以更快的速度运行。它们在一块 CPU 上处理约 1 秒的视频片段需要 37-100 ms,在一块 GPU 上仅需 10 ms,速度是当前模型的 100 倍。研究者将这些网络称为 Tiny Video Networks (TVN),因为此类网络仅需要极小的运行时,这在视频模型中尚属首例。<br>论文链接:<a href="https://arxiv.org/abs/1910.06961v1">https://arxiv.org/abs/1910.06961v1</a> </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/NetEase/Emmagee">NetEase/Emmagee: Android performance test tool-CPU,memory,network traffic,starting time,battery current and status</a><br>摘要:兼容性测试,通常都需要在各种真机上执行相同或者类似的测试用例,所以往往采用自动化测试的手段。 同时,由于需要覆盖大量的真实设备,除了大公司会基于 Appium + Selenium Grid + OpenSTF 去搭建自己的移动设备私有云平台外,其他公司一般都会使用第三方的移动设备云测平台完成兼容性测试。<br>第三方的移动设备云测平台,国外最知名的是 SauceLab,国内主流的是 Testin。<br>对于 Android 系统,推荐一款 Android 的轻量级性能监控小工具 Emmagee,类似于 Windows 系统性能监视器,能够实时显示 App 运行过程中 CPU、内存和流量等信息。 </li><li><a href="https://github.com/ARM-software/optimized-routines">ARM-software/optimized-routines: Optimized implementations of various library functions for ARM architecture processors</a> </li><li><a href="https://github.com/codeplaysoftware/SYCL-DNN">codeplaysoftware/SYCL-DNN: The SYCL-DNN neural network acceleration library.</a><br>摘要:补充说明:SYCL是OpenCL的高级编程模型,作为基于纯C ++ 11(用于SYCL 1.2.1)和C ++ 14(用于SYCL 2.2)的单源特定于域的嵌入式语言(DSEL), 用于提高编程效率。 这是由Khronos Group于2014年3月发布的标准。 </li><li><a href="https://github.com/codeplaysoftware/sycl-blas">codeplaysoftware/sycl-blas: An implementation of BLAS using the SYCL open standard for acceleration on OpenCL devices</a> </li><li><a href="https://github.com/openstf/stf">openstf/stf: Control and manage Android devices from your browser.</a> </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/qNuvJzjBN_rIpVdP-E6YBA">TVM Meetup@Shanghai 见闻 | HelloGCC</a><br>摘要:2019年11月16日周六,在上海虹桥枢的某酒店会议厅,国内第一次专业的 TVM Meetup 完满的结束。主要内容包括:自动化(调优)是未来,异构设备大一统 Runtime,虚拟机:支持动态 workload,能够裸机运行的 uTVM,支持NPU的快速设计等等……<br>阿里巴巴PAI事业部的 TensorCore and Mixed-Precision Training/Inference 报告的内容。整理如下:<a href="https://mp.weixin.qq.com/s/oswwdXAkIL47mJTOU0AsGg">https://mp.weixin.qq.com/s/oswwdXAkIL47mJTOU0AsGg</a> </li><li><a href="https://mp.weixin.qq.com/s/JrtDld6i-ZCW8Ygw-fRvJg">MLPerf发布首个AI芯片推理测试排行榜:阿里平头哥含光800获得多项第一 | 量子位</a><br>摘要:MLPerf基准联盟公布了第一批AI芯片的推理测试结果,对来自19个公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核。<br>来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果,这些公司包括:阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。<br>MLPerf推理基准用于衡量训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。<br>测试结果类似于PC硬件上的性能天梯图,覆盖了性能差异4个数量级,功耗差异3个数量级的设备,范围从嵌入式设备和智能手机到大型数据中心系统。 </li><li><a href="https://mp.weixin.qq.com/s/q8-dThWk7ONRk5XizTENog">能效优先:eyeriss CNN加速器的设计思路 | MikesICroom</a><br>摘要:eyeriss是MIT提出的深度学习加速器,目前总共有2代芯片,v1和v2。第一代是基础结构,第二代在v1的基础上提供了稀疏化和更灵活的网络结构。eyeriss的结构和我们熟知的TPU,DLA,Thinker等有所不同,主要体现在其PE计算的方法和数据复用的结构上,应该更类似于功能弱化的DPU的PE。本文通过分析eyeriss的具体结构,探讨这种独立PE控制结构的优劣。 </li><li><a href="https://mp.weixin.qq.com/s/pzZpFh_PcJP7udFj7FVgJg">Adobe黑科技用AI帮你选滤镜,手机拍出梦幻大 | 新智元</a><br>摘要:Adobe正在启动一个免费的AI驱动的Photoshop Camera应用程序,该app使用Adobe的人工智能平台Sensei识别照片中的对象(无论是自拍照,风景还是食物),并自动建议要应用的图像滤镜。滤镜可以在屏幕上实时使用,也可以应用于相册中的照片。 </li><li><a href="https://mp.weixin.qq.com/s/8Q2B4_2coBvuWSCyN5zwpg">单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍 | 机器之心</a><br>摘要:2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。<br>TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(TFLOPS)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。<br>250 TFLOPS 浮点运算性能是什么概念?目前的世界第一超级计算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率,仅需 803 块就可以实现同样的性能。<br>Groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。<br>白皮书地址:<a href="https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf">https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf</a> </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-31.md">2019-10-31</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-10-31@Bi-weekly</title>
<link href="/2019/10/31/bi-weekly/2019-10-31/"/>
<url>/2019/10/31/bi-weekly/2019-10-31/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-10-31"><a href="#嵌入式AI简报-2019-10-31" class="headerlink" title="嵌入式AI简报 (2019-10-31)"></a>嵌入式AI简报 (2019-10-31)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/C-fhsIt5vq6iCGbtxEurJA">ARM发布的新IP:Ethos N57和N37 NPU、Mali-G57 GPU以及Mali-D37 DPU | 电脑爱好者</a><br>摘要:ARM此次发布的新IP包括Ethos N57和N37 NPU、Mali-G57 GPU以及Mali-D37 DPU。<br>Mali-G57采用了和Mali-G77相同的Valhall架构,改进了图形指令集、运算架构等。与Mali-G52相比,G57有着1.3倍的性能,能效提升30%、性能密度提升30%、机器学习提升60%。换句话说,在搭配相同计算核心的情况下(如Mali-G57MP4 PK Mali-G76MP4),Mali-G57的性能可以超越Mali-G76(现在的情况是Mali-G52MP6才略强于Mali-G76MP4)!<br>“Ethos”是ARM自研的NPU架构,此次新上市的Ethos N57主要用于主流中端手机合智慧家庭,Ethos N3则适用于入门手机合电视等,它们的性能分别为2TOP/s和1TOP/s。作为对比,ARM在今年5月推出的旗舰级Ethos N77 NPU则拥有4TOP/s的性能。嗯,未来的中端SoC将具备更好的原生AI性能。<br>最后我们再来看看Mali-D37 DPU(深度学习运算单元),它基于Komeda架构设计,使用16工艺时只需占用1平方毫米的面积就能输出2K视频。考虑到2020将7nm将成为主流,届时这个视觉核心IP将释放更大的潜力。 </li><li><a href="https://mp.weixin.qq.com/s/E_jj9ijLKg2bFg9CWSjHnw">三星发布990旗舰处理器:7nm EUV,自研M5架构,G77,LPDDR5 | EETOP</a><br>摘要:三星在9月初的时候刚刚发布了其中端处理器Exynos 980,在今天,三星又出乎意料地宣布推出全新的Exynos 990芯片组-这应该是三星2020年的旗舰SoC,它采用最新IP并采用了最新的7nm EUV制造工艺。与前期发布的Exynos 980一样,这两款新的芯片都带支持5G连接,并采用了新的产品命名方案。<br>之前有报道说三星已放弃自研架构,不过此次发布的Exynos 990依然采用了三星的自研的Mongoose架构 ,并且已迭代到了最新的Exynos M5微体系结构。三星引述说,新设计比9820中的Exynos M4快20%-考虑到更大的工艺节点改进,20%的提升相对有点保守。<br>三星已经从上一代的Cortex A75升级了中间核,使其具有更新的Cortex A76设计,这将在日常工作负载中提供更大的性能提升。最后,我们继续将Cortex A55内核视为低效率内核。三星没有透露任何CPU的时钟频率,但宣称新的三群集的总体改进为13%。<br>Exynos 990看到了以MP11配置的新型Mali-G77的形式对GPU进行的重大升级。新的Valhall架构有望为Arm的GPU IP带来巨大的性能提升,而且看起来新的Exynos将成为采用新GPU系列的首批芯片组之一。三星新闻稿称,我们将看到性能提升高达20%,或者功耗效率提升高达20%。考虑到工艺改进以及新的GPU架构,这种增长显得微不足道,三星似乎不太可能赶上苹果和高通的最新处理器。<br>Exynos 990自身带来的一项根本变化是从LPDDR4X内存到LPDDR5内存的过渡。这样一来,新芯片组就可以将内存控制器频率从2093 MHz提高到2750MHz,同时提高了功耗效率。<br>三星透露,该芯片带有双核NPU和新的DSP,NPU吞吐量超过10个TOP。在这里,尚不清楚三星是指DSP的功能还是NPU和DSP的组合功能。Exynos 9820的NPU的吞吐量为1.86TOP。 </li><li><a href="https://mp.weixin.qq.com/s/AjiKV31KlJSJhL995nmv6g">平头哥共享MCU芯片平台,成为国内第一家芯片平台开源企业 | 量子位</a><br>摘要:平头哥宣布开源其低功耗微控制芯片(MCU)设计平台,成为国内第一家推进芯片平台开源的企业。平台面向AIoT时代的定制化芯片设计需求,目标群体包括芯片设计公司、IP供应商、高校及科研院所等。<br>全世界的开发者都能基于该平台设计面向细分领域的定制化芯片,IP供应商可以研发原生于该平台的核心IP,高校和科研院所则可开展芯片相关的教学及科研活动。平台包含处理器、基础接口IP、操作系统、软件驱动和开发工具等模块,搭载基于RISC-V架构的玄铁902处理器,提供多种IP以及驱动,能让用户快速集成、快速验证,减少基础模块开发成本。<br>平头哥还透露,后续还将开放更多IP和玄铁处理器。平台开源代码包括基础硬件代码和配套软件代码两部分,现已公布在GitHub开源社区。 </li><li><a href="https://mp.weixin.qq.com/s/hxmB95Zv3vOheOvrH9FceQ">科大讯飞的1024:语音技术进一步突破,发布专用芯片 | 机器之心</a><br>摘要:在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。<br>于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。<br>科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。 </li><li><a href="https://mp.weixin.qq.com/s/H2ZO9WxkBlKzjX-cElZdYg">功耗仅2W、算力达4Tops,地平线发布旭日二代边缘 AI 芯片 | 雷锋网</a><br>摘要:地平线正式发布旭日二代边缘 AI 芯片及一站式全场景芯片解决方案。<br>旭日二代是地平线面向未来物联网推出的新一代智能应用加速引擎,也是地平线在自动驾驶芯片领域技术先发优势的一次成功迁移。在旭日二代上的实际测试结果表明,分类模型 MobileNet V2的运行速度超过每秒700张图片,检测模型Yolo V3的运行速度超过每秒40张图片。在运行这些业界领先的高效模型方面,旭日二代能够达到甚至超过业内标称4TOPS算力的AI芯片,而其功耗仅为2W。 </li><li><a href="https://mp.weixin.qq.com/s/25ZKJshAy6EQbZ3t_cszdA">华为发布5G全系列解决方案: 行业首个ADN Mobile解决方案 | 华为无线网络</a><br>摘要:华为无线总裁邓泰华发布了行业第一个ADN Mobile(自动驾驶移动网络)解决方案。该解决方案包含AI训练平台iMaster NAIE、跨域AI单元 iMaster AUTIN和MBB网络AI单元iMaster MAE三部分,这三个部分通过分层自治形成最小闭环,并按需垂直协同。基于该解决方案,华为将在明年推出系列化的无线网络自动驾驶的L3应用。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/6b-cmb8iVhYk50BpMYsNyQ">GPU解码提升40倍,英伟达推进边缘设备部署语音识别,代码已开源 | 机器之心</a><br>摘要:英伟达近日一篇论文为语音识别技术在边缘设备上的部署带来了福音,其新提出的解码器方法即使在边缘嵌入式 GPU 上也能高效高速地执行。而且这种方法不仅适用于低端硬件,而且也能为数据中心带来显著的效率提升,从而能够识别更多并行的在线音频流。该方法的早期版本已开源。<br>总体而言,相比于单核 CPU 解码,新提出的改进能实现高达 240 倍的提速,并且解码速度也比当前最佳的 GPU 解码器快 40 倍,同时返回的结果表现相当。从大型数据中心服务器到低功耗边缘设备,该架构可在各种层级的硬件上部署生产级模型。<br>论文:<a href="https://arxiv.org/pdf/1910.10032.pdf">https://arxiv.org/pdf/1910.10032.pdf</a><br>代码:<a href="https://github.com/kaldi-asr/kaldi/tree/master/src/cudadecoder">https://github.com/kaldi-asr/kaldi/tree/master/src/cudadecoder</a> </li><li><a href="https://mp.weixin.qq.com/s/ChbfJSj509-se_yxwkGP7w">第三方应用AI BenchMark: 麒麟990远超骁龙855+,华为手机领跑前五 | 机器之心</a><br>摘要:过去两年,移动 AI 加速器的性能一直在快速提升,每出现一代新的系统级芯片(Soc),性能就会提升近两倍。当前的第四代移动 NPU 性能已经接近不久前英伟达推出的 CUDA 兼容显卡性能,并且加之以移动深度学习框架性能的提升,第四代 NPU 甚至可以在移动设备端上运行复杂和深度 AI 模型。<br>在本文中,来自苏黎世联邦理工学院、谷歌研究院和华为、高通、三星、联发科、紫光展锐等多家移动端芯片厂商的研究者评估并对比了高通、海思、三星、联发科和紫光展锐为 AI 推理提供硬件加速的芯片组的性能结果。此外,他们还探讨了安卓 ML pipeline 近来的变化,概述了深度学习模型在移动端设备上的部署情况。 </li><li><a href="https://mp.weixin.qq.com/s/lc7IoOV6S2Uz5xi7cPQUqg">ICCV 2019 开源论文 | 基于元学习和AutoML的模型压缩新方法 | PaperWeekly</a><br>摘要:模型剪枝算法能够减少模型计算量,实现模型压缩和加速的目的,但是模型剪枝过程中确定剪枝比例等参数的过程实在让人头痛。<br>这篇文章提出了 PruningNet 的概念,自动为剪枝后的模型生成权重,从而绕过了费时的 retrain 步骤。并且能够和进化算法等搜索方法结合,通过搜索编码 network 的 coding vector,自动地根据所给约束搜索剪枝后的网络结构。和 AutoML 技术相比,这种方法并不是从头搜索,而是从已有的大模型出发,从而缩小了搜索空间,节省了搜索算力和时间。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/nfrechette/rtm">nfrechette/rtm: Realtime Math</a><br>摘要:This library is geared towards realtime applications that require their math to be as fast as possible. Much care was taken to maximize inlining opportunities and for code generation to be optimal when a function isn’t inlined by passing values in registers whenever possible. </li><li><a href="https://github.com/Kyson/AndroidGodEye">Kyson/AndroidGodEye: AndroidGodEye:A performance monitor tool , like “Android Studio profiler” for Android , you can easily monitor the performance of your app real time in pc browser</a><br>摘要:Android开发者在性能检测方面的工具一直比较匮乏,仅有的一些工具,比如Android Device Monitor,使用起来也有些繁琐,对开发者能力有一定的要求。而线上的App监控更无从谈起。所以需要有一个系统能够提供Debug和Release阶段全方位的监控,更深入地了解对App运行时的状态。<br>AndroidGodEye是一个可以在PC浏览器中实时监控Android性能数据指标的工具,你可以通过wifi/usb连接手机和pc,通过pc浏览器实时监控手机性能。系统分为三部分: <ol><li>Core 核心部分,提供所有模块 </li><li>Debug Monitor部分,提供Debug阶段开发者面板 </li><li>Toolbox 快速接入工具集,给开发者提供各种便捷接入的工具<br>AndroidGodEye提供了多种监控模块,比如cpu、内存、卡顿、内存泄漏等等,并且提供了Debug阶段的Monitor看板实时展示这些数据。而且提供了api供开发者在release阶段进行数据上报。 </li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/87516875">移动端arm cpu优化学习笔记第2弹–常量阶时间复杂度中值滤波 | 知乎</a><br>摘要:最近在复现 Side window 中值滤波的时候就在思考中值滤波能怎么优化,直观上看中值滤波好像没什么可优化的点,因为中值滤波需要涉及到排序,而且半径越大,排序的耗时也越大。那么中值滤波能否进一步加速呢?或者像均值滤波一样,可以不受滤波半径的影响呢?<br>答案是能!这篇博客就是记录怎么去优化中值滤波的实践过程。而前面的3小节都是介绍尝试的优化思路,最后一节才是讲本文标题提到的常量阶时间复杂度中值滤波的实现思路,想直接看其实现思路的读者可以跳到最后一小节。 </li><li><a href="https://www.infoq.cn/article/JgQPbhS7Irx9dlYMuxTu">神经架构搜索研究指南,只看这一篇就够了 | InfoQ</a><br>摘要:从训练到用不同的参数做实验,设计神经网络的过程是劳力密集型的,非常具有挑战性,而且常常很麻烦。但是想象一下,如果能够将这个过程实现自动化呢?将这种想象转变为现实,就是本指南的核心内容。<br>我们将探索一系列的研究论文,这些论文试图解决具有挑战性的自动化神经网络设计任务。在本指南中,我们假设读者尝试过使用 Keras 或 TensorFlow 等框架从头开始设计神经网络。 </li><li><a href="https://mp.weixin.qq.com/s/V_RAEbGLjZUq3UjGW52eEQ">PyTorch&TensorFlow跑分对决:哪个平台运行NLP模型推理更快 | 量子位</a><br>摘要:作者在PyTorch 1.3.0、TenserFlow2.0上分别对CPU和GPU的推理性能进行了测试。<br>两种不同的环境中具体硬件配置如下:CPU推理:使用谷歌云平台上的n1-standard-32硬件,即32个vCPU、120GB内存,CPU型号为2.3GHz的英特尔至强处理器。<br>GPU推理:使用谷歌云平台上的定制化硬件,包含12个vCPU、40GB内存和单个V100 GPU(16GB显存)。<br>除了初步的测试,作者还用上两个平台独有的加速工具,看看它们对模型推理速度有多大的提升。<br>Pytorch使用TorchScript可以在XLNet上产生永久的性能提升,而在XLM上使用则会不可靠;在XLM上,TorchScript可以提高较小输入时的性能,但会降低较大输入时的性能。<br>TF启用XLA提高了速度和内存使用率,所有模型的性能都有提高。 大多数基准测试的运行速度提升到原来的1.15倍。在某些极端情况下,推理时间减少了70%,尤其是在输入较小的情况下。 </li><li><a href="https://mp.weixin.qq.com/s/Z9-W46L9O_OHRgzL4XkzxQ">独家深度 | 为什么Arm的AI处理器姗姗来迟 | 雷锋网</a><br>摘要:上周,Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤为值得关注,不仅因为NPU系列同时发布了N57和N37两款新品,还因为Arm的ML处理器(Machine Learning Processor)系列名称Ethos也正式公布。全新AI系列产品的亮相,意味着Arm的AI策略更加明晰。<br>不过,2017年开始,手机市场就开启了AI处理器的竞争,华为、苹果、三星、联发科、高通都相继推出集成NPU的手机处理器。为什么Arm直到2019年才推出NPU?Arm的NPU能否获得成功?</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-17.md">2019-10-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-10-17@Bi-weekly</title>
<link href="/2019/10/17/bi-weekly/2019-10-17/"/>
<url>/2019/10/17/bi-weekly/2019-10-17/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-10-17"><a href="#嵌入式AI简报-2019-10-17" class="headerlink" title="嵌入式AI简报 (2019-10-17)"></a>嵌入式AI简报 (2019-10-17)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/NNTA7B_ZZNruh01Nax26Mg">PyTorch 1.3发布:能在移动端部署,支持Colab云TPU,阿里云上也能用 | 量子位</a><br>摘要:PyTorch 1.3率先公布。新的版本不仅能支持安卓iOS移动端部署,甚至还能让用户去对手Google的Colab上调用云TPU。<br>PyTorch 1.3支持端到端的工作流,从Python到部署在iOS和安卓端。移动端的部署还是早期实验版本,针对端到端做了优化重点在: <ol><li>库大小优化,根据用户需要构建级别优化和选择性编译; </li><li>提升了移动CPU和GPU上的性能; </li><li>高级API:扩展移动原生API,覆盖常用预处理、将机器学习合并到移动应用需要的集成任务,比如计算机视觉或者NLP的任务。<br>移动端部署细节:<a href="https://pytorch.org/mobile/home/">https://pytorch.org/mobile/home/</a> </li></ol></li><li><a href="https://mp.weixin.qq.com/s/Q-6-GVEyUhyDj9JqbfLJTg">Arm推出嵌入式CPU的客制化指令 | Arm中国</a><br>摘要:Arm Custom Instruction(客制化指令)让设计片上系统(SoC)的合作伙伴,透过特定嵌入式与物联网(IoT)应用的优化,达成市场差异化区分。<br>在避免软件碎片化的情况下,架构上可支持完全整合之客制化CPU指令的智能与快速开发。建立在Armv8-M架构的关键优点上,包括强大的软件生态系统、安全性与更快的处理加速 ,且不会产生额外费用。<br>Arm Custom Instruction(客制化指令)让设计片上系统(SoC)的合作伙伴,透过特定嵌入式与物联网(IoT)应用的优化,达成市场差异化区分。<br>在避免软件碎片化的情况下,架构上可支持完全整合之客制化CPU指令的智能与快速开发。建立在Armv8-M架构的关键优点上,包括强大的软件生态系统、安全性与更快的处理加速 ,且不会产生额外费用。 </li><li><a href="https://mp.weixin.qq.com/s/DAXXYzLhFtMXUIbEXE1zmw">多核性能击败麒麟990和骁龙855!联发科首款5G芯片HelioM70跑分曝光,采用A77架构 | EETOP</a><br>摘要:近日GeekBench官网出现疑似Helio M70的跑分结果,单线程3447/多线程12151,搭载最新A77架构,不出意外的话这款就是联发科首款5G芯片Helio M70。<br>对比骁龙855及麒麟990跑分,可以看到单核心跑分弱于这两者,但凭借多核心12151的跑分已经超过了855和990,妥妥的是旗舰级性能。加上GPU、4K60fps录像、AI等方面的规格,可以说已经具备了冲击高端手机的实例。<br>联发科Helio M70(MT6297)采用台积电7nm工艺制造(高通骁龙X50还是28nm),是一款5G多模整合基带,同时支持2G/3G/4G/5G,完整支持多个4G频段,可以简化终端设计,再结合电源管理整体规划可以大大降低功耗。 </li><li><a href="https://mp.weixin.qq.com/s/C_jmVr_cYZOmExAG2I9OqQ">FPGA行业巨头Xilinx推出Vitis AI平台,并在GitHub上开源 | 量子位</a><br>摘要:FPGA芯片厂商赛灵思(Xilinx)在北京发布了Vitis统一软件平台,支持赛灵思多种可编程逻辑器件(如FPGA、ACAP、MPSoC等硬件)上的应用程序的新框架。它为云端、边缘和混合计算应用加速提供了统一编程模型。<br>Vitis提供了一系列重要组件,包括Vitis AI开发环境、Vitis加速库、Vitis运行时库等等。其中,Vitis AI是赛灵思的人工智能开发平台,适用于在赛灵思硬件上进行AI推理,帮助FPGA释放AI加速的潜力。 </li><li><a href="https://mp.weixin.qq.com/s/554WFzKDqkZteXQSMKCi4w">Instagram 上线 AR 试妆功能 | 雷锋网</a><br>摘要:Instagram今日刚刚上线了一项AR试妆功能。目前这项功能仅向化妆品(Mac和Nars是早期合作伙伴)和眼镜品牌(Warby Parker和Ray-Ban)开放,未来也将逐渐推广到其他产品类别。<br>通过这项功能,消费者将产品添加至购物车前,可以预览这些产品用在自己身上的实际效果。同时,也可以将试用的效果图分享至Instagram,其他消费者通过这张效果图就可以快速连接至该商品,形成病毒式的传播。<br>据了解,这项功能背后的技术与Spark AR平台相同,后者为Instagram的相机效果和Facebook的AR广告提供了大量支持。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/bRQQgCpcRNjRSs67il0kUg">麻省理工HAN Lab | ProxylessNAS自动为目标任务和硬件定制高效CNN结构(文末论文及源码) | 计算机视觉战队</a><br>摘要:NAS受限于其过高的计算资源需求,仍无法在大规模任务上直接进行神经网络的学习。<br>这篇文章主要解决NAS代理机制下无法搜索到全局最优的问题,改进搜索策略,一定程度上解决资源消耗的问题。<br>作者提出了ProxylessNAS,第一个在没有任何Proxy的情况下直接在ImageNet量级的大规模数据集上搜索大设计空间的的NAS算法,并首次专门为硬件定制CNN架构,作者还将模型压缩(减枝、量化)的思想与NAS进行结合,把NAS的计算成本(GPU时间和内存)降低到与常规训练相同的规模,同时保留了丰富的搜索空间,并将神经网络的硬件性能(延时,能耗)也直接纳入到优化目标中。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB">Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB: 💎 1MB轻量级通用人脸检测模型</a> </li><li><a href="https://github.com/pytorch/xla">pytorch/xla: Enabling PyTorch on Google TPU</a> </li><li><a href="https://github.com/tpoisonooo/chgemm">tpoisonooo/chgemm: symmetric int8 gemm</a><br>摘要:chgemm 是一个 int8 gemm 工程,与 BLAS gemm 不完全相同: <ol><li>输入为 [-127, +127] 范围内的 int8_t 类型矩阵,输出为 int32_t 矩阵。需注意溢出;</li><li>更多地为深度学习应用场景考虑,packAB 接口暴露出来可以调整;</li><li>实现为 C = A * B。alpha 和 beta 在深度学习推理中无实用意义;</li><li>行主序实现,放弃远古 fortran 时代的列主序;</li><li>不低于其他项目的 symmint8 gemm 速度。</li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/-Rv13DNJPODPefjfv2lXyQ">快手王华彦:端上视觉技术的极致效率及其短视频应用实践 | AI科技大本营</a><br>摘要:快手硅谷Y-tech实验室负责人王华彦讲述了端上视觉技术的极致效率及其短视频应用实践。<br>他指出了其中面临的技术挑战:第一,不可控的复杂场景和环境;第二,极为有限的移动设备计算资源;第三,由于所有应用有很强的时效性,需要做到快速开发和部署模型。<br>为了应对这些挑战,他介绍了解决方案和研究方向的三要素:首先是运用高度结构化的模型,并充分利用先验知识;其次,面对计算资源紧缺需要充分发掘各种冗余来提高算法的推理效率;最后,用高度结构化的信息表示提高学习算法利用数据的效率。 </li><li><a href="https://zhuanlan.zhihu.com/p/86620263">大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜 | 知乎</a><br>摘要:近日,用户 Linzaer 在 Github 上推出了一款适用于边缘计算设备、移动端设备以及 PC 的超轻量级通用人脸检测模型,该模型文件大小仅 1MB,320x240 输入下计算量仅 90MFlops。项目推出不久即引起了大家的关注,登上了今天的 Github trending。 </li><li><a href="https://mp.weixin.qq.com/s/Op2jAT32n-4PSCkI2kk-rQ">世界知名半导体ST、NXP、Microchip、TI、Renesas公司的MCU和MPU定位、性能及特点 | strongerHuang</a><br>摘要:前不久,恩智浦推出了Cortex-M7 + M4内核的MCU(i.MX RT1170),主频高达1GHz,打破MCU低频的传统。来了解一下世界上几个知名MCU厂商各家的MCU产品。概念: <ol><li>MCU:Microcontroller Unit,微控制器,或者单片机; </li><li>MPU:Microprocessor Unit,微处理器; </li><li>DSC:Digital signal controller,数字信号控制器。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/7vUtC57GUR5apL4N-Cka-g">RISCV的高性能计算探索:HWACHA的硬件架构解析 | MikesICroom</a><br>摘要:最近在学习RISCV相关的东西,发现了Berkeley一个很有意思的项目:HWACHA。这是一个使用RISCV开源处理器构建的类vector的多核异构系统,可以用来做低算力的深度学习应用。当然HWACHA本身也是开源的,有兴趣可以去github下载源码跑跑看。这里还是从硬件设计的角度来分析下这种多核异构系统的特点。<br>Summary:HWACHA使用了自定义的类Vector指令集,通过内嵌调用的形式和RISCV ISA整合在一起。HWACHA的执行类似于紧耦合的coprocessor,RISCV core负责循环的控制,Vector units负责主要的向量运算。两者通过特殊的指令进行co-work,实现控制和运算错拍的并行执行。相比传统的处理器Vector扩展,HWACHA将integer和vector完全隔离,硬件设计相对简单且易于扩展,可以提供良好的并行性。不过由于是独立的指令集,需要和RISCV ISA一起联合编译,对compiler有特殊的要求。 </li><li><a href="https://mp.weixin.qq.com/s/hNP0imHvpR77wphAqcUtuQ">技术架构的战略和战术原则 | InfoQ</a><br>摘要:技术架构,是将产品需求转变为技术实现的过程。技术架构解决的问题包括了如何进行纯技术层面的分层、开发框架选择、语言选择(这里以 JAVA 语言为主)、涉及到各自非功能性需求的技术点(安全、性能、大数据)。技术架构是确定组成应用系统实际运行的技术组件、技术组件之间的关系,以及部署到硬件的策略。<br>技术架构面临最大的挑战是“不确定性”。在技术架构上,很多时候就会面临这种选择。是要选择业界最新的技术?还是选择团队最熟悉的技术?如果选择最新的技术,遇到新技术出了问题怎么解决?如果选择目前熟悉的技术,后续技术演进怎么办。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-10-03.md">2019-10-03</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-10-03@Bi-weekly</title>
<link href="/2019/10/03/bi-weekly/2019-10-03/"/>
<url>/2019/10/03/bi-weekly/2019-10-03/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-10-03"><a href="#嵌入式AI简报-2019-10-03" class="headerlink" title="嵌入式AI简报 (2019-10-03)"></a>嵌入式AI简报 (2019-10-03)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=MzA5NDI1MjA0Ng==&mid=2652087781&idx=2&sn=f4b17ee056b8f91c383e74e4fbd29984">华为Mate 40曝光 首发麒麟1000处理器 | 安兔兔</a><br>摘要:报道称华为Mate 40将率先搭载麒麟1000芯片,该芯片基于台积电5nm工艺制程打造,考虑到7nm FinFET Plus EUV 麒麟990 5G集成了高达103亿个晶体管,如果麒麟1000使用5nm工艺制程,那么每平方毫米可能有多达1.713亿个晶体管。<br>此外,报道还称麒麟1000可能会采用Cortex A77架构,性能表现值得期待。 </li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA5NDI1MjA0Ng==&mid=2652087748&idx=5&sn=d8ce0eec9066e80e701aebe28f3e01a3">骁龙865来了!样片已开测 | 安兔兔</a><br>摘要:近日有外媒报道称,索尼正在开发下一代Xperia旗舰,他们在索尼移动的固件分发服务器上找到了Xperia “SM8250”字样,而SM8250正是传闻中骁龙865的内部型号。<br>有消息称,865提供两个版本,分别集成5G调制解调器和未集成5G调制解调器,厂商可以选择不同版本推出不同机型。 </li><li><a href="https://www.infoq.cn/article/i78THUqMJsY10ZavsFv4">阿里巴巴重磅发布含光800芯片:顶10个GPU | InfoQ</a><br>摘要:去年云栖大会上,平头哥芯片公司横空出世,阿里也是从去年开始研发自己的 NPU 芯片。今年云栖大会上,NPU 有了重大突破:全球最高性能 AI 推理芯片含光 800 正式发布!在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。 </li><li><a href="https://mp.weixin.qq.com/s?__biz=MTM2ODM0ODYyMQ==&mid=2651457874&idx=4&sn=670019ccbfcc2f64c2b9fa249e4b50fb">比特大陆第三代云端AI芯片 | 雷锋网</a><br>摘要:比特大陆的第三代AI芯片BM1684,内置张量计算模块TPU,该TPU模块包含64个NPU运算单元,每个NPU包括16个EU单元,总共有1024个EU运算单元。BM1684为视频处理做了特别优化,单芯片最高支持32路H264/H265的解码能力,每秒480帧JPEG/PNG图片编解码,960 fps@1080p视频解码能力,更内置了视频图像前后处理硬件加速模块。<br>第三代芯片的优势在于高性能和低功耗。同时,BM1684与国内最优秀和国外最优秀的厂商的对比。分别是在Restnet50、MobileNet、Vggnet16下处理能力和能效比的对比中可以看到,比特大陆最新款的AI云端芯片对比两个优秀芯片厂商都有不同程度的优势。<br>基于台积电12nm工艺,在16w功耗下,BM1684 FP32精度算力达到2.2 TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下,INT8算力可提升至35.2Tops。</li><li><a href="https://mp.weixin.qq.com/s/JmvTRD5DyVFTn1hQHeselQ">腾讯开源物联网操作系统 TencentOS tiny,最小体积 1.8KB! | CSDN</a><br>摘要:TencentOS tiny的开源,难免让人联想到鸿蒙OS和方舟编译器的开源。目前,TencentOS tiny已支持意法半导体、恩智浦、华大半导体、瑞兴恒方、国民技术等主流厂商多种芯片和模组。支持复杂的任务管理、实时调度、时间管理、中断管理、内存管理、异常处理。<br>对于开源,腾讯物联网团队表示:“将腾讯自主研发的物联网操作系统TencentOS tiny开源,不仅可以将腾讯在物联网领域的技术和经验,和全球开发者分享,还能够汲取全球物联网领域的优秀成果、和创新理念,最终推动整体物联网生态的繁荣、以及万物智联时代的到来。”</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1909.10788] <a href="https://arxiv.org/abs/1909.10788">IR-Net: Forward and Backward Information Retention for Highly Accurate Binary Neural Networks</a><br>摘要:商汤在1-bit cnn上做的一些新工作,基于开源二值网络推理框架<a href="https://github.com/JDAI-CV/dabnn">JDAI-CV/dabnn: dabnn is an accelerated binary neural networks inference framework for mobile platform</a>。 </li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650771134&idx=2&sn=012082a897dbf125000e38b73520c51d">TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品 | 机器之心</a><br>摘要:BERT 等大模型性能强大,但很难部署到算力、内存有限的设备中。为此,来自华中科技大学、华为诺亚方舟实验室的研究者提出了 TinyBERT,这是一种为基于 transformer 的模型专门设计的知识蒸馏方法,模型大小还不到 BERT 的 1/7,但速度是 BERT 的 9 倍还要多,而且性能没有出现明显下降。目前,该论文已经提交机器学习顶会 ICLR 2020。<br>论文:<a href="https://arxiv.org/abs/1909.10351">https://arxiv.org/abs/1909.10351</a> </li><li><a href="https://mp.weixin.qq.com/s/3_famaAmkAN-4xVEupSXSA">ICCV 2019:华为、北大等首创GAN剪枝算法,线上加速 3 倍以上 | 新智元</a><br>摘要:华为诺亚方舟实验室最新研究首次提出针对GAN中生成网络的剪枝算法,在图像迁移任务中,可以在保持迁移效果的情况下,网络参数量和计算量压缩四倍以上,实测推理时间压缩三倍以上。论文已被ICCV 2019录用。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247488646&idx=1&sn=e1849eda9652121c4255c9d40830240b">LFFD 再升级!新增行人和人头检测模型,还有了优化的C++实现 | 我爱计算机视觉</a><br>摘要:LFFD:中科院开源轻量级通用人脸检测器,其不仅仅可用于人脸检测,实际上是一款优秀的单类目标检测器。其最大特点是在精度接近SOTA的同时,速度非常快。<br>最近该项目新增不少吸引人的特性,而且还有朋友再进一步优化LFFD,使其更适于工程开发。网友 @SyGoing使用C++语言实现和 NCNN、 MNN 、OpenViNO的LFFD。使其更有利于设备部署: <ul><li>NCNN版:<a href="https://github.com/SyGoing/LFFD-with-ncnn">https://github.com/SyGoing/LFFD-with-ncnn</a> </li><li>MNN版:<a href="https://github.com/SyGoing/LFFD-MNN">https://github.com/SyGoing/LFFD-MNN</a> </li><li>OpenVINO版:<a href="https://github.com/SyGoing/LFFD-OpenVINO">https://github.com/SyGoing/LFFD-OpenVINO</a> </li></ul></li><li><a href="https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247488713&idx=1&sn=17e559b030ccfad34d0c9dc3cec6f8be">业界首个实时多目标跟踪系统开源 | 我爱计算机视觉</a><br>摘要:一篇多目标跟踪的论文Towards Real-Time Multi-Object Tracking,引起了不少人的关注,速度更快、精度更高、代码也已经开源了,非常值得参考。作者称,该算法是第一个实时的多目标跟踪算法。<br>来自清华大学和澳大利亚国立大学。多目标跟踪往往采用tracking-by-detection 流程,分为用于目标定位的检测模型和目标关联的表观嵌入模型,长久以来,这两大模块是分开的。<br>该文提出的算法,MOTA接近state-of-the-art,比DeepSort精度高,速度快3-4倍。以上算法评估作者是在Nvidia Titan xp GPU上运行的。 <ul><li>论文地址:<a href="https://arxiv.org/pdf/1909.12605v1.pdf">https://arxiv.org/pdf/1909.12605v1.pdf</a> </li><li>开源代码:<a href="https://github.com/Zhongdao/Towards-Realtime-MOT">https://github.com/Zhongdao/Towards-Realtime-MOT</a> </li></ul></li><li><a href="https://mp.weixin.qq.com/s/6JGRrIiC2rQU_WuF7YVjGg">嵌入式Linux GUI框架AWTK | ZLG立功科技一致远电子</a><br>摘要:随着便携式智能设备的普及,用户对人机交互界面(GUI)的要求越来越高,而Qt的资源占用大等短板致使在某些应用仍存在难点。<br>ZLG致远电子研发的AWTK是一套基于C语言的跨平台GUI开发框架,可用于开发物联网、消费电子、工业控制、汽车电子、智能家居等领域的应用产品,旨在为用户提供一个功能强大、高效可靠、简单易用、可轻松做出炫酷效果的GUI开发解决方案,使用户开发GUI应用就像开发串口应用一样简单。 </li><li><a href="https://github.com/plasma-umass/coz">plasma-umass/coz: Coz: Causal Profiling</a><br>摘要:Coz is a new kind of profiler that unlocks optimization opportunities missed by traditional profilers. Coz employs a novel technique we call causal profiling that measures optimization potential. This measurement matches developers’ assumptions about profilers: that optimizing highly-ranked code will have the greatest impact on performance. Causal profiling measures optimization potential for serial, parallel, and asynchronous programs without instrumentation of special handling for library calls and concurrency primitives. Instead, a causal profiler uses performance experiments to predict the effect of optimizations. This allows the profiler to establish causality: “optimizing function X will have effect Y,” exactly the measurement developers had assumed they were getting all along.<br>Full details of Coz are available in our paper, Coz: Finding Code that Counts with Causal Profiling (pdf), SOSP 2015, October 2015 (recipient of a Best Paper Award).</li><li><a href="https://github.com/LieluoboAi/radish">LieluoboAi/radish: C++ model train&inference framework</a><br>摘要:Radish可以让你的模型从训练到部署都使用相同C++代码库, 借助libtorch, 让你专注实现模型及对应数据处理。 </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=Mzg2OTEzODA5MA==&mid=2247488503&idx=1&sn=0911e8e2772e923566ed39f7861da4b3">Paddle Lite特性全解读,多硬件支持、轻量化部署等亮点频现 | 飞桨PaddlePaddle</a><br>摘要:本文主要由 9 月 21 日在百度科技园举办的 AI 快车道 Paddle Lite 专场的演讲材料整理而成,分别介绍了 Paddle Lite 的性能特性、使用方法、架构设计等,并且提供了完整的使用案例,可供开发者迅速开展应用。 </li><li>Polyhedral Model—AI芯片软硬件优化利器 | 要术甲杰 StarryHeavensAbove<br>摘要:神经网络中的很多重要算子都可以表现为嵌套的多重循环的形式,而以加速神经网络为目的的AI芯片和编译器,很多软硬件优化工作是对这些循环的变换和优化。Polyhedral Model是循环优化的“神器”,可以在AI芯片的软硬件优化中发挥巨大作用。笔者是研究和实践Polyhedral Model的专家,很高兴能邀请他给大家介绍一些这方面的知识。 <ol><li><a href="https://mp.weixin.qq.com/s/QEooKxP1sm5O90AUiqKQEQ">Polyhedral Model—AI芯片软硬件优化利器(一)</a> </li><li><a href="https://mp.weixin.qq.com/s/NRtud1UImE5ArZ2zQWFRyg">Polyhedral Model—AI芯片软硬件优化利器(二)</a> </li><li><a href="https://mp.weixin.qq.com/s/bLBIrJb82IsnyoXSEr2xtw">Polyhedral Model—AI芯片软硬件优化利器(三)</a> </li></ol></li><li><a href="https://www.zhihu.com/question/347692093">如何看待阿里平头哥发布的全球最高性能 AI 芯片「含光 800」?这款芯片核心技术是什么呢 | zhihu</a> </li><li><a href="https://help.aliyun.com/document_detail/140558.html">Blade Benchmark Suite(BBS)简介_PAI Blade推理优化框架 | 机器学习PAI-阿里云</a><br>摘要:PAI-Blade是阿里巴巴自研的通用推理优化框架,通过模型系统联合优化达到最优的推理性能,即将在公共云与大家见面。<br>为能够让您更好地了解和使用Blade优化工具,我们特别提供一个可试用、易验证的环境和若干模型,构成Blade Benchmark Suite,简称BBS。Blade BBS中共有8个不同类型的深度学习模型,涵盖图像分类、文字检测、自然语言处理等任务场景,Tensorflow、Caffe、Onnx等深度学习框架。在我们提供的docker环境中,可以通过一键式运行脚本run.sh依次进行Blade优化和若干基线测试,使用方法详见BBS使用说明。<br>具体地,我们分别对比了Tensorflow、Tensorflow xla、TensorRT、Caffe、Caffe2等不同框架的性能表现,展示了FP32、FP16、INT8等不同精度的优化情况,对应的参考性能数据和详细说明可参见BBS性能数据。 </li><li><a href="https://www.infoq.cn/article/QxaxY7YXhWSDKcPzJ7a1">下一代HTTPS:蚂蚁金服推出新型可信中间件SOFAEnclave | InfoQ</a><br>摘要:AI 模型安全保护。对外部署的 AI 模型携带大量知识产权,一旦被逆向或泄露,既会对技术护城河造成破坏,也会降低对抗性样本攻击的难度,导致安全问题。应对这种威胁的一种方案是,使用方把 AI 模型和训练 / 预测数据加密存储,只有在使用时才将其输入 Enclave,在 Enclave 里面解密,由 Enclave 中运行的 AI 框架处理,结果根据具体场景需求以明文返回或加密返回并在使用方本地解密。这要求 Enclave 能支持常见的 AI 框架,而要做到这一点极为挑战——一方面是因为这些 AI 框架一般使用了复杂的多线程、OpenMP 等性能优化的运行环境,另一方面是因为 Enclave 又偏偏难以提供这些支撑环境。这就是为什么市面上很多 Enclave 支撑系统难以支持(或难以高效支持)AI 框架的原因。<br>Occlum LibOS 在这方面取得了一定的进展,可以较为轻松的高效运行常见 AI 框架。 </li><li><a href="https://mp.weixin.qq.com/s/Fvh0tXeFOdn3Uyba5zrCXg">CS217课程解析:剖析QNNPACK的矩阵运算优化思路 | MikesICroom MikesICroom</a><br>摘要:QNNPACK是facebook在2018年底推出的面向mobile AI的高性能开源加速库,可以在手机端提供2倍以上的性能提升。QNNPACK不但对传统的卷积有较好的加速,对于新兴的group convolution、depthwise convolution也有不错的效果。尽管这是纯软件的工作,其中很多优化方式和思想很值得借鉴。 </li><li><a href="https://zhuanlan.zhihu.com/p/76491446">设计模型参数量小于1M的行人检测网络 | zhihu</a><br>摘要:原始的RFBNet300参数量有36.5 MB,我采用重新设计,削减了channel数目以及卷积数目以及使用1x1卷积,然后对网络进行了从头训练。在模型参数量只有0.99MB时,AP也能达到78。在模型参数量为3.1MB时,AP能达到80,并且速度还可以达到200FPS。 </li><li><a href="https://www.infoq.cn/article/uMp5KqDG1vWEYbcwES0Q">CPU并行编程概述(上)| InfoQ</a> </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-09-16.md">2019-09-16</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-30.md">2019-08-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-08-30@Bi-weekly</title>
<link href="/2019/08/30/bi-weekly/2019-08-30/"/>
<url>/2019/08/30/bi-weekly/2019-08-30/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-08-30"><a href="#嵌入式AI简报-2019-08-30" class="headerlink" title="嵌入式AI简报 (2019-08-30)"></a>嵌入式AI简报 (2019-08-30)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/vL_gpDPnl7qSlql-fUQsUw">国产AI框架再进化!百度Paddle Lite发布:率先支持华为NPU在线编译,全新架构更多硬件支持 | 量子位</a><br>摘要:Paddle Lite,高扩展、高性能、轻量化,还是首个支持华为NPU在线编译的深度学习端侧推理框架,剑指加大力度攻占移动端侧场景。<br>不仅涵盖ARM CPU、Mali GPU、Adreno GPU、华为NPU等移动端芯片,也支持FPGA等边缘设备常用硬件,并具备可兼容支持云端主流芯片的能力。 </li><li><a href="https://mp.weixin.qq.com/s/YCP4FxKe32XLTdYwCglVoQ">华为麒麟990下周发布,搭载Mate 30,集成5G基带芯片成关注焦点 | 芯潮</a><br>摘要:美国科技网站GSMArena表示,麒麟990将采用自研达芬奇架构NPU,有可能采用ARM的Cortex-A77 CPU内核和Mali-G77 GPU,将成为全球首发采用ARM A77架构的芯片。 </li><li><a href="https://mp.weixin.qq.com/s/AJpIGAa3MliH2yR2tJY87w">华为史上最强芯片昇腾910面世,算力超Tesla V100一倍,AI框架MindSpore明年开源 | 机器之心</a><br>摘要:这是迄今为止华为推出的最强芯片。刚刚,华为在深圳宣布其自研的 AI 训练芯片「昇腾 910」正式上线。与此同时,一同推出的还有华为全场景 AI 计算框架 MindSpore。<br>面向服务器的芯片昇腾(Ascend)910 采用 7nm 制程,而设计功耗为 310W,其算力比英伟达 Tesla V100 还要高出一倍,半精度(FP16)达到了 256 TeraFLOPS(英伟达 Tesla V100 为 125),整数精度算力(INT8)则为 512TeraOPS。在这块芯片上,华为还加入了 128 通道全高清视频解码器。此外,华为表示,昇腾 910 达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。<br>MindSpore 是华为提出的全场景 AI 框架,与 TensorFlow、PyTorch、PaddlePaddle 等框架并列。是一款支持端、边、云独立的和协同的统一训练和推理框架。 </li><li><a href="https://mp.weixin.qq.com/s/Og6H0SS-l8Lx_LzHLkk-Dg">AMD自曝全新GPU架构 手机也能用 | 安兔兔</a><br>摘要:日前,AMD官方发布了RDNA架构白皮书,详细介绍了自家的下一代GPU相关架构。其中介绍了RDNA架构首款产品RX 5700的设计细节,还对未来的超低功耗方案画了大饼。<br>架构方面。RDNA架构中每一对CU共享L1缓存,从而减少读写次数进而降低功耗,L2缓存可在64KB~512KB之间配置。工作机制上,AMD将工作负载分配到更多的核心上,此前的GCN架构是单核64次并行计算,而RNDA架构则收窄到32次,更有利于省电、降低最带宽的侵占。<br>AI方面,RDNA架构支持64、32、8、4位并行整数运算、矢量ALU的宽度是GCN的2倍、这都服务于FMA操作。而ARM最新的公版Mali-G77架构中,底层专门设计了硬件区块来为FMA操作服务。<br>AMD称,RDNA架构适用于高能效的笔记本,智能手机或者超算领域。三星已经确认首款产品不会早于2021年推出。 </li><li><a href="https://mp.weixin.qq.com/s/9u4fS0GfHJPDC0GqdKytxg">紫光展锐发布T618,T710:12nm工艺、影像/AI升级 | 安兔兔</a><br>摘要:紫光展锐推出全新8核架构的LTE移动芯片平台,命名紫光展锐虎贲T618,主要升级了影像处理和AI能力,为全球用户提供旗舰级的终端使用体验。<br>虎贲T618采用12nm制程工艺,由两颗2.0 GHz的Arm Cortex-A75 CPU 和六颗1.8 GHz的Arm Cortex-A55 处理器组成,配置Mali G52 GPU,可提供更高品质的图像显示效果。<br>同时发布的还有紫光展锐虎贲T710,采用8核CPU架构,由4颗2.0GHz的Arm Cortex-A75及4颗1.8GHz的Arm Cortex-A55组成,搭载工作频率为 800MHz 的IMG PowerVR GM 9446 图形处理器。虎贲T710包含了 CPU、GPU、NPU、ISP、VDSP等处理单元,为各类丰富的AI应用提供了高效能、低功耗的技术基础。<br>虎贲T710支持多种AI训练框架、多种AI模型量化方式,包括INT4、INT8、INT16和FP16,并且整合了如4K@30fps编解码,802.11AC,BT 5.0等多媒体和无线通信能力。 </li><li><a href="https://mp.weixin.qq.com/s/nVstRRLwAd0id3D-OTM5Vw">超硅技术里程碑!全球首款可编程碳纳米管芯片问世,RISC-V架构,14000+晶体管 | 芯潮</a><br>摘要:MIT和ADI公司的研究人员们创造了第一个完全可编程的16位碳纳米管微处理器。它是迄今基于碳纳米管的CMOS逻辑最复杂的集成,拥有14000多个晶体管,基于RISC-V架构,可执行与商用微处理器相同的任务。在测试中,它还执行了经典的“Hello World程序”。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/VGK_V-ZW1IPmxWYu7RYYug">共享学习:蚂蚁金服提出全新数据孤岛解决方案 | 机器之心</a><br>摘要:当前,业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条。一条是基于硬件可信执行环境(TEE:Trusted Execution Environment)技术的可信计算,另一条是基于密码学的多方安全计算(MPC:Multi-party Computation)。<br>蚂蚁金服提出了希望通过技术手段,确保多方在使用数据共享学习的同时,能做到:用户隐私不会被泄露,数据使用行为可控,我们称之为共享机器学习(Shared Machine Learning)。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/d-VKoQ6FG8myyCHrFlQAYw">Tensorflow Lite人体姿势跟踪功能上线:基于PosNet的实时人体姿态估计 |机器之心</a><br>摘要:Tensowflow Lite 是移动端计算机视觉应用程序中的明星产品。这个夏天,Tensorflow Lite 再度进化,加入了 PosNet 人体姿态估计模块,性能再度加强!<br>通过它在安卓设备上通过使用「PoseNet」模型来实现人体姿势估计。「PoseNet」是一种视觉模型,它可以通过检测关键身体部位的位置来估计图像或者视频中的人体姿势。例如,该模型可以估计图像中人的手肘和/或膝盖位置。 </li><li><a href="https://mp.weixin.qq.com/s/SeuGX5uneA6FyhOp0lu5Fg">谷歌开源手势识别器,手机能用,运行流畅,还有现成的App | 量子位</a><br>摘要:借助TensorFlow Lite和MediaPipe,谷歌刚刚开源了一款手势识别器,可以直接在手机上运行,实时跟踪,并且已经开源。 有了这项应用,你可以开发手语识别、AR游戏,甚至用它来玩石头剪刀布。<br>谷歌已经把这款手势识别器做成了一款名为“Hand Tracking GPU”的App,在安卓端有对应的apk安装包,下载到手机上,安装成功后,无需联网就可以直接用了。当然,iOS用户也可以安装,但是没有现成的安装包,可以下载源代码自行编译。App默认调用前置摄像头,如果屏幕中出现的是你的脸,它是没有反应的。<br>伸手到屏幕前,就可以和官方演示的一样,识别出手部的各种姿势,123456789都可以识别。 </li><li><a href="https://mp.weixin.qq.com/s/bAVVz6dw-3CExhZLSElatA">中科视拓开源SeetaFace2人脸识别算法 | 中科视拓订阅号</a><br>摘要:来自中科院计算所的人工智能国家队中科视拓宣布,开源商用级SeetaFace2人脸识别算法。SeetaFace2采用商业友好的BSD协议,与2016年开源的SeetaFace1.0相比,SeetaFace2在速度和精度两个层面上均有数量级的提升。地址:<a href="https://github.com/seetafaceengine/SeetaFace2">https://github.com/seetafaceengine/SeetaFace2</a> 。 </li><li><a href="https://github.com/didi/DoraemonKit">didi/DoraemonKit: 简称 “DoKit” 。一款功能齐全的客户端( iOS 、Android )研发助手</a><br>摘要:每一个稍微有点规模的 App,总会自带一些线下的测试功能代码,比如环境切换功能、帧率查看功能等等,这些功能的切换入口往往放在各式各样的入口中,比如一些特殊的手势,双击 statusBar,双击某一个功能区块,或者新建一个 keyWindow 始终至于 App 最上方等等,而且每一个 App 里面的线下附带功能模块很多是相似的,比如帧率查看、内存和 CPU 监控等等,但是现在基本上都是每个 App 都是自己实现了一份,经历了以上的问题之后,DoraemonKit 就有了它存在的意义。<br>DoraemonKit 是一个功能集合面板,能够让每一个 App 快速接入一些常用的或者你没有实现的一些辅助开发工具、测试效率工具、视觉辅助工具,而且能够完美在 Doraemon 面板中接入你已经实现的与业务紧密耦合的一些非通有的辅助工具,功能强大,接入方便,便于扩展。 </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/80VgWjbg7vFEUOV0BsHBWw">移动的王者:深入分析ARM最强处理器Cortex A77 | MikesICroom</a><br>摘要:ARM在今年5月份新推出的Cortex A77架构,采用TSMC 7nm工艺,3GHz峰值频率,性能提升20%。之前一篇文章介绍过X86最强处理器ZEN的架构,详见。本文基于同样原则来分析ARM架构最强处理器A77,深入探讨其设计方案以及和X86架构的异同。 </li><li><a href="https://mp.weixin.qq.com/s/DqnCj72-iB-lixnIXdVBCQ">华为的通用AI之路:深度解读达芬奇架构硬件篇 | MikesICroom</a><br>摘要:2019年的hotchip如期闭幕。其中很多AI相关的报告,最想了解的当然是华为的达芬奇架构。从半年前昇腾处理器的各种新闻就吊足了胃口,不过一直没有细节部分的展示。这次hotchip的presentation终于可以一窥真目了。由于没有听过现场的演讲,只能根据ppt的内容进行解读。<br>达芬奇架构追求的是一个全场景的scalable设计,以一个通用的硬件架构,实现从低端到高端的全覆盖。这是一个很宏大的目标。由于各个应用领域的具体需求不同,比如嵌入式领域对成本和功耗非常注重,移动端更关注性能和功耗的平衡,而云端是极致性能的追求者。通常来说很难有一种架构适配全部应用场景。像ARM这样的通用处理器架构,也针对应用领域的不同需求,设计了M/R/A三个系列,分别针对嵌入式、实时系统和应用领域。这一篇主要是针对达芬奇的硬件结构。 </li><li><a href="https://www.zhihu.com/question/319145946">如何看待Google的MLIR项目 | 知乎</a> </li><li><a href="https://mp.weixin.qq.com/s/7y_whmdwpBEySpz-zuwXFQ">26秒训练ResNet,用这些技巧一步步压缩时间 | 量子位</a><br>摘要:谷歌AI掌门人Jeff Dean转发推荐了一个训练ResNet的奇技淫巧大礼包,跟着它一步一步实施,训练9层ResNet时,不仅不需要增加GPU的数量,甚至只需要1/8的GPU,就能让训练速度加快到原来的2.5倍,模型在CIFAR10上还能达到94%的准确率。 </li><li><a href="https://mp.weixin.qq.com/s/jAxLV6tNGx5Y8ndDhWl-AA">Reddit热议:为什么PyTorch比TensorFlow更快 | 新智元</a><br>摘要:PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事?最近Reddit的一个帖子引起热议。 </li><li><a href="https://mp.weixin.qq.com/s/w1Kk1hn9LZzy8dgAqGGUtw">从模型到部署,FPGA该怎样加速广告推荐算法 | 机器之心</a><br>摘要:在这篇文章里你可以了解到广告推荐算法 Wide and deep 模型的相关知识和搭建方法,还能了解到模型优化和评估的方式、将模型部署到 FPGA 上做硬件加速的方法。 </li><li><a href="https://mp.weixin.qq.com/s/T1DP0WYYlm4Uf2wdMzUJUA">通过Termux打造免root安卓渗透工具 | 原创:D0m4nce 信安之路</a><br>摘要:学习信息安全有一段时间了,之前在信安之路看到过关于树莓派和 badusb 的文章,不过一直没有尝试。前几天偶然看到termux这个 app,于是想尝试看能不能作为替代品使用。<br>Termux 简介:Termux是一个Android下一个高级的终端模拟器,开源且不需要root,支持apt管理软件包,十分方便安装软件包,完美支持Python、PHP、Ruby、Go、Nodejs、MySQL等(推荐从 Google Play 下载)。 </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-08-15.md">2019-08-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-08-15@Bi-weekly</title>
<link href="/2019/08/15/bi-weekly/2019-08-15/"/>
<url>/2019/08/15/bi-weekly/2019-08-15/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-08-15"><a href="#嵌入式AI简报-2019-08-15" class="headerlink" title="嵌入式AI简报 (2019-08-15)"></a>嵌入式AI简报 (2019-08-15)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/N6CVzM1jlQXioaEvifN0Uw">鸿蒙OS仓库连登GitHub榜首,华为鸿蒙手机或将年底上市 | 新智元</a><br>摘要:华为宣布鸿蒙“开源”,直接吊足了开发者的胃口。GitHub也悄悄出现了一个精选华为鸿蒙操作系统相关资源的仓库,给出了清晰的资源路线图。也有小伙伴说 </li><li><a href="http://www.myzaker.com/article/5d416bad8e9f097dca40e6d7/">联发科发布旗下首款游戏处理器,红米拿到了全球首发权 | ZAKER</a><br>摘要:台湾芯片制造商联发科,发布了全新旗舰级手机处理器 Helio G90/G90T,也是该公司首次专为游戏打造的 G 系列产品首个 Soc。这两款产品的目的不言而喻,那就是要同市场上的同类产品竞争,无论是从参数还是性能来看,G90系列的对手就是高通的730系列和麒麟刚刚发布的810。<br>综合考虑产品定位、性能提升幅度、成本等因素后,Helio G90/G90T 采用的是12nm 工艺制程和 Arm 最新发布的 CPU/GPU。CPU是2个大核<code>[email protected]</code>和 6 个小核<code>[email protected]</code>的组合,GPU 为 Arm Mali-G76,频率最高达800MHz。支持高达 10GB 的 LPDDR4x RAM。 </li><li><a href="https://mp.weixin.qq.com/s/RK82PXhW4-gXRecxMhusNg">格芯推出12纳米 ARM 架构 3D 芯片,成熟度优于台积电7纳米 | EETOP</a><br>摘要:格芯指出,新开发出基于ARM 架构的3D 高密度测试芯片,是采用格芯的12 纳米FinFET 制程所制造,采用3D 的ARM 网状互连技术,允许数据更直接的传输到其他内核,极大化的降低延迟性。而这样的架构,这可以降低数据中心、边缘运算以及高阶消应用的延迟,并且提升数据的传输速度。</li><li><a href="https://mp.weixin.qq.com/s/zVWj0yT2S88nt5CpkTfgzQ">三星确认新SoC搭载AMD GPU | 安兔兔</a><br>摘要:三星电话会议上分享了有关AMD GPU IP许可的部分细节。集成AMD Radeon图形处理技术的手机芯片预计在未来2年内发布,它将大幅提升三星手机的GPU性能,值得期待。<br>资料显示,三星于2019年6月份宣布与AMD达成战略合作,后者将Radeon图形处理技术授权给三星,用于智能手机终端。目前三星智能手机使用ARM研发设计的Mali GPU,之前市场传言三星将自行设计开发GPU架构,但是至今未有相关产品发布。在与AMD达成技术授权协议后,三星自行研发、基于ARM架构的Exynos芯片将会显著提升其图形处理性能,与高通骁龙Adreno展开正面对抗。 </li><li><a href="https://mp.weixin.qq.com/s/SeCyx8AP8aofjXR5Qx6AHw">三星发布 1.08 亿像素传感器,小米参与合作并将全球首发 | 雷锋网</a><br>摘要:8月12日,三星官方正式宣布推出1亿像素传感器ISOCELL Bright HMX,这是目前业内首款超过1亿像素的移动图像传感器。在较暗的设置中使用高ISO,有助于降低噪点,从而使图像更清晰。<br>三星称,小米和三星从早期的概念阶段到生产都紧密合作,从而联合打造了这款超过1亿像素的传感器。出货时间方面,三星称ISOCELL Bright HMX的批量生产将于本月晚些时候开始。 </li><li><a href="https://mp.weixin.qq.com/s/lMnP842lHTSJ1vKf7jfhHQ">外媒:海思将放弃麒麟985,下月推990,全球首款7nm+工艺 | EETOP</a><br>摘要:据俄罗斯媒体报道称,华为消费者业务软件总裁王成禄接受其采访时表示,华为海思在下月有大动作,将发布全球首款商用的7nm+移动处理器,并且自家的Mate30系列会首发。报道中提到,Mate 30系列会在今年9月19日亮相,而在这之前 ,华为将在德国IFA大会上发布麒麟新一代旗舰处理器,命名上可能直接跳过原来的985,既冠以麒麟990的称号。麒麟990最大的卖点是升级为台积电第二代7nm(7nm EUV)制程工艺打造,CPU主频、GPU频率、基带速率可能会有所提升。 </li><li><a href="https://mp.weixin.qq.com/s/1zXN5gYC1-XQ6thZi7ADRg">AutoML构建加速器优化模型首尝试,谷歌发布EfficientNet-EdgeTPU | 机器之心</a><br>摘要:今年5月份,谷歌提出了一种利用复合系数统一缩放模型所有维度的新型模型缩放方法,并基于这种模型缩放方法又推出了一种新型 CNN 网络 EfficientNet。近日,谷歌宣布推出一种衍生自 EfficientNet 的图像分类模型 EfficientNet-EdgeTPU,通过定制化在谷歌 Edge TPU 实现最佳运行。<br>Github 上,谷歌发布了 EfficientNet-EdgeTPU 的训练代码和预训练模型。使用 TensorFlow 的后训练量化工具,谷歌将浮点训练模型转换为 Edge TPU 可兼容的整数量化模型。对于这些模型而言,后训练量化的效果非常好,仅产生非常轻微的精度损失(~0.5%)。<br>Github 项目链接:<a href="https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/edgetpu">https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/edgetpu</a><br>Coral 网页:<a href="https://coral.withgoogle.com/docs/">https://coral.withgoogle.com/docs/</a> </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/dEFG9VhkVc0i6fYc-B6tiA">清华大学「天机」芯片登上Nature封面:类脑加传统计算融合实现通用人工智能 | 机器之心</a><br>摘要:8月1日,顶级学术期刊《自然》杂志的封面文章介绍了清华大学在通用人工智能上的新尝试:一款名为「天机」的全新芯片架构,结合类脑计算和人工智能算法,展示了迄今为止从未有人实现过的强大能力。<br>这篇名为《面向通用人工智能的混合天机芯片架构》(Towards artificial general intelligence with hybrid Tianjic chip architecture)的论文展示了一辆由新型人工智能芯片驱动的自动驾驶自行车。试验中,无人自行车不仅可以识别语音指令、自动控制平衡,还能对前方行人进行探测和跟踪,并自动避开障碍。<br>新型芯片结合了类脑计算和基于计算机科学的人工智能——这种融合技术有望提升各类系统的能力,最终实现通用人工智能。作为人工智能的终极目标,人们对于「通用人工智能」的定义通常是:一种可以执行人类能够完成的所有任务的 AI。<br>论文链接:<a href="https://www.nature.com/articles/s41586-019-1424-8">https://www.nature.com/articles/s41586-019-1424-8</a> </li><li><a href="https://mp.weixin.qq.com/s/HRhgqIDqs3wTXuUfr59yYQ">TPU、GPU、CPU深度学习平台哪家强?有人做了一个基准测试研究 | 机器之心</a><br>摘要:GPU、TPU、CPU 都可以用于深度学习模型的训练,那么这几个平台各适用于哪种模型,又各有哪些瓶颈?在本文中,来自哈佛的研究者设计了一个用于深度学习的参数化基准测试套件——ParaDnn,旨在系统地对这些深度学习平台进行基准测试。<br>ParaDnn 能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对谷歌的云 TPU v2/v3、英伟达的 V100 GPU、以及英特尔的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。他们还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。 </li><li><a href="https://mp.weixin.qq.com/s/ez3W9Gk1xQuP1r38cTm09A">AutoML: A Survey of the State-of-the-Art | 机器之心</a><br>摘要:在特定领域构建高质量的深度学习系统不仅耗时,而且需要大量的资源和人类的专业知识。为了缓解这个问题,许多研究正转向自动机器学习。本文是一个全面的 AutoML 论文综述文章,介绍了最新的 SOTA 成果。首先,文章根据机器学习构建管道的流程,介绍了相应的自动机器学习技术。然后总结了现有的神经架构搜索(NAS)研究。论文作者同时对比了 NAS 算法生成的模型和人工构建的模型。最后,论文作者介绍了几个未来研究中的开放问题。<br>作者:Xin He、Kaiyong Zhao、Xiaowen Chu<br>论文链接:<a href="https://arxiv.org/pdf/1908.00709v1">https://arxiv.org/pdf/1908.00709v1</a> </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/didi/AoE">didi/AoE: AoE (AI on Edge,终端智能,边缘计算) 是一个终端侧AI集成运行时环境 (IRE),帮助开发者提升效率</a><br>摘要:AoE (AI on Edge,终端智能,边缘计算) 是一个滴滴开源的 终端侧 AI 集成运行时环境 ( IRE )。以 “稳定性、易用性、安全性” 为设计原则,帮助开发者将不同框架的深度学习算法轻松部署到终端高效执行。目前,AoE 提供了 Android 和 iOS 的实现,Linux 平台运行时环境 SDK 正在紧锣密鼓地开发中,预计在 9 月底发布,方便智能终端设备上落地 AI 业务。 </li><li><a href="https://github.com/stanford-futuredata/dawn-bench-entries">stanford-futuredata/dawn-bench-entries: DAWNBench: An End-to-End Deep Learning Benchmark and Competition</a><br>摘要:DAWNBench是端到端的深度学习训练和推理的基准工具。计算时间和花费成本是构建深度模型的关键,但许多现有基准仅关注模型精度,DAWNBench提供了一组常见的深度学习工作负载,用于量化不同优化策略,模型体系结构,软件框架,云和硬件的训练时间、成本,推理延迟和推理成本。<br>主页:<a href="https://dawn.cs.stanford.edu//benchmark/">https://dawn.cs.stanford.edu//benchmark/</a> </li><li><a href="https://github.com/intel/Immintrin-debug">intel/Immintrin-debug: immintrin_dbg.h is an include file, a wrapper around immintrin.h. It implements most of AVX, AVX2, AVX-512 vector intrinsics to enable source level debug of vector code.</a><br>摘要:<code>immintrin_dbg.h</code>是一个封装了<code>immintrin.h</code>的文件,对Intel的Intrinsic实现了源码级Debug。 </li><li><a href="https://github.com/jacobtomlinson/jupyterlab-nvdashboard">jacobtomlinson/jupyterlab-nvdashboard: A JupyterLab extension for displaying dashboards of GPU usage.</a><br>摘要:训练过程中在Jupyter监控GPU使用。 </li><li><a href="https://github.com/ethereon/lycon">ethereon/lycon: A minimal and fast image library for Python and C++</a><br>摘要:从OpenCV中摘出来的,小巧、极速的Python、C++图像处理库,性能比OpenCV稍好。 </li><li><a href="https://github.com/hollance/coreml-training">hollance/coreml-training: Source code for my blog post series “On-device training with Core ML”</a><br>摘要:端上训练这篇文章 <a href="https://machinethink.net/blog/coreml-training-part1/">On-device training with Core ML – part 1</a> 的源码。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/-e4ueSlAMpkuUgBWEeyRSw">到底什么是微内核操作系统?除了华为鸿蒙,其他很多操作系统也在采用 | EETOP</a><br>摘要:华为开发者大会上正式宣布了鸿蒙操作系统,该系统其中一个亮点是 —— 微内核。华为声称,微内核的启用,使其速度大大提升,并且在安全性上产生变革性突破,微内核打破了宏内核下root即可获取用户所有权限的做法,在安全性上大大提升。 </li><li><a href="https://mp.weixin.qq.com/s/Xp-mJHkEjE5AYlleIIO8nw">自动驾驶中FPGA加速的挑战与实践 | 智驾大脑ACU 阿波罗智能驾驶</a><br>摘要:在前不久的 Baidu Create 2019 百度 AI 开发者大会上,Apollo 发布了业内首创的 AVP 专用车载计算平台——百度 AVP 专用量产计算单元 ACU-Advanced。<br>本篇文章,我们将从与自动驾驶的关系、加速中遇到的挑战、量化计算、节约资源和带宽五个方面,介绍 ACU-Advanced 的核心高性能芯片 FPGA 的相关技术。 </li><li><a href="https://zhuanlan.zhihu.com/p/75989435">对开源框架Tensorflow的优化总结 | zhihu</a><br>摘要:介绍了阿里云TensorFlow On PAI, 阿里妈妈TensorFlowRS, 阿里大规模分布式训练框架PAISoar的几个在应用原生TF的缺点以及对应优化点。 </li><li><a href="https://mp.weixin.qq.com/s/ELW65ParTN2lZRP1cap9_A">手机拍视频,实时换背景,继马卡龙玩图后,Versa又出了一款更厉害的App | 量子位</a><br>摘要:绿幕侠背后用到视频人景分离技术,把视频拆成一帧一帧,实现每一帧的语义分割,其保证分割出来的精确度(边缘)的同时,处理时间低于30毫秒(否则卡顿)。最后模型在手机本地运行。<br>在该过程中,Versa通过自研“概念网络”的优化,提升了当前帧的分割精确度,又将时间空间信息嵌入到更紧凑的维度上,降低backbone的复杂度,花了半年多完成了绿幕侠算法的研究,将每一帧的处理时间降到30毫秒以下,模型也被压缩到了1M左右。<br>但因手机算力和功耗发热问题,最终选择在荣耀9X的SoC麒麟810上运行模型,不仅算力和功耗达到了要求,而且发现麒麟810的I/O的设计更好,数据搬移效率高。<br>麒麟810跑60ms,GTX1070上加上I/O大概是20ms。桌面GPU虽然算力强,但是小模型根本用不上这么大的算力,反而视频数据显存搬移的I/O是瓶颈,时间都花在数据搬运上了。麒麟810的I/O设计出色,省了不少时间。另外,桌面GPU是32bit浮点,810是16bit浮点。GPU是通用芯片,NPU是专门用于神经网络计算,对算子可以特别优化。最终的总时间上跟手机上可比。 </li><li><a href="https://mp.weixin.qq.com/s/Bx-9eYkIlay8f494XXDh-Q">AI芯片“软硬件协同设计”的理想与实践 | StarryHeavensAbove</a><br>摘要:最近看到一篇文章“Hardware-Software Co-Design Reappears”[1],很好的总结了软硬件协同设计“失败”的历史,也提出一些新的想法,这个话题在AI芯片的背景下还是非常值得探讨的。<br>其中几个核心概念包括:1. 一种能够描述软件和硬件的单一语言;2. 优化实现;3.功能划分,包括不同功能在不同类型硬件上的实现;3. 所有功能“一键”完成(自动化)。 </li><li><a href="https://mp.weixin.qq.com/s/VlclUdR3yDpr2-Lyo1fagA">简单几招助您加速 ARM 容器应用开发和测试流程 | 云栖社区</a><br>摘要:利用容器、操作系统和虚拟化技术,我们可以轻松在X86平台构建和测试ARM应用,简化了多CPU体系架构应用的支持。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-30.md">2019-07-30</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-07-30@Bi-weekly</title>
<link href="/2019/07/30/bi-weekly/2019-07-30/"/>
<url>/2019/07/30/bi-weekly/2019-07-30/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-07-30"><a href="#嵌入式AI简报-2019-07-30" class="headerlink" title="嵌入式AI简报 (2019-07-30)"></a>嵌入式AI简报 (2019-07-30)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/Ng5mKtGoEX2MIBMpyR6v3w">阿里平头哥第一颗产品——玄铁910首次交货 | 量子位</a><br>摘要:7月25日,玄铁910正式亮相发布。这并非一款C端常见的完整集成芯片。玄铁910,基于RISC-V开源架构开发,核心针对高性能计算,是一款IP core,是一款处理器,也可以理解为就是SoC里的CPU。或许以英特尔和ARM为参照,更容易理解玄铁910定位。它不是英特尔一样完全整合的CPU,而是ARM类似的CPU IP形态,华为麒麟需要用,高通骁龙需要用,三星苹果的手机芯片也离不开。只是平头哥玄铁,面向AIoT,面向更丰富的万物互联场景,性能更高,适用性更广,开发和进一步流片量产的门槛更低。<br>单位性能7.1 Coremark/MHz,主频在12nm工艺下达到了2.5GHz。性能比公开的RISC-V最好处理器还要提升40%,主频功耗仅为0.2瓦。而且玄铁910采用3发射8执行的复杂乱序执行架构,是公开的RISC-V处理器中——首个实现每周期2条内存访问的处理器。并进一步实现了对RISC-V指令的系统性增强,扩展到50+条指令,系统性增强了RISC-V的算术运算、内存访问和多核同步。<br>若进一步横向比较,玄铁910与ARM v8的高性能处理器A72,处于同一水平。更直接来说,拿玄铁910打造旗舰手机芯片,完全OK。 </li><li><a href="https://mp.weixin.qq.com/s/r7f3Pj6dtxlJOS9azhLJSQ">高通入门级移动平台骁龙215发布:性能增50% | 安兔兔</a><br>摘要:高通宣布推出旗下的入门级移动平台骁龙215,这是一款面向低端手机的全功能SoC芯片。规格方面,骁龙215采用28nm工艺打造,四核心Cortex-A53架构,主频1.3GHz,GPU为Adreno 308。 </li><li><a href="https://mp.weixin.qq.com/s/Oee0nQ5pfbFaKbptPpB_8Q">首发联发科12nm芯!vivo Y7s上架:1798元 | 安兔兔</a><br>摘要:vivo在印度尼西亚推出了新机S1,搭载了联发科P65芯片,上架一款Y7s,目前开启预约,售价1798元,同样搭载P65,外观配置基本与印尼版S1相同。<br>P65是联发科上个月发布的一颗新U,采用12nm制程工艺八核心,集成两颗ARM Cortex-A75 CPU,频率为2GHz,以及六颗Cortex-A55处理器,频率为1.7GHz,八核丛集系统共享一个大型L3缓存。</li><li><a href="https://mp.weixin.qq.com/s/yANyNtq6s__BVI4hkmiQoQ">华为 Mate 20 X 5G 版发布 | 雷锋网</a><br>摘要:5G 版 Mate 20 X 搭载麒麟 980 芯片,外挂巴龙 5000 基带芯片,两颗芯片均为 7nm 制程。<br>除了发布 5G 版 Mate 20 X,华为智慧屏战略也正式公布——华为智慧屏将成为家庭场景中的智慧交互中心、跨屏体验中心、IoT 控制中心和影音娱乐中心。<br>华为智慧屏还将搭载自研的麒麟 AI 芯片,鸿鹄智慧显示芯片,凌霄 WIFI 芯片;搭载的 HiAI 引擎涵盖智能终端语音、自然语言处理、人脸、人体、图像、视频、OCR 与用户画像 8 大业务领域。 </li><li><a href="https://baijiahao.baidu.com/s?id=1640298926953351951">不止麒麟985 华为还将全球首发集成5G基带的7nm芯片 | CNMO手机中国</a><br>摘要:近日,日媒报道称,华为今年准备一口气推出两款旗舰级麒麟芯片,第一款是用于Mate 30系列的麒麟985,采用台积电第二代7nm EUV工艺打造。这款芯片也承载着华为Mate 30系列大规模出货。第二款芯片是全球首款集成5G基带SoC,也就是单颗芯片整合AP(应用处理器)+BP(基带处理器),同样采用7nm EUV工艺,并且最快年底前就可以和用户见面。猜测其命名可能会是麒麟990。 </li><li><a href="https://mp.weixin.qq.com/s/epN4uqsWkzLYF13b3IIizw">谷歌预热Pixel 4两大全新功能:真·人脸解锁+隔空体感操作 | 新智元</a><br>摘要:今年秋天谷歌即将推出Pixel 4,两大亮点着实吸引人的眼球:<br>人脸识别:Pixel 4 将具备人脸识别解锁的功能, 将成为第一款支持真立体识别的 Android 手机。基于运动感应雷达Soli的技术开发。雷达技术在近几十年来就一直用于探测飞机和其他大型目标。Pixel4顶部安装了一台微型雷达,可以感知手机周围的目标的微小动作,这一技术结合了独特的软件算法与先进的硬件传感器,可以识别手势,并在用户靠近时检测出来;<br>体感识别:用户可以隔空用手势控制手机,可以用来换歌、让电话铃声静音,以及关闭闹铃! </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/m9I5TM9uJcgZvMusO667OA">Facebook新压缩算法Bit Goes Down:5MB的神经网络也高效 | 量子位</a><br>摘要:为啥是5MB,因为1MB的精度不如HAQ方法。Facebook提出了一种适用于ResNet类架构的压缩方法,利用了结构化量化算法PQ(Product Quantization)中卷积的高相关性,关注activations的重建,非权重本身。换句话说,该方法只关注域内输入的重建质量。<br>让未经压缩的神经网络充当“老师”,利用蒸馏提炼(distillation)技术来指导“学生”网络的压缩。该过程是无监督的,即不需要标注数据。ResNet-18经过该方法压缩29倍,模型大小1.54MB,top-1准确率比原模型降低不到4%。此外,ResNet-50、MobileNetv1/v2也有类似表现。见:<a href="https://github.com/facebookresearch/kill-the-bits">https://github.com/facebookresearch/kill-the-bits</a> </li><li><a href="https://mp.weixin.qq.com/s/JiLPUYWGeBlq8Q9sE67ORg">Benchmarking TPU, GPU, and CPU Platforms for Deep Learning | 机器之心</a><br>摘要:为了系统地对深度学习平台进行基准测试,研究者提出了 ParaDnn,这是一个用于深度学习的参数化基准测试套件,它能够为全连接(FC)、卷积(CNN)和循环(RNN)神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2/v3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构,揭示了它的瓶颈,并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比,发现每个平台对某些类型的模型都有自己独特的优势。最后,他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。<br>有关深度学习算法的基准测试论文已是汗牛充栋,但对硬件平台进行测试的论文很少见。通过本论文,读者可系统了解各种机器学习训练的平台特性,并针对自身的需求选择:<a href="https://arxiv.org/pdf/1907.10701.pdf">https://arxiv.org/pdf/1907.10701.pdf</a> 。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/YlY4kfilx_DN_5Q-PCdn8Q">复现FastDVDNet:实时视频去噪算法 | 张斌 CVer</a><br>摘要:FastDVDNet是一种比其他SOTA方法速度更快的视频去噪方法。计算机视觉中的视频去噪方法,大多基于传统算法,如VBM4D等non-local,还有一些是常见图像去噪方法的简单扩展。由于视频有着较强的时间相关性,那么一个好的视频去噪算法必将要充分利用这一特点。利用时间相关性主要体现为两个方面: <ol><li>对于给定的patch,不仅要在同一帧的相邻区域搜索像素的patch,也要在时间相近的frame上进行搜索; </li><li>使用相邻时间的frame还可以有效减少flockering,因为每一帧之间的残余就会是相关的。<br>为了解决motion带来的对齐困难问题,DVDNet中使用光流进行了显式的估计,但是光流的计算是比较耗时的,即便是快速算法也是如此。对于encoder-decoder结构的U-Net,其本身具有在感受也范围内对齐的功能,因此,在FastDVDNet中采用了这种做法,也就提高了性能。</li></ol></li><li><a href="https://mp.weixin.qq.com/s/4Mh-9WQJwCVpI7OoP4hkjA">OpenCV 4.1.1 发布 | OpenCV中文网</a><br>摘要:更新东西挺多的,重点有: <ol><li>DNN方面。支持3D卷积的Convolution、BatchNorm、Pooling、Eltwise,Deconvolution3D也实现了,但仅在使用 DNN_BACKEND_INFERENCE_ENGINE时支持。英特尔推理引擎(Intel Inference Engine),其中支持异步推理;使用dot文件实现深度学习网络的可视化;对ONNX 与 TenforFlow importers 模型转换进行了改进;</li><li>性能方面。大量广泛通用的内部函数,支持 AVX512 SIMD加速等;</li><li>安卓支持方面。添加了CameraActivity实用程序类,以自动化Android上的Camera权限处理;默认的C ++运行时库,因体积等考虑,由默认静态改成默认动态;统一了JavaCamera2View/JavaCameraView之间选择帧大小的编码。 </li></ol></li><li><a href="https://mp.weixin.qq.com/s/AsQAJzoO2bFZnYgKMh3iPw">联邦学习开源框架FATE | 机器之心</a><br>摘要:FATE的特别之处在于,它源自微众银行进行大数据风控建模的实际场景,因此 FATE 是一个生产系统,它的可扩展性非常优秀。FATE 自带一个分布式计算框架,它的稳定性比一般的研究型项目好很多,而且预测和训练也都集成在了一起。<br>FATE 并不只有一个框架,它还带了一些经典算法,包括线性回归、提升树和其它分类模型等。这些都得到了大量实践证明,是工业上很常见的方法,所以如果开发者不愿意从头构建,那么就可以直接使用这些方法,或者在这些方法上做修改。<br>随着手机芯片越来越强和5G,联邦学习落地到广大移动端设备并不会太远。 </li><li><a href="https://cs217.stanford.edu/">Stanford CS217: Hardware Accelerators for Machine Learning</a><br>摘要:课程讲义(Lecture Notes)可以在<a href="https://cs217.stanford.edu/">https://cs217.stanford.edu</a>下载。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/xOpCddYLiGG8nWB5XrClIg">华为鸿蒙系统会用在哪?首发设备曝光 | 安兔兔</a><br>摘要:鸿蒙操作系统的最大特点是低时延,它与安卓、iOS是不一样的操作系统。开发设计的初衷是用于物联网,比如工业控制、无人驾驶等场景的支撑使用,现在首先将落地在手表、智能8K大屏上、车联网上。 </li><li><a href="https://mp.weixin.qq.com/s/3j7rORoqQkZ-5z1R5MlH3w">主流的手机散热技术有哪些,哪个更好 | 电子产品世界</a><br>摘要:有一份研究表明,手机内部电子元器件因热量集中引起的材料失效,占据总失效的65%-80%,换句话说,手机内部电子元器件因热量堆叠,导致温度过高,进而影响处理器正常工作,轻则导致系统卡顿,重则导致元器件损坏。因此,散热技术成为目前影响手机性能发挥的关键点之一,那现在主流手机散热技术,都有哪些呢?一起来看看吧。 </li><li><a href="https://zhuanlan.zhihu.com/p/62366940">轻量级网络/检测/分割 | 陀飞轮 知乎</a><br>摘要:由于深度学习的关系,计算机视觉领域发展迅速,各大榜单精度刷的很高,但是这些性能强大的模型却没有用武之地,在现实场景下,更加需要的是轻量级的模型。本文将从轻量级网络(MobileNetV2、ShuffleNetV2)、轻量级检测(Light-Head R-CNN、ThunderNet)、轻量级分割(BiSeNet、DFANet)3个方面进行介绍。 </li><li><a href="https://zhuanlan.zhihu.com/p/51563760">知识蒸馏(Knowledge Distillation)最新进展(一) | 孟让 知乎</a><br>摘要:知识蒸馏是一种模型压缩常见方法,用于模型压缩指的是在teacher-student框架中,将复杂、学习能力强的网络学到的特征表示“知识”蒸馏出来,传递给参数量小、学习能力弱的网络。蒸馏可以提供student在one-shot label上学不到的soft label信息,这些里面包含了类别间信息,以及student小网络学不到而teacher网络可以学到的特征表示‘知识’,所以一般可以提高student网络的精度。 </li><li><a href="https://mp.weixin.qq.com/s/Z0nPlpP6hjEwODWOe9JGag">用了这么多年的 CPU 利用率,其实是错的 | 王强 陈善佩 Linux阅码场</a><br>摘要:CPU 利用率已经开始成为一个容易误导的指标:它包含访存导致的等待周期,这样会影响一些新应用。也许 “%CPU” 应该重命名为 “%CYC”(cycles的缩写)。要清楚知道 “%CPU” 的含义,需要使用其他指标进行辅助,其中就包括每周期指令数(IPC)。IPC < 1.0 多半意味着访存密集型,IPC > 1.0 多半意味着计算密集型。作者之前的文章中涵盖有 IPC 说明,以及用于测量 IPC 的 Performance Monitoring Counters(PMCs)的介绍。<br>所有的性能监控产品如果展示 “%CPU”,都应该同时展示 PMC 指标用于解释其真实意义,不要误导用户。比如,可以把 “%CPU” 和 “IPC” 一起放,或者说指令执行消耗周期和 stalled 周期。有这些指标之后,开发者和操作者就能够知道该如何更好地对应用和系统进行调优。 </li><li><a href="https://mp.weixin.qq.com/s/GET9Z7i3eXC65o3_SRcHhA">嵌入式中是否应该使用动态内存 | RTThread物联网操作系统</a><br>摘要: <ol><li>没有使用RTOS的项目:不建议使用动态内存,这种项目一般很简单,不必使用动态内存增大系统开销和复杂度。</li><li>使用RTOS的消费级项目:建议使用动态内存,一般这种项目代码复杂度比裸机高,合理使用动态内存会有效降低内存的开销。同时很多Github项目的linux程序都是会使用内存管理,有这套机制能更加方便的移植代码。</li><li>使用RTOS的军工、航天、医疗等高稳定性和高安全性项目:建议尽量降低对动态内存的使用与依赖以确保系统的稳定性。当然也不代表动态内存就无法在这些项目上使用,只是要求系统开发者对系统内存的把控要求更高。 </li></ol></li><li><a href="https://zhuanlan.zhihu.com/p/59086302">深度学习框架的来龙去脉——史上最全面最新的深度学习框架对比分析 | 知乎</a> </li><li><a href="https://mp.weixin.qq.com/s/yfNXxQeFllQVgiV5iUjg6w">能耗换取灵活性,今天的 FPGA 走错路了? | 机器之心</a><br>摘要:在 FPGA 广泛应用的今天,康奈尔大学计算机科学助理教授 Adrian Sampson 思考它是否走在正确的路上,如何能够实现通用 FPGA 等问题。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-07-15.md">2019-07-15</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-07-15@Bi-weekly</title>
<link href="/2019/07/15/bi-weekly/2019-07-15/"/>
<url>/2019/07/15/bi-weekly/2019-07-15/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-07-15"><a href="#嵌入式AI简报-2019-07-15" class="headerlink" title="嵌入式AI简报 (2019-07-15)"></a>嵌入式AI简报 (2019-07-15)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/CP6c5fIlIXME9XuV9eR89Q">性能升级,骁龙855 Plus 移动平台来袭 | 高通骁龙</a><br>摘要:Qualcomm今日宣布推出高通骁龙™855 Plus 移动平台,与骁龙855 相比,该平台支持的增强性能包括:Qualcomm® Kryo™ 485 CPU的超级内核主频高达2.96GHz;Qualcomm® Adreno™ 640 GPU实现15%的性能提升;游戏方面,骁龙™Elite Gaming 旨在为用户提供竞争优势,例如对Vulkan 1.1图形驱动的支持,其能效与 Open GL ES 相比提升20%。AI方面,第四代多核Qualcomm®人工智能引擎 AI Engine 能够带来极速响应的游戏体验。它支持每秒超过7万亿次运算(7TOPs)并可综合实现专有的可编程AI加速。搭载骁龙855 Plus 的商用终端预计于2019年下半年面市。 </li><li><a href="https://mp.weixin.qq.com/s/WdWkm8rs978rMl216K-xAA">麒麟810实体芯片首次亮相,对标骁龙730,AI跑分比骁龙855还高 | 量子位</a><br>摘要:麒麟810,2+6大小核:两颗主频2.27GHz的Cortex-A76大核,六颗主频1.88GHz的Cortex-A55小核。Mali-G52定制六核。<br>在AI Benchmark官网上,麒麟810的芯片数据得分为23944,位居第一。不仅超过了骁龙855,也超过了华为首款7nm芯片麒麟980。<br>麒麟810的强项在于处理FP16数据格式的性能和能效表现,与骁龙855相比有6-8倍的优势。此外,在Int8的精度保留和超分性能上也挺好,在图片处理中细节更清晰,不会出现画面错误。 </li><li><a href="https://tech.sina.com.cn/mobile/n/c/2019-07-06/doc-ihytcerm1586194.shtml">小米CC9e评测 千元的价格不变的核心体验 | 新浪网</a><br>摘要:小米CC9e,图形性能上,其搭载的骁龙665采用Adreno 610 GPU,可以带来增强的游戏体验和更长的游戏时间,同时实现了Vulkan 1.1的支持。骁龙665采用与骁龙660相同Kryo 260 CPU,主频为2.0GHz,这其实比骁龙660的2.2GHz主频要低,只是由于工艺上的优势,才能够达到与660相同的性能表现。其优势在于相同的性能下,能够有着更低的功耗。 </li><li><a href="https://mp.weixin.qq.com/s/EcwmGKpCfVy22BWTB0Ro2g">淘宝开源深度学习推理引擎MNN,移动AI的挑战与应对全面解读 | AI前线</a><br>摘要:在 GMTC 全球大前端技术大会 上,淘宝无线开发专家陈以鎏发表了《MNN - 端侧推理引擎面临的挑战与应对》的演讲,与大家分享了 MNN(Mobile Neural Network) 开发、开源中的思考与总结。 </li><li><a href="https://mp.weixin.qq.com/s/vH6sKt7mxrSubAaDR0TXCA">百度 Intel 联手打造新一代 Nervana NNP 芯片 | 雷锋网</a><br>摘要:7月3日举行的百度AI开发者大会上,百度发布了鸿鹄芯片以及多个智能音箱新品,宣布与华为麒麟合作,智能小程序也进入新连接。英特尔副总裁兼人工智能产品事业部总经理 Naveen Rao 也出席现场为百度打 Call,并宣布了与百度在 AI 方面的重磅合作——结合自家的专业知识,共同打造用于训练 AI 的 Nervana 神经网络处理器(NNP,Neural Network Processor)。<br>英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器(NNP-T)。NNP-T 有 24 个计算集群,32GB 的高频宽存储器(HBM2)和本地 SRAM,因此,这款即将推出的处理器在 AI 训练方面比同类产品要强上最多 10 倍,比英特尔推出的首款 Nervana NNP 芯片 NNP-L 1000(代号 Lake Crest)的性能强 3-4 倍。(雷锋网按:2016 年,英特尔收购人工智能公司 Nervana,2017 年,英特尔推出专为机器学习设计的 Nervana NNP 系列芯片)。<br>这一合作包括全新定制化加速器,以实现极速训练深度学习模型的目的。英特尔软件项目 “One API”正是解决前面说到的多个芯片并存加以自动化智能管理解决方案的一部分。<br>One API支持直接编程和API编程,并将提供统一的语言和库,可以在包括CPU、GPU、FPGA和AI加速器等不同硬件上,提供完整的本地代码性能。<br>从本质上看,One API实际是对GPU、CPU、NNP神经网络等多种处理器统一和简化的一种抽样化的模式。 </li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/zoUpCxifuPBKbNjjAZWN6g">CVPR2019: 压缩AI模型有望部署于移动终端 | 戚琦 网络智能研究中心NIRC</a><br>摘要:在这篇由北京邮电大学网络智能研究中心、东信北邮EB Lab合作完成的论文中,作者考虑了网络中连续层之间的关联关系,提出了OICSR方法,将结构正则化同时运用于连续网络层中相互对应的out-channels和in-channels,从而可以在更小的精度损失下,移除更多的冗余通道。在对指标影响较小的情况下,极大地提升深度学习模型的运行效率。 </li><li><a href="https://mp.weixin.qq.com/s/Q1Ovl1LrT5Y6amVqlYpdbA">Google提出全新间接卷积算法 | AI科技大本营</a><br>摘要:谷歌的Peter Vajda在ECV2019中提出了一种全新的间接卷积算法,用于改进GEMM在实现卷积操作时存在的一些缺点,进而提升计算效率。 </li><li><a href="https://mp.weixin.qq.com/s/kDQSO0zS_EflsRGNH8bAvQ">亚毫秒级手机人脸识别!谷歌BlazeFace算法重大突破, 面向移动GPU | 新智元</a><br>摘要:BlazeFace包括一个轻量级的特征提取网络,其灵感来自于MobileNetV1/V2,但又有所不同。还采取了一种修改过的SSD目标检测算法,使其对GPU更加友好。然后用改进的联合分辨率(tie resolution)策略来替代非极大抑制(Non-maximum suppression)。<br>BlazeFace可用于检测智能手机前置摄像头捕捉到的图像中的一个或多个人脸。返回的是一个边界框和每个人脸的6个关键点。 </li><li><a href="https://www.infoq.cn/article/T48EZ7Pgz7JIZj4_xqKU">训练速度提升超3倍!斯坦福推出全新深度学习并行计算框架FlexFlow | InfoQ</a><br>摘要:现有的深度学习框架通常使用模型并行或数据并行来解决深度神经网络(DNN)的并行计算问题,但这两种策略往往会导致模型无法达到最优结果。<br>今年 ACM 的 SysML 大会上,斯坦福大学 Matei 团队在论文《Beyond Data and Model Parallelism for Deep Neural Networks》中提出了一种新的 DNN 并行化策略搜索空间——SOAP。SOAP 从样本(Sample)、运算符(Operator)、属性(Attribute)以及参数(Parameter)四个维度度寻找更好的 DNN 并行化策略。<br>为了加速这个搜索过程,该论文同时提出了一个新的深度学习引擎——FlexFlow。<strong>与目前最先进的方法相比,FlexFlow 能够将训练吞吐量提高 3.3 倍并且可以达到更高的精度。</strong> 作者还比较了 FlexFlow 和 TensorFlow 在 Inception-V3 上进行端到端训练时的性能,FlexFlow 比 TensorFlow 减少了 38% 的训练时间。我们对该方法做了梳理与总结。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/taylorguo/MTCNN_Landmark106">taylorguo/MTCNN_Landmark106: ncnn优化MTCNN, 模型来源于https://github.com/MirrorYuChen/ncnn_106landmarks</a> </li><li><a href="https://mp.weixin.qq.com/s/EXuFXbPBIbzTyi0fUjvvPw?scene=25#wechat_redirect">PyTorch-OpCounter:两行代码统计模型参数量与FLOPs | 机器之心</a><br>摘要:你的模型到底有多少参数,每秒的浮点运算到底有多少,这些你都知道吗?近日,GitHub 开源了一个小工具,它可以统计 PyTorch 模型的参数量与每秒浮点运算数(FLOPs)。有了这两种信息,模型大小控制也就更合理了。<br>其实模型的参数量好算,但浮点运算数并不好确定,我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算,它的参数量比较小,但是运算量非常大,它是一种计算密集型的操作。反观全连接结构,它的参数量非常多,但运算量并没有显得那么大。<br>此外,机器学习还有很多结构没有参数但存在计算,例如最大池化和 Dropout 等。因此,PyTorch-OpCounter 这种能直接统计 FLOPs 的工具还是非常有吸引力的。<br>PyTorch-OpCounter GitHub 地址:<a href="https://github.com/Lyken17/pytorch-OpCounter">https://github.com/Lyken17/pytorch-OpCounter</a></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://jackwish.net/gemm-optimization-and-convolution.html">通用矩阵乘(GEMM)优化与卷积计算 | 黎明灰烬 博客</a><br>摘要:本文简要介绍通用矩阵乘(GEMM,General Matrix Multiplication)优化的基本概念和方法、神经网络量化中矩阵乘的优化方法。旨在帮助大家在概念中建立一些直觉,无甚高论。 </li><li><a href="https://zhuanlan.zhihu.com/p/72149270">NCNN winograd详解(一) | 知乎</a><br>摘要:本文重点讲解一下NCNN里面winograd的计算流程。 </li><li><a href="https://zhuanlan.zhihu.com/p/71881443">NCNN Conv量化详解(一) | 知乎</a><br>摘要:本文作者详细看了看NCNN关于Conv量化的实现,特整理在此,内容包括:NCNN的conv量化计算流程、NCNN量化与反量化方法、NCNN的requantize。 </li><li><a href="https://zhuanlan.zhihu.com/p/72375164">NCNN量化详解(二) | 知乎</a><br>摘要:上次写了一个量化详解,讲了一下NCNN的量化前传过程。本以为是全部内容了,经评论区提醒NCNN最近刚刚更新了量化表的计算,因此写一篇文章把NCNN的量化表计算的算法与实现写下来。 </li><li><a href="https://mp.weixin.qq.com/s/23q81aXS2FjzrQhQfPTkOA">PaddlePaddle显存分配与优化最佳实践 | 飞桨PaddlePaddle</a><br>摘要:先说飞桨显存分配策略,由于原生的CUDA系统调用 cudaMalloc 和 cudaFree 均是同步操作,非常耗时。为了加速显存分配,飞桨采用了显存预分配的策略,<br>除了显存预分配,飞桨还提供了多种通用显存优化方法,使得同样网络模型及配置下的显存占用尽可能小,从而可以支持更大batch size的训练,来提升训练效率,也将会介绍最重要的两种方法,分别是GC(Garbage Collection)策略和Inplace策略。 </li><li><a href="https://mp.weixin.qq.com/s/iyTRMFYTd5PYRVxng1Al4w">CPU是如何访问内存的 | Peter盼 人人都是极客</a><br>摘要:内存管理可以说是一个比较难学的模块,之所以比较难学。一是内存管理涉及到硬件的实现原理和软件的复杂算法,二是网上关于内存管理的解释有太多错误的解释。希望可以做个内存管理的系列,从硬件实现到底层内存分配算法,再从内核分配算法到应用程序内存划分,一直到内存和硬盘如何交互等,彻底理解内存管理的整个脉络框架。本节主要讲解硬件原理和分页管理。 </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-29.md">2019-06-29</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-06-29@Bi-weekly</title>
<link href="/2019/06/29/bi-weekly/2019-06-29/"/>
<url>/2019/06/29/bi-weekly/2019-06-29/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-06-29"><a href="#嵌入式AI简报-2019-06-29" class="headerlink" title="嵌入式AI简报 (2019-06-29)"></a>嵌入式AI简报 (2019-06-29)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/bO518kzL58Gz2bpzH00xxA">联发科P65正式发布:12nm、性能提升25% | 安兔兔</a><br>摘要:联发科发布了Helio P65芯片,12nm制程工艺,采用八核架构,集成两颗ARM Cortex-A75 CPU,频率为2.0GHz,以及六颗Cortex-A55处理器,频率为1.7GHz,八核丛集系统共享一个大型L3缓存。<br>游戏方面,该芯片内置联发科的CorePilot,可以实现智能任务调度、温控管理、用户习惯监测等,确保性能稳定,从而带给用户更好的游戏体验。<br>相较于上一代产品,Helio P65 的AI性能提升达2倍,同时相机识物、场景检测等拍摄,AI处理速度也要比竞品快30%。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qMY8y02C9YYI12RsDpr-W7LiTqnCYOmg7pzdRu5aAvx*CaCDpNajOKL31CDjZVj*wIC5YmM*CeBFNTvNN5R2hz4=">树莓派4正式上线!「PC级」性能,支持4K双屏,仅售241元 | 机器之心</a><br>摘要:6 月 24 日,树莓派悄然发布了第四代产品 Raspberry Pi 4。新一代开发板经过了从里到外的全面革新,得益于制程和架构的提升,4 代性能预计可比上代树莓派 3B+提升 2-4 倍。树莓派开发机构(Raspberry Pi Foundation)称,这款设备可以提供「与入门级 x86 PC 系统相媲美的桌面性能」。CPU是1.5GHz的 四核 64-bit ARM Cortex-A72 CPU(性能约提高 3 倍);内存为1GB、2GB 或 4GB LPDDR4 SDRAM; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561436567&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotBhWUkY*Zod0ntTiZ6hPBMiDA4YC83Qj4OdSuLuHb8vlrtaqCfAo0gem51x1fQL4CoMZrpWsh8rhm1CFsYoZE-kT50nka7f5Y0KlGC5pj6bdEOXmt-nd6xwTYuPhnWSzgFFuDTman3Q7vAw2QWQtIJw=">华为或将发布第二颗自研7纳米麒麟系列芯片 | 新智元</a><br>摘要:华为终端手机产品线总裁何刚消息:“我们即将成为全球首个同时拥有两颗7nm SoC芯片的手机品牌”。消息一出,立即引起网友热议,纷纷猜测传闻的麒麟810将成为继麒麟980之后,华为第二颗7nm自研芯片。<br>去年,华为消费者BG CEO余承东在2018德国IFA上揭幕了“史上最前芯片”麒麟980,创下全球首款商用7纳米手机SoC等6项世界第一,搭载双核NPU,性能全面碾压高通骁龙845和苹果A11。<br>而此次,业界普遍猜测,华为 nova 5 系列首发的 7nm 全新 SoC 就是传说中的麒麟 810。这也是麒麟 980 之后,华为第二款 7nm 自研芯片。<br>目前,有关麒麟 810 的规格信息所知不多。据爆料,麒麟 810 处理器可以看作是上一代麒麟 710 的升级版,性能和功耗应该都会有较大的改进。<br>据爆料,麒麟 810 还会首次搭载华为自研的昇腾(Ascend )310 AI 芯片,基于达芬奇架构和采用了12 纳米工艺,传闻实际表现与麒麟 980 处理器的寒武纪 NPU 不分伯仲。 </li><li><a href="https://mp.weixin.qq.com/s/H0Tb04c0KID4mSR2QTGuGw">清华创新架构芯片量产!全球首款可重构超低功耗语音AI芯片 | 智东西</a><br>摘要:脱胎于清华大学Thinker团队的清微智能,发布全球首款可重构超低功耗语音人工智能(AI)芯片TX210已实现规模化量产,这是一款语音SoC芯片,针对手机、可穿戴设备、智能家居等多种应用场景的智能终端产品开发,工作功耗不超过2mW,语音活动检测(VAD)功耗小于100uW,延时不到10ms。<br>为了兼具高能效和可编程性,该芯片基于一种无需指令驱动的计算模式,即动态可重构计算架构(CGRA,Coarse grain reconfigurable architecture)它是一种非冯·诺依曼架构。简单而言,就是将软件通过不同的管道输送到硬件中来执行功能,使得芯片能够实时地根据软件/产品的需求改变功能,实现更加灵活的芯片设计。<br>此外也研发了一套兼容TensorFlow、Caffe等主流AI框架的平台,可自动完成转换、解析、编译、生成等过程。允许用户从其它框架无缝迁移清微智能的芯片。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561436567&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotBhWUkY*Zod0ntTiZ6hPBMiDA4YC83Qj4OdSuLuHb8vlrtaqCfAo0gem51x1fQL4CnwwjzC0FbvF9747uq8zupx9hWE6m0j9trg9Svh9Sg-jKytR2e6qmrgAZm0EPiXSa4Cj1D5mhnIGUk5tpncNDbE=">台积电官方宣布:正式启动2nm工艺研发,工厂设置在台湾新竹,预计2024年 | 新智元</a><br>摘要:近日,全球知名半导体公司台积电官宣:正式启动2nm工艺的研发,工厂设置在位于台湾新竹的南方科技园,预计2024年投入生产; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qM7dfp9r8Yw*y08nOTdQw4o1EvAIIqGjH3jyBVwsel8X*62FKBkl8sSYYf6YfAHDzqHMNORQxW0vjdx-XBuviW0=">色列ASIC芯片公司 Habana.ai 发布了 Gaudi HL-2000, ResNet-50推理性能是英伟达 Tesla V100近四倍 | 机器之心</a> </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561436567&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotBhWUkY*Zod0ntTiZ6hPBMiDA4YC83Qj4OdSuLuHb8vlrtaqCfAo0gem51x1fQL4ClqQYWQd6DVrdlMZZIm8cwusklCh-PeU3ma8UQJaJjUCIpxeRKcSGkwvVuqphgywb-nhqtKJZP0x8Pcyaawqm*k=">寒武纪推出云端AI芯片「思元270」兼容INT4和INT16 | 新智元</a> </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qIrfRsUNVlohfxhHIqyuFsViPnjqNlBIVxRyNxUCgjpP76rSBxH4UFrkM6LJYmdW9JjMUjx9Z78x1cVLYxoF8HQ=">英伟达宣布全面支持ARM高性能计算,计算平台 CUDA 也将支持 ARM 架构 | 机器之心</a></li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qGx*CM19CQMAVEpdIp8-*7U-L9Tb3fRQmWSpLrp8KdQ7ihUFPhvy9cwHZ*NOk3*ZtOgrvIAZAR2mYE-DpRP717w=">降低分布式训练中95%的通讯成本 | 机器之心</a><br>摘要: ICML 2019 中,快手西雅图 AI 实验室和 FeDA 实验室、罗切斯特大学、苏黎世理工以及香港科技大学等机构的研究者针对分布式计算提出了两个新算法。其中一个算法在节点之间随机出现通讯中断,也可以进行稳定训练。该论文为网络不稳定情况下的算法鲁棒性提供了理论上的支持和保证。<br>第二个算法 DoubleSqueeze 就是本文将重点介绍的。快手西雅图 AI 实验室负责人刘霁教授表示:「这项工作是近几年最喜欢的几个工作之一,DoubleSqueeze 这种双边压缩最多可以减少超过 95% 的通讯代价,它把并行计算中的通讯代价几乎节省到了极致。」 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qIrfRsUNVlohfxhHIqyuFsUWHs1WxhgvKdyVEsgp5vW9Qy6QOb*HQ0dhjp*9jk4WKdi1hKNeZWuN*wyeN3ZuxGk=">英伟达深度学习推理引擎TensorRT,现在开源了 | 机器之心</a><br>摘要:英伟达的深度学习推理引擎TensorRT是连接神经网络框架与GPU之间的桥梁,它支持所有种类的神经网络框架,近期也实现了容器化,目前的TensorRT是5.1版。6月17日,英伟达宣布了TensorRT的开源。<br>摘要:本文提出了一种基于视觉的机械臂控制系统,可以应用在价值 40 美元、完全没有传感器的廉价机械臂上。仅借助一个额外的摄像头,系统使用深度卷积神经网络,实时估计机械臂的三维姿态,并通过强化学习训练的智能体输出控制信号。进而,系统可以实现控制机械臂到达空间中任意给定三维坐标。基于此,我们还实现了自动抓取骰子的任务。此外,姿态估计和强化学习的训练完全依赖在虚拟环境中生成的数据,不需要人为进行标注与监督。<br>开源 TensorRT 中的解析器和插件部分,以便于深度学习社区能够做自定义、扩展组件,从而更好的利用 TensorRT 进行 app 优化; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qM7dfp9r8Yw*y08nOTdQw4ps-W-P55exSu5z*xsAoskfXAYknkuBl7wONefVLNds2Nod2VXK5iQZClbTYzx80xE=">港中文开源视频动作分析库MMAction,目标检测库算法大更新 | 机器之心</a><br>摘要:香港中文大学多媒体实验室(MMLab)OpenMMLab 发布动作识别和检测库 MMAction,同时也对去年发布的目标检测工具箱 mmdetection 进行了升级,提供了一大批新的算法实现; </li><li><a href="https://mp.weixin.qq.com/s/4DDeXZPfxiB4X1wBDIAltA">开源的中文语音机器人-打造自己的智能音箱wukong-robot | 开源派</a><br>摘要:wukong-robot是国人开发的中文语音对话机器人/智能音箱项目,支持Mac,Linux系统,如ARM Linux的树莓派,目的是让中国的 Maker 和 Haker 们快速打造个性化的智能音箱。wukong-robot 被唤醒后,用户的语音指令先经过 ASR 引擎进行 ASR 识别成文本,然后对识别到的文本进行 NLU 解析,再将解析结果进行技能匹配,交给适合处理该指令的技能插件去处理。插件处理完成后,得到的结果再交给 TTS 引擎合成成语音,播放给用户。wukong-robot遵守MIT开源协议。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561790820&src=3&ver=1&signature=UwTQNCc52wfDay4ju-1YWtauHK*LsNypYIRXyhUmjE860sR3zmiOJDEpqQ7pZU6kuFhSQxpYd*sOPH6dR2Ual03mCRlPwnxlbt2DpJVznDXbm6V9QtBSnxIieyL8YyfWk*aO9k59nDnRoRBmYF-XwiOtzdiZg6wWUU6HIu2G-YY=">字节跳动开源高性能分布式训练框架BytePS,支持PyTorch、TensorFlow、MXNet | 机器之心</a><br>摘要:BytePS 的表现比 Horovod 好太多?主要原因是 BytePS 为云计算和共享集群设计,并抛弃了 MPI。MPI 是高性能计算(High Performance Computing)的产物。当需要运行单一任务时,MPI 适合用于建立在同质化硬件的计算集群上。但是云计算(或者内部共享集群)是不一样的。 团队因此重新思考了最佳通信策略。总之,BytePS 不仅在机器内使用 NCCL,同时也重新部署了机器间的通信方式。 BytePS 同时继承了许多加速技术,如分级策略、管道、张量分割、NUMA-aware 本地通信、基于优先级的调度机制等。<br>VGG16(通信密集)和 Resnet50(计算密集)性能。测试使用了 Tesla V100 16GB GPU 集群,批大小都是 64。机器使用的是公有云上的虚拟机,每个机器有 8 个 GPU,集成了 NVLink。机器之间使用 20 Gbps TCP/IP 网络互通。在测试上,BytePS 在 Resnet50 的表现较 Horovod(NCCL)提高 44%,在 VGG16 则提升了 100%。<br>更多请参考架构文档:<a href="https://github.com/bytedance/byteps/blob/master/docs/architecture.md">https://github.com/bytedance/byteps/blob/master/docs/architecture.md</a></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/69700540">GEMM caching | 知乎</a><br>摘要:这篇文章接着讲GEMM分块,测试环境为 rk3399 arm64; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1561437428&src=3&ver=1&signature=4pYN2yptx2d-cEG-RUrotN9OfQt3eqzGTVytylhSQ3L6iGHCYCDUr*vsdXpECHdd3xrmQUlERvW009ybgZC3qEVOMUNqoXiBIsTH2PkQRyBldu1HQGW9PyGKdTOaMlfYnRqC-IcW8RsBLY8Z59BfnjM2dJRT2EdE7w-cUURVSKw=">基于视觉控制,40美元玩转无传感器机械臂(已开源) | 机器之心</a> </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-06-17.md">2019-06-17</a></li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-06-17@Bi-weekly</title>
<link href="/2019/06/17/bi-weekly/2019-06-17/"/>
<url>/2019/06/17/bi-weekly/2019-06-17/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-06-17"><a href="#嵌入式AI简报-2019-06-17" class="headerlink" title="嵌入式AI简报 (2019-06-17)"></a>嵌入式AI简报 (2019-06-17)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1560481692&src=3&ver=1&signature=yNVf1RZQFqEBhews4DDtYSYKshLzg4qN1CCvzH-lV6PCI11t42zUdjAGoO49cK9k4Car2KDxAdoG72*8wfi5NY4vTZDcPrL4z9BGkDq2pVXHle5D*LvvRbIAqlgDl-jSeQ8yIgOxmwETA0H1OB1GaHMTvlFyKXWdQvpI0-fbsWA=">苹果全球开发者大会(WWDC)推出机器学习模型框架Core ML 3 | 新智元</a><br>摘要:在今年的全球开发者大会(WWDC)上,苹果面向iOS开发者推出了最新版的机器学习模型框架Core ML 3,将机器智能引入智能手机app:<ul><li>Core ML 3将首次能够为设备上的(on-device)机器学习提供训练; </li><li>使用Core ML 3和新的Create ML app,轻松创建、训练并部署机器学习模型; </li><li>支持高级神经网络、100多种图层,利用CPU、GPU和Neural Engine提供最高性能和效率。 </li></ul></li><li><a href="https://mp.weixin.qq.com/s/AQ4cy1EKHsK5mQWMml2KRg">美图影像实验室(MTlab)10000 点人脸关键点技术全解读 | AI科技评论</a><br>摘要:继前不久旷视8000人脸关键点后,美图影像实验室(MTlab, Meitu Imaging & Vision Lab)推出「10000 点 3D 人脸关键点技术」——利用深度学习技术实现 10000 点的人脸五官精细定位,该项技术可以在 VR 游戏中构建玩家人脸的 3D 游戏角色并且驱动,也可以应用于虚拟试妆试戴和医疗美容领域等; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1560479068&src=3&ver=1&signature=3JVpRi0J0vxuEGY2PslfHHUnA4WYakTdIp*y-jauLrTJsBVuF*VnefF4uscD5sQ0FXYFCpZN5PYsNKfA3ivcyJawuNo2rdnMmlqO55xwLhB*AoL5uBnKcUNRD-A2xN3nkN-fvJU9hivNYeZ75TjGWVPRuB2qw-xBfOsJwMLesu4=">AMD新旗舰Ryzen 9跑分出炉秒杀18核i9 | 机器之心</a><br>摘要:AMD Ryzen 9 3950X 预计将会在今年 9 月发售,售价 749 美元(约合人民币 5200 元)。它拥有 16 核 32 线程,时钟频率为 3.5GHz,加速频率 4.7GHz,缓存高达 8+64MB,设计功耗(TDP)为 105W; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1560479068&src=3&ver=1&signature=3JVpRi0J0vxuEGY2PslfHHUnA4WYakTdIp*y-jauLrTJsBVuF*VnefF4uscD5sQ0FXYFCpZN5PYsNKfA3ivcyJNpio7upl1ZDAd9KOx0*3IPtXh6QPFxWvmiYsXh4zXtDe-llXjA-0USgSolFOwLvDjorZD*RBGSVUMNTZDtPvg=">2019菜鸟全球科技挑战赛:手机摇一摇测体积,助力智能物流 | 机器之心</a><br>摘要:近日,2019 菜鸟全球科技挑战赛赛题「智能体积测量」关注物流要素「长宽高」进行数字化,挑战赛设定被测物体在 50mm 到 500mm 之间,且它们都是在空旷的平面上完成测量。在实际测量时,比赛要求选手通过普通手机「自动」测量出物体的垂直高和最小外接矩形的长宽。虽然描述很简单,但其中有三个关键点,即普通手机、自动化和求最小。第一名方案:基于全局姿态与 MVSNet 的体积测量生成多视角深度图,最后,对不同视角的深度图进行滤波与融合操作,模型就能重建带尺度的 3D 稠密点云; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1560480530&src=3&ver=1&signature=yNVf1RZQFqEBhews4DDtYQx*QGSs0riA2Ye7oxfKwk9pS482AhsxU8XldhJZYurVbRMIhYCNN6MKV4FvDzrgmjFlPPgP-EOe7mQ*jszS5EkJuSUrF5tcekGXZED3QDhqNu8Bix2gsnmG3ytUBpAHviE5ztrFbuEEphKdaWykXko=">大疆发布旗下首款教育机器人产品,取名机甲大师RoboMaster S1 | 量子位</a><br>摘要:大疆发布旗下首款教育机器人产品,取名机甲大师RoboMaster S1——step 1,迈出第一步:<ul><li>全身配备31个传感器,可以感知图像、光线、声音、 振动,还有FPV摄像头结合机器视觉技术,能够识别多样的物体</li><li>6块感应装甲可以感知物理打击</li><li>麦克风可以识别声音</li><li>红外传感器则能接收来自另一台S1的红外信号<br>视觉、听觉,触觉都有了。因为背后还有一个算力担当的智能中控:五核SOC Cortex-A处理器。AI识别技术支持以下多种识别模式:线路识别,视觉标签识别,行人识别,掌声识别,姿势势识别,S1机器人识别。</li></ul></li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1560479068&src=3&ver=1&signature=3JVpRi0J0vxuEGY2PslfHHUnA4WYakTdIp*y-jauLrTJsBVuF*VnefF4uscD5sQ0FXYFCpZN5PYsNKfA3ivcyJawuNo2rdnMmlqO55xwLhB2N7viKEZkP5AryeqOM1XsogdmUQDFmhTUGPlwOXN9rrqSFzMceYv9PXr*g7PcOVg=">ICLR 2019论文解读:量化神经网络 | 机器之心</a> <ul><li><a href="https://openreview.net/pdf?id=Skh4jRcKQ">UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS</a><br>摘要:使用直通估计器(STE)的理由可以通过一个简单实例进行说明。设有一个简单的阈值函数——ReLU 函数,即 f(x) = max(0,x)。此外,设网络一开始就有某套初始权重。这些 ReLU 的输入(乘上了权重的信号)可以是负数,这会导致 f(x) 的输出为 0。<br> 对于这些权重,f(x) 的导数将会在反向传播过程中为 0,这意味着该网络无法从这些导数学习到任何东西,权重也无法得到更新。STE 的概念也由此而来。STE 会将输入的梯度设置为一个等于其输出梯度的阈值函数,而不管该阈值函数本身的实际导数如何。有关 STE 的最早研究(Bengio et al. 2013)请见:<a href="https://arxiv.org/pdf/1308.3432.pdf%E3%80%82">https://arxiv.org/pdf/1308.3432.pdf。</a><br> 这篇论文使用了「粗粒梯度(coarse gradient)」这个术语来指代通过「经 STE 修改的链式法则」而得到的损失函数在权重变量方面的梯度。通过选择这种非一般的梯度,问题就变成了:STE 梯度并非该损失函数的实际梯度(实际上,STE 梯度不是任何函数的梯度),为什么在其负方向搜索有助于最小化训练损失?此外,该如何选择一个「好的」STE?<br> 这篇论文讨论了通过二元激活和高斯数据学习二层线性层网络的三种代表性 STE。作者还证明选择适当的 STE 能得到表现优良的训练算法。 </li><li><a href="https://openreview.net/pdf?id=ryM_IoAqYX">ANALYSIS OF QUANTIZED MODELS</a><br>摘要:近年来,为了加快推理速度、降低内存成本或降低功耗,研究者们已经提出了很多量化模型。这在便携式或手持式设备方面尤显重要。但是,这些模型的训练仍然而且往往是基于浮点精度完成的。因此,训练过程仍然非常耗时。<br> 人们已经提出许多不同的用于加速训练的方法,比如用于在训练过程中近似全精度权重的权重量化(Courbariaux et al., 2015, Lin et al., 2016)。此外,为了在近似/量化权重时取得更好的表现,人们也对量化的方法进行过研究。<br> 近期另一个引人关注的方法是利用分布式训练加速量化网络(Dean et al., 2012)。分布式学习面临的一些关键难题是梯度和模型参数同步过程具有高昂的通信成本(Li et al., 2014)。此外,(Ferdinand et al., 2019)已经从编码理论角度研究了同步丢失梯度和模型参数的问题。我认为在将纠错(error correction)用于机器学习的分布式计算方面,这是一种非常有趣的方法。<br> 之前的 DoReFa-Net(Zhou et al., 2016))和 QNN(Hubara et al., 2017)等研究已经探索过权重和梯度的量化。但是,它们都不是在分布式设置中完成的。在这篇论文中,作者考量了分布式设置中权重和梯度都量化的情况。 </li></ul></li><li><a href="https://mp.weixin.qq.com/s?timestamp=1560479068&src=3&ver=1&signature=3JVpRi0J0vxuEGY2PslfHHUnA4WYakTdIp*y-jauLrTJsBVuF*VnefF4uscD5sQ0FXYFCpZN5PYsNKfA3ivcyNGC6RPgmx-MrdVfe09jj4I818hvNf7l7mrQTiF8VVQrxJwXlp*CP6pO*MxVUmcm-TJaBKe7pmppcIPBUgtQT-4=">KDD 2019 | 自动探索特征组合,第四范式提出新方法AutoCross | 机器之心</a><br>摘要:本文提出了一种在实际应用中自动实现表数据特征组合的方法 AutoCross。该方法可以获得特征之间有用的相互作用,并提高机器学习算法的预测能力。该方法利用集束搜索策略(beam search strategy)构建有效的组合特征,其中包含尚未被现有工作覆盖的高阶(两个以上)特征组合,弥补了此前工作的不足。<br>此外,该研究提出了连续小批量梯度下降和多粒度离散化,以进一步提高效率和有效性,同时确保简单,无需机器学习专业知识或冗长的超参数调整。这些算法旨在降低分布式计算中涉及的计算、传输和存储成本。在基准数据集和真实业务数据集上的实验结果表明,AutoCross 可以显著提高线性模型和深度模型对表数据的学习能力和性能,优于其他基于搜索和深度学习的特征生成方法,进一步证明了其有效性和效率。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1560480530&src=3&ver=1&signature=yNVf1RZQFqEBhews4DDtYQx*QGSs0riA2Ye7oxfKwk9pS482AhsxU8XldhJZYurVbRMIhYCNN6MKV4FvDzrgml4eknBZStJkCJaPkqueEAZw20UlF5Wb4Bf5dUz*9BfA7WF9Ep*p5rhUWvocwZhaTS6hzlsEDblKkdTTfX8mM0E=">PyTorch Hub发布!一行代码调用最潮模型,图灵奖得主强推 | 量子位</a><br>摘要:Facebook官方博客表示,PyTorch Hub是一个简易API和工作流程,为复现研究提供了基本构建模块,包含预训练模型库。<br>并且,PyTorch Hub还支持Colab,能与论文代码结合网站Papers With Code集成,用于更广泛的研究。<br>图灵奖得主Yann LeCun强烈推荐,无论是ResNet、BERT、GPT、VGG、PGAN还是MobileNet等经典模型,只需输入一行代码,就能实现一键调用;</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1560480530&src=3&ver=1&signature=yNVf1RZQFqEBhews4DDtYQx*QGSs0riA2Ye7oxfKwk9pS482AhsxU8XldhJZYurVbRMIhYCNN6MKV4FvDzrgmtmIHgxdovYQpLjGuL83MBFIMs3TU6dVusYh57qH8sWPtNHHHfLHSj1*EvvlyKlnULW5am3CmZefwtPoRmBRp74=">谷歌EfficientNet缩放模型,PyTorch实现出炉 | 量子位</a><br>摘要:谷歌上个月底提出的EfficientNet开源缩放模型,在ImageNet的准确率达到了84.1%,超过Gpipe,已经是当前的state-of-the-art了; </li><li><a href="https://mp.weixin.qq.com/s/ayr5cPsUJLt0scgYJBdRjQ">用三百行代码快速实现一个RISC-V及汇编器 | 合圆芯</a><br>摘要:一个仅用300多行的RiscV32I及汇编器实现。使用器刻语言verilog自动生成器生成的一个四级流水的RISCV32I兼容处理器及汇编器实现。支持中断。并额外增加了wait指令,用于等待外部事件。 </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/VPSmEeqz7kcNkxP6w34RDA">芯片战争6—Eureka!第一个晶体管的诞生(混沌之际,1932-1949年) | 科技红利及方向型资产研究</a><br>摘要:中国半导体产业的思考—随笔之《芯片战争——亮剑!国运之战》,讲述第一个晶体管的诞生(混沌之际,1932-1949年); </li><li><a href="https://mp.weixin.qq.com/s/Q6tpWRhMStmtqpr6NO9lRA">AI芯片的“冷”与“热” | StarryHeavensAbove</a><br>摘要:参加AI硬件峰会,我和业界朋友聊了很多AI芯片相关的话题。总的感觉,AI芯片经过几年比较热的发展,现在似乎进入一个相对平静的阶段。不过,与其说是AI芯片“遇冷”,可能说产业更加“冷静”更合适。同时,AI芯片的热潮在这两年对于相关的产业链也产生很多积极的影响,把“热度”传导到了其它一些领域。本文很多内容是闲聊的结果,如果引用了哪位朋友的话而没有说明还请见谅; </li><li><a href="https://zhuanlan.zhihu.com/p/67718316">Int8量化-Winograd量化原理及实现(四) | 知乎</a><br>摘要:当前网络模型大量使用的Conv3x3s1在Float32推理过程中采用了Winograd算法(理论上论文中最快的F(6,3)加速比是5.0625,实际工程中即使引入更多的访存、矩阵转换耗时后的最优加速比也有3.0左右),极大减少计算量,而反观目前int8的推理过程,绝大多数基于Im2col+SGEMM或Direct Conv的计算方式进行量化。<br>最终导致大量使用Conv3x3s1结构的网络模型采用Int8量化后的速度相比Float32没有可见优势,甚至更慢。<br>本文尽量从工程角度来介绍Int8 Winograd F(2x2,3x3)的实现细节,不讲Winograd的原理; </li><li><a href="https://mp.weixin.qq.com/s/Ccrk3SLqdLlHk1PnBpxlFg">GSA的memory+会议札记(3) | 杂谈与闲话</a><br>摘要:现在的AI很火,大家都往那边去,没有人太关心体系结构了。Google在2017年发布了TPU V1之后,现在已经有越来越多的AI startup的芯片出现,大家基本上都是用标准的Resnet50,Googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,AI芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在AI在准确率和性能上都超过了。对于AI的芯片来讲,有一个指标也是大家讨论比较多:Roofline model。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-30.md">2019-05-30</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-05-30@Bi-weekly</title>
<link href="/2019/05/30/bi-weekly/2019-05-30/"/>
<url>/2019/05/30/bi-weekly/2019-05-30/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-05-30"><a href="#嵌入式AI简报-2019-05-30" class="headerlink" title="嵌入式AI简报 (2019-05-30)"></a>嵌入式AI简报 (2019-05-30)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182663&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4ClwjfKrrj90M0X8M8U7r6dxxGEZTnFZ4wHSroBLD-moMxGQ0O6kQzuTATD4yAbj2ZP77-iHeGpDTzsfNbpEDV8HQJUqK6igp5jWi37f5lqbErqdhI*IkdOQuL0KPQLIdak13ZqzdJJjqtZTS0*4dzkw-o=">谷歌限制华为安卓合作,余承东透露华为欲布局自研操作系统 | 新智元</a><br>摘要:谷歌宣布,将限制与华为在安卓方面的合作。在美国将华为列入“实体名单”后,任正非回应表示“华为没问题,已做好准备”。此前华为消费者业务CEO余承东曾提及华为打造操作系统的核心能力,这意味着或许离华为自研的操作系统问世不远了; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182663&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4ClwjfKrrj90M0X8M8U7r6dxxGEZTnFZ4wHSroBLD-moMxGQ0O6kQzuTATD4yAbj2ZP7zzmYUcldS668x4vbjLy8xon7ZbcoLoyRB55iJhlijJdfxBexPI9HbO3yTIK1B8xgoUDMaoQCv2Pk*bEqycri-Y=">ARM发布全新架构CPU、GPU及AI内核,华为或将无缘 | 新智元</a><br>摘要:全球领先半导体知识产权(IP)提供商ARM重磅发布了下一代架构设计方案,其中包括:Cortex-A77 CPU;Mali-G77 GPU;ARM ML处理器; </li><li><a href="https://www.cnbeta.com/articles/tech/849133.htm">瑞芯微发布面向RK3399Pro/RK1808芯片平台的全新三大开发套件 | cnBeta</a><br>摘要:福州瑞芯微电子Rockchip宣布旗下AI平台重大升级,正式面向全球AI开发者发布三大开发套件:AI开发工具包RKNN-Toolkit、AI SDK软件开发工具包Rock-X SDK,以及AI人工智能计算棒RK1808 AI Compute Stick。<br>RK3399Pro与RK1808 AI芯片平台为瑞芯微旗下最新旗舰芯,均带有独立硬件NPU加速器。RK3399Pro能为AI人工智能开发者提供一站式Turnkey解决方案,片上NPU(神经网络处理器)运算性能达3.0TOPs,具有高性能、低功耗、开发易等优势,已应广泛应用于智能驾驶、图像识别、安防监控、无人机、语音识别等AI应用领域;RK1808 AI芯片平台内置的NPU算力强大,可实现语音唤醒、语音识别、人脸检测及属性分析、人脸识别、姿态分析、目标检测及识别、图像处理等一系列功能,可广泛应用于安防、教育、清扫、车载、穿戴、家电、存储等各场景中; </li><li><a href="https://mp.weixin.qq.com/s/wOkuGwj6GHewsPv5fY6qhA">获高通阿里投资后,耐能推出首颗为3D人脸识别定制的AI芯片 | 机器之能</a><br>摘要:耐能——这是一家由前高通华人工程师组建的芯片团队,成立于2015年,聚焦在终端 AI 芯片解决方案,主攻智能手机、智能安防、智能物联网等领域。成立三年,推出两代六款IP,基于和高通、知名家电厂商的合作经验,两代IP的开发实战,耐能终于底气十足地踏出了关键一步,基于第二代IP标准版本推出首颗自家品牌的系统级AI芯片,同时也是市面上首颗专为3D人脸识别进行优化的终端芯片。<br>耐能发布AI芯片KL520,专为智能物联网应用所设计,兼顾语音和图像不同数据类型处理,支持2D、3D图像识别,适用于结构光、ToF、双目视觉等3D传感技术并计算不同神经网络模型,可应用于智能门锁/门禁、扫地机器人等智能家居场景,无人机、智能玩具、机器人等智能硬件产品线。<br>值得一提的是,该颗芯片目前已经量产,并且已经与中国大陆和台湾两地的数家客户达成合作。在深圳媒体沟通会现场,耐能宣布了与大唐半导体、奥比中光、蓦然认知等厂商的合作计划; </li><li><a href="https://mp.weixin.qq.com/s/YX0PMSX95Xs91aFGgNyymA">平头哥新动态:蓄势待发,RISC-V必有一席之地 | EETOP</a><br>摘要:今年,平头哥半导体团队将进一步发布更多面向不同应用的嵌入式CPU处理器,积极参与RISC-V开源生态建设,以及二十余项技术标准小组的工作,推动RISC-V技术持续演进; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182663&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4ClwjfKrrj90M0X8M8U7r6dxxGEZTnFZ4wHSroBLD-moMxGQ0O6kQzuTATD4yAbj2ZP7zzmYUcldS668x4vbjLy8xqNpV94Rfws2z-Eq-iG*pkJCzxY1jIo6uNPlCw45GVI7oY97lMoNHjQnNZ2R2Zj27A=">英伟达首款边缘计算AI平台EGX重磅发布!实时处理,高性能、可扩展 | 新智元</a><br>摘要:英伟达最新发布首款面向边缘设备的AI平台Nvidia EGX,将 AI 带到了网络的边缘。该平台可以实时感知、理解和处理数据,而无需先将数据发送到云端或数据中心; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1558865238&src=3&ver=1&signature=Ym5fqh5-NhpOosE10b6p4FbpoBVLZr7O1wLZoCdXbTYMbtz6hT6wz2grRt5SEwEtWxlIxc-9pYjjq4Oz94gb7gQusJO0f5N*grT1NvoedrqItRQpHVqaMXRij5Y4AZy*1stkDiLT9GqRhm8AxNr-nrkF4tj1omng7cYnj8G0*Hc=">0.5秒闪译,12倍速转写,科大讯飞一口气发布五款超强AI产品 | 量子位</a><br>摘要:算法无限接近极限,场景千树万树梨花开,但如何真正让AI之能触达用户?科大讯飞的答案:终端硬件,而且是算法定义的硬件:<br>讯飞翻译机3.0内置了高通骁龙八核处理器,支持普通话与粤语、东北话、河南话、四川话等方言之间的翻译,还新增了维汉、藏汉等民族语言翻译,翻译速度也再度提升,达到“0.5秒闪译”,并提升了图像拍照翻译水平。此外还有讯飞转写机,讯飞智能录音笔,讯飞智能办公本,讯飞学习机等;</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1558866159&src=3&ver=1&signature=Ym5fqh5-NhpOosE10b6p4K3TOXCUENqFWt0QLAU*QzDfvC8cvDSGP2CIG0hIjfzdS7uOuaaZ6NozdV-GJ2CNW-JUsG0Ceo27F3UcTZcHGaGsn*1yBaqTcZRIzN-kaPk1ZKknVP1z3r1J7YiHBx5N6kxW6r*pkMldo9RfFVQ9eDE=">深度压缩感知,新框架提升GAN性能 | 新智元</a><br>摘要:DeepMind提出一种全新的“深度压缩感知”框架,将压缩感知与深度学习相结合,显著提高了信号恢复的性能和速度,并提出一种改进GAN的新方法; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182721&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4Clwr7UzQ5roy9qvkcLUC9F4KjHjUPwUKWKR571MaSL5jATDPSfzJ86NCkTimv2-z1m*pMUl-cDdfA2ls11z4nlb5amaGHFNGR57H*KlS*1E5Ek4KJPQCr1lhKulbFtCFnv5I9sF6stQBMLhQNYG9YJluI=">速度提升17.5倍!百度提出语音合成新模型ParaNet,一个完全并行的神经TTS系统 | 量子位</a><br>摘要:百度提出了一种非自回归序列到序列的模型ParaNet,引入了一个完全并行的神经TTS系统,将文本转换成光谱图。和此前百度提出的实时语音合成系统Deep Voice 3相比,ParaNet可在保证准确率相当的情况下,将速度提升到17.5倍; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559183985&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4Clwixr0-wlmJiGflC6Lx0kh2bsRPi3NOYHqQAZmyuq*q4EP6tqSZho2cs4cge9-rZccHc4tIpUVWB*DErYap80C0c--bpFVzpXhPg5XbcIbGnsSFv9PCvsZo0YAwOvVcY9e5ytkyns3c78EZBjautWLb8=">UIUC联合IBM、Inspirit IoT推出最新DNN/FPGA协同设计方案,助力物联网终端设备AI应用 | 机器之心</a><br>摘要:UIUC、IBM 和 Inspirit IoT, Inc(英睿物联网)的研究人员提出 DNN 和 FPGA 加速器的协同设计方案(DNN/FPGA co-design),通过首创的「Auto-DNN」网络搜索引擎 +「Auto-HLS」加速器生成技术,自动生成适用于终端设备的 DNN 模型及 FPGA 加速器设计。在使用相同的终端设备,由该协同设计自动生成的物体检测方案在检测精度、速度和效能方面均大幅领先现时最优的 DAC’18 System Design Contest 冠军方案。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182721&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4Clwr7UzQ5roy9qvkcLUC9F4KjHjUPwUKWKR571MaSL5jATDPSfzJ86NCkTimv2-z1m*r5zhb3B4IJhhQfj1MAisNA80iwWtznzAjtSh*hAOTvegxejp1kCZcFyyMlYyKK9IHV3PhjPQnkO9pxbXeGhTXE=">登顶五大数据集!最强目标跟踪算法SiamRPN++开源了,商汤出品 | CVPR 2019 Oral | 量子位</a><br>摘要:商汤SiamRPN++几乎不受复杂场景的影响。不止如此,它已经在多个数据集上成为了State-of-the-Art。同时也成了商汤Siam家族的骄傲。现在,整个家族都开源了:<br>· SiamMask (CVPR 2019)<br>· SiamRPN++ (CVPR 2019 oral)<br>· DaSiamRPN (ECCV 2018)<br>· SiamRPN (CVPR 2018)<br>· SiamFC (ECCV 2016) </li><li><a href="https://github.com/XiaoMi/kaldi-onnx">XiaoMi/kaldi-onnx: Kaldi model converter to ONNX</a><br>摘要:kaldi到onnx的转换工具开源了,可以配合mace在设备端运行语音nnet模型推理,对语音领域感兴趣可以关注; </li><li><a href="https://mp.weixin.qq.com/s/C5_3_9gUYY36C6ZQTGMweg">TensorFlow官方发布剪枝优化工具:参数减少80%,精度几乎不变 | 量子位</a><br>摘要:去年TensorFlow官方推出了模型优化工具,最多能将模型尺寸减小4倍,运行速度提高3倍;最近现又有一款新工具加入模型优化“豪华套餐”,这就是基于Keras的剪枝优化工具:<a href="https://github.com/tensorflow/model-optimization%EF%BC%9B">https://github.com/tensorflow/model-optimization;</a> </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/66917266">CPU体系结构之手排流水线专题(一) | 知乎</a><br>摘要:arm底层汇编优化。关于流水线我打算分三个篇幅来讲,尽量做到系统全面:第一篇讲背景以及理论知识;第二篇是ARM具体的架构信息以及在手机上做的一些实验;第三篇就是讲如何花式操作流水线,举例子;本文是第一篇; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182880&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4ClwvaZiWw0GvfrNVUk9UL6ZHUVA3TN-bqm1Ow5TBCYAlL78Q3RojCIRHy5WOP8IfEVMfUK2aNOaaACp2GMbEvzleJg1SYOfYZEjEIRReyj*P7gOD79sKtg97BibHKrQfZTv0EIb1-n3vibeQjTe4Qvou8=">CUDA 并行计算入门视频 | 机器之心</a><br>摘要:什么是 CUDA?CUDA 并行计算包括哪些方面?CUDA 的线程层次有哪些?如何更加高效的调用线程来执行程序命令?如何在实际应用中利用 GPU 加速我们的应用程序?如何在深度学习中使用 CUDA?英伟达开发者社区经理暨高级讲师何琨带你入门 CUDA 并行计算; </li><li><a href="https://mp.weixin.qq.com/s/t-Szqf5yEO65-JOIeYoOHg">华为方舟编译器做了些什么,让安卓有了“丝滑”的感觉 | 码农翻身</a><br>摘要:作者基于无虚拟机运行、多语言联合优化、更搞笑的内存回收机制来分析方舟编译器,不过作者也提到这些都是猜测,还是等方舟编译器开源了,再一探究竟吧; </li><li><a href="https://mp.weixin.qq.com/s/YL5UXewnEJuPDpN9Q2XNgQ">模块设计之 SKNet, GCNet, GloRe, Octave | 极市平台</a><br>摘要:本文对SKNet, GCNet, GloRe, Octave4篇较新较火的网络模块设计与优化相关文章进行了对比总结,含两篇CVPR2019的工作; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1559182880&src=3&ver=1&signature=NOFpFuiXiYHaYYPmK4ClwvaZiWw0GvfrNVUk9UL6ZHUVA3TN-bqm1Ow5TBCYAlL78Q3RojCIRHy5WOP8IfEVMW25Y8jD6Q2ELLX2osvA8zal3ow3Uhmas6xWuO1L0FZ*zjzZFZakN8jqz54ww6Hru*nFzgu1FABnmhDuEiJ*K5Y=">用代码模拟CPU | 机器之心</a><br>摘要:芯片的设计到底有多难?想要回答这个问题最好还是先自己实践一下。最近,来自 BBC 的一名资深软件工程师 Daniel Harper 使用 Go 语言成功模拟出了一个 CPU 的所有功能,并把自己的经历写成了博客,引起了人们的热议。这篇文章也告诉我们:完整地了解计算机的工作原理是多么重要; </li><li><a href="https://zhuanlan.zhihu.com/p/66256933">美国禁令与华为极限生存简析 | 知乎</a> </li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-05-15.md">2019-05-15</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-05-15@Bi-weekly</title>
<link href="/2019/05/15/bi-weekly/2019-05-15/"/>
<url>/2019/05/15/bi-weekly/2019-05-15/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-05-15"><a href="#嵌入式AI简报-2019-05-15" class="headerlink" title="嵌入式AI简报 (2019-05-15)"></a>嵌入式AI简报 (2019-05-15)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/hqh9O0RqnZY0SUymn2Gfww">MIT初创公司发布全球首个光子AI芯片原型!独立光学计算硬件,庞大系统成功集成至常规板卡 丨 DeepTech深科技</a><br>摘要:光子芯片完成矩阵乘法所用的时间是最先进的电子芯片的 1/100,Lightelligence CEO 沈亦晨表示,公司计划将该光子芯片提供给一些合作方、潜在客户进行测试,目前国外已经有谷歌、FaceBook、AWS级别,国内 BAT 级别的客户与 Lightelligence 接洽。Lightelligence 生产的是一款通用的 AI 芯片,同时我们也会自研更适合在光子芯片上运算的算法。在应用场景上,沈亦晨设想 Lightelligence 的第一款产品将面向服务器和自动驾驶; </li><li><a href="https://mp.weixin.qq.com/s/o_nyKDQDH6QhbVqnUDSBAg">传寒武纪最新产品曝光,今年云端AI芯片市场群雄争霸 | DeepTech深科技</a><br>摘要:寒武纪的新一代云端 AI 芯片思元/ MLU270 已于今年年初研制成功,基于台积电 16nm 工艺打造,架构代号从上一代的 MLUv01 升级到了 MLUv02,内建视频解码单元 (似乎是专门为视频处理市场配置)。在峰值和功耗上,这颗芯片的表现分别是 int4 256Tops 、 int8 128Tops 和 75w,接近目前的 AI 芯片霸主英伟达推出的最新一代 Tesla T4。PPT 上写着,该产品”与市场类似价位竞品相比,具有显著的性能和性价比优势”。 </li><li><a href="https://mp.weixin.qq.com/s/P9WwChO_ih2QeRty70JKlg">重磅丨依图造芯,定名“求索” | 雷锋网</a><br>摘要:该芯片功耗单路数小于1W、0.75TOPS/W;单芯片50路视频解析,1U可支持200路;自带网络支持,支持虚拟化,支持Docker;支持通用视觉:检测、分类、识别、分割、跟踪等等。同时,吕昊还在发布会现场演示了“求索”芯片性能,他直接架起200路摄像机,通过四块“求索”芯片实时比对现场超过五百位现场观众的人脸。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1557712576&src=3&ver=1&signature=kkc*xB77RxPOpIxqJvV5p*6EUyZPQB-qmKQW5rDa4kpE2OyYcQOowKayi8Kvjp-5QjYKM3cji1XV-0TVF*2qiugvRV*BWmdQO8uAtaAZC1BOnjYPztf1wZuy4kG*JyqJDW6Uf7qi9Jc78VUmU7gnHXk0NuFqcpfdCXU41zq4c-g=">iPhone新芯片A13已投产,AI能力大增!浴霸三摄渲染图曝光 | 量子位</a><br>摘要:最新消息,最新一代iPhone芯片A13,已经正式试产,预计本月晚些时候就将量产。这是彭博曝光的最新消息,称A13依然台积电代工,采用7nm工艺制造。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1557711668&src=3&ver=1&signature=kkc*xB77RxPOpIxqJvV5p*FoBdYP1sIf6DWCTXiJ1SgS*l72xKK3*dKpXFQWTkGy8EIyDO*aCPOmFzqQLF3ia8G5i9ISeVSuV7eBiTsKMmCrH02qqXMZn3bc*NWzFll*QnzULNcK9UWO5f2T0yhK-nMC4mqpvVUgt3eL1OnRf7Q=">AutoML研究综述:让AI学习设计AI | 机器之心</a><br>摘要:自动机器学习(AutoML)是近年来的一个热门研究方向,比如机器之心曾报道过的谷歌的基于进化算法的神经网络架构搜索方法。近日,来自德国 USU Software AG 和斯图加特大学的两位研究者发布了一篇 AutoML 综述论文,总结了近年来 AutoML 方面的新进展。机器之心整理编译了文章的主体结构,并重点翻译介绍了各种方法的基本思想和未来研究方向,数学描述和实验评估等细节请参阅原论文; </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1557712576&src=3&ver=1&signature=kkc*xB77RxPOpIxqJvV5p*6EUyZPQB-qmKQW5rDa4kpE2OyYcQOowKayi8Kvjp-5QjYKM3cji1XV-0TVF*2qirvWEDh4cHEwD8jCDiNhCtoiXJoQwXNP7ifWnMX-HusLqVQaYk9Dsb1X6ZJcDBYVp8lHSg6rEgWZBTTqvOje7YQ=">ICLR2019最佳论文!神经网络子网络压缩10倍,精确度保持不变 | 量子位</a><br>摘要:这篇获奖论文名为The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,提出了一种叫作“彩票假设”(lottery ticket hypothesis)的缩小方法。此前,神经网络的剪枝技术能将网络的参数减少到90%,但此方法的弊端也很明显,即剪枝架构一开始的训练就相当困难。MIT计算机科学与人工智能实验室(CSAIL)的研究人员表示,与其在后期修修剪剪,何必不在一开始就创建一个尺寸合适的网络呢?他们将传统的深度学习方法比作乐透,训练大型神经网络就像在通过盲目随机选号中奖,而这种新的方法不采用这种大海捞针的方式,想在一开始就拿到最后中奖的号码。于是乎,“彩票假设”问世。传统的剪枝技术会在神经网络子网络处动刀,让初始化后的子网络能够进行有效训练。密集、随机初始化的前馈神经网络包含一些子网络,也就是中奖号码,当对其单独进行训练时,这些子网络能够在相似迭代次数中达到与原始网络比肩的准确率;</li><li><a href="https://mp.weixin.qq.com/s/18fy1vVVcdiTjkLWIMTkkw">南邮提出实时语义分割的轻量级网络:LEDNET,可达 71 FPS!70.6% class mIoU!即将开源 | CVer</a><br>摘要:本文要介绍的 LEDNet(Light Encoder-Decoder Network)是由南京邮电大学和天普大学联合提出的用于实时语义分割的轻量级网络。LEDNet 能够在单个GTX 1080Ti GPU中以超过71 FPS的速度运行。实验表明,该算法在 CityScapes 数据集的速度和准确性权衡方面取得了SOTA。目前 LEDNet 论文已被 ICIP 2019 录用,官方已经提供该算法的 github 链接,但并没有上传测试/训练源码,估计还在准备中; </li><li><a href="https://mp.weixin.qq.com/s/LOUB0h3FvBhKH6QZMGMXKQ">首发 | 精度、速度、效率、性能全面提升!揭秘谷歌最新一代移动端网络架构MobileNet V3 | 将门创投</a><br>摘要:支撑移动端高性能AI的幕后力量!谷歌提出全新高性能MobileNet V3,网络模型搜索与精巧设计的完美结合造就新一代移动端网络架构。再附上知乎:<a href="https://www.zhihu.com/question/323419310">如何评价google Searching for MobileNetV3? | 知乎</a>。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/ozqeNa1MRgy-E-9XhZOcoQ">阿里开源!轻量级深度学习端侧推理引擎 MNN | 阿里技术</a><br>摘要:阿里正式开源轻量级深度学习端侧推理引擎“MNN”。AI科学家贾扬清如此评价道:“与 Tensorflow、Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高效地实现模型背后的业务。这和服务器端 TensorRT 等推理引擎的想法不谋而合。在大规模机器学习应用中,考虑到大规模的模型部署,机器学习的推理侧计算量往往是训练侧计算量的十倍以上,所以推理侧的优化尤其重要。”MNN背后的技术框架如何设计?未来有哪些规划?; </li><li><a href="https://github.com/JDAI-CV/dabnn">JDAI-CV/dabnn: dabnn is an accelerated binary neural networks inference framework for mobile platform</a><br>摘要:二值网络移动端 inference 框架,刚刚开源,比已有唯一一个开源的二值框架最高快 20 多倍,相信可以极大改变二值网络部署的情况,对二值网络感兴趣的小伙伴可以关注一下;</li><li><a href="https://mp.weixin.qq.com/s/oJr5fx6uF5rsguK2rOpVoQ">精度无损,体积压缩70%以上,百度PaddleSlim为你的模型瘦身 | 机器之心</a><br>摘要:PaddleSlim 实现了目前主流的网络量化、剪枝、蒸馏三种压缩策略,并可快速配置多种压缩策略组合使用。针对体积已经很小的 MobileNet 模型,在模型效果不损失的前提下实现 70% 以上的体积压缩;</li><li><a href="https://github.com/carlushuang/cpu_gemm_opt">carlushuang/cpu_gemm_opt: how to design cpu gemm on x86 with avx256, that can beat openblas.</a> </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/64025085">AI移动端常用汇编指令汇总以及底层算子汇编实现(附带一点点干货) | 知乎</a><br>摘要:本文先介绍汇编代码在推理框架中的定位,汇总实践中常用指令,对比ARMv7、ARMv8下的指令形式以及用法,在安卓、ios平台下实现各种卷积的底层实现,包括conv3x3s1、conv1x1s1、depthwise、pooling、ReLU、ReLU6,最后可能会结合一个具体的实例来写; </li><li><a href="https://zhuanlan.zhihu.com/p/64522357">移动端arm cpu优化学习笔记:一步步优化盒子滤波(Box Filter) | 知乎</a><br>摘要:作者从原始的C代码到算法逻辑优化、Neon Intrinsic、Neon汇编,比起最原始的实现至少可以加速6~7倍; </li><li><a href="https://zhuanlan.zhihu.com/p/65436463">OpenBLAS gemm从零入门 | 知乎</a> </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1557711668&src=3&ver=1&signature=kkc*xB77RxPOpIxqJvV5p*FoBdYP1sIf6DWCTXiJ1SgS*l72xKK3*dKpXFQWTkGy8EIyDO*aCPOmFzqQLF3iazxHSZfBDKjvefEfiO--pGwsUwuhPX347oNLF3uFHy4TZZEnVfFdDT0KWaxfI1TdSJ-gpxSmODdCG-G4pjT8tS8=">高通AI Research最新研发成果一览 | 机器之心</a><br>摘要:针对 AI 和深度学习应用,Qualcomm AI Research 更加着重打造平台式创新,推动人工智能在行业实现高效、规模化的应用,这主要体现在三个方面:能效、个性化和高效学习; </li><li><a href="https://zhuanlan.zhihu.com/p/65452090">深度学习编译技术的现状和未来 | 知乎</a><br>摘要:传统的深度学习框架采用人工优化算子,然后建立运行时图解释器来解决内存分配调度等问题。深度学习编译器技术路线一般指在优化过程中采用了自动或者半自动的代码生成用以替代人工优化。深度学习编译器无疑是最近非常热门的话题。本文主要探讨深度学习编译技术的现状和未来。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-27.md">2019-04-27</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-04-27@Bi-weekly</title>
<link href="/2019/04/27/bi-weekly/2019-04-27/"/>
<url>/2019/04/27/bi-weekly/2019-04-27/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-04-27"><a href="#嵌入式AI简报-2019-04-27" class="headerlink" title="嵌入式AI简报 (2019-04-27)"></a>嵌入式AI简报 (2019-04-27)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/R3eoY1BX1aw9QcA9LIgGgw">Xilinx 宣布收购 Solarflare | 赛灵思</a><br>摘要:Solarflare 是一家全球领先的高性能、低时延网络解决方案提供商,其客户横跨金融科技到云计算。通过此次收购案,赛灵思能够将其业界领先的 FPGA、MPSoC 和 ACAP 解决方案与 Solarflare 的超低时延网络接口卡(NIC,网卡)技术以及 Onload 应用加速软件相结合,从而实现全新的融合 SmartNIC 解决方案,加速赛灵思的“数据中心优先”战略及向平台公司转型之路。 </li><li><a href="https://mp.weixin.qq.com/s/1NqHN5WHN4SPYHaIBp0IXA">苹果新 iPhone 大曝光:A13 芯片 AI 算力飙升,后置三摄设计 | 雷锋网</a><br>摘要:与 A12 相比,A13 的 CPU 可能将继续采用 2 个大核 + 4 个小核的架构,或者采用 3 个大核,但苹果会通过架构微调来提升 CPU 频率。从单核和多核的情况来看,苹果 A 系列的单核 CPU 表现一直是稳步提升,但多核表现不太稳定,比较难以预测。<br>GPU 方面,依据过去的增长规律,Jason Cross 认为 A13 在 GPU 方面的 3DMark Sling Shot 评分可能会在 4500 分左右。不过,在图像处理和 Neural Engine 方面,Jason Cross 认为苹果将会在 A13 上大幅度提升这一块的表现,来满足日益增加的 On-Device 机器学习和图像处理的需求——一个可参考的对象是,A12 比 A11 的 Neural Engine 运算速度提升了 8 倍,据此 Jason Cross 认为这一次的提升可能是 3 倍到 5 倍。</li><li><a href="https://mp.weixin.qq.com/s/MgWhbk5WzFS37kH4owJ4Hg">英特尔发布第九代酷睿移动处理器,为笔记本电脑而生 | 爱范儿</a><br>摘要:英特尔于 4 月 25 日正式推出了面向笔记本电脑市场的第九代酷睿系列处理器,仍基于 14nm Coffe Lake 架构。其中未锁频版 Core i9-9980HK,采用 8 核心 16 线程,基础频率 2.4GHz,睿频达 5GHz,还支持 Thermal Velocity Boost 及 16MB 缓存。第九代酷睿移动版处理器将支持英特尔 Dynamic Tuning 技术,可动态调整性能与温度。 </li><li><a href="https://mp.weixin.qq.com/s/AOfUwCTD5X1su4VSTJIHGw">Docker开发者现在可以在自己的桌面上构建Arm容器 | Docker</a><br>摘要:Docker与Arm公布一项重要的全新合作伙伴计划:两家公司将共同为Docker的工具提供面向Arm平台的更佳支持能力。此次合作的主要思路,是帮助Docker开发人员轻松立足自己的x86桌面设备为Arm平台构建应用程序,而后将应用成果部署至云端(包括基于Arm的AWS EC2 A1实例)、边缘以及物联网设备。具体来讲,开发者的Arm容器构建流程将与以往保持一致,无需任何交叉编译步骤。 </li><li><a href="https://cn.design-reuse.com/news/45420/arteris-ip-flexnoc-interconnectbaidu-kunlun-ai-cloud-chip-data-center.html">百度购买 Arteris IP 的FlexNoC®互联产品用于数据中心的昆仑人工智能(Kunlun AI)云芯片 | design-reuse</a><br>摘要:今天宣布Baidu已购买Arteris IP FlexNoC互连,用于该公司的供数据中心使用的高性能昆仑人工智能云芯片。百度的昆仑人工智能云芯片是独一无二的产品,这是因为,无论它们是位于数据中心,还是位于车辆或消费电子等“周边”设备中,既能够进行人工智能训练,也能够进行推理。 </li><li><a href="https://zhuanlan.zhihu.com/p/62954487">旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉 | 知乎</a><br>摘要:旷视提出了“ 8000 点人脸关键点定位技术”——可通过 8000 个 3D 关键点实现全脸的精细定位,支持各种姿态表情,能在移动端实时运行。最终训练的Shufflenetv2模型运算量为 32 MFLOPS,在中端处理器骁龙660 上的平均运行时间为:10.5ms,而在高端处理器骁龙855 上的平均运行时间可达:4ms,帧速率 250fps。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/62598364">CNN更新换代OctConv!性能提升算力减半,还即插即用 | 知乎</a><br>摘要:Facebook和新加坡国立大学联手提出了新一代替代品:OctConv(Octave Convolution),效果惊艳,用起来还非常方便。OctConv就如同卷积神经网络(CNN)的“压缩器”。用它替代传统卷积,能在提升效果的同时,节约计算资源的消耗。比如说一个经典的图像识别算法,换掉其中的传统卷积,在ImageNet上的识别精度能获得1.2%的提升,同时,只需要82%的算力和91%的存储空间。 </li><li><a href="https://mp.weixin.qq.com/s/lk268kc55Lgz1d_21zg26A">吊打YOLOv3!普林斯顿大学提出:CornerNet-Lite,基于关键点的实时且精度高的目标检测算法,已开源! | CVer</a><br>摘要:截止2019年4月20日,据Amusi所了解,CornerNet-Lite 应该是目标检测(Object Detection)中 FPS和 mAP trade-off 最佳算法。<br>CornerNet-Saccade 是追求高准确率(mAP)的同时,尽可能提高速度(FPS),即准确率优先,其对标于CornerNet等算法。创新点:引入Saccade思想CornerNet-Squeeze 是追求高实时性(FPS)的同时,尽可能提高准确率(mAP),即速度优先,其对标于YOLOv3等算法。创新点:引入SqueezeNet优化思想。<br>CornerNet-Saccade 检测图像中可能的目标位置周围的小区域内的目标。它使用缩小后的完整图像来预测注意力图和粗边界框;两者都提出可能的对象位置,然后,CornerNet-Saccade通过检查以高分辨率为中心的区域来检测目标。它还可以通过控制每个图像处理的最大目标位置数来提高效率。<br>CornerNet-SqueezeNet 是受SqueezeNet启发,CornerNet-Squeeze将 residual block 替换为SqueezeNet中的 Fire module 。<br>受MobileNet启发,CornerNet-Squeeze将第二层的3x3标准卷积替换为 3x3 深度可分离卷积(depth-wise separable convolution)。 </li><li>[SysML] <a href="https://www.sysml.cc/doc/2019/168.pdf">Accurate and Efficient 2-Bit Quantized Neural Netowrks</a> <a href="https://mp.weixin.qq.com/s/HzgRHtVwdmW6_m7OJwK-ew">[机器之心解读]</a><br>摘要:为得到整体的量化神经网络(QNN),这篇论文提出分别用于权重和激活的量化技术:<ol><li>激活量化的技术「PArameterized Clipping acTivation(PACT)」:在训练期间使用 ReLU 函数的参数化截略来确定量化的输出范围的方案;</li><li>用于权重量化的技术「Statistics-Aware Weight Binning(SAWB)」:可基于权重分布的统计特性确定能最小化量化误差的最优比例因子,无需执行穷举搜索。<br>组合使用 PACT 与 SAWB 可以得到一种二位量化神经网络(2-bit QNN),其分类准确度在一些常见的模型和数据集上能达到当前最佳水平。</li></ol></li><li>[SysML] <a href="https://www.sysml.cc/doc/2019/22.pdf">Optimizing DNN Computation With Relaxed Graph Substitution</a> <a href="https://mp.weixin.qq.com/s/HzgRHtVwdmW6_m7OJwK-ew">[机器之心解读]</a><br>摘要:DNN 可被视为由(数学)算子组成的计算图。TensorFlow、PyTorch 和 TVM 等会将计算表达为有状态的数据流图,并在训练期间优化图,并会在整个过程中变换为新图。新图相比于迭代前的图通常会有严格更好的运行时间性能。这种「严格更好」会得到深度学习框架的非常受限的搜索空间,也是高计算成本的一大原因。直观地说,可以认为优化问题存在诸多约束。约束越多,算法得到解的时间就会越长。<br>例如,如果 conv3 是一个 3×3 卷积,其核可分解为使用两个 1×3 核执行卷积(6 次乘法)但结果还是一样,从计算角度看,每次卷积的成本更低了。此外,通过将卷积分为两个可以并行执行的更小卷积,执行整个卷积的速度也可能会更快。<br>这一思路两个方向都有效,而且这正是图替换思想背后的基本直觉。如果源图和目标图计算出的输出在外部边上是数学上等价的,则图替代就是有效的。最后说明一点,宽松化的思路可按如下方式展示。考虑以下等价表达式以及从上面的表达式到下面的表达式所采取的步骤:<br><img src="https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWibRziaEw20HY7S6ToICwUH9Z8uJ6XOdWQdX6mtlIJPUO7XYRLG2nFgDDDSXGFxfrnEHaLL06ToupSw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" alt="graph-opt"><br>但是,如果系统每次迭代时都有约束——新子图必须严格优于当前子图;则第二个表达式就不会被允许,因此也就无法得到最终的表达式。这就体现了放松约束条件(宽松化)的重要性。<br>因此为了解决这个问题从而降低计算成本,这篇论文提出了一种宽松化的图替代方法,可通过放松每个迭代约束的「严格更好」来实现复杂图优化的探索。这能增大问题的可行空间,并能在每次迭代时更快找到解。此外,研究者还引入了回溯方法(backtracking),可搜索一组宽松化图替代来寻找每次迭代的最优解(没有严格更好的约束)。 </li><li><a href="https://mp.weixin.qq.com/s/q93z9cio7GwjXR36PgU16w">英特尔“演化算法”新框架:29个Python代码块,自动生成新算法 | 新智元</a> <a href="https://arxiv.org/abs/1904.02830">[论文]</a><br>摘要:英特尔的研究人员提出一种新的自动算法生成器(AAD),利用演化算法框架,以Python语言的基本子集作为语法架构,能够对29个数组/向量问题的代码块进行组合,通过学习,自动生成更复杂问题的解决方案。<br>自动算法发现器(AAD),这是一种用于合成高复杂度计算程序的演化算法框架。此前的演化算法依赖于客观的适应函数,这在给算法设计上增加了难度。<br>AAD是用于综合高复杂度程序的演化框架,它以Python语言的基本子集作为语法架构。使用AAD能够对29个数组/向量问题的代码块进行组合,其中既有最大值、最小值,矩阵翻转这类简单问题,也有更具挑战性的问题,如排序和矩阵向量乘法等,对于输入没有大小限制。<br>为了应对复杂需求带来的各种挑战,AAD工具还能实现与高性能计算(HPC)技术的结合。总的来说,与现有技术相比,采用PGE的演化算法能够解决类似或更高复杂性的问题。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/xperroni/Valdroid">xperroni/Valdroid: Binary build of Valgrind for Android</a><br>摘要:Android版本Valgrind。 </li><li><a href="https://github.com/darchons/android-gdb">darchons/android-gdb: GDB fork targetting Android/Fennec development</a><br>摘要:Android版gdb,用的时候adb push到手机上。注:不是gdbserver。</li><li><a href="https://mp.weixin.qq.com/s/QDTMvvCUN71_L4nPgqzN1Q">用Modin利用多核加速Pandas计算 | 机器之心解读</a><br>摘要:Modin 是加州大学伯克利分校 RISELab 的一个早期项目,旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。<br>例如,在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。Modin 所做的只是增加了 CPU 所有内核的利用率,从而提供了更好的性能。该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas。<ol><li>Modin 的架构数据帧分区,Modin对数据帧的分区模式是沿着列和行同时进行划分的,因为这样为 Modins 在支持的列数和行数上都提供了灵活性和可伸缩性。<br><img src="https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWibr720w0uHY8x7z0xwEkmur3yr8gkUYtkI1lxheYuPHYjnGJu0X1xIqLA7m5ibS0ZjFqAtAxYXx4PA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" alt="modin"> </li><li>Modin 系统架构被分为不同的层:<ol><li>Pandas API 在最顶层暴露给用户。</li><li>下一层为查询编译器,它接收来自 Pandas API 层的查询并执行某些优化。</li><li>最后一层为分区管理器(Partition Manager),负责数据布局并对发送到每个分区的任务进行重组、分区和序列化。<br><img src="https://mmbiz.qpic.cn/mmbiz_png/KmXPKA19gWibr720w0uHY8x7z0xwEkmur0pKNNnO7KWLuiajKdX8ia449zHybdibY797VTeibA4PV2o2pQpkHTibcl8A/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" alt="modin-architecture"><br>Modin 利用 <a href="http://github.com/ray-project/ray">Ray</a> 加速 Pandas 的 notebook、脚本和程序库。Ray 是一个针对大规模机器学习和强化学习应用的高性能分布式执行框架。同样的代码可以在单台机器上运行以实现高效的多进程,也可以在集群上用于大型计算。</li></ol></li></ol></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://www.linuxidc.com/Linux/2012-11/74645.htm">ARM嵌入式开发中的GCC内联汇编简介 | Linux公社</a><br>摘要:在针对ARM体系结构的编程中,一般很难直接使用C语言产生操作协处理器的相关代码,因此使用汇编语言来实现就成为了唯一的选择。但如果完全通过汇编代码实现,又会过于复杂、难以调试。因此,C语言内嵌汇编的方式倒是一个不错的选择。然而,使用内联汇编的一个主要问题是,内联汇编的语法格式与使用的编译器直接相关,也就是说,使用不同的C编译器内联汇编代码时,它们的写法是各不相同的。本文介绍在ARM体系结构下GCC的内联汇编。</li><li><a href="http://cenalulu.github.io/linux/all-about-cpu-cache/">关于CPU Cache – 程序猿需要知道的那些事 | cenalulu’s Tech Blog</a><br>摘要:作者从为什么要有CPU Cache到多级CPU Cache、什么是Cache Line、存放数据规则、N-Way Set Associaive、Cache淘汰策略介绍了CPU Cache。</li><li><a href="https://mp.weixin.qq.com/s/-e1rnh0qYj92jHncIYPoPA">多角度解析Tesla FSD自动驾驶芯片 | StarryHeavensAbove</a><br>摘要:在刚刚结束的Tesla Autonomy活动中,Tesla非常“大方”的介绍了自己的Full Self-Driving (FSD) Computer从系统到芯片的很多细节。从芯片来看,其“透明度”超过了除Google第一代TPU之外所有的AI相关芯片。实际上,和Goolge TPU的情况类似,在这次发布之前,Tesla也做了一定的专利布局,这正好让我们可以从不同角度更深入的了解Tesla的FSD芯片。 </li><li><a href="https://mp.weixin.qq.com/s/keJ94tnvg_1evC2GTIc7Sw">华为“方舟编译器”到底是个什么鬼? | 嵌入式资讯精选</a><br>摘要:方舟编译器作为全新的系统及应用的编译和运行机制,从DNA层面对安卓进行了改造,解决了安卓应用边解释边运行的低效问题,让手机能直接听懂“高级语言”,可以说是近几年来安卓阵营最大的根本性革新。它大幅降低了安卓系统随机卡顿的问题,打破了人机之间的藩篱,让用户能直观感受到的就是使用体验更加持久流畅。 </li><li><a href="https://mp.weixin.qq.com/s/8xXzOgqGU0XgRqY5s0NRrA">视频回放:诸宸辰-CVPR2019:基于Anchor-free特征选择模块的单阶目标检测 | 极市平台</a><br>摘要:CMU博士生诸宸辰,为我们分享了其在CVPR2019的工作:基于Anchor-free特征选择模块的单阶目标检测。</li><li><a href="https://mp.weixin.qq.com/s/ZDkoZjtG4aIgT9i657kLIg">豆瓣评分9.7!《树莓派开始,玩转Linux》 | 程序员书库</a><br>摘要:这本书,是以树莓派为基础,讲解Linux操作系统,让你不仅可以了解树莓派的背景知识,树莓派的使用,Linux使用,还能了解到操作系统的原理并且还有实操项目,你会不会有想看它的冲动呢?不卖关子了,这本书就是——《树莓派开始,玩转Linux》。章节目录除了基本Linux外,还有安装Spark计算pi的实例,搭建集群,跑YOLO模型等等案例。</li></ul><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-04-13@Bi-weekly</title>
<link href="/2019/04/13/bi-weekly/2019-04-13/"/>
<url>/2019/04/13/bi-weekly/2019-04-13/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-04-13"><a href="#嵌入式AI简报-2019-04-13" class="headerlink" title="嵌入式AI简报 (2019-04-13)"></a>嵌入式AI简报 (2019-04-13)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/fal6vz9gaZMbR41QMGE3AQ">TensorFlow MLIR 发布:全新的中介码与编译器框架 | TensorFlow</a><br>摘要:TensorFlow发布 MLIR(或称为多级别中介码)。这是一种表示格式和编译器实用工具库,介于模型表示和低级编译器/执行器(二者皆可生成硬件特定代码)之间。在生产质量组件的支持下,希望能够借助 MLIR 对优化编译器设计与实现进行全新探索。MLIR 的核心是一种灵活的基础设施,适用于现代优化编译器。这意味着其中包含适用于中介码 (IR) 的规范与转换此中介码的代码工具包。(从编译器的角度来说,从高级表示到低级表示的转换过程称为 “降阶”,下文我们将使用此术语。)<br>MLIR 深受 LLVM 的影响,并不折不扣地重用其许多优秀理念。MLIR 拥有灵活的类型系统,可在同一编译单元中表示、分析和转换结合多层抽象的图。这些抽象包括 TensorFlow 运算、嵌套的多面循环区域乃至 LLVM 指令和固定的硬件操作及类型。因而 MLIR 提供了 “方言”,其中包括:<ul><li>TensorFlow IR,代表 TensorFlow 图中可能存在的一切;</li><li>XLA HLO IR,旨在利用 XLA 的编译功能(输出到 TPU 等);</li><li>实验性仿射方言,侧重于多面表示与优化;</li><li>LLVM IR,与 LLVM 自我表示之间存在 1:1 映射,可使 MLIR 通过 LLVM 发出 GPU 与 CPU 代码;</li><li>TensorFlow Lite,将会转换以在移动平台上运行代码。 </li></ul></li><li><a href="https://mp.weixin.qq.com/s/aE755Eji7cyTHGctaRAIKw">这款神秘的移动端OCR引擎,如何做到“所见即所得”? | 阿里技术</a><br>摘要:xNN-OCR是专门针对移动端本地识别研发的的高精度、高效率、轻体量文字识别引擎,目前支持场景数字、场景英文、场景汉字以及特殊符号的识别。xNN-OCR针对移动端开发和优化了一套基于深度学习的文字检测和文字行识别算法框架,结合xNN的网络压缩和加速能力,检测和识别模型可以压缩到数百K级别,在中端及以上手机CPU上达到实时(最高15FPS),可结合“扫一扫”的模式在视频流中做到所见即所得。 </li><li><a href="https://mp.weixin.qq.com/s/mnLYFnjoYHJvaRkUAUdo6Q">高通发布7纳米专用AI芯片Cloud AI 100,性能碾压业界10倍 | 新智元</a><br>摘要:年度 Qualcomm AI Day 大会上,高通发布了三款面向智能手机、平板电脑和其他移动设备的新系统芯片。此外,更重磅的是,高通还宣布了一款专为边缘计算设计的新产品:Qualcomm Cloud AI 100。将于 2020年正式推出产品,样片将在今年晚些时候推出。<br>Cloud AI 100,采用7nm工艺,性能比目前业界最先进的 AI 推理解决方案高出 10 倍以上。运算速度可以 “远远超过”100 TOPs。(相比之下,骁龙 855 最快只有约 7 TOPs。) </li><li><a href="https://mp.weixin.qq.com/s/lQqM1ZYc9XNp0UY4NGcJvg">华为发布Atlas人工智能计算平台 | 华为智能计算</a><br>摘要:4月10日,华为正式推出基于昇腾AI芯片的Atlas人工智能计算平台——即针对AI全场景的解决方案。据介绍,Atlas人工智能计算平台包括Atlas 200 AI加速模块、Atlas 300 AI加速卡、Atlas 200 DK AI开发者套件、Atlas 500智能小站四款产品。这些产品可以应用于公共安全、运营商、金融、互联网、电力等行业。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1555153280&src=3&ver=1&signature=QidVEnsxeRTXGRH33ENe-vlmNiRxW2gR6F2GT8*fNLi3-Z8CthConqJ4rT9aqkE4wCC8oUbvu4vyIlJX8Tyg2WXDRJNoCwPZ6JIb5S8KmBFseLPt6RAMux2dWnL7lQ0PPuDT5hmWXnu5LBcKX7hJSBpnjtA*G3-xcgOdc9V9dyk=">「方舟编译器」加持,华为P30系列国内正式发布 | 机器之心</a><br>摘要:华为 P30 搭载的依然是华为最新推出的麒麟 980 芯片,其采用台积电 7 纳米工艺、双 NPU 配置,集成了 69 亿颗晶体管,Cortex-A76 架构 CPU 以及 Mali-G76 架构 GPU。新一代的制程工艺不仅让芯片速度更快,而且能耗也有所降低。<br>此外,「方舟编译器」是其中最引人注目的一个。它随着 EMUI 9.1 一同放出,据称能够改善安卓应用编译效率,让 APP 从原先的边解释边执行转变为全程机器码高效运行程序。如果程序本身对华为的 EMUI 和麒麟处理器进行了特别优化,显然可以获得更好性能。华为宣称,方舟编译器可让系统操作流畅度提升 24%,系统响应速度提升 44%,第三方应用重新编译后流畅度可提升 60%。随着 P30 系列发布的还有全新 EROFS 文件系统。华为称,新技术可以让手机内存的随机读取性能提升 20%。华为推出的新版 MateBook E(12 寸)笔记本采用了 8 核心、10 纳米制程的高通骁龙 850 移动计算平台。华为希望以此为基础构建更为繁荣的 ARM PC 生态。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://mp.weixin.qq.com/s/DX-e0yGC3jkDrlVH_C9ltQ">旷视提出One-Shot模型搜索框架的新变体 | 极市平台</a><br>摘要:旷视首次披露AutoML相关成果,通过构建一个简化的超网络来解决训练过程中面对的主要挑战。在ImageNet上的实验结果超过了谷歌、Facebook等AutoML技术的成绩。一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 ImageNet)上取得较有竞争力的结果。提出的单路径 One-Shot 模型,以解决训练过程中面对的主要挑战,其核心思想是构建一个简化的超网络——单路径超网络(Single Path Supernet),这个网络按照均匀的路径采样方法进行训练。 所有子结构(及其权重)获得充分而平等的训练。基于这个已训练的超网络,可以通过进化算法快速地搜索最优子结构。 </li><li><a href="https://mp.weixin.qq.com/s/JdYODWHWcyDdUzdQN8As7Q">在定制硬件上实现DNN近似算法,一文概述其过去、现在与未来 | 机器之心</a><br>摘要:在这篇综述论文中,作者旨在为刚进入该领域的研究人员提供关于 DNN 近似算法的全面基础,展示定制硬件如何比 GPP 实现更好的推理性能。具体来讲,本文的贡献如下:<ol><li>通过比较不同规模 FPGA、ASIC、CPU 和 GPU 平台的 roofline 模型,来说明定制硬件更适合 DNN 近似算法。</li><li>叙述当前最佳 DNN 近似的主要趋势,详细讨论了低精度量化和权重减少方法,介绍了最近的算法发展并评估了它们的优缺点。</li><li>评估了每种方法定制硬件实现的性能,重点关注准确率、压缩、吞吐量、延迟和能效。</li><li>基于本文确定的趋势,作者提出了一些有前景的未来研究方向。</li></ol></li><li><a href="https://mp.weixin.qq.com/s/6m1fp4cyNX93cR6dg6uPkA">旷视科技最新目标检测网络ThunderNet | yuanCruise</a><br>摘要:ThunderNet实现了ARM平台上的第一个实时检测器和最快的单线程速度。ThunderNet使用320×320像素作为网络的输入分辨率。整体的网络结构分为两部分:Backbone部分和Detection部分。网络的骨干部分为SNet,SNet是基于ShuffleNetV2进行修改得到的。 网络的检测部分,利用了压缩的RPN网络,修改自Light-Head R-CNN网络用以提高效率。 并提出Context Enhancement Module整合局部和全局特征增强网络特征表达能力。 并提出Spatial Attention Module空间注意模块,引入来自RPN的前后景信息用以优化特征分布。 </li><li><a href="https://mp.weixin.qq.com/s/5AFobnIXDwHR-MK4ITeFog">Efficient GPU NVRAM Persistence with Helper Warps</a><br>摘要:创新奇智提出基于NVRAM TPS的Helper Warp方法,通过在 GPU 上使用 NVRAM 存储的有效并且易于使用的事务处理系统,在特定应用场景下,让 GPU 性能获得了 4~5 倍的提升。这篇论文也被 2019 年第 56 届设计自动化大会接收。ACM / IEEE Design Automation Conference,简称 DAC,是电子设计自动化和嵌入式系统领域的顶级会议。作者主要工作:<ol><li>提出了在 GPU 上使用 NVRAM 存储的有效并且易于使用的事务处理系统;</li><li>提出使用 Helper Warp,利用 GPU 的闲置计算资源来缓解写入带宽的限制;</li><li>建立了一种在不同的程序下能够自适应地启用 Helper Warp(辅助调度单位)达到最佳性能的机制。 </li></ol></li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/nihui/waifu2x-ncnn-vulkan">nihui/waifu2x-ncnn-vulkan: waifu2x converter ncnn version, runs fast on intel / amd / nvidia GPU with vulkan</a> <a href="https://zhuanlan.zhihu.com/p/61576454">[知乎]</a><br>摘要:waifu2x 二次元图超分辨率工具 ncnn 版本,可以在 intel / amd / nvidia 显卡上加速,用的是 vulkan api。waifu2x-ncnn-vulkan 用的是 ncnn 推断框架。 </li><li><a href="https://github.com/thenifty/neon-guide">thenifty/neon-guide: Makes ARM NEON documentation accessible (with examples)</a><br>摘要:ARM官方的Neon查询手册大家都知道,但这份NEON函数说明写得相当地简明清晰。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://www.jianshu.com/p/68879baa7c1f?from=timeline&isappinstalled=0">写一个基于NEON指令的矩阵乘法(一) | 伦啊伦 简书</a><br>摘要:本文第一部分将讲解如何在计算机上实现通用的矩阵乘法(General matrix multiply, GEMM),第二部分讲解神经网络加速包NNPACK基于NEON指令实现的矩阵乘法。 </li><li><a href="https://zhuanlan.zhihu.com/p/61356656">ARM底层汇编优化之NEON优化 - 概述(基础入门 ) | 章小龙 知乎</a><br>摘要:介绍了一系列官方的必看Neon优化材料,并对Neon汇编优化进行了入门。 </li><li><a href="https://www.jianshu.com/p/58271568781d">记一次代码优化(C++) | 伦啊伦 简书</a><br>摘要:作者将以图形学上的算法由原本O^2复杂度优化到80%以上的流程记录,主要技巧:减少函数调用,并避免边界检查,运算并行化(SIMD),数据复用。 </li><li><a href="https://mp.weixin.qq.com/s/28cvkWRGIvA5d8Mh9wKcpQ">从猫蛇之战看内核戏CPU | 格蠹老雷 格友</a><br>摘要:调试器是如何访问不能访问的内存的?调试器在访问内存时,会使用特殊的probe函数来访问,访问之前会禁止页错误。但是很多问题还没有说透,比如:<br>Q1. 这样禁止了后,访问非法内存时,CPU硬件真的不报异常了么?<br>Q2. 如果要读很长一段内存,那么probe函数会访问一次发现不行就停了,还是像猫与蛇战那样连续作战呢?<br>Q3. probe函数发现不能访问时,会返回一个名为EFAULT的错误码(-14),它是怎么知道访问失败的呢?</li><li><a href="https://mp.weixin.qq.com/s/WLasOy9oZvTptEV5050PFQ">从上到下的系统架构分析方法 - Intel PMU | 内核月谈</a><br>摘要:现代 CPU 大多具有性能监控单元(Performance Monitoring Unit, PMU),用于统计系统中发生的特定硬件事件,例如缓存未命中(Cache Miss)或者分支预测错误(Branch Misprediction)等。同时,多个事件可以结合计算出一些高级指标,例如每指令周期数(CPI),缓存命中率等。一个特定的微体系架构可以通过 PMU 提供数百个事件。对于发现和解决特定的性能问题,我们很难从这数百个事件中挑选出那些真正有用的事件。 这需要我们深入了解微体系架构的设计和 PMU 规范,才能从原始事件数据中获取有用的信息。自顶向下的微体系架构分析方法(Top-Down Microarchitecture Analysis Method, TMAM)可以在乱序执行的内核中识别性能瓶颈,其通用的分层框架和技术可以应用于许多乱序执行的微体系架构。TMAM 是基于事件的度量标准的分层组织,用于确定应用程序中的主要性能瓶颈,显示运行应用程序时 CPU 流水线的使用情况。本文将会在Linux平台上以数组求和实例的测试分析为案例进行。</li><li><a href="https://mp.weixin.qq.com/s/pEFAfE4RZzNp3qIrZ2-aMQ">专用处理器设计 | 唐杉 StarryHeavensAbove</a><br>摘要:作者从什么是专用处理器、指令集设计到微架构等方面介绍了专用处理器的特点类似一篇综述。</li></ul><p>最近看到一篇文章名为:<a href="https://mp.weixin.qq.com/s/ukTWusTGBPsuxcezORDfeQ">请收下10年嵌入式工程师总结的Bug调试经验!</a>,最后有三点总结: </p><ol><li>不要去做技术上的高手,除非你的目标如此; </li><li>提高软件知识和技术只是问题的表面,本质是要提高自己认识问题、分析问题、解决问题的思想高度。软件专业知识的很多方法和原理,可以很容易地延伸、应用到生活的其它方面; </li><li>在能胜任工作的基础上,立即去涉猎其它领域的专业知识,丰富自己的知识体系、提高自己。</li></ol><h2 id="往期回顾"><a href="#往期回顾" class="headerlink" title="往期回顾"></a><a href="https://github.com/ysh329/awesome-embedded-ai">往期回顾</a></h2><ul><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-04-13.md">2019-04-13</a> </li><li><a href="https://github.com/ysh329/awesome-embedded-ai/blob/master/embedded-ai-report/2019-03-31.md">2019-03-31</a> </li></ul><hr><p><img src="../wechat_qrcode.jpg" alt="wechat_qrcode"></p><p>Wechat ID: NeuroMem<br>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2019-03-31@Bi-weekly</title>
<link href="/2019/03/31/bi-weekly/2019-03-31/"/>
<url>/2019/03/31/bi-weekly/2019-03-31/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI简报-2019-03-31"><a href="#嵌入式AI简报-2019-03-31" class="headerlink" title="嵌入式AI简报 (2019-03-31)"></a>嵌入式AI简报 (2019-03-31)</h1><p><strong>关注模型压缩、低比特量化、移动端推理加速优化、部署</strong><br><font>注:PC端微信链接打不开请用手机打开</font></p><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1554017543&src=3&ver=1&signature=BqWMSdNcT5ey46yqvZ5g0hWq6d3yBDqH9TZzsSE-p39iMbJOaJjJ0QWPq3kjjS0XUPUx-Q*KtHu8WCAAYZR4552dGt*G70M7QuVbmOUAwUI6gxJ4DXD*jdkQRlEuSVeHwww4jFVs7W5VWjPV5zfBW-*PUfU23xK9UFp4gDNHtNY=">视频:波士顿动力发布仓储搬运机器人Handle搬箱子,子不高,动作迅捷 | 新智元</a><br>摘要:Handle 是一款专为物流设计的移动操作机器人。在抓取箱子前利用视觉系统定位,在将箱子放到托盘上时,它的 “力度控制” 能力可以将每个箱子码放整齐。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554017543&src=3&ver=1&signature=BqWMSdNcT5ey46yqvZ5g0hWq6d3yBDqH9TZzsSE-p39iMbJOaJjJ0QWPq3kjjS0XUPUx-Q*KtHu8WCAAYZR452KNy2tBEoz3FM2G0sh8xw*ySx*UaVgMViAqEblCzcBoqWKRh93PF3gyCqzl023YC4EMvpIJjt-HMwTCzzKDuSY=">华为芯片大动作:英国投资3亿圈地剑桥,紧邻ARM自建工厂 | 新智元</a><br>摘要:近日,华为宣布将“圈地造芯”:投资3.3亿元人民币买下剑桥大学500英亩地,其中100英亩计划设立研发部门和园区。我们常说的ARM 微处理器,就是采用ARM技术知识产权(IP核)的微处理器。全世界超过95%的智能手机和平板电脑都采用ARM。基于ARM 技术的微处理器应用约占据了32 位微处理器75 %以上的市场份额。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK91zdG14MNXFvWGyyP3ykrx7zSyoiYr1UsC3mDGr-NExPJGFhJdGH4TN-6cTET5zhLaIY-*6rIeEHbsFEmJxckyE=">阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持 | 机器之心</a><br>摘要:自研的第一款阿里 NPU 2019年下半年将正式发布,且在同等芯片里性能领先十倍以上。早在2018年阿里宣布达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。之后全资收购中天微,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。 </li><li><a href="https://mp.weixin.qq.com/s/xFec5gjMZeOCajqimB_t7A">华为P30 Pro发布,50倍变焦,黑夜拍成白天,7k起售,手机中的天文望远镜 | 量子位</a><br>摘要:华为P30搭载了麒麟980处理器,该处理器是全球首次采用7nm制程工艺的移动手机SoC芯片,拥有69亿个晶体管,集成了Mali-G76 GPU,再结合华为独家的GPU Turbo,带来了畅快的游戏体验。在拍人像时,AI HDR+机器学习技术让逆光的照片也能十分清晰。在拍视频的情境下,也能充分发挥暗光拍摄和光学防抖+AI防抖,让画面更清晰,电源键化身智能助理按键,可以一键召唤谷歌智能语音助理。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1812.00332] <a href="https://arxiv.org/pdf/1812.00332.pdf">PROXYLESSNAS: DIRECT NEURAL ARCHITECTURE SEARCH ON TARGET TASK AND HARDWARE</a> <a href="http://news.mit.edu/2019/convolutional-neural-network-automation-0321">[报道原文]</a> <a href="https://mp.weixin.qq.com/s?timestamp=1554017543&src=3&ver=1&signature=BqWMSdNcT5ey46yqvZ5g0hWq6d3yBDqH9TZzsSE-p39iMbJOaJjJ0QWPq3kjjS0XUPUx-Q*KtHu8WCAAYZR45z97KYswLQsVmV-lRn1ctVq64fdDH*WwE8HY50*iqolFwj3ocfQ8CpOrlCpAKn1EWnZ0BTGH5VVQEux*M72cd-Q=">[新智元解读]</a><br>摘要:MIT韩松等人团队开发了一种高效的神经结构搜索算法,可以为在特定硬件上自动设计快速运行的神经网络提供一个“按钮型”解决方案,算法设计和优化的机器学习模型比传统方法快200倍。 </li><li>[SysML 2019] <a href="https://www.sysml.cc/doc/2019/79.pdf">DISCRETE ADVERSARIAL ATTACKS AND SUBMODULAR OPTIMIZATION WITH APPLICATIONS TO TEXT CLASSIFICATION</a> <a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK90m9t7qRUOR3YBHlyU6pzljiMSBDGAfl2UIJ7xU1eW7j7zVxX3ATJLIGWrs6zBH7ZggSHsvC3wRIgKlDZpKHOVc=">机器之心解读</a><br>摘要:以往对抗攻击大多用于图像识别网络,这篇文章用了一个更广泛的对抗攻击的定义,指出一个用于文本处理的网络也可以进行对抗攻击。此方法较为新颖,它把矩阵输入泛化到离散集输入,因而衍生出许多相关应用,并不局限于语言处理。 </li><li>[SysML 2019] <a href="https://www.sysml.cc/doc/2019/127.pdf">To Compress or Not to Compress: Understanding the Interactions between Adversarial Attacks and Neural Network Compression</a> <a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK90m9t7qRUOR3YBHlyU6pzljiMSBDGAfl2UIJ7xU1eW7j7zVxX3ATJLIGWrs6zBH7ZggSHsvC3wRIgKlDZpKHOVc=">机器之心解读</a><br>摘要:本文对神经网络压缩和对抗攻击的关系进行了研究。pruning 减少了网络的参数密度,对于用原网络作出的攻击有较小防御性,对参数和激活函数的大幅度量化也能使攻击的转移性变小。但是总地来说,黑客如果对大多数现有应用中的高 bit-width 压缩过的网络进行攻击,可以成功的攻击原网络或者是别的压缩过的网络。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK95Akg4-nHBHz3V023HAlQqE7y5dYrb9ytOzNsgC6uHZIIPbCx4YvUek8eA926iNd*96eyPGjsxMTrnYJK94RdSU=">百度增强现实自动驾驶仿真系统登上 Science 子刊 | 机器之心</a> <a href="http://robotics.sciencemag.org/content/4/28/eaaw0863.full">[science子刊]</a><br>摘要:传统的自动驾驶仿真环境都是根据游戏引擎或高保真计算机图形创建的,这种环境缺乏现实世界图像的丰富性和真实性,训练效果有限,扩展性差、成本高。为弥补这一短板,百度开发了一个增强现实的全新自动驾驶系统,利用激光雷达和相机扫描得到的街景图像合成仿真环境。这一研究论文刊登在 3 月 27 日的《Science》子刊「Science Robotics」上。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/YuvalNirkin/face_swap">YuvalNirkin/face_swap: End-to-end, automatic face swapping pipeline</a> </li><li><a href="https://github.com/Oldpan/Pytorch-Memory-Utils">Oldpan/Pytorch-Memory-Utils: pytorch memory track code</a><br>摘要:Pytorch内存跟踪插件。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK9-03R03DYMBzd1FjGFI0PxWQVT3NGar9a81CUlngr62L9gUhG*ZUpdTMwfePaGiQmxdoBk10UGk3zQ*z66FkJJQ=">6个JavaScriptd框架构建计算机视觉程序 | 机器之心</a> <a href="https://medium.freecodecamp.org/computer-vision-js-frameworks-you-need-to-know-b233996103ce">[原文]</a><br>摘要:除了TensorFlow.js,还有基于云的Amazon Rekognition,JS版本的OpenCV.js,tracking.js,获取用户正在看什么的WebGazer.js,此外还有来自Google的three.ar.js,可扩展ARCore到前端,检测和目标检测整合进浏览器,是 AR 游戏的完美工具。</li><li><a href="https://github.com/idealo/cnn-exposed">idealo/cnn-exposed: Interpreting Convolutional Neural Network (CNN) Results</a> <a href="https://speakerdeck.com/tanujjain/demystifying-the-neural-network-black-box">[slide]</a><br>摘要:理解CNN,可视化中间层feature map,绘制热力图,并有相关<a href="https://speakerdeck.com/tanujjain/demystifying-the-neural-network-black-box">slide</a>。 </li><li><a href="https://github.com/jphall663/awesome-machine-learning-interpretability">jphall663/awesome-machine-learning-interpretability: A curated list of awesome machine learning interpretability resources</a><br>摘要:专注模型可解释性的awesome-list项目。 </li><li><a href="https://github.com/linnanwang/AlphaX-NASBench101">linnanwang/AlphaX-NASBench101: Neural Architecture Search with Deep Neural Network and Monte Carlo Tree Search</a><br>摘要:AlphaX是一个新的神经结构(NAS)搜索器,使用特定的搜索模型架构与Meta-DNN搜索预测模型来估计采样结构的准确性。与随机搜索相比,AlphaX构建一个在线模型来指导未来的搜索,且可用较少迭代次数便能逃出局部最优。实现细节见:<a href="https://arxiv.org/pdf/1903.11059.pdf">AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search</a>。 </li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://jackwish.net/on-android-nnapi.html">Android Neural Networks API —— 一种神经网络软件系统中间层的设计与实现 | 黎明灰烬博客</a><br>摘要:随着深度学习的进一步发展,用于减轻框架层和硬件厂商开发代价的「中间层表示」以各种形式涌现:包括采用编译技术做图优化的、制定模型文件格式的、操作系统中间层的。本文重点介绍了操作系统中间层的代表 Android Neural Networks API 的软件架构、内部模块交互方式,并讨论了其设计。总体而言,Android Neural Networks API 简洁有效,符合软件系统的设计方法学。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554017543&src=3&ver=1&signature=BqWMSdNcT5ey46yqvZ5g0hWq6d3yBDqH9TZzsSE-p39iMbJOaJjJ0QWPq3kjjS0XUPUx-Q*KtHu8WCAAYZR450sZQGQFtPQQ7Bvi3W2crLTyf4sq8CjVqjEsb6CZCiRJtSg9cz5qMMWg4wyqGwVf5n3tvwJ6elmRj0QC20NReEg=">杜克大学终身教授陈怡然专访:让非主流成为主流,AI芯片的起源、现状与前路 | 新智元</a><br>摘要:陈怡然教授说道,通用芯片仍然会长期存在也是主干,但随着业务多样性通用芯片可能会作为通用芯片的辅助,专用芯片的设计要经历很长时间,行业特定设计(Domain specific design)。针对特定场景的重要步骤进行抽象和实现。专用芯片可能跟不上未来人工智能发展,要么技术上重构关键器件,要么增加协处理器,要么等待下一个生命周期。<br>后摩尔时代对于AI芯片设计来说,晶体管目前做到更小的成本在增大,重点也在于如何在相同逻辑数量下提高计算效率,一是基于紧密结合业务的新器件和材料如特性像神经突触的忆阻器,二是用新制造工艺如3D堆叠在单位面积堆更多层的存储和计算逻辑,提高计算时的数据传输效率。未来的AI芯片发展会朝着软硬件结合,业务结合为导向,虽然AI有泡沫但也是头部公司和应用,还有很多问题待解决,AI没有运算的支撑是不可能大量更好更有效的部署的。我们要更多的去重视它的计算平台,更多的注重它在具体场景的实现。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK90koIw9VI0QTfXZ0cotgdF7VnIToD6wqw*X0OStTFbJvf*kegxWAMnUKsjZfq7*ykRmhRxT6HbPnSTmrDjVXAXQ=">如何在CUDA中为Transformer编写一个PyTorch自定义层 | 机器之心</a><br>摘要:根据写Transformer,学到许多关于 CUDA 如何工作的知识,以及诸如 block、线程、核函数、内存、同步、缓存这样的概念,希望本文能够对那些想要入门 CUDA 性能优化的人有所帮助。此外,作者提到 python 的逐行性能分析器<a href="https://github.com/rkern/line_profiler">line_profiler</a>,在要分析的函数顶部添加「@profiler」装饰器后,在命令行中用「kernprof」替换「python」来运行分析器。 </li><li><a href="https://mp.weixin.qq.com/s/iTfHv8EFx4O4G1sNxsuMkg">再见,Yarn!滴滴机器学习平台架构演进 | AI前线</a><br>摘要:不同公司都有自己的机器学习平台,但就平台所要解决的问题和技术选型基本还是大同小异。所谓大同是指大家所要处理的问题都相似,技术架构和选型也差不太多,比如都会使用 GPU 集群、采用 Spark 或 K8s 平台等。所谓小异是指各家规模不同,各家都在结合自己的情况、所处的阶段并根据自己的特点解决平台化的问题。<br>滴滴机器学习平台的治理思路主要是:减少重复、提高效率。本文将对滴滴的机器学习平台进行全面解读,重点分享机器学习平台不同阶段所要解决的问题,以及解决问题的思路和技术方案。针对框架层自主研发了深度学习框架 IFX,并适配于 GPU 服务器和移动端平台。<br>由于GPU服务器上 CUDA 存在 context 管理的问题,所以实现了一种 GPU 上的并发机制,有效地绕开了这些问题所带来的额外开销,另外对大量的 OP 做了优化,使得 IFX 的性能远高于 Tensoflow 乃至 TensorRT ;IFX 针对移动端的不同硬件配置,比如:流水线长度、顺序乱序、超标量等特点进行指令重排、访存优化,结合业务的计算特点,使得 IFX 的性能取得不俗的表现:<br>在 IFX 的优化过程中,大量的重复工作基本在 Tuning Blas 计算,由于硬件架构不同,不同模型的计算量、计算访存比、计算访存模式都不同,在极高性能要求下都需要综合这些具体的情况做针对性的优化。为解决这类问题,平台开发了 Autotuning 工具链,包括 Kepler、Pascal、Volta 架构的原生汇编器。对于用户来讲,只需要把 GPU 上的二进制代码发给平台,平台就可产生在该 GPU 平台上几乎是最优,也就是当前最高性能优化后的二进制代码。 </li><li><a href="https://mp.weixin.qq.com/s?timestamp=1554020674&src=3&ver=1&signature=a9hfB46lVDgHOugBADk632*36td1d0ptgq4Gcse1SeRBSb7sfq*EVLCELqe*r9y9TbDOhuZgeQH5QFCTaxmK9zq4nn2v1YDb*BFT6Vi7PW7UFaQriBYplNZAm8npApxDuq7UzD9LMiLydXNgWZBdA5PHaMipkagHU6DtjAp6Hvg=">四种调试深度学习模型的方式 | 机器之心</a><br>摘要:作者总结了四种调试深度神经网络的方法,分别是预测合成输出、可视化激活值(通过在热图中绘制单元激活值,分析发现如无法传导梯度的死神经元)、梯度分析(衡量模型能否追踪长期依赖的一种简单方法是去检查输入数据的每个时间步长对输出预测的影响。如果后面的时间步长具有特别大的影响,则说明模型没有有效地利用早期数据)、分析模型预测。此外,查看最好和最坏的样本也是很有启发性的。 </li></ul><hr><p>Editor: <a href="https://github.com/ysh329">https://github.com/ysh329</a><br>Project: <a href="https://github.com/ysh329/awesome-embedded-ai">https://github.com/ysh329/awesome-embedded-ai</a> </p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-07-20@Bi-weekly</title>
<link href="/2018/07/20/bi-weekly/2018-07-20/"/>
<url>/2018/07/20/bi-weekly/2018-07-20/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-07-20"><a href="#嵌入式AI-双周简报-2018-07-20" class="headerlink" title="嵌入式AI 双周简报 (2018-07-20)"></a>嵌入式AI 双周简报 (2018-07-20)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://shop350413479.taobao.com/">国内首款RISC-V开发板Perf-V Creative Board正式发售 | PerfXLab澎峰科技</a><br/><br>简评:国内首款Perf-V Creative Board现已在淘宝公开发售,搜索关键词“perf-v”即可,目前设有35T、50T、100T三种芯片型号可供选择,Perf-V适配扩展板以及周边产品即将上线。(店铺链接:<a href="https://shop350413479.taobao.com/">https://shop350413479.taobao.com</a>) </li><li><a href="https://mp.weixin.qq.com/s/J6IjYz4KCIVHJ0QW8zCxfw">小米开源移动端深度学习框架MACE,自主研发,专为IoT设备优化 | 量子位</a><br/><br>简评:在2018开源中国开源世界高峰论坛现场,小米人工智能与云平台副总裁崔宝秋对外宣布,将正式开源小米自研的移动端深度学习框架Mobile AI Compute Engine,简称MACE。</li><li><a href="https://mp.weixin.qq.com/s/h79cfwNRLnQDBW76ddMHyw">英特尔借助芯片公司eASIC,加速FPGA,降低CPU依赖 | 新智元</a><br/><br>简评:eASIC位于英特尔公司总部所在地美国加利福尼亚州圣克拉拉,是一家生产可定制eASIC芯片的无晶圆厂半导体公司(IC设计商),其芯片可用于无线和云环境。eASIC的技术和团队将成为英特尔可编程解决方案组(PSG)的一部分。此次收购,英特尔方面的想法是eASIC技术与FPGA相辅相成。 </li><li><a href="https://mp.weixin.qq.com/s/5HwVRnX2g2ITB0o2JflNGQ">“全栈”开源的VTA会给AI芯片产业带来什么? | StarryHeavensAbove</a><br/><br>简评:TVM团队刚刚公开了开源项目VTA:Versatile Tensor Accelerator。陈天奇博士的知乎文章称其为“VTA: 开源深度学习芯片栈”。结合TVM,这是一个从软件到硬件完全开源的项目,是目前看到最完整的开源尝试。那么,它会对AI芯片产业产生什么样的影响呢? </li><li><a href="https://mp.weixin.qq.com/s/TLqzVXz_sc6sVWB4AnxZnw">基于开源架构RISC-V的低功耗边缘计算处理器——GAPUINO开发板评测 | 与非网</a><br/><br>简评:GAPUINO是一款基于Arduino外型打造的开发平台,板载GreenWaves推出的全球首款基于RISC-V的低功耗边缘计算处理器GAP8。 </li><li><a href="https://mp.weixin.qq.com/s/eyzzeYOKdah-9WGUrhbAkg">IBM100万忆阻器大规模神经网络加速AI | 新智元</a><br /><br>简评:目前将深度神经网络和生物神经网络进行匹配的研究正处于瓶颈期。而近期,IBM公司Irem Boybat等人在《Nature Communication》中发表的文章,有望改善此难题:他们设计了多记忆突触结构(multi-memristive synaptic architecture),能够在不增加功率密度的情况下提高突触的精度,并在一个拥有100多万台相变存储器(PCM)器件的脉冲神经网络(SNN)中对多记忆突触结构进行了实验演示。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[2018/0336] <a href="https://www.ijcai.org/proceedings/2018/0336.pdf">让CNN跑得更快,腾讯优图提出全局和动态过滤器剪枝</a><br/><br>简评:网络剪枝是一种加速 CNN 的常用方法。厦门大学和腾讯优图的一项研究提出了一种全新的全局和动态过滤器剪枝方法,能够实现更好的剪枝效果且具有更好的适应性。该论文已被将于当地时间 7 月 13-19 日于瑞典斯德哥尔摩举办的 IJCAI-18 接收。 </li><li>[1807.05960] <a href="https://arxiv.org/abs/1807.05960">Meta-Learning with Latent Embedding Optimization</a><br/><br>简评:基于梯度的元学习技术既广泛适用,又能熟练地解决具有挑战性的小镜头学习和快速适应问题。然而,它们具有在极低数据体系中在高维参数空间中操作的实际困难。我们表明,通过学习模型参数的低维潜在生成表示,并利用潜在嵌入优化(LEO)在该空间中执行基于梯度的元学习,可以绕过这些限制,从而有效地将基于梯度的自适应过程与模型参数的基础高维空间。</li><li>[1807.04320] <a href="https://arxiv.org/abs/1807.04320">Automated Vulnerability Detection in Source Code Using Deep Representation Learning</a><br/><br>简评:利用深度学习来解决软件中存在的漏洞。</li><li>[1807.02787] <a href="https://arxiv.org/abs/1807.02787">Financial Trading as a Game: A Deep Reinforcement Learning Approach</a><br/><br>简评:从金融市场获得持续利润的自动程序对每一个市场从业者来说都是有利可图的。最近在深度强化学习方面的进展为这种贸易代理的端到端培训提供了一个框架。</li><li>[1807.01438] <a href="https://arxiv.org/abs/1807.01438">Small-scale Pedestrian Detection Based on Somatic Topology Localization and Temporal Feature Aggregation</a><br/><br>简评:在行人检测中,一个关键的问题是检测那些在图像和视频中引入微弱对比度和动态模糊的小物体,在我们看来,这应该部分地诉诸于根深蒂固的注释偏差。在此基础上,我们提出了一种新颖的方法,结合了本体拓扑线定位(TLL)和时间特征聚合,用于检测多尺度行人,这种方法在距离摄像机相对较远的小型行人中尤其有效。</li><li>[1806.11248] <a href="https://arxiv.org/abs/1806.11248">XGBoost: Scalable GPU Accelerated Learning</a><br/><br>简评:XGBoost GPU算法升级。</li><li>[1708.06519] <a href="https://arxiv.org/abs/1708.06519">Learning Efficient Convolutional Networks through Network Slimming</a><br/><br>简评:深度卷积神经网络(CNNs)的部署在很大程度上受到了其高计算成本的阻碍。本文提出了一种新颖的CNNs的学习方案,同时降低了模型的尺寸;2)减少运行时内存占用;3)降低计算操作的数量,而不影响准确性。</li><li>[1807.02291] <a href="https://arxiv.org/abs/1807.02291">上海交大搞出SRNN,比普通RNN也就快135倍</a><br/><br>简评:上海交大的研究人员提出了切片循环神经网络(Sliced recurrent neural networks,SRNN)的结构,在不改变循环单元的情况下,比RNN结构快135倍。</li><li>[1806.09055] <a href="https://arxiv.org/abs/1806.09055">指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法</a><br/><br>简评:本论文用可微的方式重构架构搜索任务,解决了该任务的可扩展性难题。与在离散和不可微搜索空间中使用进化算法或强化学习的传统方法不同,我们的方法基于架构表征的连续松弛,利用梯度下降实现架构的高效搜索。我们在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 上进行了大量实验,结果表明我们的算法在发现高性能的图像分类卷积架构和语言建模循环架构中表现优异,且该算法的速度比之前最优的不可微方法快了几个数量级。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/XiaoMi/mace">MACE 设计与实践</a><br/><br>简评:MACE重磅开源。</li><li><a href="https://github.com/opencv/cvat">Computer Vision Annotation Tool (CVAT) is a web-based tool which helps to annotate video and images for Computer Vision algorithms</a><br/><br>简评:基于web的视频图像标记工具。</li><li><a href="https://github.com/zuoxingdong/lagom">lagom: A light PyTorch infrastructure to quickly prototype reinforcement learning algorithms.</a><br/><br>简评:用于强化学习算法快速原型构建的轻量级PyTorch架构。</li><li><a href="https://github.com/codeplea/genann">simple neural network library in ANSI C</a><br/><br>简评:ANSI C简单神经网络库。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://eng.uber.com/coordconv/">An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution</a><br/><br>简评:卷积网络的问题及其解决方案CoordConv——CoordConv解决了坐标变换问题,具有更好的泛化能力,训练速度提高150倍,参数比卷积少10-100倍。</li><li><a href="http://machinethink.net/blog/how-fast-is-my-model/">How fast is my model?</a><br/><br>简评:模型到底能跑多快?深度学习计算复杂度解析。</li><li><a href="https://weibo.com/tv/v/Gpnqtnipl?fid=1034:4260482161558120">AI Can Now Fix Your Grainy Photos by Only Looking at Grainy Photos</a><br/><br>简评:用深度学习自动修复图像颗粒状/像素化噪声和文字水印.</li><li><a href="https://mp.weixin.qq.com/s/23FoaaA3Z_3kf03BmepFPg">如何将模型部署到安卓移动端,这里有一份简单教程 | 机器之心</a><br/><br>简评:本文介绍了如何利用 TensorFlow Mobile 将 PyTorch 和 Keras 模型部署到安卓移动端。</li><li><a href="https://mp.weixin.qq.com/s/B7reSwa9sCZqbkYVM5-VOA">图像压缩哪家强?请看这份超详细对比 | PaperWeekly</a><br/><br>简评:图像压缩在计算机视觉领域占据着比较重要的位置,随着 GAN,VAE 和超分辨率图像让生成模型得到了很大的进步。不同的模型有着不同的性能优势,本文用精炼的语言加上较为严谨的实验对比了 GAN,CAE 和 super-resolution 在图像压缩性能上的优势。</li><li><a href="http://www.fast.ai/2018/07/02/adam-weight-decay/">当前训练神经网络最快的方式:AdamW优化算法+超级收敛</a><br/><br>简评:最优化方法一直是机器学习中非常重要的部分,也是学习过程的核心算法。而 Adam 自 14 年提出以来就受到广泛关注,目前该论文的引用量已经达到了 10047。不过自去年以来,很多研究者发现 Adam 优化算法的收敛性得不到保证,ICLR 2017 的最佳论文也重点关注它的收敛性。在本文中,作者发现大多数深度学习库的 Adam 实现都有一些问题,并在 fastai 库中实现了一种新型 AdamW 算法。根据一些实验,作者表示该算法是目前训练神经网络最快的方式。</li></ul><hr><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-06-25@Bi-weekly</title>
<link href="/2018/06/25/bi-weekly/2018-06-25/"/>
<url>/2018/06/25/bi-weekly/2018-06-25/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-06-25"><a href="#嵌入式AI-双周简报-2018-06-25" class="headerlink" title="嵌入式AI 双周简报 (2018-06-25)"></a>嵌入式AI 双周简报 (2018-06-25)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/ODbusCLN0rAj929Fkb3tlQ">微软即将收购GitHub:喜提最大代码托管网站 |机器之心</a><br/><br>简评:在上周五传出消息后不久,微软对GitHub的收购邀约很快成为了现实。据彭博社等媒体得到的消息:微软已于上周日决定收购这家最热门的开源代码共享平台。</li><li><a href="https://mp.weixin.qq.com/s/Viw5Ax9pPuk77LKsmqXDCA">Intel试量产14nm基带XMM 7560:新一代iPhone将采用 明年上5G | EETOP</a><br/><br>简评:据日经亚洲评论报道,Intel已经开始在内部试产XMM 7560基带,据悉该基带将用于今年苹果的新一代iPhone。</li><li><a href="https://mp.weixin.qq.com/s/SmbXrAsmXEAm2wfvNuW52w">英特尔芯片又现漏洞:数学运算单元可泄露密钥 | 安全牛</a><br/><br>简评:英特尔Core及Xeon处理器上的安全漏洞可被利用来盗取芯片上数学处理单元中的敏感数据。恶意软件或恶意用户能利用该设计缺陷偷取其他软件在芯片上执行的计算输入或计算结果。</li><li><a href="https://mp.weixin.qq.com/s/6pNZ8Crs4Lel2C0TlFAc4Q">“穿墙识人”,MIT人体姿态估计系统创历史最高精度 | 新智元</a><br/><br>简评:MIT计算机与人工智能实验室的研究人员开发了一种基于Wi-Fi的人体姿态估计系统,用AI教会Wi-Fi“穿墙透视”,隔着墙也能进行精确的人体姿态估计。</li><li><a href="https://mp.weixin.qq.com/s/EHO6D_2jkNfQo-8zB1-rBg">超GPU 100倍,IBM新型AI芯片发Nature,英特尔、微软出大招 | 新智元</a><br /><br>简评:IBM研发出能效超GPU 100倍的新型存储器,英特尔预计2020年发布第一批独立GPU,清华的Thinker芯片论文入选ISCA-18。从学术界到产业界,芯片研究者的探索从未停止,进展也在切实发生。英特尔中国研究院院长宋继强博士,清华大学教授、微纳电子学系主任魏少军博士对未来AI芯片趋势进行了展望。</li><li><a href="https://mp.weixin.qq.com/s/8t5sf9Zwvql1tZiAKuivsg">PerfXLab澎峰科技正式发布Perf-V Creative Board 工程板 | PerfXLab澎峰科技</a><br/><br>简评:昨日澎峰科技宣布正式发售RISC-V开发板Perf-V Creative Board,目前可选芯片有XC7A35T、XC7A50T、XC7A100T三种。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="http://www.cse.cuhk.edu.hk/leojia/papers/scaledeblur_cvpr18.pdf">Scale-recurrent Network for Deep Image Deblurring</a><br/><br>简评:因为手抖或焦点选择等问题,相机拍摄的图像中常常存在模糊状况。消除图像模糊,呈现图像细节是计算机视觉领域内的一个重要研究主题。香港中文大学、腾讯优图实验室和旷视科技的研究者合作提出的 SRN-DeblurNet 能更高效地实现比之前最佳方法更好的结果。</li><li>[1711.09349] <a href="https://arxiv.org/pdf/1711.09349.pdf">Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)</a><br/><br>简评:利用部分级特征进行行人图像描述提供了细粒度的信息,已在近期文献中被证明对于人物检索很有用。相对于外部线索方法,清华大学、悉尼大学和德克萨斯大学的研究者采用内部一致性假设,提出新的基线网络和精炼部分池化方法,实现了更好的人物检索性能,并超越了当前最佳结果。</li><li>[1806.08342] <a href="https://arxiv.org/abs/1806.08342">Quantizing deep convolutional networks for efficient inference: A whitepaper</a><br/><br>简评:本文概述了量化卷积神经网络的技术,用于对整数权重和激活进行推理。每通道的重量和每层量子化的激活量为8位精度的训练后,在不同的CNN架构中,在2%的浮动点网络中产生分类精度。模型大小可以通过将权重量化为8位来减少4倍,即使不支持8位算法。这可以通过简单的、后训练量化的权重来实现。</li><li>[1806.07857] <a href="https://arxiv.org/abs/1806.07857">RUDDER: Return Decomposition for Delayed Rewards</a><br/><br>简评:在强化学习中,延迟奖励的存在会严重影响性能,主要表现在随着延迟步数的增加,对时间差分(TD)估计偏差的纠正时间的指数级增长,和蒙特卡洛(MC)估计方差的指数级增长。针对这一问题,来自奥地利约翰开普勒林茨大学 LIT AI Lab 的研究者提出了一种基于返回值分解的新方法 RUDDER。实验表明,RUDDER 的速度是 TD、MC 以及 MC 树搜索(MCTS)的指数级,并在特定 Atari 游戏的训练中很快超越 rainbow、A3C、DDQN 等多种著名强化学习模型的性能。</li><li>[1803.03243] <a href="https://arxiv.org/abs/1803.03243">Domain Adaptive Faster R-CNN for Object Detection in the Wild</a> <a href="https://github.com/yuhuayc/da-faster-rcnn">[code]</a><br/><br>简评:更快的域自适应R-CNN物体检测。</li><li>[1806.06003] <a href="https://arxiv.org/abs/1806.06003">On Machine Learning and Structure for Mobile Robots</a><br/><br>简评:关于移动机器人的机器学习和结构分析。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/NervanaSystems/distiller/">Intel发布神经网络压缩库Distiller:快速利用前沿算法压缩PyTorch模型</a><br/><br>简评:Intel 开源了一个用于神经网络压缩的开源 Python 软件包 Distiller,它可以减少深度神经网络的内存占用、加快推断速度及节省能耗。Distiller 为 PyTorch 环境提供原型和分析压缩算法,例如产生稀疏性张量的方法和低精度运算等。</li><li><a href="https://github.com/mahyarnajibi/SNIPER">SNIPER: Efficient Multi-Scale Training</a><br/><br>简评:高效多尺度目标检测算法</li><li><a href="https://github.com/lext/deep_docker">关于YADDL,深度学习的另一个Docker</a><br/><br>简评:运用深度学习实验的简约码头环境。它建立在nvidia-docker之上,并且安装了tensorflow,keras和pytorch 0.4.0。此外,它在容器启动时自动运行Tensorboard和Jupyter实验室。这个项目的主要特点是最小的手动配置(保存数据的网络和文件夹)。</li><li><a href="https://github.com/zalandoresearch/flair">集成最先进NLP技术的简单框架(Python)——Flair</a><br/><br>简评:一个非常简单的NLP框架。</li><li><a href="https://github.com/facebookresearch/DensePose">Facebook开源2D图片实时3D姿态估计DensePose(Caffe2)</a><br/><br>简评:一种将2D RGB图像的所有人像素映射到身体三维表面模型的实时方法。</li><li><a href="https://github.com/philferriere/dlwin">基于Windows 10本机的GPU加速深度学习</a><br/><br>简评:支持Keras/Tensorflow/CNTK/MXNet and PyTorch五大框架,其中CNTK, Tensorflow, or MXNet提供GPU支持。</li><li><a href="https://github.com/symisc/sod">An Embedded Computer Vision & Machine Learning Library (CPU Optimized & IoT Capable)</a><br/><br>简评:嵌入式计算机视觉与机器学习库。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/-V6hlZAKp1vuARSibZDBQQ">深度学习高效计算与处理器设计 | 深度学习大讲堂</a><br/><br>简评:探索如何将深度学习高效化,讲述讨论如何针对深度算法来设计专用处理芯片。</li><li><a href="https://mp.weixin.qq.com/s/XDKA03vKneXgl4IAFC1jdg">阿里90后工程师利用ARM硬件特性开启安卓8终端“上帝模式 | 云栖社区</a><br/><br>简评:硬件设计的不合理危害性远高于软件层面,且修补更新更为困难。在设计之初就将安全性作为一项重要的指标是最佳的选择。</li><li><a href="https://www.pyimagesearch.com/2018/06/18/face-recognition-with-opencv-python-and-deep-learning/">Face recognition with OpenCV, Python, and deep learning | PyImageSearch</a><br/><br>简评:用OpenCV/Python/深度学习实现人脸识别。</li><li><a href="https://www.learnopencv.com/understanding-alexnet/">Understanding AlexNet</a><br/><br>简评:关于AlexNet的详细解读。</li><li><a href="https://academic.oup.com/annonc/advance-article-abstract/doi/10.1093/annonc/mdy166/5004443?redirectedFrom=fulltext">Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists | Annals of Oncology | Oxford Academic</a><br/><br>简评:深度学习卷积神经网络对皮肤镜黑色素瘤识别的诊断性能,与58名皮肤科医生进行对比。</li><li><a href="https://mp.weixin.qq.com/s/_kI-eMFKiL4pvDoXqqukBw">卷积神经网络的压缩和加速 | SigAI</a><br/><br>简评:介绍了四种压缩方法:网络裁枝、模型量化、低轶估计、模型蒸馏。</li></ul><hr><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-05-26@Bi-weekly</title>
<link href="/2018/05/26/bi-weekly/2018-05-26/"/>
<url>/2018/05/26/bi-weekly/2018-05-26/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-05-26"><a href="#嵌入式AI-双周简报-2018-05-26" class="headerlink" title="嵌入式AI 双周简报 (2018-05-26)"></a>嵌入式AI 双周简报 (2018-05-26)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/37181530">AutoTVM:让AI来编译优化AI系统底层算子 | 知乎</a><br /><br>简评:从目前来看的经验来看,手工优化的优势一般在于最里层的micro kernel,而对于程序总体的内存访问等把控并没有机器做的好。在一些必要的情况下TVM也允许直接插入手工micro kernel,但是依然把外层循环的把控交给机器来做,从而结合手工和机器优化的优势。我们在系统论文中的一个超低精度(2bit,1bit)算子的结果就是通过这种结合得到的。</li><li><a href="https://www.leiphone.com/news/201805/8Nubo2qqdS7P8YRD.html?viewType=weixin">ARM 授权费用太贵,科技巨头欲转向开源架构 RISC-V | 雷锋网</a><br /><br>简评:IBM、NXP、西部数据、英伟达、高通、三星、谷歌、华为等 100 多家科技公司加入 RISC-V 阵营。</li><li><a href="https://mp.weixin.qq.com/s/Mv6u5z_dzi6WRsk6KuAk6Q">这是自由奔跑、自主导航的波士顿动力机器人 | The Verge</a><br /><br>简评:波士顿动力公司的机器人在每一段视频中的表现都非常自然且令人惊叹,今天该公司又在 YouTube 网站上发布了两个视频片段,展示了 Atlas 和 SpotMini 机器人的最新进展。</li><li><a href="https://mp.weixin.qq.com/s/b8R38i6Z9Vlr3FVMbiIexQ">AI算力需求6年增长30万倍、3.5月翻一番 | OpenAI</a><br /><br>简评:人工智能技术近年来的发展不仅仰仗于大数据,更是计算机芯片算力不断增强的结果。然而,如果 AI 算力需求的增长速度大大超过了芯片算力的进步,我们又该怎么办?这种担心似乎正在成为现实。根据 OpenAI 最新的分析,近年来人工智能训练任务所需求的算力每 3.43 个月就会翻倍,这一数字大大超越了芯片产业长期存在的摩尔定律(每 18 个月芯片的性能翻一倍)。</li><li><a href="https://mp.weixin.qq.com/s/IPN6YFMUTYQkUDaASUVB0g">深度神经网络加速与压缩 | VALSE 2018年度进展报告</a><br /><br>简评:本文介绍了深度神经网络加速和压缩最近一年的进展和趋势。</li><li><a href="https://mp.weixin.qq.com/s/Mb0CzNZmDU84WV6A47Bcig">计算机体系结构的“黄金时代” |StarryHeavensAbove</a><br /><br>简评:今年的图灵奖得主John L. Hennessy和David A. Patterson即将在ISCA2018上做个讲演,题目是“A New Golden Age for Computer Architecture: Domain-Specific Hardware / Software Co-Design, Enhanced Security, Open Instruction Sets, and Agile Chip Development”[1]。而在IEEE Micro上,Google Brain的Jeff Dean, David Patterson和Cliff Young发表的文章“A New Golden Age in Computer Architecture: Empowering the Machine- Learning Revolution”[2],从另一个视角提出了计算机体系结构的”黄金时代“。不同的角度,反映了不同的思考。</li><li><a href="https://mp.weixin.qq.com/s/b22p26_delWfSpy9kDJKhA">Google TPU3 看点 | StarryHeavensAbove</a><br /><br>简评:Google在I/O大会上发布了TPU3,虽然目前详细信息不多,但下面几点还是值得讨论:8倍性能;快速迭代;云服务和Benchmark。</li><li><a href="https://mp.weixin.qq.com/s/2-eMxUZ_5F_mNG2sO7HcVQ">专为深度学习而生的 Tensor Core 到底是什么?| 机器之心</a><br /><br>简评:大规模深度学习应用的开发对性能有很高的需求,作为深度学习加速器 GPU 硬件的核心供应商,英伟达一直在不断创新以满足 AI 社区对计算性能的需求。近日,英伟达开发者博客发文介绍了 Volta Tensor Core GPU 在 AI 性能提升上的里程碑进展。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://arxiv.org/pdf/1804.06882.pdf">[1804.06882]A Real-Time Object Detection System on Mobile Devices </a><br /><br>简评:已有的在移动设备上执行的深度学习模型例如 MobileNet、 ShuffleNet 等都严重依赖于在深度上可分离的卷积运算,而缺乏有效的实现。在本文中,来自加拿大西安大略大学的研究者提出了称为 PeleeNet 的有效架构,它没有使用传统的卷积来实现。PeleeNet 实现了比目前最先进的 MobileNet 更高的图像分类准确率,并降低了计算成本。研究者进一步开发了实时目标检测系统 Pelee,以更低的成本超越了 YOLOv2 的目标检测性能,并能流畅地在 iPhone6s、iPhone8 上运行。</li><li><a href="https://openreview.net/forum?id=HJGXzmspb">Training and Inference with Integers in Deep Neural Networks</a><br /><br>简评:清华大学类脑计算研究中心博士生吴双的论文被 ICLR2018 收录并在会上做口头报告。迄今为止,这是中国作为第一署名单位里唯一一篇被 ICLR 会议收录的口头报告文章。该报告主要探讨如何实现对全离散化深度神经网络进行训练和推理,便于部署到嵌入式设备中。</li><li><a href="https://arxiv.org/abs/1805.05373">[1805.05373] DeepEM: Deep 3D ConvNets With EM For Weakly Supervised Pulmonary Nodule Detection</a><br /><br>简评:为了训练深度神经网络来检测肺部计算机断层扫描(CT)图像中的肺结节,目前的做法是在许多CT图像上手动标记结节的位置和大小,以构建足够大的训练数据集,这是昂贵且困难的规模。另一方面,电子病历(EMR)包含大量关于每幅医学图像内容的部分信息。在这项工作中,我们探索如何挖掘这个庞大的,但目前尚未开发的数据源来改善肺结节检测。文章建议DeepEM,一种新的深度3D ConvNet框架增强了期望最大化(EM),用于挖掘EMR中用于肺结节检测的弱监督标签。</li><li><a href="https://arxiv.org/abs/1805.03988">[1805.03988] ABMOF: A Novel Optical Flow Algorithm for Dynamic Vision Sensors</a><br /><br>简评:本文提出了一种事件驱动的OF算法,称为自适应块匹配光流(ABMOF)。ABMOF使用累积DVS事件的时间片。时间片根据输入事件和OF结果自适应旋转。与诸如基于梯度的OF等其他方法相比,ABMOF可以在紧凑的逻辑电路中有效地实现。结果表明,ABMOF达到了与传统标准(如Lucas-Kanade(LK))相当的准确度。</li><li><a href="https://arxiv.org/abs/1805.05809">[1805.05809]Efficient end-to-end learning for quantizable representations</a><br /><br>简评:本文提出一个直接学习可量化嵌入表示和端到端稀疏二进制散列码的问题,它可以用来构造一个高效的哈希表,不仅在数据数量上体现了显著的搜索量减少,而且实现了TH的状态</li><li><a href="https://arxiv.org/abs/1805.06150">[1805.06150] FollowNet: Robot Navigation by Following Natural Language Directions with Deep Reinforcement Learning</a><br /><br>简评:本文讲述了一个端到端可微的神经架构,用于学习多模态导航策略。</li><li><a href="https://arxiv.org/abs/1805.06361">[1805.06361]Object detection at 200 Frames Per Second </a><br /><br>简评:本文提出了一种高效、快速的目标探测器,可以每秒处理数百帧。为了实现这个目标,本文研究了对象检测框架的三个主要方面:网络架构、损失函数和培训数据(标记和未标记)。</li><li><a href="https://arxiv.org/abs/1805.05286">[1805.05286]AMR Parsing as Graph Prediction with Latent Alignment </a><br /><br>简评:AMR解析具有挑战性,部分原因是图中的节点和相应句子中的单词之间缺少带注释的对齐。本文引入了一个神经解析器,它将对齐看作是概念、关系和对齐的联合概率模型中的潜在变量。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/CgxrvNfyu35SMvWBAt-5kg">MXNet开放支持Keras,高效实现CNN与RNN的分布式训练</a><br /><br>简评:AWS 发布博客宣布 Apache MXNet 已经支持 Keras 2,开发者可以使用 Keras-MXNet 深度学习后端进行 CNN 和 RNN 的训练,安装简便,速度提升,同时支持保存 MXNet 模型。</li><li><a href="https://github.com/wichtounet/dll">DLL:一个炙手可热的快速深度神经网络库</a><br /><br>简评:DLL 是一个旨在提供由 C++实现的受限玻尔兹曼机(RBM)和深度信念网络(DBN)及其卷积版本的软件库,由瑞士 University of Applied Science of Western Switzerland、弗里堡大学的研究者共同提出。与常用的深度学习框架类似,它还支持更多标准的神经网络。目前,该工具已开发至 1.1 版本。</li><li><a href="https://virajmavani.github.io/saiat/">A semi automatic Image Annotation Tool</a><br /><br>简评:一个新的图像标注工具,它包含了一个现有的先进的艺术对象检测模型,叫做视网膜网,以显示80个通用对象类的建议,减少了用于注释图像的人工工作量。</li><li><a href="https://github.com/bayesianio/applied-dl-2018">医学图像深度学习应用训练营资料</a><br /><br>简评:深度肿瘤学12个应用深度学习实验室。</li><li><a href="https://github.com/Tencent/PhoenixGo">Go AI program which implement the AlphaGo Zero paper</a><br /><br>简评:腾讯发布的AlphaGo Zero复现围棋AI程序。</li><li><a href="https://zhuanlan.zhihu.com/p/36708892">GluonNLP — 自然语言处理的深度学习工具包</a><br /><br>简评:基于MXNet的深度学习自然语言处理包GluonNLP。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/37181530">AutoTVM:让AI来编译优化AI系统底层算子 | 陈天奇</a><br /><br>简评:预计两周左右时间开放。</li><li><a href="https://mp.weixin.qq.com/s/qos7VRFP7uYZ6Qt83KiPhw">用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算 | 机器之心</a><br /><br>简评:排序一直是计算机科学中最为基础的算法之一,从简单的冒泡排序到高效的桶排序,我们已经开发了非常多的优秀方法。但随着机器学习的兴起与大数据的应用,简单的排序方法要求在大规模场景中有更高的稳定性与效率。中国科技大学和兰州大学等研究者提出了一种基于机器学习的排序算法,它能实现 O(N) 的时间复杂度,且可以在 GPU 和 TPU 上高效地实现并行计算。这篇论文在 Reddit 上也有所争议,我们也希望机器学习能在更多的基础算法上展现出更优秀的性能。</li><li><a href="https://mp.weixin.qq.com/s/ouq2O5y7RXpZze8l7-Qnvg">ARM7、ARM9和ARM11的区别 | 嵌入式资讯精选</a><br /><br>简评:本文从流水线到处理器的各个层面详细解读了三者之间的区别。</li><li><a href="https://mp.weixin.qq.com/s/GRqtZG8C_aDRE7CwXRUhJA">读懂FPGA中的除法运算及初识AXI总线 | 嵌入式资讯精选</a><br /><br>简评:FPGA中的硬件逻辑与软件程序的区别,相信大家在做除法运算时会有深入体会。若其中一个操作数为常数,可通过简单的移位与求和操作代替,但用硬件逻辑完成两变量间除法运算会占用较多的资源,电路结构复杂,且通常无法在一个时钟周期内完成。因此FPGA实现除法运算并不是一个“/”号可以解决的。</li><li><a href="">Cortex-M处理器跑得了Linux吗?| ZLG致远电子</a><br /><br>简评:单片机与应用处理器的核心区别到底是什么呢?是核心主频的差异?还是Linux系统的支持?又或者是处理器的架构?本文将以NXP的Cortex-M系列为例做简要介绍。</li><li><a href="https://mp.weixin.qq.com/s/N-X82yjS3rBrZSO8ZNdnDw">如何评测AI系统?| StarryHeavensAbove</a><br /><br>简评:随着MLPerf走进大家的视野,AI系统(这里指完成AI任务的软硬件系统)的Benchmark这个话题备受关注。从目前的进展来看,对于机器学习训练(Training)系统,MLPerf可以说基本解决了对比评测的问题;而对于推断(Inference)系统来说,设计Benchmark非常困难,很多问题目前还看不到答案。</li><li><a href="https://mp.weixin.qq.com/s/28GtBOuAZkHs7JLRVLlSyg">深度卷积神经网络演化历史及结构改进脉络 | 新智元</a><br /><br>简评:自2012年AlexNet网络出现之后,最近6年以来,卷积神经网络得到了急速发展,在很多问题上取得了当前最好的结果,是各种深度学习技术中用途最广泛的一种。在本文中将为大家回顾和总结卷积神经网络的整个发展过程。</li><li><a href="https://www.pyimagesearch.com/2018/05/21/an-opencv-barcode-and-qr-code-scanner-with-zbar/">OpenCV条码/二维码识别</a><br /><br>简评:本文讲述了如何用OpenCV识别条码和二维码。</li></ul><hr><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-04-28@Bi-weekly</title>
<link href="/2018/04/28/bi-weekly/2018-04-28/"/>
<url>/2018/04/28/bi-weekly/2018-04-28/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-04-28"><a href="#嵌入式AI-双周简报-2018-04-28" class="headerlink" title="嵌入式AI 双周简报 (2018-04-28)"></a>嵌入式AI 双周简报 (2018-04-28)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/u4ZJpvfg3zHNjoP_vlEssA">阿里巴巴宣布正自主研发AI芯片,性价比是同类产品40倍 | 量子位</a><br /><br>简评:阿里对外透露了芯片研发的最新进展:阿里巴巴达摩院正研发一款神经网络芯片——Ali-NPU。这款芯片将运用于图像视频分析、机器学习等AI推理计算。按照设计,该芯片的性价比将是目前同类产品的40倍。</li><li><a href="https://mp.weixin.qq.com/s/wzUbYyrBOxU-2bY-EJm4KA">极端图像压缩的生成对抗网络,可生成低码率的高质量图像 | 机器之心</a> <br /><br>简评:本文提出了一个基于生成对抗网络的极端学习图像压缩框架,能生成码率更低但视觉效果更好的图像。此外,该框架可以根据原始图像的语义标签映射,在解码图像中完全合成非主要的区域。用户调查研究证实,对于低码率,本文提出的方法明显优于最先进的方法 BPG。</li><li><a href="https://mp.weixin.qq.com/s/aZlhkk_y5RXXqefAIUXmew">开源成为芯片设计的新趋势 | 半导体行业观察</a><br /><br>简评:开源芯片项目是未来芯片设计行业的重要趋势,因为它从本质上解决了芯片设计周期长,设计无法复用的效率问题。开源项目一旦背后有足够的支持,就能实现足够好的品质,从而被广泛使用并进入正循环。RISC-V和NVDLA是两个重要的开源芯片项目的例子。</li><li><a href="https://mp.weixin.qq.com/s/aSH4wUoD0im0lRAYIUYGiA">中国学者世界首创:可视化“心脏芯片”问世,登Science机器人子刊论文 | 新智元</a><br /><br>简评:东南大学生物医学工程学院生物电子学国家重点实验室赵远锦教授课题组在“器官芯片”研究中取得重要研究成果,发表在国际顶级期刊《Science Robotics》,这是中国学者独立完成的首篇《科学》机器人子刊论文,也标志着世界首创性的、具有微生理可视化功能的“心脏芯片”问世!</li><li><a href="https://mp.weixin.qq.com/s/TYVsVOmWcgSodJph2yk_VQ">PerfXLab澎峰科技亮相VALSE 2018 | PerfXLab卧谈会</a><br /><br>简评:PerfXLab澎峰科技宣布即将开源轻量级深度学习推理框架InferXLite。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://arxiv.org/abs/1804.07573">[1804.07573]MobileFaceNets: Efficient CNNs for Accurate Real-time Face Verification on Mobile Devices </a><br /><br>简评:本文展示了一种非常高效的CNN模型,叫做MobileFaceNets,它使用不超过100万个参数,专门为在移动设备和嵌入式设备上的高精度实时人脸验证而量身定做。还对常见移动网络的弱点进行了简单的分析。作者特别设计的MobileFaceNets已经克服了这个弱点。在相同的实验条件下,MobileFaceNets的准确性更高,而且比MobileNetV2的实际加速要高出2倍。在经过了改进后,我们的单移动facenet模型的0。4 MB的大小,达到了99。55%的人脸验证精度,在MegaFace挑战1上达到了92.59%(FAR1e-6),这甚至可以与最先进的CNN模型的数百MB大小相媲美。我们的MobileFaceNets中最快的一个在移动电话上有18毫秒的实际推理时间。</li><li><a href="https://arxiv.org/pdf/1711.05408.pdf">[1711.05408] RNN作为识别器,判定加权语言一致性</a><br /><br>简评:该论文探索了识别加权语言的RNN形式模型的计算复杂度。研究表明,大多数类似的RNN中存在的问题都是不可判定的,包括:一致性、等价性、最小化和最高权重字符串的确定。然而,对于连续一致的RNN来说,最后一个问题是可判定的。</li><li><a href="https://arxiv.org/abs/1804.09882">[1804.09882] A Neural Embeddings Approach for Detecting Mobile Counterfeit Apps</a><br /><br>简评:本文提出了利用先进的神经嵌入生成卷积神经网络(cnn)来衡量图像之间的相似性。结果表明,在伪检测问题上,采用了一种新颖的方法,采用了由CNN过滤网的克氏矩阵给出的样式嵌入方法,比内容嵌入和筛选功能等基线方法更有效。我们发现,通过将样式嵌入与内容嵌入相结合,可以实现进一步的性能提升。</li><li><a href="https://arxiv.org/abs/1804.07090">[1804.07090]Low Rank Structure of Learned Representations </a><br /><br>简评:本文通过对图像分类的模型进行了研究,并对其进行了研究,并对其进行了研究。我们关注的是ResNet-18、ResNet-50和VGG-19,并观察到当在CIFAR10或CIFAR100数据集上进行训练时,学习的表示表现出相当低的等级结构。我们建议对训练程序进行修改,进一步鼓励在神经网络的不同阶段对激活的低等级表示。从经验上来说,我们证明这对对抗的例子有一定的压缩和健壮性。</li><li><a href="https://arxiv.org/abs/1804.09060">[1804.09060] An Information-Theoretic View for Deep Learning</a><br /><br>简评:深度学习的信息论观点——卷积层和池化层是收缩函数,会导致信息损失;由于深度网络增加这些层,输入和输出间的互信息指数级减小,泛化误差也会指数级减小。</li><li><a href="https://arxiv.org/abs/1804.05806">[1804.05806]Deep Embedding Kernel </a><br /><br>简评:在本文中,我们提出了一种新的监督学习方法,称为深埋核(DEK)。德克将深度学习和内核方法的优势结合在一个统一的框架中。更具体地说,德克是一个可学习的内核,它由一个新设计的深层架构所代表。与预先定义的内核相比,这个内核可以被显式地训练成将数据映射到一个优化的高级特性空间,其中数据可能对应用程序有良好的特性。</li><li><a href="https://arxiv.org/abs/1804.06913">[1804.06913] Fast inference of deep neural networks in FPGAs for particle physics</a><br /><br>简评:本文通过对图像分类的模型进行了研究。关注的是ResNet-18、ResNet-50和VGG-19,并观察到当在CIFAR10或CIFAR100数据集上进行训练时,学习的表示表现出相当低的等级结构。我们建议对训练程序进行修改,进一步鼓励在神经网络的不同阶段对激活的低等级表示。从经验上来说,作者证明这对对抗的例子有一定的压缩和健壮性。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://mp.weixin.qq.com/s/lsaJeqYJTsY025t1qv6dmQ">谷歌MobileNetV2:推动下一代移动计算机视觉网络 | 机器之心</a><br /><br>简评:谷歌发布MobileNet重大更新,推出MobileNetV2,在结构上使用depthwise可分离卷积为基础,在层与层之间增加了线性的bottleneck,并且bottleneck之间也增加了残差连接,因此速度更快,精度更高,更适合设备上处理。</li><li><a href="https://github.com/tensorflow/swift">Swift for TensorFlow开源</a><br /><br>简评:Swift for TensorFlow 为 TensorFlow 提供了一种新的编程模型,将 TensorFlow 计算图与 Eager Execution 的灵活性和表达能力结合在了一起,同时还注重提高整个软件架构每一层的可用性。为了实现我们的目标,经过深思熟虑,我们决定直接改进 Swift 编程语言和编译器,使得 Tensor 成为 Swift 语言里面的一等公民,以此提升用户体验。</li><li><a href="https://github.com/pytorch/pytorch/releases/tag/v0.4.0">PyTorch 0.4:完全改变API,官方支持Windows</a><br /><br>简评:PyTorch官方在GitHub发布0.4.0版本,最重要的改进是支持Windows系统。新版本完全改变了API,是本年度最重大的升级。</li><li><a href="https://github.com/Robert-JunWang/Pelee">Pelee:手机上的实时目标检测</a><br /><br>简评:移动设备上的实时监测系统。</li><li><a href="https://github.com/dmlc/gluon-nlp">基于MXNet的深度学习自然语言处理包GluonNLP</a><br /><br>简评:它支持简单的文本预处理、数据集加载和神经模型构建,以帮助您加速自然语言处理(NLP)研究。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://www.zhihu.com/question/274662181/answer/376554975">如何评价商汤科技开源的深度学习框架Parrots | 知乎</a><br /><br>简评:商汤这次开源的Parrots和TensorFlow、PyTorch、MxNet等主流开源框架相比有何优点与缺点?</li><li><a href="https://mp.weixin.qq.com/s/WUcDaYbbVgBtSUP4BhQebg">一流科技创始人袁进辉:深度学习引擎的最优架构 | 机器之心</a><br /><br>简评:OneFlow 的袁进辉老师分析已有框架的优缺点,分享深度学习框架应该怎么做的观点。</li><li><a href="https://mp.weixin.qq.com/s/k1QAdvhbsaR6WJjVX9vZkA">边缘计算探索:处理器,算法与内存</a><br /><br>简评:边缘计算是人工智能和物联网结合的产物,是未来的重要趋势。未来边缘计算的关键技术,包括新处理器(强通用处理器或专用加速器),内存内计算,网络模型压缩,以及新存储器。</li><li><a href="https://mp.weixin.qq.com/s/7fWh2dovmfbsF8afaX9UOg">ResNet及其多种变体 | TowardsDataScience</a><br /><br>简评:本文主要介绍了 ResNet 架构,简要阐述了其近期成功的原因,并介绍了一些有趣的 ResNet 变体。</li><li><a href="https://mp.weixin.qq.com/s/73mkWlqJsVdu9m1kPDvfbQ">用AI让静图变动图:CVPR热文提出动态纹理合成新方法</a><br /><br>简评:来自加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。该动画生成模型可以参考相关视频,让一张静态图片变成效果逼真的动画。目前,该研究的论文已被 CVPR 2018 大会接收,相关代码也已公开。</li><li><a href="https://mp.weixin.qq.com/s/JnW7RnOQKG-dPOOAQeOmSA">当前深度神经网络模型压缩和加速都有哪些方法?| PaperWeekly</a><br /><br>简评:本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,论文对每一类方法的性能、相关应用、优势和缺陷等方面进行了独到分析。</li></ul><hr><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-04-03@Bi-weekly</title>
<link href="/2018/04/03/bi-weekly/2018-04-03/"/>
<url>/2018/04/03/bi-weekly/2018-04-03/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-04-03"><a href="#嵌入式AI-双周简报-2018-04-03" class="headerlink" title="嵌入式AI 双周简报 (2018-04-03)"></a>嵌入式AI 双周简报 (2018-04-03)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://www.zhihu.com/question/270578639">Facebook 宣布 Caffe2 代码正式并入 PyTorch 意味着什么? | 知乎</a><br /><br>简评:贾扬清:因为PyTorch有优秀的前端,Caffe2有优秀的后端,整合起来以后可以进一步最大化开发者的效率。目前FAIR大概有超过一半的项目在使用PyTorch,而产品线全线在使用Caffe2,所以两边都有很强的动力来整合优势。</li><li><a href="https://www.leiphone.com/news/201803/Rp1aDiZlKDYbx94W.html?viewType=weixin">Google 和 Nvidia 强强联手,带来优化版 TensorFlow 1.7 | 雷锋网</a><br /><br>简评:谷歌和英伟达宣布将 NVIDIA TensorRT 集成到 TensorFlow 1.7 中。在谷歌开发者博客中,他们介绍了此次合作的详细信息以及整合之后的性能。</li><li><a href="http://mp.weixin.qq.com/s/e3-HO5MvHfeH71b7_zIo1Q">赛灵思推颠覆性AI芯片 正面宣战英伟达英特尔 | 智东西</a><br /><br>简评:全球FPGA芯片巨头赛灵思推出全新一代AI芯片架构ACAP,并将基于这套架构推出一系列芯片新品;其中首款代号为“珠穆朗玛峰(Everest)”的AI芯片新品将采用台积电7nm工艺打造,今年内实现流片,2019年向客户交付发货。</li><li><a href="http://mp.weixin.qq.com/s/2LtOvG17k_oPaEIigKtRNw">黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元 | 新智元</a><br /><br>简评:英伟达CEO黄仁勋说两件大事,一是发布了迄今最大的GPU,二是暂定自动驾驶暂停研发。随后英伟达股价下跌3.8%。GPU正在成为一种计算范式,但本质性突破乏善可陈,教主一路回顾过去创下的纪录,而鼎盛之下,衰退的迹象,似乎已经潜藏。</li><li><a href="http://mp.weixin.qq.com/s/1ECoPW604koqu-lVBC2lbw">联发科P60解析:AI加持,对标骁龙660 | EETOP</a><br /><br>简评:联发科在北京798艺术中心发布了首款内建多核心人工智能处理器——Helio P60。P60是具有Neuro Pilot AI技术的新一代智能手机SOC,主打人工智能技术,在各家都争相推出AI芯片的今天,联发科也赶上了末班车,今天我们就来看看这颗极有可能成为一代“神U”的联发科P60。</li><li><a href="http://mp.weixin.qq.com/s/jE40fMgtYArc421k3D5rVg">AMD,要把嵌入式处理器市场进行到底 | 来自IT的我</a><br /><br>简评:嵌入式不仅是智能手机终端的市场。也是因为如此,AMD一度暂缓了数据中心,进军嵌入式处理器的市场。新年伊始,AMD发布了霄龙嵌入式3000系列处理器、锐龙嵌入式V1000系列处理器,两款最新的产品。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1803.08375] <a href="https://arxiv.org/abs/1803.08375">Deep Learning using Rectified Linear Units (ReLU)</a><br /><br>简评:本文介绍了在深度神经网络中使用整流线性单元(ReLU)作为分类函数的方法。传统上,ReLU作为DNNs中的激活函数,以Softmax函数为分类函数。然而,除了Softmax之外,还有一些关于使用分类功能的研究,这项研究是对这些功能的补充。</li><li>[1803.08225] <a href="https://arxiv.org/abs/1803.08225">PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric Embedding Model</a><br /><br>简评:本文提出了一种利用高效单镜头模型对多人图像进行姿态估计和实例分割的自底向上方法。建议的PersonLab模型使用基于部分的建模来处理语义层次的推理和对象部分关联。</li><li>[1803.09050] <a href="https://arxiv.org/abs/1803.09050">Learning to Reweight Examples for Robust Deep Learning</a><br /><br>简评:深度神经网络已经被证明是非常强大的建模工具,用于许多有监督的学习任务,涉及复杂的输入模式。然而,它们也很容易被训练集偏见和标签噪音所取代。除了不同的正则化器之外,例子重加权算法是解决这些问题的常用方法。</li><li>[1803.08319] <a href="https://arxiv.org/abs/1803.08319">Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World</a><br /><br>简评:我们提出了一个深层的网络架构,它可以联合提取人们的身体部分,并将其与短暂的时间跨度联系起来。我们的模型明确地处理了闭塞的身体部分,通过产生幻觉的不可见关节的解决方案。</li><li>[1803.08251] <a href="https://arxiv.org/abs/1803.08251">Life in the “Matrix”: Human Mobility Patterns in the Cyber Space</a><br /><br>简评:在本文中,我们将在网络空间和物理空间的运动中引入一个新的类比。这一类比暗示了一种新的研究人类在线活动的方法,即以一种相似的方式,将网络社区的活动建模为地点之间的运动。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/melodyguan/enas">enas: TensorFlow Code for paper “Efficient Neural Architecture Search via Parameter Sharing”</a><br /><br>简评:通过参数共享探索高效的网络结构。</li><li><a href="https://github.com/chyh1990/caffe-compact">caffe-compact</a><br /><br>简评:Caffe-compact是一个尽可能简化依赖的Caffe版本。</li><li><a href="http://mp.weixin.qq.com/s/HquT_mKm7x_rbDGz4Voqpw">TVM+TensorFlow提高神经机器翻译性能 | AI前线</a><br /><br>简评:阿里巴巴 PAI-Blade 团队发表于 TVM 的最新博文,文中阐述了如何将 TVM 引入 TensorFlow,使 TensorFlow 中的 batchmul 速度提高 13 倍,同时将端到端神经机器翻译性能提高 1.7 倍。AI 前线对原文进行了编译。</li><li><a href="http://mp.weixin.qq.com/s/7g81BnGAD5DpS_1pDxA6QQ">Uber开源神经进化算法开发的交互式可视化工具VINE | 机器之心</a><br /><br>简评:Uber 开源了神经进化算法开发的交互式可视化工具 VINE,该工具可以轻松实现神经网络群体的各种特定指标以及适应度分数的可视化和随时间的变化,用户可对其进行实时评估。此外,VINE 还支持默认功能之外的高级选项和自定义可视化。</li><li><a href="http://mp.weixin.qq.com/s/Xm-D9eVv3eN-QP84cPqLsQ">英特尔开源nGraph编译器:从多框架到多设备轻松实现模型部署 | 机器之心</a><br /><br>简评:英特尔的人工智能产品团队宣布开源 nGraph,这是一个面向各种设备和框架的深度神经网络模型编译器。有了 nGraph,数据科学家能够专注于数据科学研发,不需要担心如何将 DNN 模型部署到各种不同设备做高效训练和运行。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://mp.weixin.qq.com/s/ync8iu8nmpJoI5Sfnj8DqQ">百度深度学习平台PaddlePaddle框架解析 | 机器之心</a><br /><br>简评:PaddlePaddle 是 2016 年 8 月底百度开源的深度学习平台,并且在短时间内迅速引发全球开发热度,成为 Github Pull Request 数量增速极高的开源深度学习平台之一。</li><li><a href="http://mp.weixin.qq.com/s/oFNoM0cjLD0CgcdwWojxhw">中科院计算所研究员陈云霁:深度学习处理器的现状及发展 | 北大AI公开课笔记</a><br /><br>简评:北京大学“人工智能前沿与产业趋势”第五讲,本期中科院计算机所研究员陈云霁授课主题为“深度学习处理器的现状及发展”,分享了深度学习的工作方式、深度学习处理器的发展、寒武纪目前的科研成果等相关内容。</li><li><a href="https://www.zhihu.com/question/269909535">如何评价最新的YOLOv3?</a><br /><br>简评:YOLOv3的最新评价。</li><li><a href="http://mp.weixin.qq.com/s/Fni3bO0ap7gHyVnzD8RiTA">探索嵌入式应用框架(EAF)| 喔家ArchiSelf</a><br /><br>简评:EAF是Embedded Application Framework 的缩写,即嵌入式应用框架。嵌入式应用框架是 Application framework的一种, 是在嵌入式领域的应用框架。</li><li><a href="http://mp.weixin.qq.com/s/PC5KXU0zmE1eg2k_S9_pQg">增加深度,加速神经网络优化?这是一份反直觉的实验结果 | 机器之心</a><br /><br>简评:深度学习的根本理论问题之一是「深度有何作用」?虽然增加神经网络的层数可以提高其性能,但是训练和优化的难度也随之增加。本文却给出了一个相反观点,有时增加深度反而可以加速网络优化;同时提出端到端更新规则,证明深度网络过度的参数化(overparameterization)也可能是件好事。</li><li><a href="https://mp.weixin.qq.com/s/ZrnAqDJCLtMy_qTQ2RZT0A">级联MobileNet-V2实现人脸关键点检测(附训练源码)| 机器之心</a><br /><br>简评:为了能在移动端进行实时的人脸关键点检测,本实验采用最新的轻量化模型——MobileNet-V2 作为基础模型,在 CelebA 数据上,进行两级的级联 MobileNet-V2 实现人脸关键点检测。首先,将 CelebA 数据作为第一级 MobileNet-V2 的输入,经第一级 MobileNet-V2 得到粗略的关键点位置;然后,依据第一级 MobileNet-V2 的输出,采取一定的裁剪策略,将人脸区域从原始数据上裁剪出来作为第二级 MobileNet-V2 的输入;最后,经第二级 MobileNet-V2 输出最终人脸关键点定位信息。经初步训练,最终网络单模型不到 1M,仅 956KB,单张图片 inference 耗时 6ms(采用 GTX1080 在未优化的 Caffe)。实验结果表明,MobileNet-V2 是一个性能极佳的轻量化模型,可以采用较少的参数获得较好的性能;同时,级联的操作可达到从粗到精的关键点定位。</li></ul><hr><p>Editor: 王建章、袁帅、张先轶</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel=”license” </p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-03-09@Bi-weekly</title>
<link href="/2018/03/09/bi-weekly/2018-03-09/"/>
<url>/2018/03/09/bi-weekly/2018-03-09/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-03-09"><a href="#嵌入式AI-双周简报-2018-03-09" class="headerlink" title="嵌入式AI 双周简报 (2018-03-09)"></a>嵌入式AI 双周简报 (2018-03-09)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://mp.weixin.qq.com/s/I8SpOhMbZHQMTMoWpDbKsA">移动和嵌入式设备上也能直接玩机器学习 | Arm芯闻</a><br /><br>简评:Arm推出神经网络机器学习软件 Arm NN。这是一项关键技术,可在基于 Arm 的高能效平台上轻松构建和运行机器学习应用程序。</li><li><a href="https://mp.weixin.qq.com/s/91JTLUA8YtRlI-PcKN95WA">微芯宣布收购美国最大军用半导体设备商 | 新智元</a></br><br>简评:微芯表示,将以约83.5亿美元收购美国最大的军用和航空半导体设备供应商美高森美。微芯目前在航空航天和国防市场的年销售额中仅占2%左右,此次交易将加强微芯在计算和通信领域的基础能力。同时,由于公司数量减少,过去两年半导体产业的并购浪潮在去年有所缓解,随着微芯收购美高森美、博通与高通的收购拉锯战,今年行业里的看点越来越多。</li><li><a href="http://mp.weixin.qq.com/s/I5lF4JCEX0wggu30U-mAIw">Arm推出全新Mali多媒体套件 | Arm芯闻</a><br /><br>简评:arm宣布推出包含全新的视频、显示和图像处理器的Mali多媒体套件。新的IP套件可与现有基于DynamIQ的CPU和其他Arm IP无缝集成,从而全面实现Arm新一代针对主流移动设备和数字电视(DTV)的解决方案。</li><li><a href="http://mp.weixin.qq.com/s/3oL0Bso3mwbsfaG8X5-xoA">英特尔提出新型压缩技术DeepThin,适合移动端设备深度神经网络 | 机器之心</a></br><br>简评:英特尔的研究者提出新型深度神经网络压缩技术 DeepThin,适合移动端设备,性能优于其他压缩技术。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1802.10264] <a href="https://arxiv.org/abs/1802.10264">Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods</a></br><br>简评:该文章提出了一个机器人抓取的模拟基准,它强调了非策略学习和对看不见的物体的泛化。非策略学习可以利用各种各样的抓取数据。</li><li>[1802.09941] <a href="https://arxiv.org/abs/1802.09941">Demystifying Parallel and Distributed Deep Learning: An In-Depth Concurrency Analysis</a></br><br>简评:文章呈现了DNN架构的趋势以及由此产生的对并行策略的影响,并且讨论了DNNs中不同类型的并发性;同步和异步随机梯度下降,分布式系统体系结构。</li><li>[1802.05383] <a href="https://arxiv.org/abs/1802.05383">Deep Learning Based Speech Beamforming</a></br><br>简评:基于深度学习的增强方法能够学习复杂的语音分布并进行有效的推理,但是它们不能处理可变数量的输入通道。此外,深度学习方法引入了大量的错误,特别是在存在不可见的噪声类型和se的情况下。</li><li>[1802.04868] <a href="https://arxiv.org/abs/1802.04868">SimplE Embedding for Link Prediction in Knowledge Graphs</a></br><br>简评:文章作者开发了一个简单的张量分解模型,该模型被称为simple,证明了简单的是完全表达的,并推导出了它的嵌入的大小的完整的表达率。作者以经验证明,尽管它简单,但是简单的胜过了几个最先进的张量因子分解技术。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/upul/Aurora">(Python/Cython/C++)基于Numpy/CUDA/cuDNN的最小化深度学习库</a></br><br>简评:Aurora是一个在Python、Cython和c++中使用Numpy、CUDA和cuDNN编写的最小深度学习库。虽然它很简单,但是Aurora有一些先进的设计概念,它是一个典型的深度学习库。</li><li><a href="http://mp.weixin.qq.com/s/PxfGcGHbtrILDFmOjSouPw">微软开源MMdnn:实现多个框架之间的模型转换 | 机器之心</a></br><br>简评:微软开源 MMdnn,可用于转换、可视化和诊断深度神经网络模型的全面、跨框架解决方案,目前支持 Caffe、Keras、MXNet、CNTK 等框架。</li><li><a href="https://mp.weixin.qq.com/s/A2WqK0LptxAZWUUD0c-xzw">Keras官方中文版文档正式发布 | 机器之心</a></br><br>简评:Keras 作者 François Chollet,他已经在 GitHub 上展开了一个 Keras 中文文档项目。François Chollet再一次在推特上表示 Keras 官方文档已经基本完成!他非常感谢翻译和校对人员两个多月的不懈努力,也希望 Keras 中文使用者能继续帮助提升文档质量。</li><li><a href="http://mp.weixin.qq.com/s/TzgVzyJwVf3joocXiCqJ_w">OpenAI发布可扩展的元学习算法Reptile | 量子位</a></br><br>简评:OpenAI发布了一种新型的可扩展元学习算法Reptile,可以在线试玩,这是通过重复对一个任务进行采样、随机梯度下降并将初始参数更新为从任务中学习到的最终参数的算法。</li><li><a href="https://blog.openai.com/ingredients-for-robotics-research/">OpenAI开放机器人研究模拟环境&Baselines实现 | openai</a></br><br>简评:点击<a href="https://weibo.com/tv/v/G4ZT2z4wy?fid=1034:9e703af3b4e215c07f7495bcfc922adf">这里查看视频</a>。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://mp.weixin.qq.com/s/PhMPa-e4sbzqWKmFzRZE4Q">谷歌展示全新移动端分割技术 | 机器之心</a><br /><br>简评:为视频中人物实时替换背景的技术能够催生出很多新类型的应用。谷歌最近提出的机器学习视频分割技术首先被应用在了自家的 YouTube app 上,实现了令人惊艳的效果。同时,由于模型被高度压缩,其在 iPhone 7 这样的移动端设备上也可以达到 100+ FPS 的高帧率。</li><li><a href="http://mp.weixin.qq.com/s/1wxA7jnCgmXt5j9DXxH1UA">使用树莓派实现实时人脸检测 | 机器之心</a><br /><br>简评:本文介绍了如何在树莓派上,使用 OpenCV 和 Python 完成人脸检测项目。该项目不仅描述了识别人脸所需要的具体步骤,同时还提供了很多扩展知识。此外,该项目并不需要读者了解详细的人脸识别理论知识,因此初学者也能轻松跟着步骤实现。</li><li><a href="http://mp.weixin.qq.com/s/0SKvjeDJPjYjihXTCi2-EA">谷歌推出72-qubit量子处理器Bristlecone | 机器之心</a><br /><br>简评:谷歌在洛杉矶举办的美国物理学会年度会议上推出了他们的 72-qubit 超导量子处理器 Bristlecone。本文介绍了他们的成果、近期目标和未来展望。</li><li><a href="http://mp.weixin.qq.com/s/8ZflgKbe7sDFCggQiOZ6fw">第三个变种 SgxSpectre 来临(附视频、论文) | 云头条</a></br><br>简评:今年早些时候全面曝光的 Spectre 和 Meltdown 处理器安全漏洞,让整个计算机行业面临着严重的信任危机,尤其是芯片巨头英特尔。自 1995 年以来的所有现代微处理器,几乎都受到了这两个漏洞的影响,万幸的是当前暂未出现利用它们的严重威胁。不过本文要着重警示的,却是新款英特尔微处理器上所部署的“软件保护扩展”功能(简称 SGX)。此文讲述的主角是SgxSpectre攻击,可以从英特尔SGX Enclaves中提取数据。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA4MzU1MDQ4OA==&mid=2650326665&idx=1&sn=7c9efe19274e6695f7199a50481a8d0b&scene=45#wechat_redirect">AI通用芯老玩法新套路:GPU/FPGA脱颖而出,CPU/DSP还有哪些可能 | 与非网</a><br /><br>简评:芯片作为产业链技术要求最高的环节之一,往往是最难攻克的阵地。2016年,我们谈中国集成电路在芯片环节还比较薄弱;2017上半年,我们说我国与美国的差距主要在硬件方面,尤其是芯片环节;2017下半年及2018年,我们看到一批本土AI芯发布,很多还带有“首款”的荣誉称号,首款嵌入式AI芯、首款人脸识别AI芯、首款AI移动芯片等等。似乎,集成电路最难攻克的环节——芯片,在AI大环境下,一切都变得那么EASY。这是真的吗?</li></ul><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-02-27@Bi-weekly</title>
<link href="/2018/02/27/bi-weekly/2018-02-27/"/>
<url>/2018/02/27/bi-weekly/2018-02-27/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-02-27"><a href="#嵌入式AI-双周简报-2018-02-27" class="headerlink" title="嵌入式AI 双周简报 (2018-02-27)"></a>嵌入式AI 双周简报 (2018-02-27)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://mp.weixin.qq.com/s/cspTJn2QAqFZNETM2xJEtA">GPU最强对手谷歌上线Cloud TPU,Jeff Dean十条推文全解读 | 新智元</a><br /><br>简评:Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,每小时6.5美元。谷歌表示,一个Cloud TPU,在一天之内就能在ImageNet上把ResNet-50模型训练到基准精度,成本低于200美元。</li><li><a href="https://m.sohu.com/a/222520503_114778/?pvid=000115_3w_a&_f=index_pagerecom_3">亚马逊开发AI芯片提升Echo性能,开设云端服务 | 36Kr</a><br /><br>简评:亚马逊从智能音响切入探索AI的商业化之路,收获了令人惊叹的效果。现在为了保持Echo的优势,亚马逊正在开发一款本地化的AI芯片。</li><li><a href="http://mp.weixin.qq.com/s/d8HHoOh2-XUX3B5CV09ApA">外媒称英伟达下月将发布用于挖矿虚拟货币的新型GPU「Turing」</a><br /><br>简评:据路透社最新报道,英伟达将在下月发布新一代显卡 GPU,代号「Turing」,专门用于虚拟货币挖矿。在虚拟货币挖矿大量使用其显卡导致价格抬高的情况下,这是英伟达为保证游戏显卡供应所做的努力。</li><li><a href="http://mp.weixin.qq.com/s/TT8zDFZK1VWeJpZAIGeAQA">MIT开发神经网络专用芯片:能耗降低95%,适合移动端设备 | MIT</a><br /><br>简评:MIT 研究人员开发了一种专用芯片,可以提高神经网络计算的速度,比之前的芯片速度提升三到七倍,同时将能耗降低 93% - 96%。这使得在智能手机本地运行神经网络,甚至在家用电器上嵌入神经网络变成可能。相关论文已投中 ISSCC。</li><li><a href="http://mp.weixin.qq.com/s/ZjIMHSN7QsDA0l_zz1ZyUA">LG V30s ThinQ 发布:AI 更新为主,配置增强为辅 | 爱范儿</a><br /><br>简评:此次 LG 对 AI 功能的应用并非是我们常见的智能搜索、单词识别、自动开关功能这些方面,而是 AI Vision(视觉)和 AI Voice (语音)两大类。AI Vision 主要是针对相机系统进行优化。通过新增加的 AI 拍照、QLens、明亮模式三项新功能,能为用户带来更便捷、多元的相机使用体验。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="http://mp.weixin.qq.com/s/ZmxFyWDvTJzRuyrxbro-nw">从哈希到CNN:AAAI 2018中科院自动化所提出高精度&低功耗训练方法 | 机器之心</a><br /><br>简评:在美国新奥尔良刚刚落幕的人工智能国际会议 AAAI 2018 上,来自中科院自动化所程健研究员团队的胡庆浩等人报告了一种基于哈希的深度神经网络二值化训练方法 [1],揭示了哈希与二值权重的神经网络之间的紧密关系,表明了网络模型的参数二值化问题可以转化为哈希学习问题,从而大幅提高了二值化深度神经网络模型的性能,使其能在资源受限场景下能兼顾性能和功耗。</li><li><a href="http://mp.weixin.qq.com/s/f1SCK0J5oTWNJvtld3UAHQ">论文解读:神经网络修剪最新研究进展</a></br><br>简评:本文解读了两篇近期关于神经网络修剪的论文,分别是 L_0 正则化方法和 Fisher 修剪方法。作者对两种方法的工作机制进行了精简的总结和解释,可以帮助我们快速领会论文的方法论思想。</li><li>[1802.06501] <a href="https://arxiv.org/abs/1802.06501">Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning</a></br><br>简评:本文提出了一种新颖的推荐系统,在与用户交互的过程中不断改进其策略。我们将用户和推荐系统之间的顺序交互建模为Markov决策过程(MDP)和增强学习。</li><li>[1802.06130] <a href="https://arxiv.org/abs/1802.06130">Fast, Trainable, Multiscale Denoising</a></br><br>简评:该文章提出了一种多尺度过滤的方法,允许在低功率设备上实时应用。</li><li>[1802.08195] <a href="https://arxiv.org/abs/1802.08195">Adversarial Examples that Fool both Human and Computer Vision</a></br><br>简评:文章中创建了第一个被设计用来欺骗人类的adversarial示例,通过利用最近的技术,将具有已知参数和架构的计算机视觉模型中的adversarial示例转移到其他具有未知参数和架构的模型,并通过修改模型来更接近初始的processi。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="http://mp.weixin.qq.com/s/LtkDbsTiMTxy4MSnmZo9nQ">ARM发布Trillium项目:含神经网络软件库和两种AI处理器 | 机器之心</a><br /><br>简评:现在 Arm 在人工智能领域厚积薄发,发布了 Trillium 项目,包括一款为移动设备而设计的机器学习处理器、一款目标检测处理器和一个神经网络软件库。</li><li><a href="https://mp.weixin.qq.com/s/TYE8Z9kogXttvWiL81762w">Capsule官方代码解读 | 机器之心</a></br><br>简评:Sara Sabour 开源了一份 Capsule 代码,该代码是论文 Dynamic Routing between Capsules 中所采用的实现。其实早在去年刚公布此论文,机器之心就曾详解解读过核心思想与基本代码,我们采用的代码也是各研究者尝试复现论文结果的模型。而最近 Sara 开放的代码是标准的官方实现,因此我们希望能解读部分核心代码,并探讨其与 naturomics 等人实现过程的差异。</li><li><a href="http://mp.weixin.qq.com/s/-EU4jTElNll9MQomjuqFXA">上海交大卢策吾团队开源AlphaPose,姿态估计相比Mask-RCNN提高8.2% | 新智元</a></br><br>简评:上海交通大学卢策吾团队,今日开源AlphaPose系统。该系统在姿态估计(pose estimation)的标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%,较另一个常用开源系统OpenPose(CMU)相对提高17%。同时,卢策吾团队也开源了两个基于AlphaPose的工作:(1)一个高效率的视频姿态跟踪器(pose tracker),目前姿态跟踪准确率第一。(2)一个新的应用“视觉副词识别“(Visual Adverb Recognition)。</li><li><a href="http://mp.weixin.qq.com/s/4BRwMEr6rFYvkmKXM7rYLg">FAIR提出人体姿势估计新模型升级版Mask-RCNN | 新智元</a></br><br>简评:FAIR和INRIA的合作研究提出一个在Mask-RCNN基础上改进的密集人体姿态评估模型DensePose-RCNN,适用于人体3D表面构建等,效果很赞。并且提出一个包含50K标注图像的人体姿态COCO数据集,即将开源。</li><li><a href="https://github.com/MauricioCarneiro/PairHMM">MauricioCarneiro/PairHMM: Optimization of a Haplotype PairHMM class for GPU processing | GitHub</a> <br /><br>简评:GPU / FPGA和AVX处理的Haplotype PairHMM类的优化。</li><li><a href="http://mp.weixin.qq.com/s/glwjwXNNoMYBmhgwEcpUeg">十倍模型计算时间仅增20%:OpenAI开源梯度替换插件 | 机器之心</a></br><br>简评: OpenAI 研究员 Tim Salimans 和 Yaroslav Bulatov 联合开发的工具包,你可以权衡计算力和内存的使用,从而使你的模型更合理地占用内存。对于前馈模型,我们能够借助该工具把大 10 多倍的模型放在我们的 GPU 上,而计算时间只增加 20%。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s/FN_EsIGV2DLvm7RAi8iySw">Momenta王晋玮:让深度学习更高效运行的两个视角 | 吃瓜社</a></br><br>简评:文章从优化计算量和访存量两个角度出发,提出缩短计算时间,加速完成推理任务的优化方法。</li><li><a href="http://mp.weixin.qq.com/s/Rjwv3YslXxS3RzyZjw6gxQ">苹果芯片帝国简史:从依赖三星到「性能怪兽」| 爱范儿</a></br><br>简评:据外媒报道,今年苹果将可能新增至少三款搭载苹果自主设计协处理器的 Mac 电脑。报道称,新款 Mac 电脑将于今年早些时候发布,但是没有透露具体是哪些型号。当中可能包括笔记本电脑,也有可能包括台式电脑。</li><li><a href="http://mp.weixin.qq.com/s/_STTC9B8WUIyown5OBBvTg">实例讲解进驻Google两位大神主推的异构计算与RISC-V | 硅农亚历山大</a><br /><br>简评:John Hennessy和David Patterson两位计算机体系结构方面的泰山北斗双双进驻Google引起了业界的广泛关注。两位大神同时是新兴指令集RISC-V的发起者,也是异构计算领域的领军践行者。本文将结合一个简单实例讲解两位大神所主推的RISC-V如何进行异构计算,让您通过此具体实例理解异构计算为何能够提高性能和节省功耗。</li><li><a href="http://mp.weixin.qq.com/s/JmlbQMLqBt24RJiCxRkmlg">杜克大学在读博士生温伟:云端与边缘AI系统的深度学习 | 将门创投</a></br><br>简评:杜克大学四年级在读博士生温伟在将门技术社群,分享云端与边缘AI系统上的最新研究结果的内容回顾。</li><li><a href="https://www.zhihu.com/question/267167829/answer/319558580?utm_medium=social&utm_source=wechat_session">如何看待Tensor Comprehensions?与TVM有何异同? | 知乎</a> <br /><br>简评:文章精简的描述了两者之间的差异性。</li><li><a href="http://mp.weixin.qq.com/s/M_i38L2brq69BYzmaPeJ9w">像玩乐高一样拆解Faster R-CNN:详解目标检测的实现过程 | 机器之心</a> <br /><br>简评:本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了 Luminoth 实现,供大家参考。</li></ul><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-01-31@Bi-weekly</title>
<link href="/2018/01/31/bi-weekly/2018-01-31/"/>
<url>/2018/01/31/bi-weekly/2018-01-31/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2018-01-31"><a href="#嵌入式AI-双周简报-2018-01-31" class="headerlink" title="嵌入式AI 双周简报 (2018-01-31)"></a>嵌入式AI 双周简报 (2018-01-31)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://mp.weixin.qq.com/s/_V1MTtgaWb2S6mZA37fdxA">AAAI 2018 | 阿里巴巴提出极限低比特神经网络,用于深度模型压缩和加速 | 机器之心</a></br><br>简评:国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办,据机器之心了解,阿里巴巴共有 11 篇论文被接收。在介绍的这篇论文中,阿里巴巴提出利用ADMM算法学习极限低比特神经网络的架构。</li><li><a href="http://mp.weixin.qq.com/s/YXgUHdt5Je6rJ_N24PIcKA">英特尔暂停发放CPU补丁, Linux之父怒批“Spectre补丁是彻底的垃圾” | Linuxer</a> <br /><br>简评:英特尔周一表示用户应当停止在受影响的设备上,部署上个月由安全人员发现的芯片安全Meltdown和Spectre漏洞补丁,因为目前发现了超出预期的重启问题以及其他“不可预测”的系统行为。</li><li><a href="http://mp.weixin.qq.com/s/_LczoTOTD3KbSrVhYZO3iw">亚马逊无人商店开业了,我们到现场排了队还来了一次花式测评 | 机器之心</a><br /><br>简评:文章作者亲身体验亚马逊无人商店,并且通过购物APP做出各种测试。</li><li><a href="http://mp.weixin.qq.com/s/igG30KpJ81T0B5qhQKTHYg">三星将推首款AI芯片NPU,性能超华为苹果,智能终端AI芯大PK| 新智元</a><br /><br>简评:据外媒爆料,三星已经接近完成一款AI芯片的研发,其性能已经堪比苹果的A11和华为麒麟970,三星极有可能在2月25日举行的MWC 2018大会上发布Galaxy S9的同时,展示其新AI技术的能力。</li><li><a href="http://mp.weixin.qq.com/s/h4EvTfjHmEvLAhtnpXJ0uw">清华研发出可支持神经网络的芯片 | 警用科技</a><br /><br>简评:清华大学研究团队取得重大突破,研发出支持神经网络的芯片,可运用于使用电池的小型设备。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1801.06287] <a href="https://arxiv.org/abs/1801.06287">What Does a TextCNN Learn?</a></br><br>简评:TextCNN是一个用于文本的卷积神经网络,它是一种有用的深度学习算法,用于句子分类任务,如情绪分析和问题分类。然而,神经网络长期以来被称为黑匣子,因为解释它们是一项具有挑战性的任务。研究人员已经开发出了一些工具来通过深度可视化来理解CNN的图像分类,但是对于深度文本的研究仍然不够。在本文中,我们试图了解一个TextCNN在两个经典的NLP数据集上学习的内容。我们的工作侧重于不同的卷积的功能。</li><li>[1801.06434] <a href="https://arxiv.org/abs/1801.06434">EffNet: An Efficient Structure for Convolutional Neural Networks</a></br><br>简评:随着越来越多的卷积神经网络对客户的产品需要出现的模型可以有效地运行在嵌入式的应用,手机硬件。因此,精简的模型已经成为一个热门的研究课题,有多种不同的方法,从二进制网络到修正卷积层。我们为后者提供了贡献,并提出了一种新的卷积块,大大减少了计算负担,同时超过了目前的最先进的。我们的模型,称为effnet,优化模型是苗条的开始,是为了解决现有的模型,如MobileNet和ShuffleNet的问题。</li><li>[1801.07606] <a href="https://arxiv.org/abs/1801.07606">Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning</a></br><br>简评:机器学习中的许多有趣的问题正在用新的深层学习工具重新审视。基于图的半监督学习,最近的一个重要的发展是图卷积网络(GCN),从而很好地整合当地的顶点的特征及其在卷积层图的拓扑结构。虽然与其他国家的最先进的方法与模型相比,毫不逊色,其机制尚不清楚,仍需要大量的标注数据验证和模型选择。在本文中,我们更深入认识GCN模式和解决其根本的限制。首先,我们发现GCN图形卷积模型实际上是拉普拉斯平滑的一种特殊形式,其中的主要原因是GCNs的工作,但同时也带来了潜在的问题在许多层平滑卷积。其次,针对浅的GCN架构模型的限制,我们提出了协同训练和自我训练,GCNs的训练方法。我们的方法显着提高GCN与极少数标签学习,并免除他们需要确认额外的标签。大量的基准测试证实了我们的理论和建议。</li><li>[1801.06700] <a href="https://arxiv.org/abs/1801.06700">A Deep Reinforcement Learning Chatbot (Short Version)</a></br><br>简评:milabot能够通过语音和文本的流行话题的人交谈。该系统由自然语言生成和检索模型组成,包括神经网络和基于模板的模型。采用强化学习的众包数据与真实的用户交互,系统已经被训练来选择一个合适的模型的整体反应。该系统通过与现实世界用户进行了AB测试,其性能显著优于其他系统。结果突出了耦合集成系统与深强化学习作为一个富有成效的发展现实世界,开放域会话代理的潜力。</li><li>[1801.07829] <a href="https://arxiv.org/abs/1801.07829">Dynamic Graph CNN for Learning on Point Clouds</a></br><br>简评:文章提出了一种新的神经网络模块称为edgeconv适合美国有线电视新闻网的高级任务包括对点云的分类和分割。edgeconv是可微的,可以插入到现有的体系结构。相比现有的模块的操作主要是在外部空间或处理每个点独立,EdgeConv有几个有吸引力的特性:它采用了局部邻域信息;它可以堆叠或反复应用学习全局形状特性;在多层系统的亲和力在特征空间中捕捉语义特征在原始嵌入的潜在的长距离。在提出这一模块,我们提供广泛的评价和分析,揭示edgeconv捕捉和利用细粒度的点云的几何性质。该方法实现了国家的最先进的性能标准的基准测试,包括modelnet40和s3dis。</li><li>[1801.06867] <a href="https://arxiv.org/abs/1801.06867">Scene recognition with CNNs: objects, scales and dataset bias</a></br><br>简评:该论文提出了一个替代的方法,考虑到规模,从而产生显著的认识收益。由ImageNet CNNs和地方CNN在不同的尺度上我们发现,在不同的尺度范围的响应分析,所以使用同一网络的所有尺度的数据偏差造成的性能限制诱导。因此,采用特征提取的每个特定的规模(即特定尺度的CNN)是提高识别的关键,因为场景中的对象有其特定范围的尺度。实验结果表明,识别精度在很大程度上取决于规模,这简单而精心选择的多尺度组合ImageNet CNNs和地方CNN,可以推动国家的最先进的识别精度sun397达66.26%(甚至70.17%与深层结构,与人的行为)。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/romulus914/CNN_VGG19_verilog">romulus914/CNN_VGG19_verilog: Convolution Neural Network of vgg19 model in verilog</a></br><br>简评:verilog中vgg19模型的卷积神经网络。</li><li><a href="https://github.com/cliffordwolf/picorv32">cliffordwolf/picorv32: PicoRV32 - A Size-Optimized RISC-V CPU</a></br><br>简评:PicoRV32是实现RISC-V RV32IMC指令集的CPU内核。它可以配置为RV32E,RV32I,RV32IC,RV32IM或RV32IMC内核,还可以选择包含一个内置的中断控制器。</li><li><a href="https://github.com/azonenberg/openfpga">azonenberg/openfpga: Open FPGA tools</a></br><br>简评:更新了v0.2散热板的原理图。</li><li><a href="http://mp.weixin.qq.com/s/kL1bhjdTc1wyYEL4KJqDpg">Detectron精读系列之一:学习率的调节和踩坑 | 机器之心</a></br><br>简评:Detectron 开源,文章作者提前踩坑并展示学习率的调节。</li><li><a href="http://mp.weixin.qq.com/s/xCzS7sYMFmk5K4ClB1I2YQ">Uber提出SBNet:利用激活的稀疏性加速卷积网络 | Uber</a> <br /><br>简评:Uber 的研究人员提出了一种可以在改善检测准确度的同时极大提升速度的算法 SBNet 并在其工程开发博客上对该研究进行了介绍。另外,本项目的代码也已在 GitHub 上发布。</li><li><a href="http://mp.weixin.qq.com/s/glwjwXNNoMYBmhgwEcpUeg">十倍模型计算时间仅增20%:OpenAI开源梯度替换插件 | GitHub</a></br><br>简评: OpenAI 研究员 Tim Salimans 和 Yaroslav Bulatov 联合开发的工具包,你可以权衡计算力和内存的使用,从而使你的模型更合理地占用内存。对于前馈模型,我们能够借助该工具把大 10 多倍的模型放在我们的 GPU 上,而计算时间只增加 20%。</li><li><a href="http://mp.weixin.qq.com/s/ilBcSQ5RGAx9Fp7oSri3sA">TensorFlow正式发布1.5.0,支持CUDA 9和cuDNN 7,双倍提速</a></br><br>简评:TensorFlow今天正式发布了1.5.0版本,支持CUDA 9和cuDNN 7,进一步提速。并且,从1.6版本开始,预编译二进制文件将使用AVX指令,这可能会破坏老式CPU上的TF.</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://mp.weixin.qq.com/s/BPoCM7H44dns9y-Ul0jMPw">细读EETimes的AI芯片文章 | StarryHeavensAbove</a><br /><br>简评:“AI Silicon Preps for 2018 Debuts”,作者抽取部分文章介绍了和AI芯片相关的各种问题。</li><li><a href="https://mp.weixin.qq.com/s/wivFTy3Tj6Ahc5XO6-FX2w">浅析图像视频类AI芯片的灵活度 | StarryHeavensAbove </a><br /><br>简评:本文通过列举目前图像视频类的典型算法、典型网络结构、典型平台和接口等方面来分析AI芯片的灵活度范围。</li><li><a href="http://mp.weixin.qq.com/s/cfqnLYZSxJhtsgtrydx02A">语音及文本类AI芯片的需求分析 | 机器之心</a></br><br>简评:文章作者分别深度分析了语音文本类深度学习和AI芯片的需求。</li><li><a href="http://mp.weixin.qq.com/s/oe8Zcv3EecDV2OUl9qejCA">图像分类、定位、检测,语义分割和实例分割方法梳理</a></br><br>简评:本文作者来自南京大学计算机系机器学习与数据挖掘所(LAMDA),本文直观系统地梳理了深度学习在计算机视觉领域四大基本任务中的应用,包括图像分类、定位、检测、语义分割和实例分割。</li><li><a href="http://mp.weixin.qq.com/s/rf-pGfkQFK3abkOLEEVOeA">PTGAN:针对行人重识别的生成对抗网络 | PaperDaily #36</a></br><br>简评:本文提出了一种针对于行人重识别的生成对抗网络 PTGAN,使用 GAN 将一个数据集的行人迁移到另外一个数据集。</li><li><a href="http://mp.weixin.qq.com/s/j-z_xg8FqfAxGcMNISirdQ">TVM优化教程 | 量子位</a> <br /><br>简评:TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。</li><li><a href="http://mp.weixin.qq.com/s/nwXN0YdVviI43E4IyUuJ3A">利用视频物体跟踪实现移动端Video Tagging</a> <br /><br>简评:文章阐述了利用计算机视觉中经典的视频目标跟踪算法来实现轻量级的视频tagging功能,从而可以生成更加丰富,个性化的视频内容。</li></ul><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2018-01-15@Bi-weekly</title>
<link href="/2018/01/15/bi-weekly/2018-01-15/"/>
<url>/2018/01/15/bi-weekly/2018-01-15/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-01-15"><a href="#嵌入式AI-双周简报-2017-01-15" class="headerlink" title="嵌入式AI 双周简报 (2017-01-15)"></a>嵌入式AI 双周简报 (2017-01-15)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1516011357&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkNRx8cHToVJK7l7P*TRvgbH4fyH1G-Km67BxFwKkiLXLRlt8QwJrcKThQPcOiB*BK8HVtTJNL8GijdEYEDtVKB-OgH2WrIGeyDYh0OHGy7E6ovzzI0NZFk7LPEc28AzNJCBSasJc*ex9rMVLlFKWRdM=">黄仁勋打响CES第一枪:全球最强芯DRIVE Xavier武装自动驾驶 | 新智元</a></br><br>简评:英伟达黄仁勋在CES表示将全力投入无人驾驶市场,发布四大关键产品和平台,并公布了英伟达在AI领域的2017成绩单。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1516018763&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkE-YNTEKuKlLIEsVtNozKgkjVTkNCG2M*ih5oRJEuh0zw8c8LT8CZbUt188BNny*uP3jSJcFs2CiOxE2GvnmjnZJomn7Dh49MmYjLwyMjA6PqmldJ2Vmy3cf5bz-BSu1RhpWjj-SjI7MOhs-VgbgSHM=">CPU漏洞补丁对机器学习和深度学习性能影响实测 | 新智元</a> <br /><br>简评:本文作者对神经网络(TensorFlow&Keras)、Scikit-learn、XGBoost等进行了使用和不使用PTI补丁时的性能比较,发现该补丁对性能的影响非常依赖于任务——有些任务不受影响,有些任务的性能下降了40%。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1516013308&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkAP8td9dPU*X7kgtHADvvgTwSmv3kVoMkxYAkA7Hp0v0bxwAyEWgHGT8ZVDudQ6la*HL3COqj6aOir8Ytpg1nUD74De95w4qAh07M6Zid2BWaI9QI7Gn1-oA6lrGEvcJkhbb9ZRzeGXXsBrBup*SuLI=">改变自动驾驶发展格局,百度“阿波罗计划”的前世今生 | 雷锋网</a><br /><br>简评:百度在去年 4 月推出了 Apollo 自动驾驶开放平台,距今已经有 8 个多月的时间,这 8 个多月中,Apollo 从无到有,从国内走向国际,囊括了 90 多家合作伙伴,如今已经进化到了 2.0 版本,从一开始的循迹驾驶到现在实现简单城市道路的自动驾驶。正在进行的 2018 年 CES 大展,百度也通过 Apollo 平台对外展示了自动驾驶的“中国速度”。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntFWp5KPayj0BUjWyqlNej9BXowlgG5mmB7Ovp-LQ5718l0CapFG2mHDwyrMZ70mXc=">揭秘超越英伟达Pascal五倍的英特尔深度学习芯片架构 | 新智元</a><br /><br>简评:据 Nervana 元老,现任英特尔 AI 硬件负责人 Carey Kloss 介绍,Nervana Intel 目前的芯片与初代 Nervana 芯片非常相似,但由于英特尔提供了更多专业技术,新的深度学习芯片可以以每年一次的频率快速更新换代。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1712.07316] <a href="https://arxiv.org/abs/1712.07316">A Flexible Approach to Automated RNN Architecture Generation</a></br><br>简评:该论文提出了一个领域特定的语言(DSL)用于自动化架构搜索,可以产生任意深度和宽度的新型RNN。DSL足够灵活以定义标准体系结构,如门控重复单元和长期短期内存,并允许引入非标准RNN组件,如三角曲线和层规范化。使用两种不同的候选生成技术,具有排序功能的随机搜索和强化学习,我们探索由RNN DSL为语言建模和机器翻译领域所创建的新架构。由此产生的体系结构并不遵循人类的直觉,而是在其目标任务上表现良好,这表明可用的RNN体系结构的空间远大于以前的假设。</li><li>[1712.07798] <a href="https://arxiv.org/abs/1712.07798">Deep learning for predicting refractive error from retinal fundus images</a></br><br>简评:屈光不正是导致视力损害的主要原因之一,可以通过简单的干预措施(如处方眼镜)来纠正,作者使用深度学习算法来检验实验者的眼底照片,计算结果表表明深度学习可以用来从医学图像中进行新的预测。</li><li>[1712.06076] <a href="https://arxiv.org/abs/1712.06076">Using Deep learning methods for generation of a personalized list of shuffled songs</a></br><br>简评:文章中作者建议通过构建一个卷积深层信念网络,从而解决音乐播放系统中随机播放的歌曲不符合用户心情的问题,所学习的参数将用于初始化多层感知器,该多层感知器将用户的播放列表的提取特征作为输入与元数据一起输入以分类到各种类别。</li><li>[1712.04910] <a href="https://arxiv.org/abs/1712.04910">FFT-Based Deep Learning Deployment in Embedded Systems</a></br><br>简评:嵌入式平台由于其可移植性,多功能性和能源效率,正在成为深度学习部署的关键,但是DNN加重了嵌入式平台的计算和存储,作者提出了一种适用于嵌入式平台的基于快速傅立叶变换(FFT)的DNN训练和推理模型,其计算和存储的渐近复杂度降低。</li><li>[1712.05083] <a href="https://arxiv.org/abs/1712.05083">Extreme 3D Face Reconstruction: Looking Past Occlusions</a></br><br>简评:在提供在极端条件下,从平面旋转和遮挡中观察到的人脸的详细三维重建。作者根据凹凸贴图的概念,提出了一种分层的方法,该方法将全局形状的估计与它的中等细节(例如,皱纹)解耦。我们估计一个粗糙的三维表面形状,作为基础,显示在现有技术状态经常破裂的观察条件下产生详细的3D面部形状。</li><li>[1611.08050] <a href="https://arxiv.org/abs/1611.08050">Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields</a></br><br>简评:作者提出用一种方法来高效的检测图像中多个人的二维姿态,该方法使用非参数表示来学习将身体部位与图像中的个体相关联,无论图像中的人有多少,都能保持高精度和良好的实时性。</li><li>[1712.08449] <a href="https://arxiv.org/abs/1712.08449">True Asymptotic Natural Gradient Optimization</a></br><br>简评:在深度学习框架下开发一个j精简而精确的视频手势识别模型的问题。为此,作者提出了一个端到端可训练的联合3DCNN-LSTM模型,并且被证明更适合捕获动作中的动态信息。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/tensorflow/tensorflow/releases/tag/v1.5.0-rc0">TensorFlow 1.5.0-rc0发布,新增CUDA 9/cuDNN 7预编译支持,集成Eager execution/TensorFlow Lite</a></br><br>简评:该版本主要针对CUDA9和cuDNN7进行了预编译。</li><li><a href="https://github.com/tensorlang/tensorlang">Tensorlang:基于TensorFlow的可微编程语言</a></br><br>简评:Tensorlang定义了一组语法和语义,提供对TensorFlow运行时和工具链的完整性能和表现力的访问。</li><li><a href="https://github.com/burningion/rich-mans-deep-learning-camera">基于NVIDIA Jetson打造“富人版”深度学习摄像机</a></br><br>简评:用NVIDIA Jetson和Python构建一款自带深度学习相机。</li><li><a href="https://www.techleer.com/articles/419-a-curated-list-of-dedicated-resources-tensorflow-papers/">TensorFlow相关论文与研究汇总 | techleer</a></br><br>简评:关于TensorFlow的各种论文和研究,其中主要包括异构分布式系统上的大规模机器学习、分布式机器学习高级模块、深度学习软件框架的比较研究、带有MPI的分布式、全球标准化的基于转换的神经网络、大规模机器学习等。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntnIgJF-UBd51iDsG4sc8TaJmRUrwgRjQkzEVcP*gWCJCh*iIVP3o2tJnkVvdBhvoY=">GPU是如何优化运行机器学习算法的? | 机器之心</a><br /><br>简评:在这篇文章中结合代码介绍一下 GPU 加速,它是如何完成的,以及用于 GPU 任务的简单 API。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1516018932&src=3&ver=1&signature=Y*SvMcfP6LnMQTPt9ZOJkJ79FvG5Jp36g4Zy22ZZ2deQLjKB4sjsgC4CpbSXxlw-TEqfJod4XGf6tPfq42sdrm-u53vu4-jX6MnvlTPCSntKQ-bvsEjuz8I-T9XXKRadEBY-11f4GgyxEZXqTnUWGowzlwaNtvNWQoRRkv1TW9M=">Jeff Dean撰文回顾谷歌大脑2017:从基础研究到新硬件 | 机器之心</a><br /><br>简评:谷歌大脑负责人 Jeff Dean 近日撰文回顾了 2017 年的工作,内容包括基础研究工作,机器学习的开源软件、数据集和新硬件。</li><li><a href="http://mp.weixin.qq.com/s/6ksL9p1Gmnrd2HahU3KniQ">ARM攒机指南——AI篇 5大千万级设备市场技术拆解 | 新智元</a></br><br>简评:本文原文链接主要介绍了ARM的攒机方法文章主要精简的拆解各个设备市场的技术重点。</li><li><a href="https://weibo.com/tv/v/FDdlhe4BT?fid=1034:8e4d1ec8c10716320ae216ea9cca1bdf">深度学习框架Keras解析 | 微博</a></br><br>简评:针对Keras做了深入的解析工作。</li><li><a href="https://weibo.com/tv/v/FD3mycpN4?fid=1034:fe9c2486fcf2409470de17ca981eb3b6">人脸解锁的无人运输小车</a></br><br>简评:国外一家公司利用人脸识别开发的快递新模式,可利用人脸识别识别收件人。</li><li><a href="https://www.youtube.com/watch?v=5TUk5BtM0Bc">NVIDIA Volta GPU Architecture | YouTube</a></br><br>简评:NVIDIA Volta GPU架构通过原创短视频的形式展示了产品的特点。</li></ul><p>Editor: 王建章、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-12-26@Bi-weekly</title>
<link href="/2017/12/26/bi-weekly/2017-12-26/"/>
<url>/2017/12/26/bi-weekly/2017-12-26/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-12-26"><a href="#嵌入式AI-双周简报-2017-12-26" class="headerlink" title="嵌入式AI 双周简报 (2017-12-26)"></a>嵌入式AI 双周简报 (2017-12-26)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHkpckUkgSEiZCMoy03mY-CCQaLVXQyHxNQkKTvRuUepY1j2HMQLqD3dM8yoDyFER6sbQ1dINRVLthbAf-gILFnk=">地平线余凯发布嵌入式视觉芯片中国芯“征程”与“旭日” | 新智元</a><br /><br>简评:这两款芯片,芯片性能可达到1Tops,实时处理1080P@30帧,每帧可同时对200个目标进行检测、跟踪、识别。 典型功耗做到1.5w。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHnBdn8wMHNN3uxGyw2K0SdQ81-*CzYfftcGcKO52umn8g3YOrMJxVoLSUbXOaXDxxZR6Y9TgLwP4Bw0tSGdBxLw=">国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求 | 新智元</a><br /><br>简评:本文探讨了如何在算法层面运用量化、剪枝等方法进行模型压缩,以及设计适应于不同应用场景的高能效神经网络计算芯片/架构,从而满足深度神经网络在不同的应用场景下的算力能效需求。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1514257509&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMXwDuJ6AmuXxHls6MtNB*YXKqrvKPYGly1ZA4ngzVFoxnMn7hmvIChDCj3rC5oItBHo63fQsLgo*kUaBW8XbQzMSrIQjSMd0mhUVkHHih5SOLScHYHbBx8Hnb6vjxvhH1xib97160ueAj9hVNhwVOV2A=">AAAI 2018商汤提出强兼容深度网络加速新方法 | 新智元</a><br /><br>简评:中山大学、哈尔滨工业大学、桂林电子大学,香港理工大学以及商汤科技公司联合研究团队提出基于类小波自编码机的深度网络加速法。该方法首先通过一个可学习的类小波自编码机(Wavelet-like Auto-Encoder, WAE),把输入图片分解成两个低分辨率的小图,再以小图替代大图输入到深度网络,从而达到加速的效果。该方法优势还在于,不需要改动原来网络的结构,故可以兼容现有的深度神经网络,有极好的普适性。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1514258116&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMX-LrfuW44JWbxudqhekxZHWOXOjBwj3jAIJobOFuBbC**M3KZChNa6cSHLZ9cIu4Bq1KG5yasXZt1jt2RX2GRmzIZoIbVo8SNYiLFoLcis5WS19yTxNmnIlDf9mhb-cc4v4caSPlpgVd9T112GObN-U=">谷歌云提出渐进式神经架构搜索:高效搜索高质量CNN结构 | 机器之心</a><br /><br>简评:该学习 CNN 结构的方法基于序列模型的优化(SMBO)策略,其中按复杂度逐渐增大的顺序搜索架构,同时学习一个用于引导该搜索的代理函数(surrogate function),类似于 A* 搜索。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1514257760&src=3&ver=1&signature=FfXR2-8lg8yx0vXHlibMX4Iq5rZwJkx6u9brWzwW58OiWij88J-VYzOF64lJBA8k-32edzoJrNPYBXMsjNrpdEJ7HhGThCRsRwktn0bqyv8HUOLWYQh*Abtb6jTNRkgjL39iWMvZhAILwC0QI48ByCk6XpQwtmEeUOW4a-jMSnA=">为给定任务自动生成神经网络:MIT提出RNN架构生成新方法 | 机器之心</a><br /><br>简评:MIT 研究人员最近提出的 RNN 架构自动生成方法使用了灵活的 DSL 搜索和强化学习,在语言建模和机器翻译等任务上表现良好。新方法可以让我们摆脱依靠直觉的费力模型设计方式,同时也大大扩展了循环神经网络的可能性空间。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/burningion/poor-mans-deep-learning-camera">burningion/poor-mans-deep-learning-camera: Build a thin client deep learning camera with the Raspberry Pi, Flask, and YOLO</a><br>[<a href="https://www.makeartwithpython.com/blog/poor-mans-deep-learning-camera/">blog</a>]<br /><br>简评:用树莓派、Flask,基于YOLO模型构建自己的深度学习相机,实现分类和检测。</li><li><a href="https://github.com//twitter/vireo">twitter/vireo: Vireo is a lightweight and versatile video processing library written in C++11</a><br /><br>简评:vireo是一个用c++11写的、轻量且通用的视频处理库。</li><li><a href="https://github.com//cgtuebingen/tensorpack-recipes">cgtuebingen/tensorpack-recipes: A collection of TensorPack implementations of recent deep learning approaches including pretrained models.</a><br /><br>简评:一组TensorPack的深度学习模型实现和pretrained模型。Tensorpack是基于TensorFlow,主要用于训练的高级APIs。</li><li><a href="https://github.com//okdshin/instant">okdshin/instant: DNN Inference with CPU, C++, ONNX support: Instant</a><br /><br>简评:CPU上C++语言实现、基于MKL-DNN的深度学习推理框架,支持ONNX模型。</li><li><a href="https://github.com//BoyuanJiang/Age-Gender-Estimate-TF">BoyuanJiang/Age-Gender-Estimate-TF: Face age and gender estimate using TensorFlow</a><br /><br>简评:基于TensorFlow实现的年龄性别预测模型。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1712.05134] <a href="https://arxiv.org/abs/1712.05134">Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition</a> <br /><br>简评:RNN在解决序列建模,尤其是高维度的输入数据对应的很大模型,会有超大的参数量和训练时间,为解决该问题,作者提出更紧凑的结构:Block-Term tensor decomposition,该结构可降低模型参数的同时提升训练效率。相比tensor-train RNN(TT-RNN)和low-rank approximations,作者的方法在参数量更少的同时准确性更好。在视频动作识别、图像描述、图像生成三个任务中,作者的BT-RNN在准确率和收敛速度上都比TT-RNN、RNN有优势。在动作识别任务的UCF11数据集上,BT-LSTM的参数量仅为LSTM的1/17388,性能却高了15.6%。</li><li>[1712.04910] <a href="https://arxiv.org/abs/1712.04910">FFT-Based Deep Learning Deployment in Embedded Systems</a> <br /><br>简评:作者提出基于FFT训练和推理的DNN模型,尤其适用于对于存储和计算能力有限的嵌入式平台,</li><li>[1707.07012] <a href="https://arxiv.org/abs/1707.07012">Learning Transferable Architectures for Scalable Image Recognition</a> [<a href="https://github.com//titu1994/Keras-NASNet">code</a>]<br /><br>简评:为解决架构工程问题,作者提出一种基于数据集自动搜寻模型block的方法。作者用该方法基于CIFAR10数据集搜寻最佳block,之后将该block堆叠出的模型应用到ImageNet上。尽管没有直接在ImangeNet上进行最佳的block搜寻,但在ImageNet上top1和top5准确率分别达到82.7%和96.2%。相比最佳的人类设计的模型,该方法的top1准确率要领先1.2%的同时参数量减少28%。在检测任务的COCO数据集上,基于该方法搭建的网络在特征学习上要超过同样模型架构Faster-RCNN,性能高于4.0%达到43.1%的mAP。</li><li>[1712.03351] <a href="https://arxiv.org/abs/1712.03351">Peephole: Predicting Network Performance Before Training</a><br /><br>简评:同样是解决模型设计的问题。作者提出在基于网络的架构,在训练前就预测网络性能的方法。作者将不同的层编码成向量并交给LSTM,利用RNN的表达优势可以预测各种不同网络架构的性能。作者实验证明,该方法预测出的模型性能和实验的结果一致。</li><li>[1611.05162] <a href="https://arxiv.org/abs/1611.05162">Net-Trim: Convex Pruning of Deep Neural Networks with Performance Guarantee</a><br>[<a href="https://github.com/DNNToolBox/Net-Trim-v1">code</a>] [<a href="https://www.ibm.com/blogs/research/2017/12/pruning-ai-networks/">blog</a>]<br /><br>简评:作者提出一种用于模型剪枝的新方案——Net-Trim算法,该方法会对一个训练过的模型,将逐层地移除某些连接视为一个解决凸优化问题的过程。该过程会找保证该层输入和输出一致下的稀疏权重,此外作者提出基于该方法的并行和串行版本。两个版本后者得到的模型更轻量,但前者可以在分布式环境下使用。此外作者也给出了对剪枝前后模型的数学分析。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://timdettmers.com/2017/12/21/deep-learning-hardware-limbo/">Deep Learning Hardware Limbo | Tim Dettmers</a><br /><br>简评:该文讲述了Intel、NVIDIA、AMD在过去以及未来几个月的深度学习硬件过渡期,重点分析了这三家在价格、生态上的特点和应对策略。</li><li><a href="https://www.intelnervana.com/intel-ai-2017/">2017: What a Wonderful Year for AI | Intel Nervana</a><br /><br>简评:英特尔AI团队对2017年在人工智能软件、硬件上的总结。</li><li><a href="https://docs.google.com/presentation/d/e/2PACX-1vQMZsWfjjLLz_wi8iaMxHKawuTkdqeA3Gw00wy5dBHLhAkuLEvhB7k-4LcO5RQEVFzZXfS6ByABaRr4/pub?start=false&loop=false&delayms=60000&slide=id.g2a19ddb012_0_75">Deep Learning: Practice and Trends | Google 幻灯片</a> [<a href="https://www.bilibili.com/video/av17078412/">video</a>] <br /><br>简评:NIPS2017关于深度学习实践与趋势幻灯片和视频。</li><li><a href="https://www.technologyreview.com/s/609235/apps-that-hint-at-a-fanciful-fake-future/">Apps That Hint at a Fanciful Fake Future | MIT Technology Review</a> <br /><br>简评:针对移动端AR/VR应用案例的小总结。</li><li><a href="https://www.technologyreview.com/s/609804/a-startup-uses-quantum-computing-to-boost-machine-learning/">A Startup Uses Quantum Computing to Boost Machine Learning | MIT Technology Review</a><br /><br>简评:初创公司Rigetti用量子计算加速机器学习聚类。</li><li><a href="https://www.pyimagesearch.com/2017/12/18/keras-deep-learning-raspberry-pi/">Keras and deep learning on the Raspberry Pi | PyImageSearch</a><br /><br>简评:在树莓派上使用Keras识别圣诞老人。</li><li><a href="https://devblogs.nvidia.com/parallelforall/int8-inference-autonomous-vehicles-tensorrt/">Fast INT8 Inference for Autonomous Vehicles with TensorRT 3 | Parallel Forall</a><br /><br>简评:用TensorRT3实现自动驾驶的快速INT8类型推理。</li><li><a href="https://news.developer.nvidia.com/new-app-turns-your-selfie-into-a-personalized-emoji/">New App Turns Your Selfie Into a Personalized Emoji | NVIDIA Developer News Center</a><br>[<a href="https://www.mirror-ai.com/">app</a>]<br /><br>简评:国外的一家公司做了一个可以实现自拍变动画角色的APP。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-12-12@Bi-weekly</title>
<link href="/2017/12/12/bi-weekly/2017-12-12/"/>
<url>/2017/12/12/bi-weekly/2017-12-12/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-12-12"><a href="#嵌入式AI-双周简报-2017-12-12" class="headerlink" title="嵌入式AI 双周简报 (2017-12-12)"></a>嵌入式AI 双周简报 (2017-12-12)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1513062408&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBq1RqsL571fcPqXLNCeQ5RaGAnW4migmjYgbzZ0hKekbWTdE1idDJoFbARX5zUbSjC5dKYcQorRG6rvmpvr0tWawDwFudYkM*fi3DjMvl8sdbd7uEj2udk37OOZP3p0JGja29AypFVRTasFZ5F6ODk=">马斯克首度承认自研AI芯片,或与英伟达“分手“ | 新智元</a> <br /><br>简评:特斯拉CEO Elon Musk在NIPS上公开承认,特斯拉正在开发专用的AI芯片。而同时,英伟达也在NIPS上发布了迄今为止最强大的“TITAN V” PC GPU。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1513064452&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcHCPhAS9hfeG3*KZPXWTck9Jbvjq*MoXpnIbzJ5b1w8x81SbAUlxwsFMnnf*RHj-o*sxTW9KUv508uyYMXZIUp2r6MCM3H3GZu-6tGUYDUljYOn2pPUrzWqRZJlN3-hWvqmEuRrkFXVh1VNLEwl83*o=">全面对比英伟达Tesla V100/P100 Tensor Core的RNN加速能力 | 机器之心</a> <br /><br>简评:RNN 是处理量化金融、风险管理等时序数据的主要深度学习模型,但这种模型用 GPU 加速的效果并不好。本文使用 RNN 与 LSTM 基于 TensorFlow 对比了英伟达 Tesla P100(Pascal)和 V100(Volta)GPU 的加速性能,且结果表明训练和推断过程的加速效果并没有我们预期的那么好。</li><li><a href="https://developers.googleblog.com/2017/12/announcing-core-ml-support.html">Announcing Core ML support in TensorFlow Lite | Google Developers</a> <br /><br>简评:谷歌宣布Core ML支持加载TensorFlow模型。此外,谷歌将会继续致力于TensorFlow Lite的跨平台,包括iOS平台。</li><li><a href="https://research.fb.com/onnx-v1-released/">ONNX V1 released | Facebook Research</a> <br /><br>简评:今年九月开源神经网络交换格式被开源,这是一种开源的模型格式。如今,Caffe2,CNTK,MXNet,Pytorch,TensorRT都已经支持该模型格式,且可用于生产环境。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1513062415&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBlBx4tfraHNaizVJ4n-G5h4vphOJrIfT*OtM6NhvEmL1oYVtn1LYgKMeIWKD9NX77SYNFLAofIAMOV-dPGWrDJ01xT3Hca7zaXnyEZbacX58hEB5UBkSYgyiVjBOvczEU1vPh8sY4CVUm2eQvPVskE=">IBM推出机器学习加速“瑞士军刀”Power9芯片,性能为同类产品的10倍 | 新智元</a> [<a href="https://www.ibm.com/blogs/research/2017/12/10x-faster-using-gpu/">原文</a>] [<a href="https://arxiv.org/abs/1708.05357">paper</a>] <br /><br>简评:IBM最新一代的Power9正在进入市场,是目前唯一采用最先进的I / O子系统技术的处理器,包括下一代NVIDIA NVLink,PCIe Gen4和OpenCAPI。与x86比:最大9.5倍I / O带宽;2倍核心高性能;2.6倍RAM支持;1.8倍内存宽带。可以让Chainer,TensorFlow和Caffe等通用AI框运行的workloads增加近4倍。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com//ucla-vision/parle">ucla-vision/parle</a> [<a href="https://arxiv.org/abs/1707.00424">paper</a>] <br /><br>简评:Parle:用于深度学习并行训练的框架。该算法可以对同一个网络进行并行训练,可以把他们称为分片(replicas),通过并行SGD训练单个网络,收敛速度相比原本快2~4倍,同时还可达到更好的泛化性能。目前还只是CPU版本,即将提供多GPU版本的支持。</li><li><a href="https://github.com//victordibia/handtracking">victordibia/handtracking: Building a Real-time Hand-Detector using Neural Networks (SSD) on Tensorflow</a> <br /><br>简评:作者基于TensorFlow框架实现的SSD模型的手检测器。作者在Macbook pro上进行了实验,在输入图像为320x240大小下,可以达到21FPS。</li><li><a href="https://github.com//jwyang/faster-rcnn.pytorch">jwyang/faster-rcnn.pytorch</a> <br /><br>简评:更快的faster R-CNN实现。该项目用于加速faster R-CNN物体检测模型的训练,当然作者也承认参考了不少其他人的实现。</li><li><a href="https://github.com//apple/turicreate">apple/turicreate: Turi Create simplifies the development of custom machine learning models.</a> <br /><br>简评:Turi是一个见到那构建机器学习模型的Python包,可以轻松训练自己的CoreML机器学习模型,去实现推荐、目标检测、图像分类甚至图像相似度检测或行为分类等等。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1712.03112] <a href="https://arxiv.org/abs/1712.03112">Effective Extensible Programming: Unleashing Julia on GPUs</a> <br /><br>简评:作者认为对计算密集型、可并行化的应用中编写并行化的低级语言程序较为困难,而使用GPU或其它加速计算设备是又很普遍的。为了解决这一问题作者提出可高效支持硬件的编译架构,用于对现有高级的Julia编程语言对GPU编程的支持。</li><li>[1611.01576] <a href="https://arxiv.org/abs/1611.01576">Quasi-Recurrent Neural Networks</a> [<a href="https://github.com//JayParks/quasi-rnn">code</a>] [<a href="https://einstein.ai/research/new-neural-network-building-block-allows-faster-and-more-accurate-text-understanding">blog</a>] <br /><br>简评:递归神经网络在序列建模上面有巨大优势,然而因为时序的计算依赖原因无法并行化导致训练效率很低。作者提出一种QRNNs(quasi-recurrent neural networks)方法,可以对序列建模的同时对时序过程并行化。此外,在相同隐藏层单元数目下,QRNNs比堆叠LSTMs有更好的预测精度,训练和测试时间也比原本快16倍,在语言建模、情感分类、字符级别的翻译任务上表现出了巨大优势。</li><li>[1711.11460] <a href="https://arxiv.org/abs/1711.11460">VoiceMask: Anonymize and Sanitize Voice Input on Mobile Devices</a> <br /><br>简评:语音输入通过云端的快速识别相比打字方便,但上传过程会造成隐私和敏感信息的泄露。作者在用户与云端间设立了一个用来保护隐私的名为VoiceMask的中间层,可以保护用户身份和隐私;同时还是用了关键词替换技术。这两个阶段都是在移动设备上进行。在50人的测试中,使用该技术语音识别准确率只下降了14.2%。</li><li>[1712.02170] <a href="https://arxiv.org/abs/1712.02170">Detecting Curve Text in the Wild: New Dataset and New Solution</a> [<a href="https://github.com/Yuliang-Liu/Curve-Text-Detector">code</a>] <br /><br>简评:近年来自然场景的文字检测有很大进展,然而对曲线文本等场景效果不尽人意。作者因此构建了一个名为CTW1500的曲线文本数据集,包含1500张图像上超过1万的文本信息,其中训练样本1000个,测试样本500个。此外,作者提出基于多边形的曲线文本检测器,可以在无经验组合下直接检测曲线文本,以及两种后处理方法(非多边形抑制、多边形非最大抑制)来进一步提高检测性能。代码开源!</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1513062415&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcBlBx4tfraHNaizVJ4n-G5h4vphOJrIfT*OtM6NhvEmL1oYVtn1LYgKMeIWKD9NX72BBait0OkwXLIUNLsq5Wx5JiXoMrkvOW1atct-sHpmprfsbOcbK1-f99z*AGa2KSIKSvAgCufC0u0ukOOjq3IU=">专访Velodyne自动驾驶VP:无人驾驶量产得靠128线廉价激光雷达,中国将是最大市场 | 新智元</a> <br /><br>简评:Velodyne 激光雷达(64线)曾定价7万多美元,被认为是无人驾驶走向商用不得不解决的成本问题。近日,Velodyne 又发布了性能更佳的128线激光雷达,但是其自动驾驶负责人却表示,价格将会史无前例的低。此前,他们曾表示64线激光雷达可以从7万美元降到50美元。面对谷歌 Waymo自己打造价格只有其十分之一的激光雷达,特斯拉根本不使用激光雷达的情况,Velodyne 新产品会有怎样的定价?</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1513064452&src=3&ver=1&signature=fTQ93DETY2RWqbThhgdlcHCPhAS9hfeG3*KZPXWTck9Jbvjq*MoXpnIbzJ5b1w8x81SbAUlxwsFMnnf*RHj-o0JQgtuHqHM5e0uwRhAARDuTRQ2*uQEkHAhEDc6J2-WRuPUoWK*EVrFnn8ZlIXl*Qwa-FMvr91vZvIdqaRvfiv8=">BP表达式与硬件架构:相似性构建更高效的计算单元 | 机器之心</a> <br /><br>简评:反向传播是当前深度学习主要使用的参数更新方法,因此深度学习的硬件设计也需要拟合这种反向传播的计算结构。本文从反向传播的抽象表达开始简要地分析了 BP 算法和脉动阵列架构(systolic array architecture)之间的相似性,从而表明了脉动阵列架构适合执行 BP 和进行模型训练。</li><li><a href="https://weibo.com/tv/v/FyzglwpK0">Mask R-CNN2Go! On-device realtime person keypoint estimation on Samsung Galaxy S8 accelerated by Caffe2 and Qualcomm Snapdragon Neural Processing Engine | facebook</a> <br /><br>简评:Mask R-CNNGo是一个专为移动端DNN优化、且基于Mask R-CNN的实现。点击链接,观看行人关键点检测的视频演示,该演示是基于Samsung Galaxy S8手机,框架和处理引擎分别是Caffe2和Qualcomm Snapdragon Neural Processing Engine。</li><li><a href="http://learningsys.org/nips17/assets/slides/TVM-MLSys-NIPS17.pdf">End to End Optimization Stack for Deep Learning by Tianqi Chen | learningsys</a> <br /><br>简评:深度学习端到端优化栈:TVM。</li><li><a href="https://www.bilibili.com/video/av17077920/">Computer System Colloquium: Petascale Deep Learning on a Single Chip by Tapabrata Ghosh | Standford</a> <br /><br>简评:计算机系统研讨会关于单芯片千兆级深度学习(by Tapabrata Ghosh, Vathys)主题的视频录像。</li><li><a href="http://minimaxir.com/2017/11/benchmark-gpus/">Benchmarking Modern GPUs for Maximum Cloud Cost Efficiency in Deep Learning | minimaxir</a> <br /><br>简评:云端GPU深度学习最新性能评测。</li><li><a href="https://news.developer.nvidia.com/nvidia-deep-learning-inference-platform-performance-study/">NVIDIA Deep Learning Inference Platform Performance Study | NVIDIA Developer News Center</a> [<a href="https://images.nvidia.com/content/pdf/inference-technical-overview.pdf">pdf</a>] <br /><br>简评:NVIDIA在深度学习推理方面的性能研究,具体内容请点击pdf查看该技术报告。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-11-28@Bi-weekly</title>
<link href="/2017/11/28/bi-weekly/2017-11-28/"/>
<url>/2017/11/28/bi-weekly/2017-11-28/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-11-28"><a href="#嵌入式AI-双周简报-2017-11-28" class="headerlink" title="嵌入式AI 双周简报 (2017-11-28)"></a>嵌入式AI 双周简报 (2017-11-28)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPpzBRGrKnNxu-C8XXbCNEOJiZE*9KSBSnGpMtK4uiTrIoy-Psciyge4b2RGpw6OjwglEo0NNNEzRGUx1EHXrAk4g=">波士顿动力最新逆天机器人:360°后空翻完爆体操运动员,54秒看双足机器人未来 | 新智元</a> <br><br>简评:波士顿动力公司在YouTube发布了一段新视频,展示了该公司的Atlas机器人做360度后空翻的惊艳动作。波士顿动力原是Alphabet旗下的机器人公司,今年6月被软银集团收购。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPp6oiM4jKWKICuZkoOCF2zz2YnL9IZlaZG0lJnoylFeYUaXO5RwPaOYRYqDK4fvjLVXBwqAB4W5MMqtkr5HbxTbU=">黄教主再放核弹,英伟达超级计算机SaturnV升级,有望杀入Top500榜单前五 | 新智元</a> <br><br>简评:最新一期国际超算权威榜单Top500发布,英伟达的DGX SaturnV 排名第36。就在昨天,英伟达宣布,使用最新的Volta升级该集群,一个DGX SaturnV里组装了660个DGX-1节点(每个节点8个V100芯片)。如果你把GPU从SaturnV中拿出来一个一个挨着放,差不多能排上一公里。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1511612693&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJ-y5*BpkaIZyq6N*5CCDZm7C897Nu3JnfXd4Tbkq7xD0ioHkSpkchOHtrf5jSxk0c1i78bHVIDiX--RXSai33rCh3sD6doz7g*TZBi9xkyh6sF7oh7WOL8QwYh5Ygh5eZDGVNjHS-q0CRm-z9JGTHA=">旷视&清华大学提出新型两步检测器Light-Head R-CNN | 机器之心</a> <br><br>简评:这篇论文提出一种轻量级检测器头设计以构建一个高效、准确率高的两步检测器。具体来说,使用一个大内核可分卷积和少量通道生成稀疏的特征图。该设计的计算量使随后的 RoI 子网络计算量大幅降低,检测系统所需内存减少。将一个廉价的全连接层附加到池化层上,可充分利用分类和回归的特征表示。算法灵活,适用于大型主干网络。基于 ResNet-101 的主干网络优于顶尖的算法,包括两步检测器如 Mask R-CNN 和一步检测器如 RetinaNet。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1511612693&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJ-y5*BpkaIZyq6N*5CCDZm7C897Nu3JnfXd4Tbkq7xD0ioHkSpkchOHtrf5jSxk0c1i78bHVIDiX--RXSai33pw5ci8bOUE5C*ZF7tH1sJEZFmKQ3EGXq12OJ6XmgYPseqwxXWya*CTTdOdi4Qmo1E=">华为推出新型HiSR:移动端的超分辨率算法 | 机器之心</a> <br><br>简评:近日,华为推出了 HiSR 超分辨率技术,该模型借助第一款人工智能手机芯片 Kirin 970 和深度学习算法将低分辨率图片转化生成高清图片,并在移动端实现了快速预览高清图片的效果。本文简要介绍了华为 HiSR 模型的结构与效果。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1711.04528] <a href="https://arxiv.org/abs/1711.04528">Simple And Efficient Architecture Search for Convolutional Neural Networks</a><br /><br>简评:神经网络的架构选择通常由专家设计试错而得。作者提出一个基于爬山过程的网络形态的搜索方案,紧接一个余弦退火优化过程。用该方法在CIFAR-10数据集上训练出的模型错误率低于6%。</li><li>[1711.03712] <a href="https://arxiv.org/abs/1711.03712">Quantized Memory-Augmented Neural Networks</a><br /><br>简评:增强记忆网络(Memory-augmented neural networks,MANNs)是指一类需要借助外部存储的网络模型,这种模型因有更长依赖的学习,因而比传统的RNN模型表现更好。然而,在嵌入式端部署这样的模型却是一个难题,作者提出QMANNs,即对MANNs进行8bit定点和二值量化。相比float实现和传统实现,8bit定点和二值量化在错误率46%和30%提升的前提下,可以达到22倍单位能耗计算量的提升。</li><li>[1711.03637] <a href="https://arxiv.org/abs/1711.03637">Learning and Real-time Classification of Hand-written Digits With Spiking Neural Networks</a><br /><br>简评:作者提在通用GPU平台实现了一种新颖的SNN(spiking neural network)网络去实时地完成手写数字图片的分类任务。在MNIST数据集上达到了99.8%的训练集准确率和98.6%的测试集准确率,然而参数量只为性能最好的spking网络的七分之一。</li><li>[1711.05491] <a href="https://arxiv.org/abs/1711.05491">Squeeze-SegNet: A new fast Deep Convolutional Neural Network for Semantic Segmentation</a><br /><br>简评:作者提出Squeeze-SegNet,这是一种可部署在嵌入式平台如自动驾驶场景下、用于语义分割的全卷积网络,其结构与编解码器非常类似,集合了squeeze-decoder模块、上采样以及反卷积层等等。在Camvid和City-states等数据集上达到了和SegNet一样的准确率,但参数量仅为SegNet的十分之一。</li><li>[1708.05237] <a href="https://arxiv.org/abs/1708.05237">S$^3$FD: Single Shot Scale-invariant Face Detector</a> <a href="https://github.com//clcarwin/SFD_pytorch">[code]</a><br /><br>简评:作者提出一种名为S^3FD(Single Shot Scale-invariant Face Detector)的实时人脸检测器,这是一个能胜任各种尺度输入的单神经网络模型,尤其是小人脸。而作者工作的重点就是要解决基于anchor的检测器在物体变小时,性能会下降的问题。作者主要做了以下三点:1.提出随尺度变化的人脸检测框架来解决人脸尺度的问题;2.通过尺度补充的anchor策略来提升对小人脸的召回;3.通过max-out背景标注来减少小人脸的false positive rate。在AFW、PASCAL face、FDDB和WIDER FACE这几个数据集上都达到了state-of-the-art的检测性能,在NVIDIA Titan X(Pascal)显卡上达到了36fps的帧率。</li><li>[1711.05860] <a href="https://arxiv.org/abs/1711.05860">A General Neural Network Hardware Architecture on FPGA</a> <br /><br>简评:现场可编程门阵列(FPGA)由于高度并行体系结构,低功耗,自定义算法的灵活性。在神经网络和机器学习算法的高能效实现上有巨大优势。作者基于XILINX ZU9CG系统芯片(SOC)平台,实现了一个支持训练和推断的通用神经网络硬件架构。</li><li>[1711.05979] <a href="https://arxiv.org/abs/1711.05979">Performance Modeling and Evaluation of Distributed Deep Learning Frameworks on GPUs</a> <a href="https://mp.weixin.qq.com/s?timestamp=1511612877&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVLi*0Db4eahy4KJb4speOviiMO8Fmfxppr*oV5pow1kSypqsrhxU8uKYQKVj1OlPp77VYVevE7w9dImXgAAcyx*kuXDXzof7k4noulFDH2w9MdhMmWrK4F8n*ll0LnduT*x-ubwWH589hgHYw8RduY4=">译文</a> <br><br>简评:这篇论文评估了四个state-of-the-art的分布式深度学习框架,即Caffe-MPI, CNTK, MXNet 和 TensorFlow分别在单个GPU、多GPU和多节点的环境中的表现。</li><li>[1711.07607] <a href="https://arxiv.org/abs/1711.07607">Knowledge Concentration: Learning 100K Object Classifiers in a Single CNN</a><br /><br>简评:超细粒度图像分类是图像搜索和移动AI助手所需要的。然而训练一个具有10万类的大型模型的训练速度和分类性能是一个挑战。一个解决方案是训练独立的专家网络,每个专家集中学习一个特定垂直领域(如汽车、鸟类等)。然而,在实际的系统中部署数大量专家网络会增大系统复杂性和推理延迟,并消耗大量的计算资源。作者提出一个知识浓度方法,将知识从数十名专家网络蒸馏成一个单一模型(一个学生网络)对100k类别分类。作者主要工作有三点:1.提出multi-teacher蒸馏的框架;2.自主学习机制,允许学生从不同的老师处学习;3.用结构连接层扩大学生网络容量。在OpenImage数据集上达到比baseline更大的性能提升。</li><li>[1711.05908] <a href="https://arxiv.org/abs/1711.05908">NISP: Pruning Networks using Neuron Importance Score Propagation</a><br /><br>简评:作者提出基于神经传播重要性的剪枝策略(NISP,Neuron Importance Score Propagation<br>)。在往常的剪枝策略中没有考虑反向传播在重建误差时候的影响。作者将最小化重建误差纳入考量并设计出名为FRL(final response layer)的层,该层在softmax层之前用于巩固预测结果。此外,作者也对特征进行排序来测量每个神经元在FRL层中的重要性,将剪枝问题视为优化问题。整体实现流程是:先对网络基于最小重要性进行剪枝移除一些神经元,之后对网络fine-tune。在忽略不计的准确率损失下,几个数据集上都有很大的加速表现。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1511612669&src=3&ver=1&signature=ohWeTUu0PRzwCTARieFAVJs6Jpbmv*C*X17REkTuIrEjfs0FAxzg32Zx0o*MNW6xJ40S-zlPmszHeNQbwQuZaW2KiCORMFnhNYuOwZR2dnfgejmkKAQXbD9NX01CYt38o9oIJ1RfqPb4G4EbTS7D5mO-fEAue7UwIybl0*RKOIs=">深度梯度压缩:降低分布式训练的通信带宽 | 机器之心</a> <br><br>简评:深度梯度压缩(Deep Gradient Compression/DGC)是通过压缩梯度的方式来解决通信带宽问题。为了确保无损于准确度,DGC 在梯度稀疏化(gradient sparsification)之上使用了动量校正(momentum correction)和局部梯度裁剪(local gradient clipping)来维持模型的表现水平。DGC 还使用了动量因子掩蔽(momentum factor masking)和 warmup training 来克服由通信减少所导致的过时问题(staleness problem)。图像识别、语言建模和语音识别的实验表明:该方法可以将梯度压缩 600 倍而不造成准确度损失,这比之前的研究成果(Aji & Heafield, 2017)高一个数量级。 </li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com//JianyangZhang/Self-Driving-Car-AI">JianyangZhang/Self-Driving-Car-AI: A simple self-driving car AI python script using the deep Q-learning algorithm</a><br /><br>简评:Deep Q-learning无人车AI项目。</li><li><a href="https://github.com/BlinkDL/BlinkDL">BlinkDL/BlinkDL: A minimalist deep learning library in Javascript using WebGL + asm.js. It can do convolutional neural network in your browser.</a><br /><br>简评:一个极简Javascript中使用WebGL + asm.js深度学习库,它可以在浏览器中执行卷积神经网络。</li><li><a href="https://github.com/masahi/nnvm-vision-demo">masahi/nnvm-vision-demo: Demos interesting image-in, image-out networks running on both NVIDIA and AMD GPUs, with NNVM</a><br /><br>简评:用GAN实现图像生成,底层支持NVIDIA和AMD的GPU。</li><li><a href="https://github.com//explosion/lightnet">explosion/lightnet: 🌓 Bringing pjreddie’s DarkNet out of the shadows #yolo</a><br /><br>简评:LightNet提供DarkNet简单高效的Python接口,DarkNet框架由YOLO和YOLOv2的作者实现。LightNet在的主要目的是做图像的目标检测和分割。</li><li><a href="https://github.com/LamHoCN/Depth_conv-for-mobileNet">LamHoCN/Depth_conv-for-mobileNet: Depth_conv for MobileNet</a><br /><br>简评:用CUDA实现的MobileNet的depth_conv。</li><li><a href="https://github.com/hahnyuan/video_labeler">hahnyuan/video_labeler: A GUI tool for conveniently label the objects in video, using the powerful object tracking.</a><br /><br>简评:视频标记工具,带有给力的跟踪辅助功能。</li><li><a href="https://github.com/jcupitt/libvips">jcupitt/libvips: A fast image processing library with low memory needs.</a><br /><br>简评:超快的图像处理框架。</li><li><a href="https://github.com//AITTSMD/MTCNN-Tensorflow">AITTSMD/MTCNN-Tensorflow: Reproduce MTCNN using Tensorflow</a><br /><br>简评:使用Tensorflow实现MTCNN。</li><li><a href="https://news.ycombinator.com/item?id=15720314">Carla – An open-source simulator for autonomous driving research | Hacker News</a><br /><br>简评:自驾模拟开发环境资源汇总。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://zhuanlan.zhihu.com/p/28749411">变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作 | 知乎</a><br /><br>简评:CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。博文作者对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中探讨日后的CNN变革方向。</li><li><a href="https://mp.weixin.qq.com/s/hbmLhS114cEC5qGv2Ujxaw">苹果博客解读iPhone上的人脸识别深度神经网络 | 机器之心</a> <a href="https://machinelearning.apple.com/2017/11/16/face-detection.html">[英文原文]</a><br /><br>简评:苹果首次将深度学习应用于人脸识别是在 iOS 10 上。通过 Vision 框架,开发者现在可以在 App 中将该技术与其他很多计算机视觉算法进行整合。为了保护用户隐私,保证有效运行,苹果在开发这个框架的过程中克服了大量挑战。本文旨在探讨这些挑战,并介绍人脸识别算法。</li><li><a href="https://zhuanlan.zhihu.com/p/31181247">从人脸识别到行人重识别,下一个风口 | 知乎专栏</a><br /><br>简评: 行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。</li><li><a href="https://v.douyu.com/show/yjwzOvp2mjMZVRm9">加速云CEO邬钢:FPGA在深度学习中的应用 | 斗鱼</a><br /><br>简评:加速云成立于2015年9月,是国内为数不多的具备FPGA硬件加速方案实施才干的厂商。加速云的运用场景可分为前端和后端,前端首要会合在智能硬件领域,如无人机运用,而在后端的运用场景可以拿云计算举例,加速云研发的大数据加速产品已广泛运用于数据基地、云计算、机器视觉、深度学习、高功用计算、科技金融等领域,为腾讯、阿里、科大讯飞、京东等首要客户提供了效力支撑。</li><li><a href="https://mp.weixin.qq.com/s/wAVbeU2MXWrWXdCCBbR-Wg">深度学习中的「卷积层」如何深入理解 | 雷克世界</a> <a href="https://medium.com/@apiltamang/a-gentle-dive-into-the-anatomy-of-a-convolution-layer-6f1024339aca">[英文原文]</a><br /><br>简评:在现有深度学习框架下,我们所编写的卷积层往往是一个单行语句,它可以抽象出许多结构细节。不过,有时候后退一步去揭开一些抽象概念也是一个不错的选择。本文试图阐述卷积层的一个特定的解剖特征,而这是在大多数文章和相关讨论中被忽略的问题。 </li><li><a href="https://mp.weixin.qq.com/s/DUsH6wPDqSyq9C_xGY-Lng">DeepMind 揭秘 WaveNet 提速一千倍、进驻 Google Assistant 背后的故事 | AI科技评论</a><br /><br>简评:WaveNet 仅一年时间就走出实验室,在 Google Assistant 中落地。在庆贺深度学习又一次完全颠覆传统做法的同时,大家想必也会好奇,到底 DeepMind 做了哪些改进才得以实现这样数量级的效率提升呢?DeepMind 自己最近就发布了介绍商业化改进后的 WaveNet 的论文,并撰写了一篇博文通俗地介绍了其中的改进点。 </li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-11-14@Bi-weekly</title>
<link href="/2017/11/14/bi-weekly/2017-11-14/"/>
<url>/2017/11/14/bi-weekly/2017-11-14/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-11-14"><a href="#嵌入式AI-双周简报-2017-11-14" class="headerlink" title="嵌入式AI 双周简报 (2017-11-14)"></a>嵌入式AI 双周简报 (2017-11-14)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1510651761&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvXH1oU9L2jQ4SJQBcYVKilDmi*NbqEut3Xuk*1Dh5sKzSsbzNP0zTtqjq70w0ory-GQ83TjfaC03Fdw7ajfYhra6Gi1DXImuzfjnpIpxoVcT-FnAHklFtEMUIdy-y5GAVThf3*vsT6-g6PoleTGBm2o=">寒武纪3款AI处理器齐发,陈天石3年小目标:占领10亿智能AI终端;占领中国AI云端高性能芯片1/3 | 新智元</a> <br /><br>简评:AI芯片独角兽寒武纪成立以来首次发布会召开,联合创始人兼CEO陈天石发布了系列新品及公司未来路线图——“3年内占领10亿智能AI终端,占领中国云端高性能芯片1/3市场份额”。至于如何与英伟达竞争,陈天石告诉新智元:“提供性能功耗比更好的芯片。这个市场很大,其实未见得是零和博弈。”。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1510651739&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvRoYvJGiaDTMYilDhkqlT5k7DFJ0k9W8DKmYYk5SvqA0it7XFeHsKlXJ3f0xAdQuXFNEqeYw8DJ7yuPiLFk6IYKLquvpL16a80ms*L27lptGJTyHaAPWcL4-rEg2svxkSZO*w6YCQZ*-TpCQbMv0thE=">两项业界最佳的普林斯顿新算法自动生成高性能神经网络,同时有超高效压缩 | 新智元</a> <br /><br>简评:普林斯顿大学研究人员提出了一种会在训练过程中连接、生长、移除神经元的神经网络。这种神经网络使用梯度和神经元强弱来生长(grow)和修剪(prune),从而实现权重和结构的同时训练。此算法可同时实现神经网络结构的自动选择和超高效压缩。所取得的压缩率,所获得的神经网络模型均为当前业内最好纪录。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1510652144&src=3&ver=1&signature=VVbCCFGdhnib9UHziJcEvRPXlaG0XB7H9TSQbqZDna31FbbWi1rNDSafBnfMt85qqFTkmaq8WoKW6OKzfaFFiW7MrslH9BdQsj*3PKJ1gKBAdpqSfnuhSyXW7Iwxri1sx1ZJ52LVmDyBLeqyHA8zx03bDc1Z4bCV7LoL52T6KgA=">阅面科技发布堪比服务器的终端视觉模块,将云端计算能力搬至终端 | 机器之心</a> <br /><br>简评:11 月 1 日,阅面科技在深圳举办了创立两年来的首次新品发布会,共发布了三款产品:跨模态人脸识别引擎 UniFace、基于 Uniface 的「繁星」AI 芯片视觉模块、以及基于「繁星」的智能客群分析摄像机——「阅客」。</li><li><a href="https://www.zhihu.com/question/67615840/answer/255421766">如何看待博通拟以 1300 亿美元收购高通? | 知乎</a> <br /><br>简评:最后高通董事会一致拒绝了博通提出的收购提议,并称该提议不符合股东最佳利益,且严重低估了高通的价值。有消息称,博通或在考虑继续提高对高通报价的可能性,包括通过增加债券融资等手段,但目前尚不清楚博通将会在何时跟进。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-159.pdf">A Berkeley View of Systems Challenges for AI</a> <br /><br>简评:这个survey主要介绍了下一代的人工智能系统(包含系统、架构、安全性等),整体较短。主要关注点在未知环境中做出安全可信的决策,个性化智能以及在日益增长的数据这一挑战下的应对方法。相信可以给在做嵌入式人工智能的同学们一些启发。</li><li>[1711.01243] <a href="https://arxiv.org/abs/1711.01243">ResBinNet: Residual Binary Neural Network</a> <br /><br>简评:近来二值网络提供了内存和执行效率上的优势。本文提出的ResBinNet通过将residual binarization和temperature adjustment的策略结合,前者是可以在一层上学到多级别的binary特征表达,后者可以逐渐对特定层的权重进行binarize。两种策略结合得到一系列的soft-binarized参数,提高原始binary net的收敛率和精度。而且该方法可以在infer时间和准确率之间权衡。</li><li>[1711.02613] <a href="https://arxiv.org/abs/1711.02613">Moonshine: Distilling with Cheap Convolutions</a> <br /><br>简评:大家知道distillation策略通过小的student net来学习teacher net,小网络相比teacher网络结构和层数等更精简,方便部署在资源有限设备上。本文在原本student-teacher的基础上将,通过attention tansfer的策略让student网络相比直接在原始数据上训练有了更好的性能。</li><li>[1711.03386] <a href="https://arxiv.org/abs/1711.03386">Performance Evaluation of Deep Learning Tools in Docker Containers</a> <br /><br>简评:Docker的使用已经非常广泛,甚至有一些小伙伴在嵌入式上部署Docker来简化部署环境。先不考虑内存占用量,单就在实际使用中在磁盘IO、CPU和GPU上的性能损失又是怎么样的呢?本文将对这些角度进行深入的分析。</li><li>[1711.03016] <a href="https://arxiv.org/abs/1711.03016">DLVM: A modern compiler infrastructure for deep learning systems</a> <br /><br>简评:作者借鉴LLVM的思想提出DLVM,认为现在深度学习环境性能和可靠性不能兼顾。已有的深度学习框架在算法描述上使用Python不安全的DSL。DLVM作为一个基础组件,可以自动生成GPU代码,并作domain-specific的优化。相比已有的深度学习编译器IRs来说,DLVM更具有模块化和通用性。</li><li>[1711.02213] <a href="https://arxiv.org/abs/1711.02213">Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks</a> <br /><br>简评:尽管32-bit的float类型是当前最为常用的数据类型,但现在也有不少人在较低的bit上尝试训练网络也发现在可接受的精度损失下,速度有提升。作者提出一种Flexpoint数据格式,在不需要做任何修改下,就可以替代原本inference中的32bit float。作者在AlexNet、ResNet还有生成对抗网络上做了实验,在没有做超参数调优下,性能接近32-bit浮点的性能。认为Flexpoint是一种很有潜力作为硬件设备inference的专用数据格式。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="http://people.ee.ethz.ch/~ihnatova/">DPED Project</a> <br /><br>简评:基于深度卷积网络的图片自动美化(DSLR)。</li><li><a href="https://github.com//KarenUllrich/Tutorial_BayesianCompressionForDL">KarenUllrich/Tutorial_BayesianCompressionForDL: A tutorial on “Bayesian Compression for Deep Learning” published at NIPS (2017).</a> [<a href="https://arxiv.org/abs/1705.08665">paper</a>] <br /><br>简评:采用贝叶斯神经网络压缩的方法。结合最小描述长度原则和变分推断的思想,能够达到700倍的模型体积压缩和50倍的网络加速。</li><li><a href="https://github.com//emedvedev/attention-ocr">emedvedev/attention-ocr: A Tensorflow model for text recognition (CNN + seq2seq with visual attention) available as a Python package and compatible with Google Cloud ML Engine.</a> <br /><br>简评:用于文本识别的Tensorflow的CNN+seq2seq模型。</li><li><a href="https://github.com//zeusees/HyperLPR">zeusees/HyperLPR: 基于深度学习高性能中文车牌识别 High Performance Chinese License Plate Recognition Framework.</a> <br /><br>简评:基于深度学习高性能中文车牌识别。</li><li><a href="https://github.com/zhixuhao/unet">zhixuhao/unet: unet for image segmentation</a> <br /><br>简评:(Keras)Unet图像分割。</li><li><a href="https://github.com//a-jahani/Real-time-Video-Mosaic">a-jahani/Real-time-Video-Mosaic: An implemetation of automatic panorama using opencv in C++</a> [<a href="http://ieeexplore.ieee.org/document/7886813/">paper</a>] [<a href="https://weibo.com/tv/v/FuGU2rksQ?fid=1034:51c7bf9fcfeb6d58f4ec80ebb9075712">video</a>]<br /><br>简评:(C++/OpenCV)实时视频全景拼接。</li><li><a href="https://github.com//experiencor/basic-yolo-keras">experiencor/basic-yolo-keras: Implementation of YOLO version 2 in Keras</a> [<a href="https://experiencor.github.io/yolo_keras.html">blog</a>] <br /><br>简评:用Keras实现YOLOv2。</li><li><a href="http://carla.org/">Carla – Open source simulator for autonomous driving</a> [<a href="https://github.com/carla-simulator/carla">code</a>] [<a href="https://weibo.com/tv/v/FuUhUEL31?fid=1034:9fd5399bbb60e1a7e6ed6e7537bbfb55">video</a>] <br /><br>简评:CARLA:开源自驾车模拟环境。</li><li><a href="https://itunes.apple.com/cn/app/id1294441403">Neural Network Designer</a> [<a href="https://www.objectsandsuch.com/neural-network-designer">blog</a>]<br /><br>简评:Neural Network Designer是mac上用来可视化编辑设计基于人工神经元网络的工具,可用于测试各种网络的设计和执行。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://www.leiphone.com/news/201710/9EFp9GekEnMcMHyg.html">深鉴科技姚颂:深度学习处理架构的演进 | 雷锋网</a> <br /><br>简评:深度学习、体系结构、数据规模的共同发展促进了人工智能行业的繁荣。在通用架构之外,深度学习处理架构已经经历了三代的发展,从计算优化、存储优化,到结合Deep Compression的稀疏化处理架构。深鉴科技姚颂为大家讲解深度学习处理架构的演进过程,以及几个核心问题是如何逐渐解决的。</li><li><a href="https://medium.com/@tinyline/copista-training-models-for-tensorflow-mobile-2cf4cb1674e4">Copista: Training models for TensorFlow Mobile | Medium</a> <br /><br>简评:Copista:TensorFlow手机端(画风迁移)模型训练。</li><li><a href="https://mp.weixin.qq.com/s/9iBjwM3EYleMUlAzkKlVJg">TensorFlow下构建高性能神经网络模型的最佳实践 | 人工智能头条</a> <br /><br>简评:文中简述了常见的网络压缩原理,并用TensorFlow的模型压缩工具量化网络对结果进行了简单的分析。</li><li><a href="https://research.googleblog.com/2017/11/seamless-google-street-view-panoramas.html">Seamless Google Street View Panoramas | Google Blog</a> [<a href="https://weibo.com/tv/v/FunJ3rPCv?fid=1034:b094772598613db5b1e40cbc4f3bbfe9">video</a>] <br /><br>简评:Google基于光流新算法实现街景全景无缝拼接。</li><li><a href="https://www.zhihu.com/question/53232703">从公司商用层面,未来哪些SLAM方案能成为趋势?以及难点突破点是什么? | 知乎</a> <br /><br>简评:根据场景不同,SLAM的方案从传感器到算法千差万别。一定要根据某一应用场景的核心诉求来考虑方案。</li><li><a href="https://mp.weixin.qq.com/s/mcK8M6pnHiZZRAkYVdaYGQ">MobileNet在手机端上的速度评测:iPhone 8 Plus竟不如iPhone 7 Plus | 机器之心</a> [<a href="https://medium.com/vitalify-asia/real-time-deep-learning-in-mobile-application-25cf601a8976">英文原文</a>] <br /><br>简评:今年4 月谷歌发布 MobileNets:一个可在计算资源有限的环境中使用的轻量级神经网络。6 月苹果推出 Core ML,允许机器学习模型在移动设备上运行。配备高端GPU的iphone比Mac Book Pro上跑得还要快。本文将介绍实际应用情况和效率。</li><li><a href="https://mp.weixin.qq.com/s/nAHJENflvt_o1-LAyDicFw">芯片巨头三国杀:AI加剧芯片厂商间竞赛,英特尔、英伟达、AMD竞相发力 | 新智元</a> [<a href="https://www.wsj.com/articles/artificial-intelligence-is-fueling-an-arms-race-among-chip-makers-1510228801">英文原文</a>] <br /><br>简评:AI加剧芯片厂商间竞赛,竞争达到白热化。AI 软硬件市场每年的增长率达50%,英伟达、英特尔和AMD都在这一方向上发力角逐。投资者亦看好这一领域。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-10-31@Bi-weekly</title>
<link href="/2017/10/31/bi-weekly/2017-10-31/"/>
<url>/2017/10/31/bi-weekly/2017-10-31/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-10-31"><a href="#嵌入式AI-双周简报-2017-10-31" class="headerlink" title="嵌入式AI 双周简报 (2017-10-31)"></a>嵌入式AI 双周简报 (2017-10-31)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://tvmlang.org/2017/10/30/Bringing-AMDGPUs-to-TVM-Stack-and-NNVM-Compiler-with-ROCm.html">Bringing AMDGPUs to TVM Stack and NNVM Compiler with ROCm | TVMLANG</a> <br /><br>简评:TVM stack最新推出AMDGPU后端。可以直接通过nnvm compiler把各种深度学习框架模型编译到amd gcn的汇编代码进行最底层优化。由社区同学美国AMD的Aditya和日本的Masa贡献。</li><li><a href="https://www.leiphone.com/news/201710/GG9umC93Gtav2Eac.html">这么多做 AI 芯片的,NovuMind 吴韧做的有何不同? | 雷锋网</a> <br /><br>简评:NovuMind 创始人、前百度AI工程师吴韧近日表示将在年底推出第一款人工智能芯片产品NovuTensor,根据测试可以在5W的功率基础上进行每秒15万亿次浮点计算。</li><li><a href="https://www.leiphone.com/news/201709/gA66lKNbkbzuHqC1.html">专访余凯:地平线完成Intel Capital领投的近亿美金A+轮融资,未来如何将嵌入式AI解决方案做到第一? | 雷锋网</a><br /><br>简评:做芯片有三种商业模式,一是卖IP,如ARM;二是直接卖芯片,如英特尔;三则是提供芯片加算法的解决方案,如Mobileye。地平线选择的是第三种。 </li><li><a href="https://mp.weixin.qq.com/s/ovYHf1SVrvVQElvR72Rchg">Graphcore提出IPU基准:全面测试硬件运行机器学习应用能力 | 机器之心</a> [<a href="https://www.graphcore.ai/posts/preliminary-ipu-benchmarks-providing-previously-unseen-performance-for-a-range-of-machine-learning-applications">英文原文</a>]<br /><br>简评:智能芯片创业公司 Graphcore 推出的 IPU(智能处理单元)究竟实力如何?近日,该公司的开发人员使用 Poplar 应用库中的各种机器学习应用对 IPU、GPU 和 CPU 进行了性能对比。结果表明这种芯片的确可以像宣传的那样「提升 AI 应用 10 倍到 100 倍处理速度」。</li><li><a href="https://mp.weixin.qq.com/s/R_pfTXDMaLHmiCaSV2t_YA">英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法 | 机器之心</a> [<a href="http://coach.nervanasys.com/">docs</a>]<br /><br>简评:开发 Coach 的动机是,通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体,从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定,提供简化新算法开发的沙盒。</li><li><a href="https://mp.weixin.qq.com/s/9OmspcRviChpLVkpxPSz9A">IBM低调发布革命性计算架构,竟可在内存上运行AI应用,“人工大脑三部曲”已进入第二阶段? | DeepTech</a><br /><br>简评:10 月 24 日,IBM 研究人员实现了在内存计算技术上的一次重大突破。他们宣布发明了一种可以运行在 100 万个相变内存(Phase Change Memory,PCM 设备)上的无监督式机器学习算法,并且成功地在一系列未知数据流中发现了时间相关性。</li><li><a href="http://weibo.com/ttarticle/p/show?id=2309351000224168440511394574">2017安博会首日观感:以 AI 为界,安防三分天下 | 雷锋网</a> <br /><br>简评:传统思维模式下的安防软件是作为硬件产品附属品出现的,但从行业发展来看,硬件是安防行业的基础,而软件则决定着安防行业未来发展趋势。在这条发展之路上,AI可以说是安防的绝佳着陆场。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1710.09829] <a href="https://arxiv.org/abs/1710.09829">Dynamic Routing Between Capsules</a> [<a href="https://www.zhihu.com/question/67287444">知乎</a>] [<a href="http://weibo.com/ttarticle/p/show?id=2309351000224167750573542463&u=1402400261&m=4167746733983354&cu=1181564472&ru=1402400261&rm=4167681823086814">雷锋网</a>] [<a href="https://mp.weixin.qq.com/s/00UAn7m_yeYld-s60NFA8A">译文</a>]<br /><br>简评:本论文所研究的胶囊意为一组神经元,其激活向量反映了某类特定实体(可能是整体也可能是部分)的表征。本论文使用激活向量的模长来描述实体存在的概率,用激活向量的方向表征对应实例的参数。某一层级的活跃胶囊通过矩阵变换做出预测,预测结果会用来给更高层级的胶囊提供实例参数。当多个预测值达成一致时,一个高层级的胶囊就会被激活。论文中展示了差异化训练的多层胶囊系统可以在MNIST上达到当前最高水平的表现,在识别高度重叠的数字上也要比卷积网络要好得多。网络的实现中运用迭代的一致性路由机制:当低层级的胶囊的预测向量和高层级胶囊的激活向量有较大的标量积时,这个低层级胶囊就会倾向于向高层级胶囊输出。</li><li>[1703.09039v2] <a href="https://arxiv.org/abs/1703.09039v2">Efficient Processing of Deep Neural Networks: A Tutorial and Survey</a> <br /><br>简评:本文既是一篇带有Tutoroal性质的概述。主要介绍了在设计DNN的架构时主要考虑的因素、评估不同的硬件实现的性能、硬件架构和平台之间的考虑以及最近的发展趋势。</li><li>[1710.09282] <a href="https://arxiv.org/abs/1710.09282">A Survey of Model Compression and Acceleration for Deep Neural Networks</a> [<a href="https://mp.weixin.qq.com/s/GFE2XYHZXPP0doQ5nd0JNQ">译文</a>] <br /><br>简评:本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/PavlosMelissinos/enet-keras">PavlosMelissinos/enet-keras: A keras implementation of ENet (work in progress)</a> [<a href="https://arxiv.org/abs/1606.02147">paper</a>]<br /><br>简评:This is an implementation of ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation, ported from ENet-training (lua-torch) to keras.</li><li><a href="https://github.com/senlinuc/caffe_ocr">senlinuc/caffe_ocr: 主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构</a><br /><br>简评:caffe_ocr是一个对现有主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC的识别架构,并在数据准备、网络设计、调参等方面进行了诸多的实验。代码包含了对lstm、warp-ctc、multi-label等的适配和修改,还有基于inception、restnet、densenet的网络结构。代码是针对windows平台的,linux平台下只需要合并相关的修改到caffe代码中即可。</li><li><a href="https://github.com/plaidml/plaidml">plaidml/plaidml: PlaidML is a framework for making deep learning work everywhere.</a> [<a href="http://vertex.ai/blog/announcing-plaidml">ref</a>]<br /><br>简评:PlaidML:致力于跨平台开发部署的开源高性能深度学习框架,Mac上也可实现加速深度学习!</li><li><a href="https://github.com/TuSimple/mx-maskrcnn">TuSimple/mx-maskrcnn: A MXNet implementation of Mask R-CNN</a> [<a href="https://arxiv.org/abs/1703.06870">paper</a>]<br /><br>简评:使用MXNet框架实现的Mask RCNN,这个Mask RCNN的实现过程的大部分参考了mx-rcnn这个项目。<br>This repository is based largely on the mx-rcnn implementation of Faster RCNN available</li><li><a href="https://github.com/bruinxiong/xception.mxnet">bruinxiong/xception.mxnet: A MXNet implementation of Xception</a> [<a href="https://arxiv.org/abs/1610.02357v2">paper</a>]<br /><br>简评:Xception的MXNet实现。</li><li><a href="https://github.com/bruinxiong/SENet.mxnet">bruinxiong/SENet.mxnet: A MXNet implementation of Squeeze-and-Excitation Networks (SE-ResNext, SE-Resnet)</a> [<a href="https://arxiv.org/abs/1709.01507">paper</a>]<br /><br>简评:使用MXNet实现的SE-ResNeXt、SE-ResNet网络。Jie Hu等人用该网络结构赢得了2017年的ImageNet图像分类比赛。</li><li><a href="https://github.com/kuangliu/pytorch-fpn">kuangliu/pytorch-fpn: Feature Pyramid Networks in PyTorch</a> [<a href="https://arxiv.org/abs/1612.03144">paper</a>]<br /><br>简评:使用PyTorch实现的特征金字塔网络。</li><li><a href="https://github.com/mind/wheels">mind/wheels: Performance-optimized wheels for TensorFlow (SSE, AVX, FMA, XLA, MPI)</a><br /><br>简评:为TensorFlow专门优化的版本,其中主要优化手段包括:SSE、AVX、FMA、XLA和MPI等。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://air-measure.com/">Air Measure™ | The AR Measuring ToolKit</a> [<a href="https://www.youtube.com/watch?v=XyrBtaeVvTs">video</a>]<br /><br>简评:AR的隔空测距技术可以有很多应用,这里的一个小视频就是在停车倒库移库上的应用。</li><li><a href="https://mp.weixin.qq.com/s/mkzw1eehPpTaNX5_V1NNSw">All of Apple’s Face-Tracking Tech Behind the iPhone X’s Animoji | WIRED</a> [<a href="https://www.wired.com/story/all-the-face-tracking-tech-behind-apples-animoji/">英文原文</a>]<br /><br>简评:苹果 Animoji 表情背后:面部识别技术如何一步步进化的?</li><li><a href="https://www.zhihu.com/question/49455386">为什么SSD(Single Shot MultiBox Detector)对小目标的检测效果不好 | 知乎</a><br /><br>简评:贴一个回答的部分:SSD是一种基于全卷积的网络的检测器,用不同层检测不同大小的物体。这中间有个矛盾,前面的featmap大,但semantic不够,后面的sematic够了,但经过太多的pooling,featmap太小了。要检测小物体,既需要一张足够大的featmap来提供更加精细的特征和做更加密集的采样,同时也需要足够的semantic meaning来与背景区分开。</li><li><a href="https://medium.com/@julsimon/building-fpga-applications-on-aws-and-yes-for-deep-learning-too-643097257192">Building FPGA applications on AWS — and yes, for Deep Learning too | Medium</a><br /><br>简评:现场可编程门阵列(FPGA)不是闪亮的新技术,第一个商业产品可以追溯到1985年。然而今天,我们将这四十年前的东西和前沿的深度学习结合起来了。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-10-17@Bi-weekly</title>
<link href="/2017/10/17/bi-weekly/2017-10-17/"/>
<url>/2017/10/17/bi-weekly/2017-10-17/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-10-17"><a href="#嵌入式AI-双周简报-2017-10-17" class="headerlink" title="嵌入式AI 双周简报 (2017-10-17)"></a>嵌入式AI 双周简报 (2017-10-17)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://hpcchina2017.csp.escience.cn/dct/page/1">2017全国高性能学术年会 | 中国计算机学会</a><br /><br>简评:HPC CHINA 2017 开幕在即,欢迎来澎峰科技的展台来玩,也欢迎来参加10月21日(第三天)上午的深度学习分论坛!</li><li><a href="https://www.nextplatform.com/2017/10/02/intel-gears-fpga-push/">Intel Gears Up For FPGA Push | Timothy Prickett Morgan</a><br /><br>简评:看英特尔如何发力 FPGA。从应用最广泛的 Xeon 系列到支持大多数数据中心的 Knights 系列以及转为深度学习推理加速的STRATIX FPGA系列,再到支持训练和推断的 Crest 家族系列。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1508207164&src=3&ver=1&signature=LD5Gs4d3SbEX9*Uh66q0yJL9-tR0nxFEOVOuHZQ170t9jdtwgVNSValwLHh6YOnY7mkcLyWYUA2jruym*YEfVswPVPkTAZtgUZYV8WvpXWEdDGYg0OgC20RWFqhX52p33JxNfiW02GEruDZn7DTY30NFFW6bNV3qt45E77Cxqz8=">华为Mate10 AI技术全盘点:专访华为软件工程部副总裁张宝峰 | 新智元</a><br /><br>简评:余承东在慕尼黑发布了携带华为首款人工智能手机芯片——麒麟970的 HUAWEI Mate 10 系列。余承东认为:比 Mate 10 系列比 iPhone X 的人脸解锁更好,得益于 HiAI 移动计算架构,其 NPU(Neural Network Processing Unit)专用硬件处理单元赋能的摄像头能够智能识别多达13种场景和物体,从而根据对象的特点和属性自动调节参数设置,用更聪明的算法进行拍摄。此外,在电量、屏占比、厚度等方面全面对标 iPhone X。</li><li><a href="https://mp.weixin.qq.com/s/kBDJ3lEj-JQDpNzvw6aV1Q">共筑开放AI生态:ONNX模型标准得到华为、英特尔等更多厂商支持</a><br /><br>简评:前不久继Facebook、微软联合推出 ONNX 标准,号称要解决开发框架碎片化后,更多厂商愿意支持。早前,Microsoft Cognitive Toolkit、PyTorch 和 Caffe2 均已宣布支持 ONNX。而就在今天,AMD、ARM、华为、IBM、英特尔、高通同时宣布支持 ONNX。</li><li><a href="http://www.tvmlang.org/2017/10/06/nnvm-compiler-announcement.html">NNVM Compiler: Open Compiler for AI Frameworks | tvmlang</a> [<a href="https://mp.weixin.qq.com/s/qkvX0rmEe0yQ-BhCmWAXSQ">blog</a>]<br ><br>简评:陈天奇:我们今天发布了基于TVM工具链的深度学习编译器 NNVM compiler。支持将包括mxnet,pytorch,caffe2, coreml等在内的深度学习模型编译部署到硬件上并提供多级别联合优化。速度更快,部署更加轻量级。 支持包括树莓派,服务器和各种移动式设备和 cuda, opencl, metal, javascript以及其它各种后端。欢迎对于深度学习,编译原理,高性能计算,硬件加速有兴趣的同学一起加入dmlc推动领导开源项目社区。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://purl.stanford.edu/qf934gh3708">Efficient Methods and Hardware for Deep Learning | Stanford Digital Repository</a> [<a href="https://stacks.stanford.edu/file/druid:qf934gh3708/EFFICIENT%20METHODS%20AND%20HARDWARE%20FOR%20DEEP%20LEARNING-augmented.pdf">paper</a>]<br /><br>简评:Song Han的博士论文,不久前他获得斯坦福大学博士学位,一直致力于energy-efficient deep learning、机器学习和计算机架构的交叉领域,他曾提出的 Deep Compression 在不损失预测精度的前提下大幅压缩模型。同时参与设计了 EIE 项目(Efficient Inference Engine:a hardware architecture that can perform inference directly on the compressed sparse model, which saves memory bandwidth and results in significant speedup and energy saving)。 </li><li>[1710.02224] <a href="https://arxiv.org/abs/1710.02224">Dilated Recurrent Neural Networks</a><br /><br>简评:众所周知,递归神经网络(RNNs)长序列的训练是一个艰巨任务。三个主要挑战:1)提取复杂的依赖关系;2)梯度消失和爆炸;3)高效并行化。作者介绍一种简单而有效的RNN连接结构:Dilated RNN,同时解决这些挑战。该结构特点是多分辨率dilated递归skip connection,并且可以与不同的RNN单元灵活组合。此外,dilated RNN显著减少了参数数量并提高训练效率,(即使有传统RNN单元的情况下)也能达到state-of-the-art的performance。最后作者详尽地论述提出的Dilated RNN比其他RNN架构的优势。</li><li>[1710.02254] <a href="https://arxiv.org/abs/1710.02254">Lattice Recurrent Unit: Improving Convergence and Statistical Efficiency for Sequence Modeling</a> [<a href="https://github.com/chahuja/lru">code</a>]<br /><br>简评:RNN在资源不足的情况下泛化性能弱。作者引入了称为晶格循环单元(LRU)的结构,以解决有限资源学习深层多层次复用模型的问题。作者与Grid-LSTM和Recurrent Highway网络相比,在四个公开数据集上的研究结果表明:LRU计算收敛率和统计效率值,同时语言模型的表达更准确。</li><li>[1710.01992] <a href="https://arxiv.org/abs/1710.01992">Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks</a><br /><br>简评:卷积神经网络展示了对单一图像超分辨率高质量的重建效果。然而,现有方法往往需要大量的网络参数和需要大量计算负载以生成高精度超分辨率结果。作者提出了拉普拉斯算子金字塔超分辨率网络:在多个水平上网络逐步重建高分辨率图像。与现有方法相比,仅需低计算负载。此外作者利用在金字塔内的递归层以及共享参数,大大减少了参数数量。</li><li>[1710.01878] <a href="https://arxiv.org/abs/1710.01878">To prune, or not to prune: exploring the efficacy of pruning for model compression</a><br /><br>简评:作者探索模型剪枝的必要性,对同一个大模型分别剪枝成大而稀疏和小而稠密的模型,经测试(CNN,Stacked LSTM,C2C LSTM)发现稀疏大模型始终优于稠密模型,实现了在最小精度的损失下,减少了10倍的参数。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/wichtounet/dll">wichtounet/dll: Deep Learning Library (DLL) for C++ (ANNs, CNNs, RBMs, DBNs…)</a> [<a href="https://baptiste-wicht.com/posts/2017/10/deep-learning-library-10-fast-neural-network-library.html">blog</a>]<br /><br>简评:C++高性能深度学习库,类似keras,也是作者毕业论文的产物之后维护至今。</li><li><a href="https://github.com/wkentaro/labelme">wkentaro/labelme: Image Annotation Tool with Python</a><br /><br>简评:Python图像可视化标记工具,支持分类图像检测和分割数据的标注。</li><li><a href="https://github.com/r4ghu/iOS-CoreML-Yolo">r4ghu/iOS-CoreML-Yolo: Almost Real-time Object Detection using Apple’s CoreML and YOLO v1</a> [<a href="https://sriraghu.com/2017/07/12/computer-vision-in-ios-object-detection/">blog</a>]<br /><br>简评:iOS平台CoreML/YOLO(v1)近实时目标检测。</li><li><a href="https://github.com/foolwood/benchmark_results">foolwood/benchmark_results: visual tracker benchmark results</a><br /><br>简评:各种跟踪算法的benchmark。</li><li><a href="https://github.com/mikesart/gpuvis">mikesart/gpuvis: GPU Trace Visualizer</a><br /><br>简评:Gpuvis Linux GPU分析器是一个类似于在Windows系统上的GPUView。它旨在与trace-cmd捕获和帮助追踪Linux gpu和应用程序的性能问题。</li><li><a href="https://github.com/Microsoft/EdgeML">Microsoft/EdgeML: This repository provides code for machine learning algorithms for edge devices developed at Microsoft Research India.</a><br /><br>简评:这个库包含两个算法 Bonsai 和 ProtoNN。这两个算法在训练传统监督学习问题时所需内存数量低于其他现代ML算法。训练模型可以装配到移动设备如物联网设备/传感器,并可完全离线地用于快速且准确的预测。</li><li><a href="https://github.com/peisuke/DeepLearningSpeedComparison">peisuke/DeepLearningSpeedComparison: This repository is test code for comparison of several deep learning frameworks.</a> [<a href="https://www.slideshare.net/FujimotoKeisuke/deep-learning-framework-comparison-on-cpu">blog</a>]<br /><br>简评:CPU端热门深度学习框架的速度比较。</li><li><a href="https://github.com/salesforce/pytorch-qrnn">PyTorch implementation of the Quasi-Recurrent Neural Network - up to 16 times faster than NVIDIA’s cuDNN LSTM’ | Salesforce </a><br /><br>简评:@schelotto: 简单说一下,LSTM训练速度很慢的原因是backprop时三个gate以及memory cell都依赖于上一个时间点的预测,因此是无法并行的。quasi RNN取消了gate的时间依赖,并采用Highway-net的残差链接有选择性的更新hidden layer,从而大大加快了训练速度。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://www.bilibili.com/video/av15126749/">Small Deep Neural Networks - Their Advantages, and Their Design | Forrest Iandola, Kurt Keutzer</a><br /><br>简评:视频来自<a href="https://www.youtube.com/watch?v=AgpmDOsdTIA">youtube</a>,由来自微软的的印度小哥讲解。</li><li><a href="https://mp.weixin.qq.com/s/H1jqzp_tkEaeJNP1TQe9dg">小鱼在家首席音频科学家邓滨:人工智能硬件设备中的语音前处理技术研究 | 将门创投</a><br /><br>简评:小鱼在家首席音频科学家邓滨分享“人工智能硬件设备中的语音前处理技术研究”的内容回顾,主要探讨了语音前处理技术在人工智能硬件设备上所能发挥的作用,以及其不可替代的重要意义。</li><li><a href="https://devblogs.nvidia.com/parallelforall/mixed-precision-training-deep-neural-networks/">Mixed-Precision Training of Deep Neural Networks | Parallel Forall</a> [<a href="https://arxiv.org/abs/1710.03740">paper</a>]<br /><br>简评:这篇博客来自NVIDIA,讨论了混合精度对训练的影响,实验表明带尺度缩放的混合精度甚至能提升准确率(相比仅使用一种精度而言,如FP32)。</li><li><a href="https://medium.com/towards-data-science/creating-an-ios-app-with-core-ml-from-scratch-b9e13e8af9cb">Creating an IOS app with Core ML from scratch! | Gerardo Lopez Falcón</a><br /><br>简评:从头开始搭建基于Core ML的IOS app。</li><li><a href="https://medium.com/initialized-capital/investing-in-the-future-of-retail-with-standard-cognition-ffdd03fafd10">Investing in the future of retail with Standard Cognition</a><br /><br>简评:Standard Cognition正预打造未来的零售体验,和Amazon Go的设想一样:购买完商品离开商店会自动支付,该技术使用计算机视觉、深度学习以及传感器融合等技术,彻底跳过传统收银结帐的过程。</li><li><a href="https://devblogs.nvidia.com/parallelforall/training-self-driving-vehicles-challenge-scale/">Training AI for Self-Driving Vehicles: the Challenge of Scale | Parallel Forall</a><br /><br>简评:自驾车辆AI训练:规模化挑战。</li><li><a href="https://mp.weixin.qq.com/s/dOvwoVZHnl2ElXF2Uu8mgw">自动驾驶的未来全靠它!揭秘固态激光雷达创业江湖 | 智东西</a><br /><br>简评:主流观点认为,激光雷达已经成为自动驾驶不可或缺的关键传感器。市场上,Velodyne 64线的激光雷达“一达难求”,加价到10万美金也有公司照收不误。然而,这个旋转的大花盆正在迎来有力的竞争们——那些想让激光雷达不用转动的公司,正在悄然掀起一场固态激光雷达的暗战。</li><li><a href="https://blog.prototypr.io/behind-the-magic-how-we-built-the-arkit-sudoku-solver-e586e5b685b0">Behind the Magic: How we built the ARKit Sudoku Solver | Brad Dwyer</a><br /><br>简评:ARKit数独解谜App的魔法背后是如何开发的。</li><li><a href="https://www.wired.com/story/plant-ai">Phone-Powered AI Spots Sick Plants With Remarkable Accuracy | WIRED</a><br /><br>简评:智能手机AI应用帮农户检测植物病害。</li><li><a href="https://magenta.tensorflow.org/performance-rnn-browser">Real-time Performance RNN in the Browser | Curtis Hawthorne</a><br>[<a href="https://deeplearnjs.org/demos/performance_rnn/index.html#2|2,0,1,0,1,1,0,1,0,1,0,1|1,1,1,1,1,1,1,1,1,1,1,1|1,1,1,1,1,1,1,1,1,1,1,1|0">demo</a>]<br /><br>简评:浏览器里的实时Performance RNN钢琴协奏Demo。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-10-03@Bi-weekly</title>
<link href="/2017/10/03/bi-weekly/2017-10-03/"/>
<url>/2017/10/03/bi-weekly/2017-10-03/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-10-03"><a href="#嵌入式AI-双周简报-2017-10-03" class="headerlink" title="嵌入式AI 双周简报 (2017-10-03)"></a>嵌入式AI 双周简报 (2017-10-03)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://mp.weixin.qq.com/s/K3bRztfIO-PRh-XtrYPYGA">黄教主的开源NVDLA,“核”爆还是“核”平? | 矽说</a> [<a href="http://nvdla.org/">项目主页</a>]<br /><br>简评:risc-v的开源,dla的开源,硬件开源化也成为一大趋势。此次推出的开源DLA计划,彻底推翻GPU架构,重新定义了加速器架构,还能展现NV家优势么?</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005362&idx=1&sn=2159cde5b7bd4094dfead7bead49a6a1&chksm=f1211703c6569e15a95c02da74bcab4b960491864e35a1d7526784b404b12b6a73ac70672439&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">黄仁勋北京演讲:GPU帝国启幕,发布可编程AI 推理加速器TensorRT 3 | 新智元</a><br /><br>简评:NVIDIA发布TensorRT 3(支持众多深度学习框架),基于Tesla V100的HGX-1加速器,Volta架构的新一代终端芯片Xavier。</li><li><a href="https://www.intelnervana.com/neon-2-1/">neon v2.1.0: Leveraging Intel® Advanced Vector Extensions 512 (Intel® AVX-512) | Intel Nervana</a><br /><br>简评:neon 2.1版发布:加入对高级向量扩展(Intel AVX-512)的支持。同时,neon 2.1使用新版MKL-DNN,对Xeon处理器和即将发布的Xeon Phi协处理器做了特别优化。新版neon自动使用AVX-512指令来加速卷积,内积等深度学习kernel。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731297&idx=3&sn=0df877e39b4eb42b4358f141e7fbfbe0&chksm=871b375fb06cbe49945b23e43c177ea6c5ce473aca76b47653616afaeb9717fde8128214f9f0&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">英特尔推出神经形态测试芯片Loihi:可自学习 | 机器之心</a> [<a href="http://weibo.com/tv/v/Fo2RirbSx?fid=1034:046b3221e691f94898abc00736fd3fdb">video</a>]<br /><br>简评:芯片巨头英特尔的研究实验室开发出一种新型芯片,即Intel Loihi测试芯片。该芯片由128个计算核心组成,每个核心有1024个人工神经元,整个芯片共有超过13万个神经元和1.3亿个突触连接。</li><li><a href="https://www.imgtec.com/blog/why-the-powervr-2nx-nna-is-the-future-of-neural-net-acceleration">Why the PowerVR 2NX NNA is the future of neural net acceleration | Imagination Technologies</a><br /><br>简评:上个星期PowerVR在其发展史上新增一项全新IP产品——硬件神经网络加速器:“PowerVR 2NX”。其命名为神经网络加速器(NNA),它能够提供全面的硬件解决方案,支持多种神经网络模型和架构以及机器学习框架,比如谷歌公司推出的TensorFlow和Caffe,具有行业领先的性能和低功耗特性。</li><li><a href="https://www.zhihu.com/question/65816648">如何评价百度刚刚开源的mobile-deep-learning | 知乎</a> [<a href="https://github.com/baidu/mobile-deep-learning">code</a>]<br /><br>简评:贾扬清在回答中给出了一些移动端网络优化的思路,百度的同学主要用了Metal、neon等优化手段,该框架编译后体积达300+kb,但目前支持的层还比较少。在实现思路上,MDL当然也包括NCNN在内,都借鉴了caffe。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650731455&idx=2&sn=3c80cc9088e870d44fa3de2994f72382&chksm=871b37c1b06cbed77b2055ebee7987007470f0f049b5a0bb93968ee1a02fc851ba50aa1e12b4&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">MATLAB更新R2017b:转换CUDA代码极大提升推断速度 | 机器之心</a><br /><br>简评:在嵌入式平台部署上比较值得关注的地方:一是使用GPU Coder可将MATLAB的模型代码转换为CUDA代码方便嵌入式设备部署,二是嵌入式部署的模型比Caffe2快4.5倍,比TensorFlow快7倍,期待更具体的Benchmark和实现策略!</li><li><a href="https://mp.weixin.qq.com/s/FAxOYR3i-W2FqRbymqD5uw">精确度达30cm,这款超精准GPS芯片将在2018年“空降”智能手机 | DeepTech深科技</a> [<a href="https://spectrum.ieee.org/tech-talk/semiconductors/design/superaccurate-gps-chips-coming-to-smartphones-in-2018">英文原文</a>]<br /><br>简评:Broadcom 宣布,它正在对一款面向大众市场的新型芯片进行采样测试,该芯片可以利用全球导航卫星信号,并将为下一代智能手机提供 30 厘米的精确度,远超现在的 5 米精确度。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MjM5ODgxNTk4Mw==&mid=2689910611&idx=1&sn=a7821a9ff6c856cb2261bf49676a3f20&chksm=836496d3b4131fc5a896e244d71e85ded0347954db2e049ab954e8fbf0b42a91204aaf01fb0d&mpshare=1&scene=1&srcid=0928G5PHKRgshI3hgdksQFIA&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">特斯拉捅翻了马蜂窝!自动驾驶芯片战争爆发 | Origin 车东西</a><br /><br>简评:英特尔豪掷320亿美元买了入场券;英伟达狂发计算平台刷新性能上限;高通立足5G苦等470亿美元的恩智浦。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005319&idx=2&sn=83a6697392fdbce0e3f9fb14741e99ff&chksm=f1211736c6569e207273a6c6da57c4b315a9e72ea0a483161f6ffdfefcacbc1b34d47f22d62f&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">华为回应NPU IP归属问题,麒麟970全面对标iPhone8 Plus | 新智元</a><br /><br>简评:2017年麒麟芯片媒体沟通会今天上午在北京举行,这是华为海思首次正式对外进行麒麟970芯片的深度解读。沟通会上,华为Fellow艾伟回应了关于“麒麟970的NPU是寒武纪的IP”的问题。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652005362&idx=2&sn=c66836e3f0f76eeba620fa9b30652124&chksm=f1211703c6569e15596b66c9122325a52e2302da84572d62e338869670bd07ef6f4f0f03abbd&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">景驰科技完成Pre-A轮5200万美元融资, 启明创投,英伟达投资 | 新智元</a><br /><br>简评:有一家今年4月刚刚成立的自动驾驶初创企业,备受业界关注,却很少对外发声。它的名字是景驰科技,业界对它的关注首先来自其几位重量级创始人:前百度高级副总裁、自动驾驶事业部总经理王劲担任CEO;前百度自动驾驶事业部首席科学家韩旭担任CTO;前Velodyne CFO Qing Lu担任CFO。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://arxiv.org/abs/1709.09161">[1709.09161] EDEN: Evolutionary Deep Networks for Efficient Machine Learning</a> [<a href="https://vimeo.com/234510097">video</a>]<br /><br>简评:寻找高效的模型架构和超参数没有一个指导,作者将离散型变量如激活函数的类型等网络层,以及连续型的超参数如学习率作为参数,通过传统的遗传算法来寻找最佳模型结构和超参数。</li><li><a href="https://arxiv.org/abs/1709.07566">[1709.07566] Smart Mirror: Intelligent Makeup Recommendation and Synthesis</a><br /><br>简评:人像美颜通常都有比较专业的编辑软件,作者提出一个自动化且个性化的美颜化妆系统。用一个模型描述脸部特征和推荐妆容间关系,推荐妆容就可以自然地合成到输入的脸部图像上了。</li><li><a href="https://arxiv.org/abs/1709.07626">[1709.07626] BreathRNNet: Breathing Based Authentication on Resource-Constrained IoT Devices using RNNs</a><br /><br>简评:作者研究了使用RNN进行基于呼吸声(breathing acoustics)的端到端认证系统的可行性,并在三种设备(智能手机、智能手表、树莓派)上测试性能,表示该认证系统可以轻松移植到资源有限的设备上(不会造成严重精度损失)。</li><li><a href="https://arxiv.org/abs/1709.06622">[1709.06622] Distributed Training Large-Scale Deep Architectures</a><br /><br>简评:本文关注分布式平台上深度学习的训练加速。作者先从以往常规测试中确定在单卡、多卡、多机时数据并行的瓶颈和间接开销,提出一个针对分布式应用以减少通信开销为目的,用于估计服务器数量的公式和一些加速训练过程的指导性意见。</li><li><a href="https://arxiv.org/abs/1709.06053">[1709.06053] Coupled Ensembles of Neural Networks</a><br /><br>简评:本文算是模型集成的一个应用。将多个单独小卷积网络作为并行分支以组成一个大网络,好处有三:减少参数数量;精度明显提升;速度基本维持。毕竟分支的使用就是一种正则,在此基础上作者提出训练过程中,在SoftMax层前的操作放置一个融合平均层(fuse layer)可以大大提高精度。使用这种分支和方法的架构称为“coupled ensembles”,该方法具有通用性可以用于几乎所有DCNN架构,作者实验了不同参数规模下的DenseNet-BC结构,在2500万总参数规模下,CIFAR-10、CIFAR-100和SVHN数据集上的错误率分别达到2.92%、15.68%和1.50%。</li><li><a href="https://arxiv.org/abs/1709.05804">[1709.05804] Minimal Effort Back Propagation for Convolutional Neural Networks</a><br /><br>简评:本文关注反向传播的梯度更新的加速。作者提出仅计算完整梯度的一部分来更新模型参数,在卷积网络上的实验,仅使用5%的梯度模型仍然能达到相同的性能甚至更好。另外,作者还发现用top-k的梯度来更新参数,可以更高效地实现稀疏反向传播。</li><li><a href="https://arxiv.org/abs/1709.06994">[1709.06994] Structured Probabilistic Pruning for Deep Convolutional Neural Network Acceleration</a><br /><br>简评:作者提出一种相比传统剪枝方法,更加考虑训练过程中权重的重要性的剪枝方法(突出重要权重和消除不重要权重):条件概率剪枝(Structured Probabilistic Pruning)。实验表明在ImageNet-2012验证集上对AlexNet网络剪枝,top-5错误率增加1.3%的情况下,可使卷积层的速度加快4到8.9倍(平均5.8倍),同时作者还验证了该方法使用AlexNet在迁移学习上的有效性。</li><li><a href="https://arxiv.org/abs/1709.06030">[1709.06030] N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning</a><br /><br>简评:作者提出用策略梯度强化学习来做模型压缩。首先拿一个大的网络做为teacher网络作为输入,输出一个压缩后的student网络(源自teacher网络)。第一阶段,一个递归策略网络会对teacher网络侵略性地移除一些层,第二阶段会有另一个递归策略网络会小心翼翼地再对留下的层进行尺寸上的减小。剩下的网络会被评估并得到一个基于该网络准确率和相比原始网络的压缩比例的分数,也是就是reward。作者就是用该reward来训练policies最终得到最佳的student网络。作者实验了ResNet-34,在维持精度下模型缩小了10倍以上,同时在得到的网络上拿来做迁移学习也得到了不错的结果。</li><li><a href="https://arxiv.org/abs/1709.05943">[1709.05943] Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video</a><br /><br>简评:YOLOv2在速度和精度上都有提升,尽管YOLOv2在检测上达到实时,但需要一颗强大的GPU做后援,在嵌入式等内存有限的设备仍很吃力,作者基于YOLOv2使用进化算法提出名为Fast YOLO的新架构,精度(IOU)上有2%的损失,参数数量减少2.8倍。作者又提出运动自适应inference方法,基于时间运动特性来进一步减少推理频率,在Nvidia Jetson TX1嵌入式系统上Fast YOLO可以达到18FPS的实时性能。</li><li><a href="https://arxiv.org/abs/1709.05011">[1709.05011] 100-epoch ImageNet Training with AlexNet in 24 Minutes</a><br /><br>简评:作者提出当前训练DNN的瓶颈在于算法层面(说白了就是batch size太小如512,不足以充分用好大量处理器)。对于大规模的DNN训练,作者关心在给定epochs数目不损失精前提下,数据并行中使用大batch的同步SGD。受到前阵子LARS算法和Facebook一小时训练ImageNet的启发,作者用AlexNet在24分钟训练100个epoch的壮举,此外又在一小时内对ResNet-50训练90个epoch。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/reiinakano/fast-style-transfer-deeplearnjs">deeplearn.js style transfer</a> [<a href="https://reiinakano.github.io/fast-style-transfer-deeplearnjs/">demo</a>]<br /><br>简评:使用deeplearn.js框架进行风格迁移的实例代码,附属演示demo。</li><li><a href="https://www.adrianbulat.com/binary-cnn-landmarks">Binarized Convolutional Landmark Localizers for Human Pose Estimation and Face Alignment with Limited Resources | Adrian Bulat</a> [<a href="https://github.com/1adrianb/binary-face-alignment">code</a>] [<a href="https://arxiv.org/abs/1703.00862">paper</a>]<br /><br>简评:二值化卷积网络在嵌入式设备上的人体姿态估计和人脸对齐应用,两个模型大小分别是1.3MB、1.4MB,模型和代码开源。</li><li><a href="https://github.com/fregu856/2D_detection">fregu856/2D_detection: TensorFlow implementation of SqueezeDet, trained on the KITTI dataset.</a><br /><br>简评:作者基于TensorFlow的官方SqueezeNet模型,在KITTI数据集上实现用SqueezeNet的检测模型。</li><li><a href="https://github.com/sagar448/Self-Driving-Car-3D-Simulator-With-CNN">sagar448/Self-Driving-Car-3D-Simulator-With-CNN: Implementing a self driving car using a 3D Driving Simulator. CNN will be used for training</a><br /><br>简评:快来训练自己的CNN自动驾驶模型吧!</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?timestamp=1506823063&src=3&ver=1&signature=Gdy-nKe1o1DmbeI6I53eJ7ePAyWBZcPOcswSFlR49-3UBG61HLZqa9oE14*quIRjuKmIqQY17L7QyaFleCyRrbD*gDv0z*mZyCVHPWm8lu7EMrSWAGEaQOU4m1JBfJBozYFZstpb82FaE1hyjCZ74hNJyZ*kI09xcOBm7mJQT4g=">揭秘支付宝中的深度学习引擎:xNN | 阿里技术</a><br /><br>简评:本文介绍支付宝App中的深度学习引擎——xNN。xNN通过模型和计算框架两个方面的优化,解决了深度学习在移动端落地的一系列问题。xNN的模型压缩工具 (xqueeze) 在业务模型上实现了近50倍的压缩比, 使得在包预算极为有限的移动App中大规模部署深度学习算法成为可能。xNN的计算性能经过算法和指令两个层面的深度优化,极大地降低了移动端DL的机型门槛。</li><li><a href="https://mp.weixin.qq.com/s/A3zniHGsubiOoyOvfVcDAw">深度学习只能用实数?凭什么不能用复数?! | 机器人圈</a> [<a href="https://medium.com/intuitionmachine/should-deep-learning-use-complex-numbers-edbd3aac3fb8">英文原文</a>]<br /><br>简评:在深度学习架构中使用复值确实有很多“真正的”优势。研究表明,跨层梯度信息的传播更加强大,更高的记忆容量,更精确的遗忘行为,大幅降低序列的网络大小以及提高GAN训练中的稳定性。</li><li><a href="https://zhuanlan.zhihu.com/p/29435406">浅析 Hinton 最近提出的 Capsule 计划 | 知乎专栏</a><br /><br>简评:Hinton近几年以 “卷积神经网络有什么问题?” 为主题做了多场报道,提出了他的Capsule计划。</li><li><a href="https://mp.weixin.qq.com/s/pdv-T69rz4jO47CMf-CUhg">“信息瓶颈”理论揭示深度学习本质 | 新智元</a> [<a href="https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/">英文原文</a>]<br /><br>简评:希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做“信息瓶颈”的理论,该理论认为,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一般,去除噪音输入,只保留与通用概念最相关的特征。</li><li><a href="https://instinct.radeon.com/en/introducing-radeon-instinct/">Introducing Radeon Instinct: The Fusion of Human Instinct and Machine Intelligence | RADEON INSTINCT</a><br /><br>简评:本文副标题是:AMD’s Open Source Deep Learning Strategy。探讨了AMD深度学习的开源策略,并解释了AMD ROCm计划在加速深度学习方面的优势。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MDQ2MjA3OA==&mid=2247484055&idx=1&sn=fe9cfbe984510abe4e902c994bcb6097&chksm=ead1ff86dda67690c97fa01e67ed111a558ab04fbc31b2369af125b60ce7e1783cc57c7b774d&mpshare=1&scene=1&srcid=0525e1INuCTINEUEngTsQrsT&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">神经网络DSP核的一桌麻将终于凑齐了 | 唐杉 StarryHeavensAbove</a><br /><br>简评:随着VeriSilicon和Cadence相继发布支持AI(神经网络)的DSP IP,加上CEVA和Synopsys,几家主流DSP IP厂商全部粉墨登场。之前的系列文章“处理器IP厂商的机器学习方案”中已经介绍了CEVA和Synopsys的方案。今天看看VeriSilicon和Cadence的方案吧。</li><li><a href="https://www.zhihu.com/question/19575198">AR 增强现实技术在移动端有比较成熟或者比较创意/创新的应用吗 | 知乎</a><br /><br>简评:快下载一波好玩儿的APP吧!</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652004960&idx=3&sn=ef3284dd5e90c0b6751cdf3c96f69bb3&chksm=f1211691c6569f871842d9b8c131e4a5dcf4ac6f32ade193b45b94de05fb6fe71530f99abd45&scene=0&pass_ticket=rqrP6Vxa9PZoQEDHty4l/LyT8Hl0x5YUmW7OF27EHbuoBSvSV3DEBV3RHKCl27LP#rd">中信研报:AI群“芯”逐鹿,英伟达、谷歌、寒武纪等25家公司实力拆解 | CITICS电子研究</a><br /><br>简评:选自中信证券研究部电子行业研究团队报告《群芯逐鹿时代:AI未来,星辰大海——人工智能深度系列研究报告》,从技术角度全面剖析整个AI芯片市场格局及发展。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-09-19@Bi-weekly</title>
<link href="/2017/09/19/bi-weekly/2017-09-19/"/>
<url>/2017/09/19/bi-weekly/2017-09-19/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-09-19"><a href="#嵌入式AI-双周简报-2017-09-19" class="headerlink" title="嵌入式AI 双周简报 (2017-09-19)"></a>嵌入式AI 双周简报 (2017-09-19)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://mo.techweb.com.cn/smarthardware/2017-09-15/2585053.shtml">苹果A11芯片深度解析:CPU+GPU+AI火力全开 | Techweb</a><br/><br>简评:苹果A11仿生芯片内部的CPU、GPU、性能控制器、神经网络单元、ISP等这些都是苹果自己设计。那么,关于苹果这枚“智能过人”的 A11 芯片,其亮点有哪些?对未来的重要影响又在哪里呢?</li><li><a href="http://weibo.com/ttarticle/p/show?id=2309351000224151799551546525">详解苹果Face ID,将让深度摄像头成主流 | 雷锋网</a><br/><br>简评:都在说苹果iPhone X的刘海设计丑到爆,但就在这一小块区域集成了多达八个组件,Touch ID的消失,迎来的新的身份认证方式:Face ID。</li><li><a href="http://baijiahao.baidu.com/s?id=1578387767070547943&wfr=spider&for=pc">英特尔推出Myriad™ X芯片:将人工智能引入边缘计算 | 机器之心</a><br/><br>简评:英特尔收购了人工智能和计算机视觉芯片制造商 Movidius 这家初创公司(大华,大疆也都在用他家芯片)距今已有近一年的时间,收购完成后,该公司已经将其Myriad2处理器塞进了无人机、相机和u盘。今天,推出的 Myriad™ X 是全球第一个配备专用神经网络计算引擎的片上系统芯片,能够以惊人的低功耗和高性能将人工智能引入边缘计算。</li><li><a href="https://baijia.baidu.com/s?id=1578584378318698476&wfr=pc&fr=app_lst">百度云智峰会发布XPU和ABC一体机,深度对话张亚勤尹世明 | 新智元</a><br/><br>简评:“ABC 三位一体”成为本次峰会的关键词。百度云认为云计算正在从量变走向质变,ABC(AI、BigData、Cloud Computing)融合成为行业主流。会上百度云做了如下发布:XPU(云计算加速芯片);ABC 一体机、ABC-STACK(技术栈)、FPGA/GPU云服务器等代表ABC技术融合的新产品和服务框架。同时,百度云正式推出了“ABCInspire”技术标识。</li><li><a href="https://mp.weixin.qq.com/s?timestamp=1505788027&src=3&ver=1&signature=4Fthk6ObFRJ8frRE-L4vtNq0y8cF8kBcAqe5i3PVCgRUS1*F6BobbwKRTqZDqLjZMjKRwmabc4uhKJ1A4RrvDu8Til*qFS5XVEKbkpU8crQ7HCJQQmNJBcwV1uJRvLURHBKTsQieA82sm6R-dPKQm0YUTd*kVuLIXj0AAPEdiiY=">AI芯片争夺战:谷歌TPU率队,颠覆3350亿美元的半导体行业 | 新智元</a><br /><br>简评:人工智能系统的加速正在从根本上重塑着每年创造了3350亿美元的半导体行业。计算机开始认识一切,从花草到人脸,从文本到声音,以及学会开车。统治了计算机行业近半个世纪的摩尔定律正在受到挑战,计算性能的提升不再依赖于晶体管数量的增长,还有专用负载芯片产业的蓬勃。英特尔面临着英伟达、微软、苹果、谷歌等巨头以及CEVA、Eyeriss、寒武纪、华为等 AI 芯片新玩家不同方向的围攻。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li>[1709.02043] <a href="https://arxiv.org/abs/1709.02043">The Mating Rituals of Deep Neural Networks: Learning Compact Feature Representations through Sexual Evolutionary Synthesis</a><br/><br>简评:进化深度智能是近来提出的一种继承多代从而获取更高效模型架构的一种方法。受自然界启发,作者提出一种进化综合的合成策略,不是网络间的无性合成,而是通过结合两个双亲网络,合成更多样、概括性地子孙网络,从而产生更加紧凑的特征表达。</li><li>[1709.01041] <a href="https://arxiv.org/abs/1709.01041">Domain-adaptive deep network compression</a><br/><br>简评:在大数据集上训练,小数据数据集上fine-tuning是有好处的。然而,fine-tuning后的模型对新领域的小数据集而言,这个模型太大了!作者的工作就是压缩迁移学习后的大模型。作者关注基于低秩矩阵分解的压缩算法。现有的方法大都关注网络权重,忽略了网络激活值的统计特性。作者发现迁移学习后,网络激活值有大的漂移,压缩时有必要将其作为一项考量,将权重压缩视为一个秩约束回归问题(解析解)来压缩权重。作者提出的方法(Domain Adaptive Low Rank)将目标数据集领域纳入考虑,可以更优地移除权重中的冗余。VGG19的fc6层相比单纯使用截断SVD达到超过4倍的压缩,在忽略不计的准确率损失下,整体参数达到5~20%的压缩。</li><li>[1709.01427] <a href="https://arxiv.org/abs/1709.01427">Stochastic Gradient Descent: Going As Fast As Possible But Not Faster</a><br/><br>简评:本文关注学习率的调整对网络训练的加速。传统使用随机梯度下降都会有梯度平稳下降的阶段,但该过程可能会被梯度爆炸打断。一种解决方案是逐渐减缓学习率。作者基于两个统计测试来控制SGD学习率,第一个旨在快速学习的方法将归一化梯度向量的动量与随机单位向量的动量进行比较,从而适度地增加或减少学习率;第二个是改变点检测测试,旨在检测灾难性学习情况,触发则将学习率即刻减半。加速和减慢学习速度的两个能力使得所提出的方法(称为SALeRA)尽可能快地学习,但不会更快。</li><li>[1709.02755] <a href="https://arxiv.org/abs/1709.02755">Training RNNs as Fast as CNNs</a><br/><br>简评:由于RNN的复杂特性导致其难以并行化。例如,h_(t)的前向计算依赖h_(t-1)前的所有计算,这是并行化该问题的主要瓶颈。作者提出了一种替代RNN的实现,故意简化状态计算并展现更多的并行性。提出的复现单元的运行速度与卷积层一样快,比cuDNN优化的LSTM快5-10倍。作者展示了该方法在包括分类,问答,语言建模,翻译和语音识别应用中的有效性,此外给出PyTorch和CNTK的开源实现!</li><li>[1709.02260] <a href="https://arxiv.org/abs/1709.02260">Embedded Binarized Neural Networks</a> <a href="https://gitlab.com/htkung/ddnn">[code]</a><br/><br>简评:嵌入式设备上的内存资源很有限,作者研究在嵌入式设备上二值化神经网络(BNN)推理过程中的内存占用最小化,除了存储网络权重外,还需要存储网络在前向计算过程中的结果,作者在保留原始BNN结构的同时,对推理计算重新排序,对整个网络只实用一个临时的单精度浮点数。所有来自一层的中间结果都保存为二值形式,所需内存占用相比使用浮点仅为其32分之1,在有限内存(10sKB)的设备上推理低于50ms。代码开源!</li><li>[1709.01921] <a href="https://arxiv.org/abs/1709.01921">Distributed Deep Neural Networks over the Cloud, the Edge and End Devices</a><br/><br>简评:作者在分布式计算层次上提出分布式深层神经网络(DDNN),结合云,边缘终端设备的计算。在云中进行网络推理的同时,DDNN还允许使用边缘终端设备对神经网络较浅的部分进行快速局部推理。当由可扩展的分布式计算层次结构支持时,DDNN可以在神经网络的规模和范围上进行扩展。由于其分布式特性,DDNN也具有传感器融合,系统容错和数据隐私的特效。在实现DDNN时,将DNN的部分映射到分布式计算层次结构。通过联合训练这些部分,减少设备通信和资源使用。最终系统具有内置的自动传感器融合和容错支持,利用传感器的地理多样性来提高对象识别精度并降低通信成本。实验中,与传统的云端处理传感器原始数据的方法相比,DDNN在本地终端上处理大多数传感器数据的同时实现高精度,并能将通信成本降低20倍以上。</li><li>[1609.09671] <a href="https://arxiv.org/abs/1609.09671">Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks</a><br/><br>简评:不少框架都支持CPU和GPU但不支持FPGA,这项工作中作者将Caffe修改为支持FPGA的版本,可利用CNN模型在FPGA上实现图像分类,基于FPGA的特性必要时也可以对其重新编程,此外还有主机与设备之间无缝的内存事务(memory transactions)、易用的测试例子、创建流水线层的能力。验证过程中,作者在Xilinx SDAccel上实现了一个FPGA版本的Winograd卷积,FPGA层可以与主机处理器的其它层一起运行,并成功运行了AlexNet、GoogleNet、VGG等网络。在3x3卷积的基准性能可以达到50GFLOPS。</li><li>[1709.04060] <a href="https://arxiv.org/abs/1709.04060">Streamlined Deployment for Quantized Neural Networks</a><br/><br>简评:作者提出使用量化神经网络(QNN)满足内存和速度需求。但大多数指令集架构(ISA)不支持对高度量化的数据类型进行操作,作者将该过程简化,并将所有QNN推理操作转化为整数。之后,作者提供基于一次处理一位位置(位序列)的技术,以显示如何使用常规的按位操作来部署QNN。在移动端CPU上跑量化过后的AlexNet比的8位优化的基准快3.5倍。</li><li>[1709.04731] <a href="https://arxiv.org/abs/1709.04731">Binary-decomposed DCNN for accelerating computation and compressing model without retraining</a><br/><br>简评:深度卷积神经网络(DCNN)推理需要大量的内存来保存模型参数和中间计算结果,所以为了要让网络能泡在移动端设备上,必须压缩模型内存占用和加速计算。作者提出二进制分解DCNN(Binary-decomposed DCNN),而且无需对网络进行重新训练。二进制计算可使用XOR、AND等逻辑运算符快速实现。在AlexNet跑ImageNet分类中,速度提高1.79倍,模型压缩达80%,准确率降低1.20%。而使用VGG-16,速度提高2.07倍,模型压缩达81%,误差增加2.16%。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="http://dlib.net/release_notes.html">dlib C++ Library Release notes | dlib.net</a> <a href="https://www.youtube.com/watch?v=OHbJ7HhbG74">[demo]</a><br/><br>简评:新版dlib发布:深度学习多类别检测器,帧数可达到98fps,又增加相比68点人脸检测模型小10倍的5点人脸模型,速度更快等。</li><li><a href="https://kratzert.github.io/2017/09/12/introduction-to-the-numba-library.html">Introduction to the Numba library | kratzert</a> <a href="https://yq.aliyun.com/articles/210393">[译文]</a><br/><br>简评:在计算能力为王的时代,具有高性能计算的库正在被广泛大家应用于处理大数据。例如:Numpy,本文介绍了一个新的Python库——Numba, 在计算性能方面,它比Numpy表现的更好。</li><li><a href="https://github.com/marshq/europilot">europilot: A toolkit for controlling Euro Truck Simulator 2 with python to develop self-driving algorithms.</a><br/><br>简评:Euro Truck Simulator 2自驾模拟开发环境工具集。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650730755&idx=2&sn=0cba3d3b77459e033cf06c29f4c699ae&chksm=871b357db06cbc6bc93fc30f0026309611cb49cd7fa62d1b312d7ebfafafef281cd1d5d99cbb#rd">内存带宽与计算能力,谁才是决定深度学习执行性能的关键? | 机器之心</a><br/><br>简评:随着深度学习的不断发展,计算能力得到了深度学习社区越来越多的注意。任何深度学习模型,归根到底都是需要跑在设备上的,而模型对设备性能的要求越低,则能得到越多的运用——千万不能让硬件成为模型普及的瓶颈!</li><li><a href="https://blog.prismalabs.ai/diy-prisma-app-with-coreml-6b4994cc99e1">DIY Prisma app with CoreML | Prisma Labs Blog</a><br/><br>简评:WWDC2017带给我们苹果对机器学习的实际应用,CoreML框架也使得在iOS设备上部署机器模型变得更容易。在Prisma实验室,我们热爱AI,尤其是移动端AI,我们在一年前曾实现的神经网络推理框架所采用的方法,与苹果发布的非常类似。本文将会使用开源模型和CoreML框架实现一个风格化迁移APP。</li><li><a href="https://news.developer.nvidia.com/nvidia-researchers-release-trailblazing-deep-learning-based-framework-for-autonomous-drone-navigation/">NVIDIA Researchers Release Trailblazing Deep Learning-Based Framework for Autonomous Drone Navigation | NVIDIA Developer News Center</a><br/><br>简评:NVIDIA的自主移动机器人团队今天发布了一个框架使开发人员能够创建自主无人机,可以在复杂环境、没有GPS地图以及具体标识的地方导航。基于NVIDIA Jetson TX1/TX2嵌入式AI超级计算机,借助深度学习和计算机视觉实现。</li><li><a href="https://mp.weixin.qq.com/s/i-EWyn208OQRBvZz2aIu5g">解读加实战:爆款论文 SRU 在对话生成上的效果 | 程序媛的日常</a><br/><br>简评:最近有一篇爆款论文席卷了国内外社交网络,提出了可以用 CNN 的训练时间来训练“RNN”的循环神经网络结构。这篇论文就是《Training RNNs as Fast as CNNs》 by Lei Tao, Yu Zhang (ASAPP & MIT). 在读论文的同时,我们组的 JC 同学直接上手实战了一下论文作者提供的代码,并初步在对话生成的任务上得到了一定的实验结果。今天小 S 就和 JC 同学一起分享一下我们对这篇论文的解读和实战结果。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-09-05@Bi-weekly</title>
<link href="/2017/09/05/bi-weekly/2017-09-05/"/>
<url>/2017/09/05/bi-weekly/2017-09-05/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-09-05"><a href="#嵌入式AI-双周简报-2017-09-05" class="headerlink" title="嵌入式AI 双周简报 (2017-09-05)"></a>嵌入式AI 双周简报 (2017-09-05)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://www.zhihu.com/question/57283387">如何评价华为海思麒麟970处理器? | 知乎</a></br><br>简评:五个要点:CPU、GPU:重点是降功耗;ISP、DSP、Codec、协处理器;通讯基带:比「千兆 LTE」更快;10 纳米制程,比骁龙 835 还多的 55 亿个晶体管;NPU:首款内置在手机 SoC 中的人工智能芯片。 </li><li><a href="https://mp.weixin.qq.com/s/0iDVjaucRUpn2UrVBuQ-oQ">Deep Learning的IR“之争” | 唐杉 StarryHeavensAbove</a></br><br>简评:Google Tensorflow XLA (Accelerated Linear Algebra)就使用了LLVM IR(Intermediate Representation)。而它的“竞争对手”,刚刚发布的TVM/NNVM,则是“Tensor IR Stack for Deep Learning Systems”。IR是什么?为什么重要?我们一起来看看。</li><li><a href="https://mp.weixin.qq.com/s/XS_9XoQ6ZE1grmVtwJJdbA">微软揭晓 Brainwave 人工智能系统,可实现超低延迟 | DeepTech深科技</a></br><br>简评:今日,微软在 HotChips 大会上正式揭晓了 Brainwave 系统,该产品是微软加入人工智能硬件竞赛的首发产品。微软表示这款高速度、低延迟的 AI 专用芯片系统可以为机器学习开发者们提供超越 GPU 的性能。</li><li><a href="https://www.leiphone.com/news/201709/uuJFzAxdoBY7bzEL.html">一文看懂人工智能芯片的产业生态及竞争格局 | 雷锋网</a></br><br>简评:本文从人工智能的芯片分类开始,较为详细的讲解了以Training层芯片生态到Inference on Cloud层芯片生态,再到Inference on Device层芯片生态下不同公司的大体技术选型,并代表性地提到了不少芯片公司。</li><li><a href="https://mp.weixin.qq.com/s/MXiHi8wVJX9JYV3DeQoNBA">AR资深研究员Matt Miesnieks解读ARCore如何好过ARKit? | Matt Miesnieks ARC增强现实</a></br><br>简评:如果你喜欢Android,你有一个Samsung S8或Pixel,那么别犹豫,直接去开发吧。里面的ARCore的视频Demo非常有趣,值得一看!</li><li><a href="https://blog.hackster.io/myriad-x-moves-computer-vision-and-deep-learning-down-to-the-bare-metal-7eab1b0a0f52">Myriad X Moves Computer Vision and Deep Learning Down to the Bare-Metal</a> <a href="http://weibo.com/tv/v/Fk30ErZPA?fid=1034:c37df410f85d0942997922d3e295b738">video</a></br><br>简评:Intel发布Movidius Myriad X VPU ,结合神经网络引擎加速影像处理</li><li><a href="https://mp.weixin.qq.com/s/bL1PoUjZ_sH2VKcBxI6N5A">Wave公司发布数据流处理架构DPU: 不含CPU,超越GPU 1000x | Nicole Hemsoth 新智元</a></br><br>简评:Wave Computing 在日前举行的高性能芯片峰会Hot Chips上介绍了他们的数据流处理器产品DPU(Dataflow Processing Unit),加速神经网络训练,号称速度是GPU的1000x,训练GoogleNet 42万图像/秒。同时,DPU使用了不含CPU的架构,他们认为,数据流架构是有效训练高性能神经网络的唯一方式。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://arxiv.org/abs/1708.08917">[1708.08917] CirCNN: Accelerating and Compressing Deep Neural Networks Using Block-CirculantWeight Matrices</a></br><br>简评:为了解决网络剪枝压缩带来的问题(不规则的网络结构;增加重训难度;无法保证压缩率和准确率),文中提出一种基于块循环的模型CirCNN。该模型利用快速傅里叶变换实现矩阵乘,将计算复杂度从O(n^2)减少到O(nlogn),模型参数规模从O(n^2)减少到O(n)。作者在FPGA、ASIC等嵌入式处理器上进行测试,结果表明在忽略不计的准确率损失下,CirCNN架构可以达到6~102倍的能效提升。</li><li><a href="https://arxiv.org/abs/1708.05963">[1708.05963] Neural Networks Compression for Language Modeling</a></br><br>简评:RNN、LSTM等字符集语言模型往往都有高维的空间,使用剪枝、量化、低秩分解等手段对模型进一步压缩,达到可以满足移动端inference的性能需求。</li><li><a href="https://arxiv.org/abs/1707.06168">[1707.06168] Channel Pruning for Accelerating Very Deep Neural Networks</a></br><br>简评:本文提出一种通道级别可迭代剪枝算法加速超深网络,该方法结合基于通道选择的LASSO回归等技术,可应用到多层和多分支的网络。该方法兼容不同网络架构,在VGG-16网络上,实现了在仅有0.3%准确率的损失下达到5倍加速的结果,ResNet,Xception在仅有1.0%左右的准确率损失下也能达到2倍加速。代码公开!</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com//OAID/YSQfastfd">YSQfastfd: A fast binary library for face detection and face landmark detection in images. No float point operations, especially suit for low cost ARM CPUs, The highest accuracy on FDDB among non deep learning methods</a></br><br>简评:人脸检测标定库。没有浮点操作,主打低功耗!</li><li><a href="https://github.com/longcw/pytorch2caffe">pytorch2caffe: Convert PyTorch model to Caffemodel</a></br><br>简评:PyTorch写的代码要移植到Caffe生产环境?试试这个模型转换工具吧!</li><li><a href="https://github.com/HalfdanJ/ofxARCore">ofxARCore: Experimental addon for openFrameworks to use ARCore on Android devices</a></br><br>简评:Android平台基于Google ARCore的AR框架示例。</li><li><a href="https://github.com/healthDataScience/deep-learning-HAR">deep-learning-HAR: Convolutional and LSTM networks to classify human activity</a></br><br>简评:基于卷积和递归网络实现人类活动分类。</li><li><a href="https://github.com/rwightman/pytorch-dpn-pretrained">pytorch-dpn-pretrained: Dual Path Networks (DPN) supporting pretrained weights converted from original MXNet implementation</a></br><br>简评:用PyTorch实现双通道网络。</li><li><a href="https://github.com/likedan/Core-ML-Car-Recognition">Core-ML-Car-Recognition: A Car Recognition Framework for CoreML</a></br><br>简评:使用CoreML识别汽车。</li><li><a href="https://github.com/Zhouaojun/Efficient-Deep-Learning">Efficient-Deep-Learning: Related Paper of Efficient Deep Neural Networks</a></br><br>简评:高性能深度学习文章集合。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://machinethink.net/blog/compressing-deep-neural-nets/">Compressing deep neural nets | machinethink</a></br><br>简评:本文将会结合MobileNet和网络剪枝等方法,将原本有400万参数的卷积网络压缩到300万参数。</li><li><a href="https://machinelearning.apple.com/2017/08/06/siri-voices.html">Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis | Apple</a></br><br>简评:Siri是一个使用语音合成的私人助理。iOS11中,我们使用深度学习重塑Siri的声音,其产生的声音更加自然、流畅,也让Siri的个性表现出来。本文介绍了Siri声音背后的深度学习技术。</li><li><a href="https://cloud.tencent.com/community/article/678192">CNN 模型压缩与加速算法综述 | 腾讯云</a></br><br>简评:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文介绍了SqueezeNet到Deep Compression,再到XNOR-Net再到Distilling、MobileNet和ShuffleNet,算是一篇移动端模型加速的必看综述。</li><li><a href="https://meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmentation-over-the-years.html">Semantic Segmentation using Fully Convolutional Networks over the years | Meet Pragnesh Shah</a></br><br>简评:全卷积语义分割综述。</li><li><a href="https://tryolabs.com/blog/2017/08/30/object-detection-an-overview-in-the-age-of-deep-learning/">Object detection: an overview in the age of Deep Learning | Tryolabs Blog</a></br><br>简评:物体检测的这些年,从R-CNN、fast R-CNN再到Faster RCNN,SSD和R-FCN。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-08-22@Bi-weekly</title>
<link href="/2017/08/22/bi-weekly/2017-08-22/"/>
<url>/2017/08/22/bi-weekly/2017-08-22/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-08-22"><a href="#嵌入式AI-双周简报-2017-08-22" class="headerlink" title="嵌入式AI 双周简报 (2017-08-22)"></a>嵌入式AI 双周简报 (2017-08-22)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="https://github.com/apache/incubator-mxnet/releases">MXNet 0.11.0 RC1提供Apple Core ML模型转换并对Keras v1.2.2提供支持 | DMLC</a></br></li><li><a href="http://mi.eng.cam.ac.uk/projects/cued-rnnlm/papers/ICASSP16-Toolkit.pdf">CUED-RNNLM – An Open-Source Toolkit for Efficient Training and Evaluation of Recurrent Neural Network Language Models</a></br><br>简评:剑桥大学开源CUED-RNNLM工具箱-实现递归神经网络语言模型的高效GPU训练和CPU预测。 </li><li><a href="http://tvmlang.org/2017/08/17/tvm-release-announcement.html">TVM: An End to End IR Stack for Deploying the Deep Learning Workloads to Hardwares | DMLC</a></br><br>简评:TVM可以把模型部署到不同硬件(移动端CPU、AMD GPU、FPGA等物联网设备),TVM提供中间层解决端到端解决方案把深度学习模型分发到各种硬件设备。</li><li><a href="https://basicmi.github.io/Deep-Learning-Processor-List/">A list of chips and IPs for Deep Learning and Machine Learning, mostly industry and commercial products or projects | Shan Tang</a></br><br>简评:深度学习/机器学习处理器大列表,从工业使用到商用芯片。</li><li><a href="https://news.developer.nvidia.com/nvidia-deep-learning-sdk-update-for-volta-now-available/">NVIDIA Deep Learning SDK Update for Volta Now Available | NVIDIA Developer News Center</a></br><br>简评:Volta架构深度学习SDK,cuDNN7比TeslaP100在ResNet50快2.5倍等新特性。</li><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650729894&idx=1&sn=e8c3b919fba8a23ee9cd882ee91b0af2">从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局 | 机器之心</a></br><br>简评:简述了从NVIDIA、AMD等大公司的GPU到各家创业公司的神经芯片的情况。</li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><ul><li><a href="https://arxiv.org/abs/1708.04728">DeepRebirth: Accelerating Deep Neural Network Execution on Mobile Devices | D Li, X Wang, D Kong Samsung Research America (2017)</a></br><br>简评:三星评估了网络inference的时间花费主要在非张量层,通过横纵向地压缩网络(对竖直方向上连续非张量层的合并以及水平方向上多通道的合并和某些层的舍弃)来对网络减肥,达到有限准确率损失下加速网络的目的。</li><li>[1708.03888] <a href="https://arxiv.org/abs/1708.03888">Scaling SGD Batch Size to 32K for ImageNet Training</a></br><br>简评:作者提出(基于网络权重和权重更新量)逐层定制不同的学习率(LARS)来训练网络,用AlexNet网络,试验了bsize从128到8192这些不同情况下,训练达到相似的准确率。作者使用比较老的AlexNet发现加了BN效果喜人,毕竟AlexNet等大网络没BN的话loss难收敛。</li><li>[1704.08063] <a href="https://arxiv.org/abs/1704.08063">SphereFace: Deep Hypersphere Embedding for Face Recognition</a> <a href="https://github.com/wy1iu/sphereface">[code]</a> <a href="http://v-wb.youku.com/v_show/id_XMjk3NTc1NjMxMg==.html">[Demo]</a></br><br>简评:SphereFace自去年提交MegaFace Challenge后,在小数据集(少于50W的训练数据)上一直保持verification performance第一。相比传统softmax在MegaFace上的Verification TAR提高了24.1%(从65.9%到90%),在LFW上single model达到99.42%的Accuracy,论文发表在今年的CVPR 2017。除了face recognition,还提供了一整套从detection到alignment再到recognition的demo。</li><li><a href="https://arxiv.org/abs/1708.05357">Efficient Use of Limited-Memory Resources to Accelerate Linear Learning | C Dünner, T Parnell, M Jaggi, IBM Research - Zurich & EPFL (2017)</a> </br><br>简评:作者提出一种在异构计算平台加速机器学习训练的通用方法,当训练数据超过内存时,可以自适应地根据现有内存的大小和处理速度做调整。该方法基于对偶坐标方法(primal-dual coordinate methods),并使用对偶间隙信息(duality gap information)动态地选择数据做更快的处理。作者以线性模型为例展示了该方法比现有方法的优越性。</li><li><a href="https://arxiv.org/abs/1708.05234">FaceBoxes: A CPU Real-time Face Detector with High Accuracy | S Zhang, X Zhu, Z Lei, H Shi, X Wang, S Z. Li, Chinese Academy of Sciences (2017)</a></br><br>简评:为解决CPU上实时检测人脸的难题,作者提出一种新的人脸检测架构FacesBoxes,保证速度的同时兼顾准确率。该架构基于两种层:快速抽象卷积层(RDCL)和多尺度卷积层(MSCL),前者使FacesBoxes在CPU上达到实时,后者在不同层上解决人脸尺度不同的带来的感受野大小等问题。</li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/dangbo/ncnn-mobile">ncnn-mobile: use ncnn in Android(Android Studio) and iOS</a></br><br>简评:在安卓和iOS平台使用ncnn跑SqueezeNet来构建你的AI APP(包含安卓和iOS项目代码)!</li><li><a href="https://github.com/fc731097343/efanna">efanna: fast library for ANN search and KNN graph construction</a> <a href="https://arxiv.org/abs/1609.07228">[paper]</a></br><br>简评:C++超快近似最近邻(ANN)搜索算法库。</li><li><a href="https://github.com/Smorodov/Multitarget-tracker">Hungarian algorithm + Kalman filter multitarget tracker implementation</a></br><br>简评:用OpenCV实现多目标追踪。 </li><li><a href="https://github.com/natanielruiz/dockerface">Dockerface: an easy to install and use Faster R-CNN face detector in a Docker container | N Ruiz, J M. Rehg, Georgia Institute of Technology (2017)</a> <a href="https://arxiv.org/abs/1708.04370">[paper]</a></br><br>简评:用Docker来构建你的人脸检测器吧!</li><li><a href="https://github.com/mitmul/chainer-pspnet">chainer-pspnet: PSPNet in Chainer</a></br><br>简评:用金字塔场景解析网络(PSPNet)来做场景分割。</li><li><a href="https://github.com/borisgin/nvcaffe-0.16">NVCaffe(NVIDIA Caffe): NVIDIA-maintained fork of BVLC Caffe tuned for NVIDIA GPUs, particularly in multi-GPU configurations</a></br><br>简评:对GPU多卡做了调整优化的NVIDIA Caffe。</li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650729791&idx=2&sn=0b8acd1bc1a4a10d988bc5f8301d6749">为模型减减肥:谈谈移动/嵌入式端的深度学习 | 机器之心专栏 李飞</a></br><br>简评:简述了下为什么需要模型简化到方法,写的比较简单,适合新手看或当做一篇了解的引文。</li><li><a href="https://petewarden.com/2017/08/20/cross-compiling-tensorflow-for-the-raspberry-pi/">Cross-compiling TensorFlow for the Raspberry Pi | Pete Warden</a></br><br>简评:在树莓派上交叉编译你的TensorFlow吧(教程)!</li><li><a href="https://pan.baidu.com/s/1i46rWI5#list/path=%2F">Dealing with Reality: Low-Quality Visual Data Processing and Analytics | CVPR 2017 Tutorial</a></br><br>简评:雾霾!低清!有噪声的图像、视频怎么搞?!教你对低分辨率图像/视频数据做分析。</li><li><a href="http://vertex.ai/blog/bringing-deep-learning-to-opencl">Vertex.AI - Bringing Deep Learning to OpenCL | Choong Ng</a></br><br>简评:用OpenCL来搞深度学习!</li><li><a href="https://hyperdash.io/">Hyperdash:在手机上监督机器学习训练过程的App</a></br><br>简评:深度学习工程师必备!(需要事先在服务器上安装提供的python包并登录,借助该APP查看当前服务器上模型训练的状态)</li><li><a href="https://pair-code.github.io/deeplearnjs/demos/imagenet/imagenet-demo.html">LearnJS Imagenet Demo</a></br><br>简评:用deeplearn.js的SqueezeNet模型实时图像识别。</li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-08-07@Bi-weekly</title>
<link href="/2017/08/07/bi-weekly/2017-08-07/"/>
<url>/2017/08/07/bi-weekly/2017-08-07/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-08-07"><a href="#嵌入式AI-双周简报-2017-08-07" class="headerlink" title="嵌入式AI 双周简报 (2017-08-07)"></a>嵌入式AI 双周简报 (2017-08-07)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><ul><li><a href="http://opencv.org/opencv-3-3.html">OpenCV 3.3版本发布</a> </li><li><a href="https://zhuanlan.zhihu.com/p/28323601?utm_source=wechat_timeline&utm_medium=social&from=timeline">鱼和熊掌兼得,DNN加入 OpenCV 全家桶 | 知乎专栏</a> </li><li><a href="https://developer.qualcomm.com/software/snapdragon-neural-processing-engine">Qualcomm Snapdragon Neural Processing Engine (NPE) | Qualcomm Developer Network</a> </li><li><a href="http://mp.weixin.qq.com/s/WlZTXCRy0xGeuJLQMxZGeQ">AI让芯片业洗牌: 苹果、微软和谷歌挤入赛道,英特尔、英伟达、高通、AMD几家欢乐几家愁 | 新智元</a> </li><li><a href="http://www.sohu.com/a/162189343_610300">解密图森:英伟达为何投资这家无人车公司;估值18亿背后有位长者 | 量子位</a> </li><li><a href="https://mp.weixin.qq.com/s?src=3×tamp=1502018174&ver=1&signature=UozfhYMHOaRae6vesHbE0yvQl8DqpLOL5ru3ZXmsKHVAUaiot1ZdwO6KVmCEe7TVhPO1DlSEsgl-*X8wwn95LDDoauBV*GJIlk*DWEgLhmdZ5gddTV90tMZybHzU4iyJy7n3SZfs99YI4GewOq3LFpwPkrcGBIE20iavJ6jnDaM=">被英伟达相中,给Tier1供货,天瞳威视仅靠AI就搞定ADAS | 车东西</a> </li><li><a href="https://mp.weixin.qq.com/s?src=3×tamp=1502018201&ver=1&signature=gUEmNUHy8y-SoCfrsriCmcDhzptEE4mc0M9tSLutgZ7ao2TvO25ZLK0iqVLspVKOADxdgPe3tu0IrjdlVtfx4aek4KEufToHuOAz2eXGro2OoeY8Yry0KfC47D8H8B0XiJvv-2G-PKJQN378zkUovM9LwC5SkxceA-8pa6t*-D4=">ARM的最新NB-IoT报告 | 5G</a> </li><li><a href="https://mp.weixin.qq.com/s?__biz=MzI2NTM2OTc1Nw==&mid=2247485358&idx=1&sn=1fb5f161cbf80093d952186dc5e8f02c&scene=45#wechat_redirect">ARM发飙!几个月后手机处理器将因它们而变天! | 智趣狗</a> </li><li><a href="http://mp.weixin.qq.com/s/G_OEZJ0a62TZuMRq5jpXmA">人工智能和云计算让芯片业洗牌,英特尔成了最大输家 | 量子位</a> </li><li><a href="https://www.wired.com/story/the-rise-of-ai-is-forcing-google-and-microsoft-to-become-chipmakers/">The Rise of AI Is Forcing Google and Microsoft to Become Chipmakers | WIRED</a> </li><li><a href="https://www.zhihu.com/question/62871439">如何评价腾讯刚出的ncnn库? | 知乎</a> </li><li><a href="http://www.sohu.com/a/160700395_473283">沈向洋宣布微软开发 AI 芯片HPU,剑指英伟达等芯片巨头软肋 | 新智元</a> </li><li><a href="http://www.sohu.com/a/160215465_473283">超越GPU,FPGA、ASIC和更智能的手机 | 新智元</a> </li><li><a href="https://tenso.rs/">“TensorFire - runs neural networks in the browser using WebGL”</a> <a href="https://tenso.rs/demos/fast-neural-style/">[Demo: style-transfer]</a> </li><li><a href="https://www.youtube.com/watch?v=f39NFuZAj6s">Getting Started with Neural Compute Stick and Rasbperry Pi 3 | YouTube</a></li></ul><h2 id="论文-幻灯片"><a href="#论文-幻灯片" class="headerlink" title="论文/幻灯片"></a>论文/幻灯片</h2><ul><li>[CVPR2017] <a href="http://image-net.org/challenges/talks_2017/SENet.pdf">Squeeze-and-Excitation networks (ILSVRC 2017 winner) at CVPR2017</a> </li><li>[1707.06990] <a href="https://arxiv.org/abs/1707.06990">Memory-Efficient Implementation of DenseNets</a> </li><li><a href="http://www.eecs.harvard.edu/~htk/publication/2016-icpr-teerapittayanon-mcdanel-kung.pdf">BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks</a> </li><li><a href="http://www.cs.jhu.edu/~jason/papers/vieira+eisner.tacl17.pdf">Learning to Prune: Exploring the Frontier of Fast and Accurate Parsing</a> <a href="https://github.com/timvieira/learning-to-prune">[code]</a> </li><li>[1704.06904] <a href="https://arxiv.org/pdf/1704.06904.pdf">Residual Attention Network for Image Classification</a> <a href="https://github.com/buptwangfei/residual-attention-network">[code]</a> </li><li>[1707.09102] <a href="https://arxiv.org/abs/1707.09102">Fine-Pruning: Joint Fine-Tuning and Compression of a Convolutional Network with Bayesian Optimization</a> </li><li>[1708.00999] <a href="https://arxiv.org/abs/1708.00999">Extreme Low Resolution Activity Recognition with Multi-Siamese Embedding Learning</a> </li><li>[1608.01409] <a href="https://arxiv.org/abs/1608.01409v5">Faster CNNs with Direct Sparse Convolutions and Guided Pruning</a> </li><li>[1606.05316] <a href="https://arxiv.org/abs/1606.05316v2">Learning Infinite-Layer Networks: Without the Kernel Trick</a> </li><li>[1707.09422] <a href="https://arxiv.org/abs/1707.09422v1">Hyperprofile-based Computation Offloading for Mobile Edge Networks</a> </li><li>[1705.04630] <a href="https://arxiv.org/abs/1705.04630v2">Forecasting using incomplete models</a> </li><li>[1707.09068] <a href="https://arxiv.org/abs/1707.09068v1">Tartan: Accelerating Fully-Connected and Convolutional Layers in Deep Learning Networks by Exploiting Numerical Precision Variability</a> </li><li>[1707.09926] <a href="https://arxiv.org/abs/1707.09926v1">A Framework for Super-Resolution of Scalable Video via Sparse Reconstruction of Residual Frames</a> </li><li>[1707.09855] <a href="https://arxiv.org/abs/1707.09855v1">Convolution with Logarithmic Filter Groups for Efficient Shallow CNN</a> </li><li>[1707.09597] <a href="https://arxiv.org/abs/1707.09597v1">ScanNet: A Fast and Dense Scanning Framework for Metastatic Breast Cancer Detection from Whole-Slide Images</a> </li><li>[ASPLOS’17] <a href="http://web.eecs.umich.edu/~jahausw/publications/kang2017neurosurgeon.pdf">Neurosurgeon: Collaborative intelligence between the cloud and mobile edge</a> </li><li>[1604.08772] <a href="https://arxiv.org/abs/1604.08772">Towards Conceptual Compression</a> </li><li>[1608.02893] <a href="https://arxiv.org/abs/1608.02893">Syntactically Informed Text Compression with Recurrent Neural Networks</a> </li><li>[1608.05148] <a href="https://arxiv.org/abs/1608.05148v2">Full Resolution Image Compression with Recurrent Neural Networks</a> </li><li>[CVPR2017] <a href="http://xujuefei.com/lbcnn.html">Local Binary Convolutional Neural Networks</a> <a href="https://github.com/juefeix/lbcnn.torch">[code]</a> </li><li>[1703.09746] <a href="https://arxiv.org/abs/1703.09746v3">Coordinating Filters for Faster Deep Neural Networks</a> </li><li>[1707.08005] <a href="https://arxiv.org/abs/1707.08005v1">Towards Evolutional Compression</a> </li><li>[ICML2017] <a href="http://proceedings.mlr.press/v70/sakr17a.html">Analytical Guarantees on Numerical Precision of Deep Neural Networks</a></li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><p><strong>网络压缩</strong></p><ul><li><a href="https://github.com/yonghenglh6/DepthwiseConvolution">yonghenglh6/DepthwiseConvolution: A personal mobile convolution implementation on caffe by liuhao.(only GPU)</a> </li><li><a href="https://github.com/liuzhuang13/DenseNet">liuzhuang13/DenseNet: Densely Connected Convolutional Networks, In CVPR 2017 (Best Paper Award)</a> </li><li><a href="https://github.com/kevinzakka/DenseNet">kevinzakka/DenseNet: PyTorch Implementation of “Densely Connected Convolutional Networks”</a> </li><li><a href="https://github.com/hollance/MobileNet-CoreML">hollance/MobileNet-CoreML: The MobileNet neural network using Apple’s new CoreML framework</a> </li><li><a href="https://github.com/AngusG/tensorflow-xnor-bnn">AngusG/tensorflow-xnor-bnn: BinaryNets in TensorFlow with XNOR GEMM op</a> </li><li><a href="https://github.com/jonathanmarek1/binarynet-tensorflow">jonathanmarek1/binarynet-tensorflow</a> </li><li><a href="https://github.com/farmingyard/caffe-mobilenet">farmingyard/caffe-mobilenet: A caffe implementation of mobilenet’s depthwise convolution layer</a> </li><li><a href="https://github.com/kedartatwawadi/NN_compression">kedartatwawadi/NN_compression</a> </li><li><a href="https://github.com/chuanqi305/MobileNet-SSD">chuanqi305/MobileNet-SSD: Caffe implementation of Google MobileNet SSD detection network, with pretrained weights on VOC0712 and mAP=0.727.</a> </li></ul><p><strong>性能</strong></p><ul><li><a href="https://github.com/hollance/BNNS-vs-MPSCNN">hollance/BNNS-vs-MPSCNN: Compares the speed of Apple’s two deep learning frameworks: BNNS and Metal Performance Shaders</a> </li><li><a href="https://github.com/DeepMark/deepmark">DeepMark/deepmark: THE Deep Learning Benchmarks</a> </li></ul><p><strong>模型加密</strong></p><ul><li><a href="https://github.com/OpenMined/syft">OpenMined/Syft: Homomorphically Encrypted Deep Learning Library</a> </li></ul><p><strong>增强现实</strong></p><ul><li><a href="https://github.com/ProjectDent/ARKit-CoreLocation">ProjectDent/ARKit-CoreLocation: Combines the high accuracy of AR with the scale of GPS data</a> </li><li><a href="https://github.com/bjarnel/arkit-tictactoe">bjarnel/arkit-tictactoe: Tic-Tac-Toe implemented using ARKit+Scenekit</a> </li><li><a href="https://github.com/arirawr/ARKit-FloorIsLava">arirawr/ARKit-FloorIsLava: Basic ARKit example that detects planes and makes them lava.</a> </li><li><a href="https://github.com/exyte/ARTetris">exyte/ARTetris: Augmented Reality Tetris made with ARKit and SceneKit</a></li><li><a href="https://github.com/bjarnel/arkit-portal">bjarnel/arkit-portal: Simple portal demo implemented with ARKit+SceneKit, the trick is to change the rendering order and render invisible “masks” to hide what’s inside.</a> </li><li><a href="https://github.com/bjarnel/scenekit-tictactoe">bjarnel/scenekit-tictactoe</a> </li></ul><p><strong>安卓</strong></p><ul><li><a href="https://github.com/madeye/yolo-android">madeye/yolo-android: Quantized Tiny Yolo Demo on Android</a> </li></ul><p><strong>iOS</strong></p><ul><li><a href="https://github.com/kingreza/SeeFood">kingreza/SeeFood: Inspired by HBO’s Silicon Valley: SeeFood is an iOS app that uses CoreML to detect various dishes</a> </li><li><a href="https://github.com/hollance/TensorFlow-iOS-Example">hollance/TensorFlow-iOS-Example: Source code for my blog post “Getting started with TensorFlow on iOS”</a> </li><li><a href="https://github.com/Naituw/CoreMLDemo">Naituw/CoreMLDemo: Demo for CoreML & Vision Framework</a> </li></ul><p><strong>模型应用</strong></p><ul><li><a href="https://github.com/msracver/FCIS">msracver/FCIS: Fully Convolutional Instance-aware Semantic Segmentation</a> </li><li><a href="https://github.com/bearpaw/PyraNet">bearpaw/PyraNet: Code for “Learning Feature Pyramids for Human Pose Estimation” (ICCV 2017)</a> </li><li><a href="https://github.com/aquaviter/iot-demo-mxnet-greengrass">aquaviter/iot-demo-mxnet-greengrass</a> </li><li><a href="https://github.com/bearpaw/PyraNet">bearpaw/PyraNet: Code for “Learning Feature Pyramids for Human Pose Estimation” (ICCV 2017)</a> </li><li><a href="https://github.com/CongWeilin/mtcnn-caffe">CongWeilin/mtcnn-caffe: Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks</a> </li><li><a href="https://github.com/foreverYoungGitHub/MTCNN">foreverYoungGitHub/MTCNN: Repository for “Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks”, implemented with Caffe, C++ interface.</a> </li><li><a href="https://github.com/oaid/mtcnn">OAID/mtcnn: C++ project to implement MTCNN, a perfect face detect algorithm, on different DL frameworks. The most popular frameworks: caffe/mxnet/tensorflow, are all suppported now</a> </li><li><a href="https://github.com/Seanlinx/mtcnn">Seanlinx/mtcnn: this repository is the implementation of MTCNN in MXnet</a> </li><li><a href="https://github.com/LaoDar/cnn_head_pose_estimator">LaoDar/cnn_head_pose_estimator: a simple and fast mxnet version CNN based head pose estimator</a> </li></ul><p><strong>加速库/框架</strong> </p><ul><li><a href="https://github.com/thomaspark-pkj/darknet-nnpack">Darknet with NNPACK: NNPACK was used to optimize Darknet without using a GPU. It is useful for embedded devices using ARM CPUs</a> </li><li><a href="https://github.com/naibaf7/libdnn">naibaf7/libdnn: Greentea LibDNN - a universal convolution implementation supporting CUDA and OpenCL</a> </li><li><a href="https://github.com/blei-lab/edward">blei-lab/edward: A library for probabilistic modeling, inference, and criticism. Deep generative models, variational inference. Runs on TensorFlow</a> </li><li><a href="https://github.com/dmlc/nnvm-fusion">dmlc/nnvm-fusion: Kernel Fusion and Runtime Compilation Based on NNVM</a> </li></ul><p><strong>音频图像视频处理</strong></p><ul><li><a href="https://github.com/MTG/essentia">MTG/essentia: C++ library for audio and music analysis, description and synthesis, including Python bindings</a> </li><li><a href="https://github.com/pili-engineering">Pili-完美直播体验(Pili Streaming Cloud)</a> </li><li><a href="https://github.com/pili-engineering/PLDroidMediaStreaming">pili-engineering/PLDroidMediaStreaming: PLDroidMediaStreaming 是 Pili 直播 SDK 的 Android 推流端,支持 RTMP 推流,h.264 和 AAC 编码,硬编、软编支持。具有丰富的数据和状态回调,方便用户根据自己的业务定制化开发。具有直播场景下的重要功能,如:美颜、背景音乐、水印等功能。PLDroidMediaStreaming 是现在目前重点维护的版本,自带采集模块也支持用户自己做采集端。</a> </li><li><a href="https://github.com/pili-engineering/PLDroidShortVideo">pili-engineering/PLDroidShortVideo: PLDroidShortVideo 是七牛推出的一款适用于 Android 平台的短视频 SDK,提供了包括美颜、滤镜、水印、断点录制、分段回删、视频编辑、混音特效、本地/云端存储在内的多种功能,支持高度定制以及二次开发。</a> </li><li><a href="https://github.com/pili-engineering/PLDroidPlayer">pili-engineering/PLDroidPlayer: PLDroidPlayer 是 Pili 直播 SDK 的安卓播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。</a> </li><li><a href="https://github.com/pili-engineering/PLMediaStreamingKit">pili-engineering/PLMediaStreamingKit: PLMediaStreamingKit 是 Pili 直播 SDK 的 iOS 推流端,支持 RTMP 推流,h.264 和 AAC 编码,硬编、软编支持。具有丰富的数据和状态回调,方便用户根据自己的业务定制化开发。具有直播场景下的重要功能,如:美颜、背景音乐、水印等功能。</a> </li><li><a href="https://github.com/pili-engineering/PLShortVideoKit">pili-engineering/PLShortVideoKit: PLShortVideoKit 是七牛推出的一款适用于 iOS 平台的短视频 SDK,提供了包括美颜、滤镜、水印、断点录制、分段回删、视频编辑、混音特效、本地/云端存储在内的多种功能,支持高度定制以及二次开发。</a> </li><li><a href="https://github.com/pili-engineering/PLPlayerKit">pili-engineering/PLPlayerKit: PLPlayerKit 是 Pili 直播 SDK 的 iOS 播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。</a> </li><li><a href="https://github.com/pili-engineering/PLPlayerKit">pili-engineering/PLPlayerKit: PLPlayerKit 是 Pili 直播 SDK 的 iOS 播放器。支持所有直播常用的格式,如:RTMP、HLS、FLV。拥有优秀的功能和特性,如:首屏秒开、追帧优化、丰富的数据和状态回调、硬解软解支持。而且可以根据自己的业务进行高度定制化开发。</a> </li></ul><p><strong>其它</strong></p><ul><li><a href="https://github.com/facebook/fb-caffe-exts">facebook/fb-caffe-exts: Some handy utility libraries and tools for the Caffe deep learning framework.</a> </li><li><a href="http://www.iotjs.net/">Samsung/iotjs: Platform for Internet of Things with JavaScript</a> <a href="https://github.com/Samsung/iotjs">code</a> </li><li><a href="https://github.com/hollance/Forge">hollance/Forge: A neural network toolkit for Metal</a> </li><li><a href="https://github.com/christopher5106/FastAnnotationTool">christopher5106/FastAnnotationTool: A tool using OpenCV to annotate images for image classification, optical character reading, etc.</a> </li><li><a href="https://github.com/raphui/rnk">raphui/rnk: rnk is a RTOS targeting ARM architecture.</a></li></ul><h2 id="数据集"><a href="#数据集" class="headerlink" title="数据集"></a>数据集</h2><ul><li><a href="http://www.cs.technion.ac.il/~twerd/HandNet/">HandNet - A dataset of depth images of hands</a> </li></ul><h2 id="博文-教程"><a href="#博文-教程" class="headerlink" title="博文/教程"></a>博文/教程</h2><ul><li><a href="http://eyeriss.mit.edu/tutorial.html">Tutorial on Hardware Architectures for Deep Neural Networks | MIT MICRO-50</a> </li><li><a href="https://zhuanlan.zhihu.com/p/25025596?refer=shanren7">基于mtcnn和facenet的实时人脸检测与识别系统开发 | 知乎专栏</a> </li><li><a href="https://hackernoon.com/creating-insanely-fast-image-classifiers-with-mobilenet-in-tensorflow-f030ce0a2991">Creating insanely fast image classifiers with MobileNet in TensorFlow | HACKERNOON</a> </li><li><a href="http://www.kdnuggets.com/2017/07/squeeze-most-from-training-data.html">How to squeeze the most from your training data | KDNUGGETS</a> </li><li><a href="http://blog.csdn.net/Best_Coder/article/details/76201275">Ubuntu16.04腾讯NCNN框架入门到应用 | CSDN</a> </li><li><a href="https://devblogs.nvidia.com/parallelforall/building-cuda-applications-cmake/?_lrsc=dca4b9d4-7747-48e0-b9a0-961aba39a657&ncid=so-twi-lt-799">Building Cross-Platform CUDA Applications with CMake | NVIDIA</a> </li><li><a href="https://www.youtube.com/playlist?list=PLD5D5H5YL9SIjxj3IC019AprtgJAjIU3q">Caffe2 Bay Area Meetup (5/31/2017) | YouTube</a></li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
<entry>
<title>2017-07-24@Bi-weekly</title>
<link href="/2017/07/24/bi-weekly/2017-07-24/"/>
<url>/2017/07/24/bi-weekly/2017-07-24/</url>
<content type="html"><![CDATA[<h1 id="嵌入式AI-双周简报-2017-07-24"><a href="#嵌入式AI-双周简报-2017-07-24" class="headerlink" title="嵌入式AI 双周简报 (2017-07-24)"></a>嵌入式AI 双周简报 (2017-07-24)</h1><h2 id="业界新闻"><a href="#业界新闻" class="headerlink" title="业界新闻"></a>业界新闻</h2><!-- - <a class="btn" href="https://github.com/xianyi/OpenBLAS/releases/tag/v0.2.20" title="title">OpenBLAS发布0.2.20版本</a> --><ul><li><a href="https://github.com/xianyi/OpenBLAS/releases/tag/v0.2.20">OpenBLAS发布0.2.20版本</a></li><li><a href="https://venturebeat.com/2017/07/12/clarifai-launches-sdk-for-running-ai-on-your-iphone/">Clarifai launches SDK for training AI on your iPhone | VentureBeat</a></li><li><a href="http://gpuopen.com/ported-caffe-hip-heres-happened/">We ported CAFFE to HIP - and here’s what happened… | GPUOpen</a></li></ul><h2 id="论文"><a href="#论文" class="headerlink" title="论文"></a>论文</h2><!-- - [1707.01083] <a class="btn" href="https://arxiv.org/abs/1707.01083" title="title">[ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices</a> --><ul><li>[1707.01083] <a href="https://arxiv.org/abs/1707.01083">ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices</a> </li><li>[1608.06993] <a href="https://arxiv.org/abs/1608.06993">Densely Connected Convolutional Networks</a></li><li>[1707.01209] <a href="https://arxiv.org/abs/1707.01209">Model compression as constrained optimization, with application to neural nets. Part I: general framework</a></li><li>[1707.04319] <a href="https://arxiv.org/abs/1707.04319">Model compression as constrained optimization, with application to neural nets. Part II: quantization</a></li><li>[1707.03718] <a href="https://arxiv.org/pdf/1707.03718.pdf">LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation</a></li><li>[1707.06342] <a href="https://arxiv.org/abs/1707.06342">ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression</a> </li><li>[1707.04693] <a href="https://arxiv.org/abs/1707.04693">Binarized Convolutional Neural Networks with Separable Filters for Efficient Hardware Acceleration</a></li></ul><h2 id="开源项目"><a href="#开源项目" class="headerlink" title="开源项目"></a>开源项目</h2><ul><li><a href="https://github.com/KleinYuan/Caffe2-iOS">Caffe2-iOS demo</a></li><li><a href="https://github.com/Tencent/ncnn">Tencent/ncnn: ncnn is a high-performance neural network inference framework optimized for the mobile platform</a></li><li><a href="https://github.com/jiaxiang-wu/quantized-cnn">jiaxiang-wu/quantized-cnn: An efficient framework for convolutional neural networks</a></li><li><a href="https://github.com/KimDarren/FaceCropper">KimDarren/FaceCropper: Crop faces, inside of your image, with iOS 11 Vision api.</a></li><li><a href="https://github.com/csarron/emdl">csarron/emdl: Embedded and mobile deep learning research resources</a></li></ul><h2 id="博文"><a href="#博文" class="headerlink" title="博文"></a>博文</h2><ul><li><a href="http://blog.csdn.net/jxt1234and2010/article/details/71056736">基于OpenGL ES 的深度学习框架编写 - jxt1234and2010的专栏</a></li><li><a href="https://yq.aliyun.com/articles/79420">深度学习技术的应用和思考-博客-云栖社区-阿里云</a></li></ul><h2 id="硬件加速"><a href="#硬件加速" class="headerlink" title="硬件加速"></a>硬件加速</h2><ul><li><a href="https://mp.weixin.qq.com/s?__biz=MzI3MDQ2MjA3OA==&mid=2247484282&idx=1&sn=65db58a2610e3828c2feea0c6e3de624&chksm=ead1fe6bdda6777dee462d197e7e6d257d312a1879faab13dd2907f507bbe79a3b314b848ac4&mpshare=1&scene=1&srcid=0724s2sVE9TRaszKKRCqSEcB#rd">解密又一个xPU:Graphcore的IPU | 唐杉 StarryHeavensAbove </a></li></ul><hr><p>Editor: 张先轶、袁帅</p><hr><p><a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/2.0/88x31.png" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/">知识共享署名-相同方式共享 2.0 通用许可协议</a>进行许可。</p>]]></content>
<categories>
<category>bi-weekly</category>
</categories>
</entry>
</search>