SlideShare ist ein Scribd-Unternehmen logo
1 von 19
Downloaden Sie, um offline zu lesen
Searching for Activation Functions
Prajit Ramachandran, Barret Zoph, Quoc V. Le
Google Brain
목차
• Introduction
• Contribution
• Method
• Result
Introduction
• Google Brain Team의 연구이자 NAS, NASNet의 저자 Barret Zoph가 참여한 연구
• NAS : CNN(CIFAR-10), RNN(Penn Treebank) 구조 설계
• NASNet : CNN(CIFAR-10, ImageNet) Transferable한 구조 설계
• RL 기반으로 CNN 혹은 RNN 구조를 찾자!
• Searching for Activation Functions(ICLR 2018)
• NAS, NASNet처럼 RL 기반으로 Activation Function을 찾자!
• RNN Controller + RL → NAS와 거의 유사, Only Search Space..!
• ReLU를 대체할 만한 Swish 라는 Activation function 발견 및 분석
• 일반화 성능을 보이기 위해 다양한 모델, 데이터셋에 대해 실험 진행
Contribution(1)
• Activation Function을 위한 Search Space 제안
• Activation function을 구성하는 요소를 Unary(단항식)과 Binary(이항식)의 조합으로 나타냄
NAS Search Space NASNet Search Space
Contribution(2)
• 발견한 Activation function들을 분석하고 성능을 검증
• RL로 찾은 여러 Activation function의 특징 관찰 및 분석
• CIFAR, ImageNet, Machine Translation 에 대해 기존 주로 사용되던 activation function들과 성능 비교
Method(1)
• Search space
• “Neural optimizer search with reinforcement learning, 2017” 논문에서 제안한 search space를 사용
마찬가지로 Barret Zoph 등 Google Brain의 논문..
Neural Optimizer Search Space
Method(1)
• Search space (Cont.)
• “Neural optimizer search with reinforcement learning, 2017” 논문에서 제안한 search space를 사용
• Unary functions
• Binary functions
Input 1, Input 2의 의미가
무엇인지?
단순 차용(NOS)
or
Core unit 생성 중단
Scalar
input
Scalar
output
ex) x – sin(x)
x
x
𝑥
sin 𝑥
𝑥1 − 𝑥2
Method(1)
• Search space (Cont.)
• Core Unit의 개수에 따라 Activation function의 복잡도가 달라짐
• 정해진 Child network에서 activation function만 바꿔서 Validation accuracy 측정 → Reward
• NAS, NASNet과 마찬가지로 여러 Worker를 통해 분산 training 진행!
• 학습에 소요되는 전체 시간을 따로 명시하지는 않음.
Scalar
input
Scalar
output
Method(2)
• Search Finding
• Child Network : ResNet-20 / Dataset : CIFAR-10
• 정해진 데이터와 모델에 대해서 좋은 성능을 보이는 Activation function을 추려 냄
• 일반화 성능을 확인하기 위해 다양한 Network, Dataset에 대해 실험 결과 측정
• RN(ResNet-164), WRN(Wide ResNet 28-10), DN(DenseNet 100-12)
Method(2)
• Search Finding (Cont.)
• 대체로 복잡한 activation function일수록 성능 저조 → 1 or 2 core units 에서 좋은 성능
• 성능이 좋은 activation function들의 공통점 : Binary function input으로 x를 사용
• 일반적으로 사용하지 않던 주기 함수들(ex, sin 𝑥 , cos 𝑥)의 적용 가능성을 보여줌
• 나눗셈을 사용하는 function들이 포함되는 경우 대체로 성능 저조
• 성능이 우수한 2가지의 activation function( , ) 중 일반화 성능이 좋았던 전자를 사용
Swish 라 부름
Training with RL
• Controller(LSTM)를 이용하여 예측한 Cell을 통해 Architecture 생성
• 강화학습 알고리즘으로 Proximal Policy Optimization(PPO) 사용
• PPO : 2017, OpenAI
• 전체적인 학습 방법은 NAS, NASNet과 거의 유사
• State : controller의 hidden state
• Action : controller가 생성한 predictions (Activation function)
• Reward : Child Network with Activation function’s accuracy
Result(CIFAR)
• ReLU의 변형 function들에 비해 높은 성능
• CIFAR-100의 Softplus + ResNet만 제외하면 다
높은 성능을 보임
• 𝛽 값을 1로 고정(Swish-1)하는 경우에도 좋은 성
능을 보임
Result(ImageNet)
• Mobile NASNet-A, Inception-ResNet-v2, MobileNet 등을 기준으로 ImageNet 실험 진행
• Swish가 대부분 높은 성능! (Softplus의 선전!)
Mobile NASNet-A Inception-ResNet-v2 MobileNet
Result(ImageNet)
• Mobile NASNet-A, Inception-ResNet-v2, MobileNet 등을 기준으로 ImageNet 실험 진행
• Swish가 대부분 높은 성능! (Softplus의 선전!) → Inception에서는 특출 난 성능을 보이지는 않음
Inception-v3 Inception-v4
Result(Machine Translation)
• WMT 2014 English → German dataset에 대해 실험 진행
• BLEU Score(높을 수록 좋음)에서 대체로 좋은 성능을 보이지만 ReLU에 비해 크게 좋아지지는 않음
• Softplus의 약세와 LReLU의 강세가 주목할만함
• Swish-1이 대체로 좋은 성능을 보임
Result(Total)
• 전체 결과 정리
• Swish가 Baseline activation function에 비해 성능이 저조한 경우는 3가지/64가지
• 대체로 Baseline activation function에 비해 비슷하거나 좋은 성능을 보임
• 다양한 Dataset, Network에 대해 적용할 만한 가치가 있음
Swish
• 그래프를 그려보면 ReLU와 비슷한 모양을 가짐
• 𝛽 = 1인 경우는 Sigmoid-weighted Linear Unit(SiL)이라는 이름의 Activation function과 동일함 (2017)
• 𝛽 → ∞ 인 경우 0-1 function이 되므로 ReLU와 같아짐
Swish
• ReLU와 비교
• 공통점 : 상한은 존재하지 않고 하한은 존재
• 차이점 : Smooth하고 non-monotonic 함
미분계수가 같은 부호로 유지
Discussion
• Activation function을 위한 Search space 제안
• NAS의 Activation function 버전으로 Novelty가 뛰어나지는 않음, but 2018 ICLR!
• ReLU보다 대체로 좋은 성능을 보이는 것을 증명
• 다양한 Network, 다양한 Dataset에 대해 63가지의 실험 중 60가지에서 높거나 같은 성능!
• 앞으로는 tf.nn.relu 대신 tf.nn.swish가 default로 쓰일 것으로 예상
• 현재 사용 중인 network들에도 간단히 적용할 수 있음
• Optimizer, Architecture, Activation function.. 그 다음은?

Weitere ähnliche Inhalte

Was ist angesagt?

PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
 
CNN Architecture A to Z
CNN Architecture A to ZCNN Architecture A to Z
CNN Architecture A to ZLEE HOSEONG
 
AlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetAlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetJungwon Kim
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Jungsu Heo
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons Learned
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons LearnedWeb Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons Learned
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons LearnedJungsu Heo
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchSunghoon Joo
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료DaeHeeKim31
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and ConfidenceFixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and ConfidenceSungchul Kim
 
Yolo v3 urop 발표자료
Yolo v3 urop 발표자료Yolo v3 urop 발표자료
Yolo v3 urop 발표자료DaeHeeKim31
 
PR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningPR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningSunghoon Joo
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSGruter
 
Yolo v2 urop 발표자료
Yolo v2 urop 발표자료Yolo v2 urop 발표자료
Yolo v2 urop 발표자료DaeHeeKim31
 

Was ist angesagt? (16)

PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
 
CNN Architecture A to Z
CNN Architecture A to ZCNN Architecture A to Z
CNN Architecture A to Z
 
AlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, ResnetAlexNet, VGG, GoogleNet, Resnet
AlexNet, VGG, GoogleNet, Resnet
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons Learned
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons LearnedWeb Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons Learned
Web Analytics at Scale with Elasticsearch @ naver.com - Part 2 - Lessons Learned
 
PR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture SearchPR-218: MFAS: Multimodal Fusion Architecture Search
PR-218: MFAS: Multimodal Fusion Architecture Search
 
Imagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement LearningImagination-Augmented Agents for Deep Reinforcement Learning
Imagination-Augmented Agents for Deep Reinforcement Learning
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
Review MLP Mixer
Review MLP MixerReview MLP Mixer
Review MLP Mixer
 
Yolo v1 urop 발표자료
Yolo v1 urop 발표자료Yolo v1 urop 발표자료
Yolo v1 urop 발표자료
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and ConfidenceFixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
 
Yolo v3 urop 발표자료
Yolo v3 urop 발표자료Yolo v3 urop 발표자료
Yolo v3 urop 발표자료
 
PR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningPR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learning
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 
Yolo v2 urop 발표자료
Yolo v2 urop 발표자료Yolo v2 urop 발표자료
Yolo v2 urop 발표자료
 

Ähnlich wie "Searching for Activation Functions" Paper Review

[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례오픈 소스를 활용한 게임 배치 플랫폼 개선 사례
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례형석 김
 
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobileHadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile상연 최
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tae Young Lee
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
 
201803 파이썬 세미나
201803 파이썬 세미나201803 파이썬 세미나
201803 파이썬 세미나JeongHwan Kim
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림NAVER D2
 
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개Tommy Lee
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기Brian Hong
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4Seok-joon Yun
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipelineJongho Woo
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
SQL performance and UDF
SQL performance and UDFSQL performance and UDF
SQL performance and UDFJAEGEUN YU
 
미래경진대회(Object detection) 설명 자료
미래경진대회(Object detection) 설명 자료미래경진대회(Object detection) 설명 자료
미래경진대회(Object detection) 설명 자료DACON AI 데이콘
 
Convolutional Neural Networks
Convolutional Neural NetworksConvolutional Neural Networks
Convolutional Neural NetworksSanghoon Yoon
 
[Paper review] contrastive language image pre-training, open ai, 2020
[Paper review] contrastive language image pre-training, open ai, 2020[Paper review] contrastive language image pre-training, open ai, 2020
[Paper review] contrastive language image pre-training, open ai, 2020Seonghoon Jung
 

Ähnlich wie "Searching for Activation Functions" Paper Review (20)

[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례오픈 소스를 활용한 게임 배치 플랫폼 개선 사례
오픈 소스를 활용한 게임 배치 플랫폼 개선 사례
 
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobileHadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)
 
AUTOML
AUTOMLAUTOML
AUTOML
 
Automl
AutomlAutoml
Automl
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
 
201803 파이썬 세미나
201803 파이썬 세미나201803 파이썬 세미나
201803 파이썬 세미나
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림
 
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
제2회 난공불락 오픈소스 인프라 세미나 zinst 관리툴 소개
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipeline
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
SQL performance and UDF
SQL performance and UDFSQL performance and UDF
SQL performance and UDF
 
미래경진대회(Object detection) 설명 자료
미래경진대회(Object detection) 설명 자료미래경진대회(Object detection) 설명 자료
미래경진대회(Object detection) 설명 자료
 
Convolutional Neural Networks
Convolutional Neural NetworksConvolutional Neural Networks
Convolutional Neural Networks
 
[Paper review] contrastive language image pre-training, open ai, 2020
[Paper review] contrastive language image pre-training, open ai, 2020[Paper review] contrastive language image pre-training, open ai, 2020
[Paper review] contrastive language image pre-training, open ai, 2020
 

Mehr von LEE HOSEONG

Unsupervised anomaly detection using style distillation
Unsupervised anomaly detection using style distillationUnsupervised anomaly detection using style distillation
Unsupervised anomaly detection using style distillationLEE HOSEONG
 
do adversarially robust image net models transfer better
do adversarially robust image net models transfer betterdo adversarially robust image net models transfer better
do adversarially robust image net models transfer betterLEE HOSEONG
 
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen..."The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...LEE HOSEONG
 
Mixed Precision Training Review
Mixed Precision Training ReviewMixed Precision Training Review
Mixed Precision Training ReviewLEE HOSEONG
 
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly DetectionMVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly DetectionLEE HOSEONG
 
YOLOv4: optimal speed and accuracy of object detection review
YOLOv4: optimal speed and accuracy of object detection reviewYOLOv4: optimal speed and accuracy of object detection review
YOLOv4: optimal speed and accuracy of object detection reviewLEE HOSEONG
 
FixMatch:simplifying semi supervised learning with consistency and confidence
FixMatch:simplifying semi supervised learning with consistency and confidenceFixMatch:simplifying semi supervised learning with consistency and confidence
FixMatch:simplifying semi supervised learning with consistency and confidenceLEE HOSEONG
 
"Revisiting self supervised visual representation learning" Paper Review
"Revisiting self supervised visual representation learning" Paper Review"Revisiting self supervised visual representation learning" Paper Review
"Revisiting self supervised visual representation learning" Paper ReviewLEE HOSEONG
 
Unsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-SupervisionUnsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-SupervisionLEE HOSEONG
 
Human uncertainty makes classification more robust, ICCV 2019 Review
Human uncertainty makes classification more robust, ICCV 2019 ReviewHuman uncertainty makes classification more robust, ICCV 2019 Review
Human uncertainty makes classification more robust, ICCV 2019 ReviewLEE HOSEONG
 
Single Image Super Resolution Overview
Single Image Super Resolution OverviewSingle Image Super Resolution Overview
Single Image Super Resolution OverviewLEE HOSEONG
 
2019 ICLR Best Paper Review
2019 ICLR Best Paper Review2019 ICLR Best Paper Review
2019 ICLR Best Paper ReviewLEE HOSEONG
 
2019 cvpr paper_overview
2019 cvpr paper_overview2019 cvpr paper_overview
2019 cvpr paper_overviewLEE HOSEONG
 
Pelee: a real time object detection system on mobile devices Paper Review
Pelee: a real time object detection system on mobile devices Paper ReviewPelee: a real time object detection system on mobile devices Paper Review
Pelee: a real time object detection system on mobile devices Paper ReviewLEE HOSEONG
 

Mehr von LEE HOSEONG (14)

Unsupervised anomaly detection using style distillation
Unsupervised anomaly detection using style distillationUnsupervised anomaly detection using style distillation
Unsupervised anomaly detection using style distillation
 
do adversarially robust image net models transfer better
do adversarially robust image net models transfer betterdo adversarially robust image net models transfer better
do adversarially robust image net models transfer better
 
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen..."The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...
"The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Gen...
 
Mixed Precision Training Review
Mixed Precision Training ReviewMixed Precision Training Review
Mixed Precision Training Review
 
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly DetectionMVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection
MVTec AD: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection
 
YOLOv4: optimal speed and accuracy of object detection review
YOLOv4: optimal speed and accuracy of object detection reviewYOLOv4: optimal speed and accuracy of object detection review
YOLOv4: optimal speed and accuracy of object detection review
 
FixMatch:simplifying semi supervised learning with consistency and confidence
FixMatch:simplifying semi supervised learning with consistency and confidenceFixMatch:simplifying semi supervised learning with consistency and confidence
FixMatch:simplifying semi supervised learning with consistency and confidence
 
"Revisiting self supervised visual representation learning" Paper Review
"Revisiting self supervised visual representation learning" Paper Review"Revisiting self supervised visual representation learning" Paper Review
"Revisiting self supervised visual representation learning" Paper Review
 
Unsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-SupervisionUnsupervised visual representation learning overview: Toward Self-Supervision
Unsupervised visual representation learning overview: Toward Self-Supervision
 
Human uncertainty makes classification more robust, ICCV 2019 Review
Human uncertainty makes classification more robust, ICCV 2019 ReviewHuman uncertainty makes classification more robust, ICCV 2019 Review
Human uncertainty makes classification more robust, ICCV 2019 Review
 
Single Image Super Resolution Overview
Single Image Super Resolution OverviewSingle Image Super Resolution Overview
Single Image Super Resolution Overview
 
2019 ICLR Best Paper Review
2019 ICLR Best Paper Review2019 ICLR Best Paper Review
2019 ICLR Best Paper Review
 
2019 cvpr paper_overview
2019 cvpr paper_overview2019 cvpr paper_overview
2019 cvpr paper_overview
 
Pelee: a real time object detection system on mobile devices Paper Review
Pelee: a real time object detection system on mobile devices Paper ReviewPelee: a real time object detection system on mobile devices Paper Review
Pelee: a real time object detection system on mobile devices Paper Review
 

"Searching for Activation Functions" Paper Review

  • 1. Searching for Activation Functions Prajit Ramachandran, Barret Zoph, Quoc V. Le Google Brain
  • 3. Introduction • Google Brain Team의 연구이자 NAS, NASNet의 저자 Barret Zoph가 참여한 연구 • NAS : CNN(CIFAR-10), RNN(Penn Treebank) 구조 설계 • NASNet : CNN(CIFAR-10, ImageNet) Transferable한 구조 설계 • RL 기반으로 CNN 혹은 RNN 구조를 찾자! • Searching for Activation Functions(ICLR 2018) • NAS, NASNet처럼 RL 기반으로 Activation Function을 찾자! • RNN Controller + RL → NAS와 거의 유사, Only Search Space..! • ReLU를 대체할 만한 Swish 라는 Activation function 발견 및 분석 • 일반화 성능을 보이기 위해 다양한 모델, 데이터셋에 대해 실험 진행
  • 4. Contribution(1) • Activation Function을 위한 Search Space 제안 • Activation function을 구성하는 요소를 Unary(단항식)과 Binary(이항식)의 조합으로 나타냄 NAS Search Space NASNet Search Space
  • 5. Contribution(2) • 발견한 Activation function들을 분석하고 성능을 검증 • RL로 찾은 여러 Activation function의 특징 관찰 및 분석 • CIFAR, ImageNet, Machine Translation 에 대해 기존 주로 사용되던 activation function들과 성능 비교
  • 6. Method(1) • Search space • “Neural optimizer search with reinforcement learning, 2017” 논문에서 제안한 search space를 사용 마찬가지로 Barret Zoph 등 Google Brain의 논문.. Neural Optimizer Search Space
  • 7. Method(1) • Search space (Cont.) • “Neural optimizer search with reinforcement learning, 2017” 논문에서 제안한 search space를 사용 • Unary functions • Binary functions Input 1, Input 2의 의미가 무엇인지? 단순 차용(NOS) or Core unit 생성 중단 Scalar input Scalar output ex) x – sin(x) x x 𝑥 sin 𝑥 𝑥1 − 𝑥2
  • 8. Method(1) • Search space (Cont.) • Core Unit의 개수에 따라 Activation function의 복잡도가 달라짐 • 정해진 Child network에서 activation function만 바꿔서 Validation accuracy 측정 → Reward • NAS, NASNet과 마찬가지로 여러 Worker를 통해 분산 training 진행! • 학습에 소요되는 전체 시간을 따로 명시하지는 않음. Scalar input Scalar output
  • 9. Method(2) • Search Finding • Child Network : ResNet-20 / Dataset : CIFAR-10 • 정해진 데이터와 모델에 대해서 좋은 성능을 보이는 Activation function을 추려 냄 • 일반화 성능을 확인하기 위해 다양한 Network, Dataset에 대해 실험 결과 측정 • RN(ResNet-164), WRN(Wide ResNet 28-10), DN(DenseNet 100-12)
  • 10. Method(2) • Search Finding (Cont.) • 대체로 복잡한 activation function일수록 성능 저조 → 1 or 2 core units 에서 좋은 성능 • 성능이 좋은 activation function들의 공통점 : Binary function input으로 x를 사용 • 일반적으로 사용하지 않던 주기 함수들(ex, sin 𝑥 , cos 𝑥)의 적용 가능성을 보여줌 • 나눗셈을 사용하는 function들이 포함되는 경우 대체로 성능 저조 • 성능이 우수한 2가지의 activation function( , ) 중 일반화 성능이 좋았던 전자를 사용 Swish 라 부름
  • 11. Training with RL • Controller(LSTM)를 이용하여 예측한 Cell을 통해 Architecture 생성 • 강화학습 알고리즘으로 Proximal Policy Optimization(PPO) 사용 • PPO : 2017, OpenAI • 전체적인 학습 방법은 NAS, NASNet과 거의 유사 • State : controller의 hidden state • Action : controller가 생성한 predictions (Activation function) • Reward : Child Network with Activation function’s accuracy
  • 12. Result(CIFAR) • ReLU의 변형 function들에 비해 높은 성능 • CIFAR-100의 Softplus + ResNet만 제외하면 다 높은 성능을 보임 • 𝛽 값을 1로 고정(Swish-1)하는 경우에도 좋은 성 능을 보임
  • 13. Result(ImageNet) • Mobile NASNet-A, Inception-ResNet-v2, MobileNet 등을 기준으로 ImageNet 실험 진행 • Swish가 대부분 높은 성능! (Softplus의 선전!) Mobile NASNet-A Inception-ResNet-v2 MobileNet
  • 14. Result(ImageNet) • Mobile NASNet-A, Inception-ResNet-v2, MobileNet 등을 기준으로 ImageNet 실험 진행 • Swish가 대부분 높은 성능! (Softplus의 선전!) → Inception에서는 특출 난 성능을 보이지는 않음 Inception-v3 Inception-v4
  • 15. Result(Machine Translation) • WMT 2014 English → German dataset에 대해 실험 진행 • BLEU Score(높을 수록 좋음)에서 대체로 좋은 성능을 보이지만 ReLU에 비해 크게 좋아지지는 않음 • Softplus의 약세와 LReLU의 강세가 주목할만함 • Swish-1이 대체로 좋은 성능을 보임
  • 16. Result(Total) • 전체 결과 정리 • Swish가 Baseline activation function에 비해 성능이 저조한 경우는 3가지/64가지 • 대체로 Baseline activation function에 비해 비슷하거나 좋은 성능을 보임 • 다양한 Dataset, Network에 대해 적용할 만한 가치가 있음
  • 17. Swish • 그래프를 그려보면 ReLU와 비슷한 모양을 가짐 • 𝛽 = 1인 경우는 Sigmoid-weighted Linear Unit(SiL)이라는 이름의 Activation function과 동일함 (2017) • 𝛽 → ∞ 인 경우 0-1 function이 되므로 ReLU와 같아짐
  • 18. Swish • ReLU와 비교 • 공통점 : 상한은 존재하지 않고 하한은 존재 • 차이점 : Smooth하고 non-monotonic 함 미분계수가 같은 부호로 유지
  • 19. Discussion • Activation function을 위한 Search space 제안 • NAS의 Activation function 버전으로 Novelty가 뛰어나지는 않음, but 2018 ICLR! • ReLU보다 대체로 좋은 성능을 보이는 것을 증명 • 다양한 Network, 다양한 Dataset에 대해 63가지의 실험 중 60가지에서 높거나 같은 성능! • 앞으로는 tf.nn.relu 대신 tf.nn.swish가 default로 쓰일 것으로 예상 • 현재 사용 중인 network들에도 간단히 적용할 수 있음 • Optimizer, Architecture, Activation function.. 그 다음은?