메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

그로킹 심층 강화학습

이론과 실제 사이의 틈을 메우다

한빛미디어

번역서

판매중

  • 저자 : 미겔 모랄레스
  • 번역 : 강찬석
  • 출간 : 2021-10-10
  • 페이지 : 500 쪽
  • ISBN : 9791162244838
  • eISBN : 9791162246498
  • 물류코드 :10483
  • 초급 초중급 중급 중고급 고급
4.7점 (21명)
좋아요 : 13

사람처럼 학습하는 인공지능,

심층 강화학습의 모든 것

 

사람은 시행착오를 통해 학습한다. 아픈 실패를 안겨준 상황을 피하고, 즐거웠던 성공의 경험을 되풀이하려 한다. 심층 강화학습도 마찬가지. 심층 강화학습은 딥러닝 기법을 활용해 환경의 반응을 기반으로 탐색하고 학습하는 머신러닝 시스템을 만드는 것을 목표로 한다. 저자는 심층 강화학습을 이해하는 밑바탕이 되어줄 강화학습에 관한 개념부터 알고리즘과 심층 강화학습의 기법, 최신 기술 동향까지 심층 강화학습에 대한 모든 걸 소개한다. 또한, 각 장마다 설명에 사용되는 예시와 삽화, 실습, 명확한 설명은 강력한 머신러닝 접근법에 대해 독자들이 쉽게 살펴볼 수 있도록 해준다. 이해하는 속도에 맞춘 친절한 해설이 여러분의 머릿속에 심층 강화학습의 기초와 원리, 복잡한 상황에 적용하는 방법까지 차근차근 넣어줄 것이다.

 

상세이미지700_그로킹 심층 강화학습.jpg

미겔 모랄레스 저자

미겔 모랄레스

록히드 마틴의 미사일 화기 통제 및 자율 시스템 부서에서 강화학습을 활용하며 일하고 있다. 조지아 공과대학교에서 강화학습 및 의사 결정과 관련된 강의를 했으며, 유다시티에서 머신러닝 프로젝트 리뷰어 및 자율 주행 강의에서 멘토로 활동했으며, 심층 강화학습 강의를 개발했다. 조지아 공과대학교에서 컴퓨터과학 석사 과정을 수료했고, 유기적 지능에 대해 연구했다.

강찬석 역자

강찬석

LG전자 인공지능연구소에서 생활가전에 인공지능 기술을 적용하는 업무를 하고 있다. 임베디드환경부터 인공지능까지 관심 영역이 넓으며, ‘생각많은 소심남의 자신에 대한 고찰’이라는 블로그(https://talkingaboutme.tistory.com/)를 통해, 본인이 알고 있는 지식을 다른 사람에게 쉽게 공유하는 방법을 항상 고민하는 편이다. 한빛미디어에서 『텐서플로를 활용한 머신러닝』 감수를 맡았다.

CHAPTER 1 심층 강화학습의 기초

1.1 심층 강화학습이란 무엇인가?

1.2 심층 강화학습의 과거와 현재 그리고 미래

1.3 심층 강화학습의 적절성

1.4 두 가지의 명확한 기대치 설정

1.5 요약

 

CHAPTER 2 강화학습의 수학적 기초

2.1 강화학습의 구성 요소

2.2 MDP: 환경의 엔진

2.3 요약

 

CHAPTER 3 순간 목표와 장기 목표 간의 균형

3.1 의사결정을 내리는 에이전트의 목적

3.2 이상적인 행동들에 대한 계획

3.3 요약

 

CHAPTER 4 정보의 수집과 사용 간의 균형

4.1 평가가능한 피드백 해석의 어려움

4.2 전략적인 탐색

4.3 요약

 

CHAPTER 5 에이전트의 행동 평가

5.1 정책들의 가치를 추정하는 학습

5.2 여러 단계를 통해서 추정하는 학습

5.3 요약

 

CHAPTER 6 에이전트의 행동 개선

6.1 강화학습 에이전트의 구조

6.2 행동에 대한 정책을 개선하기 위한 학습

6.3 학습에서 행동을 분리하기

6.4 요약

 

CHAPTER 7 조금 더 효율적인 방법으로 목표에 도달하기

7.1 강건한 목표를 활용한 정책 개선 학습

7.2 상호작용, 학습 그리고 계획하는 에이전트

7.3 요약

 

CHAPTER 8 가치 기반 심층 강화학습 개요

8.1 심층 강화학습 에이전트가 사용하는 피드백의 유형

8.2 강화학습을 위한 함수 근사화

8.3 NFQ: 가치 기반 심층 강화학습을 위한 첫 번째 시도

8.4 요약

 

CHAPTER 9 조금 더 안정적인 가치 기반 학습 방법들

9.1 DQN: 강화학습을 지도학습처럼 만들기

9.2 이중 DQN: 행동-가치 함수에 대한 과도추정 극복

9.3 요약

 

CHAPTER 10 샘플 효율적인 가치 기반 학습 방법들

10.1 듀얼링 DDQN: 강화학습에 초점을 맞춘 신경망 구조

10.2 PER: 유의미한 경험 재현에 대한 우선순위 부여

10.3 요약

 

CHAPTER 11 정책-경사법과 액터-크리틱 학습법

11.1 REINFORCE: 결과기반 정책 학습

11.2 VPG: 가치함수 학습하기

11.3 A3C: 병렬적 정책 갱신

11.4 GAE: 강력한 이점 추정

11.5 A2C: 동기화된 정책 갱신

11.6 요약

 

CHAPTER 12 발전된 액터-크리틱 학습법

12.1 DDPG: 결정적 정책에 대한 근사화

12.2 TD3: DDPG를 넘어선 성능을 보이는 개선점들

12.3 SAC: 기대 반환값과 엔트로피를 최대화하기

12.4 PPO: 최적화 과정을 제한하기

12.5 요약

 

CHAPTER 13 범용 인공지능을 향한 길

13.1 다룬 내용과 다루지 못한 내용

13.2 범용 인공지능에 대한 조금 더 발전된 개념들

13.3 이후의 내용들

13.4 요약

 

부록 A 구글 콜랩에서의 실습 환경

수학 공식부터 코드 예제까지

모든 걸 갖춘 심층 강화학습 풀 코스

 

이 책은 강화학습과 심층 강화학습이 무엇인지 이해하고 실제로 적용해보고 싶은 사람들을 위해 기본 이론부터 실제 적용 방법까지 차례로 안내합니다. 자세한 예제와 적절한 비유가 섞인 개념 설명으로 시작해, 해당 개념을 수학적으로 확인할 수 있는 공식들과 이를 직접 만들어볼 수 있는 코드까지 제공하며 강화학습을 떠먹여줍니다. 눈과 손을 통해 들어오는 설명을 하나씩 차례대로 소화해나가다 보면 어렵게만 느껴졌던 심층 강화학습이 어느새 여러분의 것이 되어 있을 겁니다.

 

 

대상 독자

 

인공지능이란 연구 영역에 익숙하고 파이썬 코드를 볼 줄 알아야 합니다. 여기저기 있는 수학과 수많은 직관적인 설명을 이해하며 재미있고 자세한 예제를 바탕으로 학습하고자 하는 사람이라면 이 책을 재미있게 볼 수 있습니다. 인공지능에 대해 모르더라도, 파이썬 코드를 읽을 줄 알고 학습에 대한 흥미만 있다면 많은 내용을 얻어갈 수 있습니다. 기본적인 딥러닝 지식이 요구되긴 하지만, 이 책은 신경망과 역전파 방식 및 관련 기법을 간단하게 복습합니다. 결론적으로 이 책 한 권에서 원하는 지식을 모두 얻어갈 수 있으며 인공지능 에이전트를 가지고 놀고 싶은 사람이나 심층 강화학습을 깊게 이해하려는 사람에게 좋습니다.

 

 

주요 내용

  • 심층 강화학습의 기본 원리
  • 최신 심층 강화학습 기법
  • 인간처럼 학습하는 심층 강화학습 에이전트 개발법
  • 복잡한 상황에 적용할 수 있는 심층 강화학습 접근법

 

추천사

 

“이 책은 강화학습을 처음 시작하는 입문자에게 충실한 길잡이 역할을 할 것이다.”

최규빈, 전북대학교 통계학과 교수

 

“잘 짜인 책이다. 머신러닝과 딥러닝, 강화학습이 무엇인지 기술적이지만 명확한 언어로 설명한다.”

찰스 이스벨, 조지아 공과대학 교수

 

“심층 강화학습을 다루는 상당히 실용적인 입문서. 추천합니다.”

아이크 오콘코, 솔리드 스테이트 AI

 

“수학과 개념, 예시를 균형 있게 보여주며 심층 강화학습을 알려주는 좋은 입문서”

알랭 쿠니오, 소프라 스테리아

 

“심층 강화학습에 관한 완벽한 개념서를 찾으시나요? 이 책이면 충분합니다.”

스와미나탄 수브라마니안, DXC 테크놀로지

이제 막 한걸음 내딛어본 것이다 보니 아직 깊이있는 통찰이나 내공이 있는 것은 아니지만 강화학습(Reinforcement Learning) 라는게 다소 오묘하다, 적어도 내겐... 우리가 흔히들 알고 있는 머신러닝, 딥러닝과는 또 다른 색다름도 있지만 조금은 더 접근하기 어려운 부분이 아닌가 싶다. 하긴 러닝 붙은 것 치고 뭔들 쉬울까... ^^


확률적인 요소가 중요한 역할을 하는 분야다 보니 수학적인 요소가 다른 것들에 비해 더 많이 나오기도 하지만 현실 세계를 강화학습에 필요한 환경, 상태, 액션 등으로 정의하고 학습을 시켜 목표하는 문제를 해결하는데 활용하는 과정 자체가 막연하기도 하고 막막하기도 한게 하닌가 싶다.


이제 막 강화학습을 통해 해보고자 하는 목표가 생긴 나로서 책 한권, 대학원 수업 한번 그리고 논문 몇 편 읽어본 나로서는 좀더 좋은 지침이 될 수 있는 무언가가 필요한데 "그로킹 심층 강화학습"이 딱 그런 책이 아닐까 싶다.


책의 모토가 마음에 든다, "이론과 실제 사이의 틈을 메우다"


강화학습도 초기에 비해 활발한 연구가 진행되다 보니 여러단계를 거쳐 딥(Deep)이라 단어가 붙기 시작했다. 최근 인공지능 붐업에 힘입어 강화학습도 많은 연구 성과와 기술의 진보가 이루어지고 있지만 다른 인공지능 분야에 비해 현실세계 문제를 의미있는 수준으로 해결하는 획기적인 맛은 아직 없지 않나 싶다, 뭔가 잠재력은 풍부해보이고 많은 시도가 되고 있긴 하지만... 아직은...


이 책은 이론과 현실 세계의 갭을 매꾸는데 조금이라도 일조하려는 의도로 쓰여진 책이다, 그렇다 보니 강화학습 입문서로 보기에는 난이도가 좀 있다. 기본적인 강화학습에 대한 이해가 어느정도 있는 사람이 볼만한 책...


그럼에도 불구하고 이 책은 내걸은 캐치프레이즈를 달성하기 위해 다양한 장점을 가지고 있다.

먼저 안그래도 어려운데 충분하고 자세한 그림들을 통해 독자의 이해를 높이려 상당히 애를 쓰는 책이다.


그리고 수식들에 대한 이해를 돕기위한 설명을 필요한 시점에 충분히 해주고 있는 책이다.


강화학습에서 필연적으로 알아야하는 상태나 정책 그리고 가치 등에 대해서도 필요하면 상세한 그림을 통해 충분한 이해를 할 수 있도록 많이 신경을 쓴 책이다.


강화학습을 통해 현실세계의 실질적인 문제에 접근하기 위해서는 이론과 현실 사이의 간극을 해소할 수 있는 지식과 통찰이 필요한데 이 책은 그러한 역량을 향상시키는데 충분히 의미있는 역할을 해줄만한 책이라 생각한다.


이제 나도 이 책을 통해서 스케쥴링과 관련한 분야의 연구를 수행할 수 있는 힌트도 얻고 힘도 받은것 같다.


※ 본 리뷰는 IT 현업개발자가, 한빛미디어 책을 제공받아 작성한 서평입니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다

 

아주 어려운 이론들과 복잡한 롲직들을 나열해놓은책인데, 한마디로 인공 지능을 만들려면 이렇게 할 수 있다 라고 알려주는 책일까요?

 

너무 어렵고, 또 어려운 책이라는 느낌이들었습니다.

관심 있는 분야이기는 했는데, 책만으로 뭔가를 얻기에는 진정한 정독이 필요하구나하는 색각을 하게되었네요~

[ 그로킹 심층 강화학습 ]  

 

  이론과 실제 사이의 틈을 메우다.

    미겔 모랄레스 지음.

    강찬석 옮김.

 

우선 첫 느낌은 쉽지 않은 책입니다.

책 뒷 표지에 적혀있는 글을 보면,

 

사람은 시행착오를 통해 학습합니다. 아픈 실패를 안겨준 상황을 피하고, 즐거웠던 성공의 경험을 되풀이하려 합니다.
심층 강화학습도 마찬가지 입니다. 심층 강화학습의 목표는 환경의 반응을 기반으로 탐색하고 학습하는 머신러닝 시스템을 만드는 것입니다. 이 책은 예시와 삽화, 실습, 명확한 설명을 통해 강력한 머신러닝 접근법을 설명 합니다.
이해하는 속도에 맞춘 친절한 해설이 여러분의 머릿속에 심층 강화학습의 기초부터 원리, 복잡한 상황에 적용하는 방법까지 차근차근 넣어줄 겁니다.

사람 마다 이해하는 속도가 다르기에 맞지는 않지만, 기본 적으로 책에서 제시하는 "대상 독자"에  "인공지능이란 연구 영역에 익숙하고 파이썬 코드를 볼 줄 알아야 합니다."  라고 표기한 것과 같이 기반 지식이 있으면 쉽게 접근 할 수 있는 책입니다.


기반 지식이 없는 상태에서는 접근이 어렵긴 하지만, 책 구성에서 필요한 부분들에 대한 기초 부터 설명해 주고 있고 그림으로 많은 것을 설명 하고 있으며, 수식 들에 대해서도 상세하게 표기 하고 있기에 학습 속도는 느리겠지만 조금 천천히 학습한다면 충분히 인공 지능에서의 심층 강화학습에 대한 부분에 대해서 많은 것을 아는 기회가 될 수 있도록 도와주고 있습니다.아래 그림 처럼 많은 부분을 그림 또는 도식화 하여 보여 주고 있기에 설명에 대한 이해도를 도화 주고 있습니다.

 

이 책은 많은 예제들을 통하여 직접 실험 하며 이해도를 높일 수 있도록 구성되어 있습니다.
파이썬에 대해서 기본 문법에 대해서만 알고 있으면 충분히 코드를 이해하는데 무리는 없을 것입니다.
그리고 코드에는 중요한 부분에 대해서는 별도 설명이 추가되어 있습니다.
그리고 설명한 내용들에 대해서 "수식으로 이해하기" 라는 블럭으로 수학 적으로도 이해할 수 있도록 제공 하고 있습니다.
수학 표기에도 설명이 필요한 부분들에 대해 별도 설명들이 표기되어 있습니다.

 

각 장의 마지막에는 해당 장에서 학습하고자 했던것에 대한 설명과 전체 내용에 대해 간략하게 정리해 주고 있습니다. 한번 더 학습한 내용들에 대해 기억을 상기 시켜 줍니다.

 

요약 정리한 장 마지막에는 "트위터에서 만나요" 라는 작은 코너를 두어 해시 테그 형태로 찾아서 배운 것들에 대해 자신이 학습한 결과를 공유도 하고 다른 학습한 사람들이 공유한 결과들을 볼수 있도록 지원하고 있습니다.
단지, 트위터를 통하여 태그하면 저자를 통하여 리트윗 되는 형태로 공유되는 시스템 이기에 활용도는 떨어질 것 같습니다. 책에서 설명 중간중간에 좀 더 상세한 설명이나 당장 알지 않아도 되지만 알면 도움 되는 내용에 대해 "NOTE" 라는 블럭을 통하여 제공 하고 있습니다.

 

 

* 결론

서평 처음에 얘기한 것과 같이 기반 지식이 없는 상태에서는 쉬운 책은 아닙니다.

저자도 얘기하는 부분이 독자들이 머신러닝에 대해 이해가 있다는 가정하에 설명 하고 있다고 얘기 하고 있으며,  이 책에서 다루는 내용 외에 머신러닝이 어떤 의미로 작용하는지 알아야 한다고 말하고 있습니다.

머신러닝, 딥러닝에 대한 기초 지식은 구글에서 찾아서 어떠한 것이다 정도에서만 알아도 되고 아니면 학습중 설명되지 않은 용어들에 대해서 구글 통하여 필요한 부분들을 익혀 가면 충분히 학습할 수 있으나,  파이썬 코드와 수학 지식에 대한 부분은 파이썬 문법과 수학 기호들에 대해 익숙해 져야 책을 학습하는데 도움 됩니다.

쉽지 않은 책이지만 정독 하면서 학습하면 충분히 기초를 다져 가는데는 도움 되는 책입니다.

 

https://bluemir7.tistory.com/149?category=1054380

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


대상 독자

신경망과 역전파 방식에 대한 기본적인 설명이 있어 기본적인 딥러닝 지식부터 궁금한 분들에게 좋은 책입니다. 강화학습의 수학적 기초와 강화학습의 기본적인 정의와 특징에 대해서 설명해주기 때문에 강화학습을 처음 접하는 분들이나 관련해서 면접을 준비하고 있는 취업 준비생분들에게도 좋은 책입니다.

 

좋았던 점

책을 읽기 전 지식 수준은 딥러닝 중에서도 비전이나 자연어처리에 대한 모델들에 대해 정도 알고 있는 정도였습니다. 강화학습은 처음 접하는 분야였지만, 책의 설명에서 처음에는 기본적인 강화학습 방법에 대해 설명해주고 조금씩 개선된 강화학습 방법에 대해 이어서 설명해주다보니 응용 개념에 대한 이해가 편했습니다.  

 

[중략] 

 

출처: https://vg-rlo.tistory.com/303 [vg-rlo:티스토리]


 

목차

CHAPTER 1 심층 강화학습의 기초

 

1.1 심층 강화학습이란 무엇인가?

1.2 심층 강화학습의 과거와 현재 그리고 미래

1.3 심층 강화학습의 적절성

1.4 두 가지의 명확한 기대치 설정

1.5 요약

 

CHAPTER 2 강화학습의 수학적 기초

 

2.1 강화학습의 구성 요소

2.2 MDP: 환경의 엔진

2.3 요약

 

CHAPTER 3 순간 목표와 장기 목표 간의 균형

 

3.1 의사결정을 내리는 에이전트의 목적

3.2 이상적인 행동들에 대한 계획

3.3 요약

 

CHAPTER 4 정보의 수집과 사용 간의 균형

 

4.1 평가가능한 피드백 해석의 어려움

4.2 전략적인 탐색

4.3 요약

 

CHAPTER 5 에이전트의 행동 평가

 

5.1 정책들의 가치를 추정하는 학습

5.2 여러 단계를 통해서 추정하는 학습

5.3 요약

 

CHAPTER 6 에이전트의 행동 개선

 

6.1 강화학습 에이전트의 구조

6.2 행동에 대한 정책을 개선하기 위한 학습

6.3 학습에서 행동을 분리하기

6.4 요약

 

CHAPTER 7 조금 더 효율적인 방법으로 목표에 도달하기

 

7.1 강건한 목표를 활용한 정책 개선 학습

7.2 상호작용, 학습 그리고 계획하는 에이전트

7.3 요약

 

CHAPTER 8 가치 기반 심층 강화학습 개요

 

8.1 심층 강화학습 에이전트가 사용하는 피드백의 유형

8.2 강화학습을 위한 함수 근사화

8.3 NFQ: 가치 기반 심층 강화학습을 위한 첫 번째 시도

8.4 요약

 

CHAPTER 9 조금 더 안정적인 가치 기반 학습 방법들

 

9.1 DQN: 강화학습을 지도학습처럼 만들기

9.2 이중 DQN: 행동-가치 함수에 대한 과도추정 극복

9.3 요약

 

CHAPTER 10 샘플 효율적인 가치 기반 학습 방법들

 

10.1 듀얼링 DDQN: 강화학습에 초점을 맞춘 신경망 구조

10.2 PER: 유의미한 경험 재현에 대한 우선순위 부여

10.3 요약

 

CHAPTER 11 정책-경사법과 액터-크리틱 학습법

 

11.1 REINFORCE: 결과기반 정책 학습

11.2 VPG: 가치함수 학습하기

11.3 A3C: 병렬적 정책 갱신

11.4 GAE: 강력한 이점 추정

11.5 A2C: 동기화된 정책 갱신

11.6 요약

 

CHAPTER 12 발전된 액터-크리틱 학습법

 

12.1 DDPG: 결정적 정책에 대한 근사화

12.2 TD3: DDPG를 넘어선 성능을 보이는 개선점들

12.3 SAC: 기대 반환값과 엔트로피를 최대화하기

12.4 PPO: 최적화 과정을 제한하기

12.5 요약

 

CHAPTER 13 범용 인공지능을 향한 길

 

13.1 다룬 내용과 다루지 못한 내용

13.2 범용 인공지능에 대한 조금 더 발전된 개념들

13.3 이후의 내용들

13.4 요약

 

본문


▶ 강화학습과 관련된 수학 공식부터 코드 예제까지 자세한 설명 수록

 


▶ '더 자세히 살펴보기' 코너를 통해 핵심 내용 혹은 심화 내용 수록

 


▶ 각 장마다 개념 설명에 있어 예시, 삽화, 실습등을 사용하여 독자들에게 강화학습을 쉽게 이해할 수 있도록 하였다.

 

책의 특징

· 심층 강화학습의 기본 원리를 다양한 예시로 쉽게 접근 할 수 있습니다.

· 수학 개념 및 예시 등을 통해 심층 강화학습을 다양한 관점에서 접근 할 수 잇습니다.

· 수학 공식 및 코드 예제 까지 수록하여 이론 및 적용 방법까지 안내하였습니다.

 

추천 독자

· 심층 강화학습에 입문 하고자 하는 개발자

· 인공지능에 대해 모르더라도, 파이썬 코드를 읽을 줄 알고 강화학습에 흥미있는 누구나

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

머신러닝을 공부하면서 지도학습, 비지도학습은  접할 기회가 많았지만 강화학습 부분은 접할 기회가 많지 않았는데 이 책을 통해서 학습해볼 수 있었다. 이 책에서는 강화학습 중에서도 신경망을 활용하는 심층 강화학습을 다루고 있다. 처음 접하는 내용인데도 이해할 수 있도록 자세한 설명을 담고 있고, 첫 장에서 전체적인 강화학습 과정의 소개 후 2장부터 수학적 기초, 각 단계별 설명을 하고 있다. 많은 챕터 수만큼 많은 내용을 담고 있어 강화학습을 처음 접하고, 이해하는데 좋을 것 같다. 또 이 책의 장점 중 하나는 그림과 수식, 코드 부분을 잘 활용하여 이해를 도울뿐만 아니라, 각 내용을 이해하기 쉽도록 그림, 수식, 코드에서의 과정마다 작은 글씨로 친절한 부연 설명이 되어있다는 점이다. 인공지능, 머신러닝에 대한 지식을 어느정도 가지고 있는 강화학습을 처음 학습하려는 독자들에게 추천한다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

개요

해당 도서는 강화학습에 대하서 개념적, 수식적 설명에 대해서 집중하지 않고

왜 이러한 개념이 나왔는가? 이러한 개념을 통해서 목표하고자 하는 것이 무엇인가에 대해서 설명하고 있다.

즉, Why에 대한 의문을 집중적으로 설명하고자 한다.

 

목표하는 독자는 강화학습의 개념을 어느정보 숙지한 중급자 이상을 목적으로 내요을 풀어나가고 있다.

예제 소스는 Python기반으로 작성되어 있다.


목차

Chap 1. 심층 강화학습의 기초

머신러닝의 기본적 설명 및 강화학습을 구성하는 요소와 강화학습의 장단점을 설명하며, 강화학습이 필요한 경우에 대해서 말하고자 한다. 

 

Chap 2. 강화학습의 수학적 기초

강화학습은 크게 Agent와 Environment로 구성된다.

Agent를 학습하기 위해서 근간이 되는 이론인 MDP와 POMDP에 대한 설명을 이번장에서 진행한다.

MDP = (s=상태, a=행동, r=보상, t=상테전이확률, lamda=감가율)

POMDP = (s=상태, a=행동, r=보상, t=상테전이확률, lamda=감가율, omega=관찰된 observation, o=조건부 observation 확률)

 

Chap 3. 순간 목표와 장기 목표 간의 균형

Agent를 학습시킨다 함은 주어진 상태에서 행동을 함에 있어서 나오는 결과 Reward를 최대함에 따라서,

Reward들의 합인 Return를 극대화 합을 말한다.

매 행동시, 발생되는 Reward를 최대화 = 순간 목표

Episode 종료 시, Return를 극대화 = 장기 목표

두 목표에 대해서 이번 장에서 설명하고자 한다.

 

Chap 4. 정보의 수집과 사용 간의 균형

Agent 최적화함에 있어서 딜라마는 크게 탐색(Exploration), 착취(Exploitation) 2가지로 나뉜다.

탐색(Exploration)는 특정한 상황에서 여러 행동을 해보면서 최대 Reward를 찾는 과정이라 하면, 

착취(Exploitation)는 여러 Step를 진행했을때, 최대 누적된 Reward를 찾는 과정이다.

위 개념에 대한 설명과 2가지의 경우를 모두 잡는 방법론에 대한 설명을 이번장에서 한다.

 

Chap 5. 에이전트의 행동 평가

가치함수는 행동-가치함수, 상태-가치함수로 나뉘며,

행동-가치함수와 상태-가치함수의 차이인 행동-이점(Advantage) 함수가 있다.

위 가치함수를 추정하는, 즉 평가하는 방법에 대한 설명을 이번장에서 한다. 

 

Chap 6. 에이전트의 행동 개선

iteration은 '평가 -> 개선' 과정의 반복이다. 

이전 장에서는 V(s), Q(s, a)에 대한 평가를 통해서, 예측값과 실제값은 차이를 확인하는 과정이었다면,

이번장은 개선은 차이를 줄여나가는 과정에 대한 설명을 이어 나간다. 

 

Chap 7. 조금 더 효율적인 방법으로 목표에 도달하기

행동 개선을 좀더 빠르고 안정적으로 하는 방법에 대해서 이번장에서 설명한다.

또한, Dyna-Q 방법론에 대한 설명도 부가적으로 한다.

 

Chap 8. 가치 기반 심층 강화학습 개요

궁극적으로 Actor-Critic 설명하고자 앞서서, 가치기반 설명을 진행한다.

강화학습의 Deep learning 적용은 funcation approximate 됨을 말하며,

DL 적용을 위한 필요요소 및 단계에 대한 설명을 이번장에서 진행한다.

 

Chap 9. 조금 더 안정적인 가치 기반 학습 방법들

이전장에서는 RL를 DL 적용을 위한 기본적인 방법론에 대해서 설명하였다.

이번장에서는 DL 학습시, 안정적으로 되기위한 트릭들(DQN, DDQN)에 대한 설명을 한다.

 

Chap 10. 샘플 효율적인 가치 기반 학습 방법들

이전장에 대한 심화로서, dualing DDQN에 대한 설명과 Prioritized experience reply 에 대한 설명을 한다.

 

Chap 11. 정책-경사법과 액터-크리틱 학습법

가치 기반 방법론에 대해서 설명했다면, 정책 기반 방법론에 대해서 설명한다.

REINFORCE: Offline SARSA

11.5 A2C -> 11.3 A3C -> 11.4 GAE 순으로 보면서 좀더 쉽게 이해될 수 있다.

 

Chap 12. 발전된 액터-크리틱 학습법

이전장 A2C에 대해서 설명했다하면,

이번장에서 A2C에서 발전된 좀더 효과적, 효율적인 방법론들(DDPQ, TD3, SAC, PPO)에 대해서 설명한다. 

 

Chap 13. 범용 인공지능을 향한 길

강화학습 분야 역시 광범위 함에 따라서, 집중적으로 다루지 못했던 분야에 대한 설명을 진행한다.

본 도서과 개념설명을 목표가 아님에 따라서, 넘어왔던 개념설명을 이번장에서 풀어주고 있다.

마지막으로 강화학습의 범용적 인공지능에 대한 설명과 향후 전망을 제시한다.


마무리

강화학습를 시작하고, 개념간 연결고리를 찾기 위해서 도움을 받을 수 있는 아주 좋은 도서인 것 같다.

 

개념을 대해서 어느정도 숙지가 된 중급자 이상을 위한 도서이지만,

책 곳곳에 Note형식으로 필요한 개념에 대한 내용을 간략하게 설명하고 있어서, 이해하는 큰 도움을 받았다.

 

딱딱한 개념설명을 주를 이루지 않고 다양한 예시를 매 장마다 제시함에 따라서, 이해를 돕도록 하여서 좋았다.

타인에게 이야기를 풀어가듯이 풀어서 설명하기에,

개념들에 대해서 어떻게 연결 지을 수 있을가라는 고민에 대해서 도움을 받을 수 있었다. 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

머신러닝의 한축 강화학습에 관한 책이다.

대게는 딥러닝과 함께 지도학습과 비지도학습에 많은 관심을 갖을 것도 같지만 

나는 공부를 하면 할수록 강화학습이 더 매력적으로 느껴졌다.

 

무엇보다 딥러닝이라는 방법론 자체에 대한 이해도 강화학습을 통해서 더 가까워지는 것 같았다.(물론 심리적으로)

 

강화학습은 시뮬레이션 환경에서 마르코프 결정과정을 통해 에이전트가 학습하는 과정이다.

이 강화학습에 대해 알아가는 방법으로 

시뮬레이션 환경의 특성에 알맞게 적당히 성능이 좋은 강화학습 알고리즘을 적용해보며 알고리즘에 대해 공부할 수도 있겠고

반대로 이론적인 접근을 통해 기초부터 차근히 학습후에 강화학습 알고리즘에 대해 공부할 수도 있겠다.

 

나는 일단 전자의 방식대로 했다. gym을 통해 다양한 환경에서 알고리즘들을 적용해보며 알고리즘 자체에 대한 흥미와 호기심이 생길때쯤 이책을 접하였다.

운이 좋았다고 본다. 이 책을 통해 부족했던 이론적인 내용을 이해할 수 있었다.

머신러닝 책을 보다보면 지도학습 비지도 학습에 대한 내용은 충분하지만 

강화학습에 대해서는 제한된 지면상의 이유로 매우 가볍게 훝고 지나가는일이 부지기 수였던거 같다. 

적어도 내가 봤던 책들에선.

하지만 딱 강화학습을 떼어내 설명을 하다보니 온전히 집중해 학습할 수 있어 좋다.

 

수식에 친절히 모든 의미를 주석으로 달아놓은 것에서 저자의 배려를 느낄 수 있었다.

 

하지만 친절히 알려준다고 하여 강화학습 난이도 자체가 낮아지는 것은 아니다.

책을 읽는데에는 많은 시간이 들었다.

 

IMG_2756.jpeg

 

IMG_2757.jpeg

 

<그로킹 심층 강화학습> 은 강화학습을 연구적으로 이해할 수 있게 도와준다. 연구적이라 함은, 강화학습의 이론과 본질에 포커스를 맞추어 설명하기 때문에 강화학습을 실무에 빠르게 적용하고자 하는 현업자보다는 이론적으로 접근하고자 하는 학생을 위한 책에 가깝다는 뜻이다. 가령, 많은 "빠른 실무를 위한" 서적에서 high-level 위주의 직관적인 그림과 현업에 바로 적용 가능한 코드를 보여줄 때, 이 책에서는 수식적인 설명과 연구적 논의가 많이 등장하며 코드 예제는 최소화 되어있다.

"트위터에서 만나요!"
다리가 부러진 것이 좋은 소식인지, 나쁜 소식인지 어떻게 아나요?

이 책의 저자가 강화학습을 대하는 태도는 각 챕터의 시작만 봐도 어느정도 엿볼 수 있다. 예를 들어 3장은 "전투를 준비하면서 항상 느낀 것은 계획은 쓸모 없는 것이지만, 계획하는 것 자체는 없어서는 안될 중요한 것이었습니다. - 드와이트 D. 아이젠하워" 라는 문구로 시작하는데, 강화학습에서 중요한 문제이면서도 철학적인 고민거리를 던져주는 것이 상당히 흥미로웠다. 또한, 각 챕터의 마지막은 언제나 "트위터에서 만나요!" 라는 소제목의 텍스트 블록으로 마무리한다. 공부한 것에 대해 트위터를 작성하고 저자 본인을 태그하면 리트윗할것이라는 약속을 하며, 각 챕터와 관련된 해시태그를 사용하길 부탁한다. 예를 들어, 제 2장의 관련 해시태그로는 "#gdrl_ch02_tf01" 등을 제안한다. 이 부분에서 저자의 강화학습 필드에 대한 적극성과 열정 또한 느낄 수 있었다.

수식 예시

저자의 설명 스킬 또한 돋보인다. 어떤 개념도 이해시키고야 말겠다 라는 집념이 있는 것처럼 다양한 그래프, 예시를 사용하며 수식도 대충 설명하고 넘어가지 않는다. 사실 개인적으로 "수식은 몰라도 됩니다" / "실전에선 수식이 별로 쓰이지 않습니다" 와 같은 이야기를 하는 책을 선호하지 않는데, 수식 없이 high-level에서만 이해하고 코드를 사용하는 것은 지식 확장에 별로 도움이 되지 않기 때문이다. "잘" 써먹으려면 바닥부터 이해해야 하고, 그러려면 수식을 짚고 넘어가야 한다. 예를 들어 딥러닝 네트워크의 back-propagation을 수식 없이 그림으로만 알고 있다면 back-propagation이 무엇인지 동료에게 설명해야할 때 상당히 곤란할 것 같다. 딥러닝 관련 논문을 이해하기는 물론이고, 간단한 코드 수정도 힘들것이다. 저자는 연구자로서 그것의 중요성을 알기에, 수식을 넘기지 않고 잘 설명하고자 공을 많이 들인 것 같다. 수식 뿐만 아니라 강화학습 개념들이 잘 설명되어있다. 개인적으로 많은 부분의 설명을 빠져들면서 읽었다.

끝으로, 마지막 챕터에서 인상깊었던 저자의 일과 연구에 대한 마음가짐을 이야기하는 부분을 아카이빙하며 이 포스팅을 마치도록 하겠다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

달마다 그렇듯 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받았습니다. 이 책은 제목 그대로 강화학습을 심층적으로 다룬다. 여기서 심층은 딥러닝의 Deep한 레이어로 구성된 강화학습 모델을 다룬다는 것을 의미하는데, 책의 구성에서도 비슷한 느낌을 받았다. 흔히 보는 이 분야 관련 도서들은, 기초적인 것 부터 시작해 다양한 예제를 실행해가면서 기본적인 모델의 구성요소와 원리, 개념들만 배우고 응용과 활용할 수 있는데에 중점을 둔다. 하지만 이 책은 그런거 없고, 심층 강화학습을 어떻게 설계하며 어떤 이론들이 있는지를 위주로, 진짜 제목속의 심층강화학습을 어떻게 설계하는지만을 설명하기 위한 책이다. 약간 밑바닥부터 시작하는 딥러닝 같은 느낌이랄까. 강화학습을 체험하기 위한 안내서보다는 교과서같은 구성이다. 그래서 읽는 목적에 따라 재밌는 예제가 없어서 지루할 수도 있고, 강화학습 모델을 설계하다가 막히는 부분에 관한 지식을 충족시켜 줄수도 있다. 나는 재밌는 예제와 강화학습에 대한 살짝 심층적인 이론을 원했는데, 이 책은 후자에 더 가까워서 다소 어렵고 시간을 많이 투자해서 읽어야 할 것 같은 느낌을 많이 받았다. 나중에 강화학습 다룰 일 있으면 다시한번 읽어봐야겠다.

이 책의 저자이신 마겔 모랄레스는 록히드 마틴의 미사일 화기 통제 및 자율 시스템 부서에서 강화학습을 활용하며 일하고 있다. 조지아 공과대학교에서 강화학습 및 의사 결정과 관련된 강의를 했으며, 유다시티에서 머신러닝 프로젝트 리뷰어 및 자율 주행 강의에서 멘토로 활동했으며, 심층 강화학습 강의를 개발했다. 조지아 공과대학교에서 컴퓨터과학 석사 과정을 수료했고, 유기적 지능에 대해 연구했다. 역자이신 강찬석은 LG전자 인공지능연구소에 근무중이고 강화학습을 공부하기 위해 번역에 도전했다고 한다.

강화학습 관련 책은 [단단한 강화학습]과 [파이썬과 케라스로 배우는 강화학습] 및 [프로그래머를 위한 강화학습] 등을 보았는 데 이 책에서는 비슷한 알고리즘을 소개하면서 좀 더 수식을 많이 소개하려고 했다. 책에 오탈자가 종종 보이는 것이 눈에 거슬리는 것 이외에는 많은 이론을 다루려고 했다는 점에서 읽어볼 만 한 책이라고 생각한다.

그리고 개인적으로 좋았던 부분은 유명한 사람들의 명대사(?)를 많이 언급해서 책을 읽는 재미가 있었다. 사실 강화학습에 나오는 수식을 전부 이해하기란 쉽지 않은 일이고 범용으로 쓸수 있는 인공지능이 아니고 게임 하나 이기려고 이렇게까지 수학을 해야 하나 싶지만 그럼에도 불구하고 많은 책들이 동일한 내용을 언급하고 있는 것을 보면 현재 인공지능의 한계가 느껴진다. 하지만, 이런 내용들이 초석이 되어서 강한 인공지능을 만들 수 있게 될거라는 희망을 가져본다. 이미 다른 책들을 본 적이 없는 분들에게는 많은 도움이 될 수도 있기 때문에 강화학습 인공지능의 역사적인 배경 및 강화학습과 관련되어 있는 기본수학을 알고싶은 분들에게 추천한다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

SE-94944810-4e47-4323-a53a-cb445bb322fe.jpg

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 


대상 독자

- 파이썬에 익숙한 자

- 강화학습에 관심이 있는 자

- 수식에 익숙한 자

- 파이토치에 익숙한 자


 

좋은 점

- 수식과 알고리즘 그리고 코드의 구성으로 서로 상호 보완을 하며 이해하는 데 큰 도움이 된다

- 수학이 부족한 사람들을 위한 자세한 수식 설명


 

아쉬운 점

- 오탈자가 있어 보기 불편함

- 강화학습에 대한 지식이 있는 사람들에겐 기초적인 내용

- 프레임워크가 파이토치에 국한되어 있다


 

총평

단점을 더 많이 쓰긴 했지만 아쉬움보단 장점이 더 큰 책이다.

수식을 코드를 통해 직접 구현하고 사용해보면서 왜 이 책의 부제가 "이론과 실제 사이의 틈을 메우다!" 인지 정확하게 알게 해 주는 대목이다.

강화학습의 기초를 탄탄하게 공부하려는 사람들을 위한 좋은 교재라 생각한다.

2016년 알파고와 이세돌 9단의 구글 딥마인드 챌린지 매치(Google Deepmind Challenge match) 이후 딥러닝은 현대 컴퓨터 과학의 주류로 급 부상하게 되었고, 강화학습(Reinforcement learning) 또한 알파고의 벽돌깨기 학습 영상 공개와 함께 많은 관심을 받는 분야로 떠 오르게 되었습니다.

 

이 책 제목의 그로킹은 Grok으로, 심층 강화학습 이해하기 정도로 번역될 수 있겠습니다. 학습을 위한 데이터 레이블링 작업에서 상대적으로 자유로운 이점을 가진 강화학습이지만 막상 사용해 보려면 참 막막하고 어려운데, 책을 읽는 동안 책 표지에 적혀 있는 카피라이팅 "이론과 실제 사이의 틈을 메우다”처럼 가르쳐 주는 사람의 관점이 아니라 배우는 사람이 막상 사용하려고 할 때 느끼게 되는 이론과 실제 사이의 간극을 정확히 캐치하고 쉽게 풀어 설명해 주고 있는 느낌을 받을 수 있었습니다.

 

특히 이 책의 도입부는 요 근래 읽어본 그 어떤 IT 서적보다 인상적이었는데, 강화학습의 개념과 딥러닝의 발전 과정을 이토록 쉽고 읽기 편하게 설명할 수 있다니 하고 놀랐습니다. 책의 내용은 결코 쉽지 않습니다만 읽기 쉽게 단계별로 개념을 이해할 수 있게 풀어 쓴 저자의 역량에 감탄하면서 읽을 수 있었습니다. 굳이 강화학습에 크게 관심이 없더라도 한번 읽어 보기를 추천 드리고 싶을 정도로 책 그 자체로 인상적인, 참 잘 쓰여진 읽기 좋은 책이라 생각합니다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

이 책의 내용

강화학습의 역사와 배경적 설명은 물론 실제 구현하는 내용까지 총망라한 구성으로 이루어져 있습니다. 이전에 강화학습을 공부하기 위해 몇몇 책들과 자료들을 살펴보았는데, 번역서이지만 한글 자료보다 더 와닿고 이해가 쉬웠습니다. 저자가 서론에서 알고리즘을 위주로 공부하는 것이 가장 효과적이라고 말했는데, 그 말에 걸맞게 3장부터 12장까지 알고리즘으로 가득찬 구성을 가지고 있습니다. 깔끔한 내용과 다양한 구성, 그리고 독자에게 생각해볼 거리는 던져주는 저자의 말들이 어우러져 좋은 책이라는 인상을 받았습니다. 거기에 체감상 1페이지당 1개의 그림이 있어 글로 와닿지 않는 개념들을 머리속에서 그려보는데 많은 도움이 되었습니다.

그중에서도 가장 인상깊었던 것은 트렌디하고 가독성 좋은 코드였습니다. 파이썬에 입문하신지 얼마 되지 않으신 분들에게는 어렵게 다가올 수 있지만, 간결하고 충분히 효율적인 코드, 이해하기 쉬운 네이밍을 통해 강화학습 알고리즘을 코드로 구현할 때 참고할만한 모범답안이라고 생각됩니다.

대상 독자

저자가 앞서 밝혔듯 딥러닝과 머신러닝, 그리고 파이썬에 대해서 익숙하셔야 이 책을 온전히 이해하고 따라갈 수 있을 것 같습니다. 내용 자체가 쉬운편이 아니고, 수많은 이론들과 알고리즘이 곳곳에서 나타나고 활용되기 때문에 코드나 알고리즘에 익숙하지 않다면 장황하다고 느낄 수도 있겠습니다. 하지만 강화학습이 무엇인지 대략적으로 알고 있는 상태에서 더 자세히 공부하고 싶으신 분들에게는 더할나위 없이 좋은 책일 것 같습니다.

추천합니다

  • 강화학습에 간단하게라도 입문하셨던 분
  • 파이썬과 알고리즘에 익숙하신 분
  • 수식에 두려움이 없으신 분
  • 강화학습을 바로 구현해서 활용해 보고 싶으신 분

추천하지 않습니다

  • 머신러닝과 딥러닝을 이 책으로 처음 접하시는 분

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

KakaoTalk_20211121_160906046.jpg

 

제목에서 짐작할 수 있듯이 초급자용 책이 아니다. 입문자용이 판치는 머신러닝 서적에서 이런 책은 반갑기만 하다.

입문자용이 아니기 때문에, 코드 설치 방법이나 파이썬 함수의 의미를 설명하는 쓸데없는 짓도 없다.

수학없이 딥러닝을 가르쳐준다는 사람들도 존재하지만, 저자는 수학 공식을 외면하지 않았다. 수학 공식은 연구 영역을 깊숙이 이해하는 데 필수적인 요소이기 때문이다. 게다가 대충 강화학습이 이런거다를 설명하는 책이 아니고, 심층 강화학습으로 고품질 솔루션을 만들기 위해서는 이론적인 배경도 필요하다. 그러나 공식에만 의존한 책은 아니다.

이 책의 목표는 이론과 실제 코드 사용간의 틈을 메우는 것이라고 하는데 정확한 것 같다. 그러나 적어도 딥러닝 기본 지식과 파이썬 코드를 볼 줄 아는 사람 한정이다.

 

책의 재밌는 점은 단순히 개념을 가르쳐주고 코드를 설명하는게 아니라, 단원 끝마다 '트위터에서 만나요!'라는 마무리가 있다. #gdrn_ch02_tf01 과 같은 해시태그로 전세계 사람들에게 서로 배운 것을 공유하며, 틀린 부분을 바로 잡고, 다른 사람들은 어떻게 구현했는지 보자는 취지이다. 매우 좋은 것 같다. 하지만 난 트위터를 싫어하기에 하지 않는다는게 문제지만...

 

강화 학습을 심층적으로 공부하기 위한 내용은 전부 다 들어있는 것 같다. 책을 보다가 재미있는 점을 발견하였는데, 무조코(MuJoCo)에 대해 설명하고 있다는 것이다. 이 책이 한국 기준으로 21년 10월 10일날 초판이 발행되었는데, 무조코는 10월 18일날 구글 딥마인드에 인수되면서 무료로 풀렸다. 저자가 말한대로 이전에는 학생용 라이센스를 받던가, 수천달러는 지불해야 되었지만, 이제는 자유롭게 사용하면 된다.

 

이 책을 한달만에 완독한 사람들은 강화 학습에 대단한 지식을 보유하고 있는 사람들이라고 생각한다. 대학원 시절 때, ODE(Open Dynamic Engine)를 이용했던 경험을 토대로 MuJoCo를 해볼려고 한다. 더불어 책에서 말하는 강화 학습을 이용해서 포식자-피식자 생태계를 다시 구현해보고 싶다. 무조코 사용법만 익히는데도 어려울 것 같고, 여기에 강화 학습 공부를 별도로 해야하며, 현업 일도 해야하지만 꼭 해보고 싶다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

이 책은 심층 강화학습의 이론과 실제 코드 작성에 대해 알려 줍니다. 기본적인 딥러닝 지식이 있으면 책을 읽어나가는 데 수월하지만 신경망에 대한 기초적인 지식들도 다룹니다.

 

[서론]

 

강화학습은 

에이전트가 경험하지 못한 

미지의 환경에 대해서 

 

직접 탐색하고, 

전략을 적용하며 

겪는 시행착오를 통해 

최선의 정책을 찾아가는 과정이다.

 

불확실한 상황에서 탐색하고 

해결책을 실행하며,

그 결과로서 얻어지는

긍정적인/부정적인 피드백을 통해 

개선해나가는 것은 

 

어찌보면 생물의 학습과정과도 

비슷한 점이 많다고 느껴진다.

 

 

[내용]

 

흔한 머신러닝 입문서와는 

꽤나 거리가 멀다. 

 

머신러닝/딥러닝에 익숙한 사람이

심층 강화학습에

제대로 입문하기 위한 

도서라고 볼 수 있다. 

 

책의 내용이

프로그래밍 도서라기보다는

 

자세하게 설명된 이론/수식을 

실습을 통해 이해하기 위한 

코딩 예제의 측면이 강하다.

 

유튜브에서 흔히 나오는 

강화학습 결과물처럼 

인공지능 에이전트를 활용해서

게임 같은 걸 

화려하게 풀어나가는 방식은 

전혀 아니므로 주의하자.

 

 

[대상 독자]

 

머신러닝에 익숙하고 

강화학습을 배우고 싶어하는 

사람이 대상 독자이다. 

 

딥러닝 이론에 대한 

배경지식이 있고, 

심층 강화학습의 기초부터 

살펴볼 사람은 누구나 괜찮다. 

 

심층강화학습 기법을 

이론부터 실습까지 

비교적 자세하게 다루기 때문이다. 

 

심층 강화학습을 

수식과 이론으로 깊이 있게 

이해하고자 하는 독자와, 

 

심층 강화학습에 대한 

기초적인 흥미만 가진 상태에서

파이썬 코드를 읽고 실행해가며 

큰 그림을 그려가려는 독자,

 

모두가 각자의 방식으로 

학습 가능할 것으로 보인다.

 

 

[배경 지식]

 

기초적인 파이썬 문법과 

패키지 사용법에는 익숙해야 한다. 

 

기본적인 딥러닝 지식도 있어야 한다. 

신경망과 역전파 방식에 관련한 

내용이 은근히 나오기 때문이다. 

 

예제가 텐서플로+케라스 기반이 아니라 

파이토치 기반으로 구성되었으므로,

파이토치의 기초적인 사용 방법도 

알고 있으면 더 유리할 것 같다.

 

 

[저자]

 

저자는 조지아 공대를 졸업하고

록히드 마틴에서 강화학습 관련 

업무를 진행하고 있으며, 

 

온라인 교육 플랫폼인 

유다시티(Udacity)에서 

심층강화학습 관련 강의의 

컨텐츠 개발에 참여한 사람이다. 

 

 

[번역]

 

쉽게 술술 읽히도록 

한글 문장에 신경을 많이 쓴 흔적이 역력하다. 

 

원서 저자는 docker로 

예제를 제공하지만, 

 

번역자는 예제 코드를 

구글 코랩에서 바로 실행해가며 

결과를 쉽게 확인할 수 있도록 

부록을 자체적으로 추가하여 

신경써서 구성해두셨다. 

 

 

[장점]

 

독자들에게 심층 강화학습이라는 

어려운 주제를 

알기 쉽게 서술하려고 

엄청 애를 쓴 책이다. 

 

수식, 알고리즘/삽화, 코드가 

모두 나오며, 

 

본문에 상세하게 서술된 

이론 뿐만 아니라 

 

수식과 알고리즘에 많은 분량의 주석이 

구석구석 추가되어 있어서

독자의 이해를 돕는다.

 

 

[결론]

 

심층 강화학습을 

처음 접할 때 도움이 되는 책. 

 

강화학습에 대한 이론과 실습 

모두를 잡는 책이다. 

 

실용적인 입문서라고 볼 수 있다.  

 

그렇지만 주제 자체가 

아직 널리 일반화되지 않은 

내용인 만큼 

책의 난이도는 절대 쉽지 않다. 

 

머신러닝 중급자 이상 중에서 

심층 강화학습을 제대로 배우고 싶은 

사람에게 추천한다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

한빛미디어에서 제공받는 책으로 해당 리뷰를 작성하였습니다.

책표지

TL;DR

  1. 이 책은 ‘파이토치’를 기반으로 강화학습을 소개하는 교재이며, 교재에 소개한 이론은 수학과 파이썬 코드를 활용해서 설명하고 있다.

  2. 실습 환경을 구성할 때 약간의 에러가 발생할 수 있는데, 윈도우 사용자의 경우 SWIG을 먼저 설치해서 진행하면 좋다.

  • Gym이 업데이트 되면서 약간의 오류가 발생할 수 있는데, 그러한 문제는 발생한 에러를 확인하면 쉽게 수정할 수 있다. 예를 들어, 2장 “강화학습의 수학적 기초”를 실습할 때 발생한 오류를 수정한 예제에서 확인할 수 있듯이 큰 문제가 아니니 오류를 자세히 확인해보자.
  1. 머신러닝/강화학습 연구자들에겐 ‘초급’ 수준의 기초 교재라 할 수 있으며, 강화학습을 처음 접하는 분들에겐 ‘중급’ 수준의 교재라 할 수 이다. 만약 강화학습을 처음 시작하는 분들이라면 개론적인 교재를 함께 읽어보길 권한다.

1

이 책은 강화학습 중 ‘가치 기반’과 ‘정책 기반’을 ‘파이토치’를 활용해서 차근차근 설명하는 교재다. 이 교재는 여타 교재에 비해서 수학 표기법 및 수학 이론에 대한 지식을 자세히 소개하고 있으며, 이러한 수학적 지식의 공허함을 파이썬 코드를 활용해서 차근차근 ‘메워주고’있다.

강화학습을 다루는 대부분의 교재가 가지는 큰 딜레마 중 하나는 ‘수학’과 ‘프레임워크’라 생각한다. ‘수학’의 경우 머신러닝이나 딥러닝에 비해서 표기법이 복잡하기 때문에 많은 교재들이 수학 표기법 및 수학적 지식을 전달하기 위해서 많은 노력을 하지만 수학은 언제나 어렵다. 그리고 수학이라는 작은 동산을 넘어가기 시작하면, OpenAI의 Gym과 같은 프레임워크 설치 및 활용법이라 할 수 있다. 특히, Gym과 같은 프레임워크에 대한 소개 및 적절한 가이드를 쉽게 찾을 수 없다는 점이 강화학습을 학습할 때 겪게되는 일상이다.

수식의 설명은 멋지다

2

강화학습 자체가 가지는 난이도도 있지만, 실습이 쉽지 않다는 점도 한 몫 한다. 만약 자신이 ‘우분투’와 같은 리눅스 배포판을 주력으로 사용하고 있다면 2장의 예제를 손쉽게 실행할 수 있다. 필자도 연구에 사용하는 우분투 서버에선 무리 없이 진행할 수 있었지만, 현재 집에서 가끔 사용하는 윈도우 PC의 경우 SWIG 패키지가 설치되지 않아서 Box2D 설치시 오류가 발생했다. 이러한 오류의 경우 파이썬을 잘 활용하시는 분들은 손쉽게 처리할 수 있지만, 강화학습을 처음 접하거나 해당 패키지 사용법을 처음 접하는 분들에게 조금 어려울 수 있다.

그리고 필자와 같이 연구를 중심으로 머신러닝을 접하는 분들에게 파이토치(PyTorch)는 매우 반갑고 즐거운 일이지만, 텐서플로 사용자의 경우 새로운 형태의 프레임워크를 배워야 한다는 부담감이 있다는 점에서 교재를 선택할 때 주의를 요한다.

3

이 교재를 공부하면서 느꼈던 점은 ‘실습환경’을 잘 갖춘다면 강화학습을 학습하시는 분들에게 굉장히 좋은 교재라는 점이다. 이 책은 크게 2부분으로 나눌 수 있다(1장과 13장을 제외). 강화학습을 시작하는 분들에게 좋은 참고가 될 1부(2장~7장)와 딥러닝 프레임워크인 파이토치를 사용해서 기초적인 내용을 연습하는 2부(8장~12장)로 나눌 수 있다.

1부의 경우 OpenAI의 Gym을 사용해서 실습을 진행하고 있고, 교재에서 소개하는 모든 이론에 대한 수학적인 부분은 코드를 활용해서 직접확인 할 수 있다. 만약 1부(2장~7장)에서 소개하는 내용이 쉽게 이해되지 않는다면 강화학습 첫걸음(아서 줄리아니)알파고를 분석하며 배우는 인공지능(오츠키 토모시)를 참고하면 좋을 듯 하다. 2부의 경우 머신러닝 연구자의 대부분이 파이토치를 활용할 수 있을 것으로 예상되지만, 파이토치가 어색하다면 파이토치 관련 교재를 함께 진행하길 권한다.

강화학습을 주제로 나온 교재 중에서 핵심적인 이론적을 체계적으로 소개한다는 점에서 추천하며, 처음 접하는 분들의 경우 강화학습의 개론서를 참고하면서 진행하면 더 좋을 듯 싶다. 무엇보다 강화학습을 필요로 하는 연구자라면 한번 꼭 읽어보길 강권한다.

Written on November 20, 2021

> 시작

올 한해 특히나 머신러닝에 대한 책들을 많이 접하게 되는 것 같습니다.

혼자 공부하는 머신러닝+딥러닝이나, 처음배우는 딥러닝 챗봇 등 한해 동안 다양한 책을 접했습니다.

아쉬웠던 점은 업무로서 머신러닝을 하지는 않고 있어 자격증 취득 등의 스터디 이상의
체득을 하지 못하고 있는데, 책앞에 쓰인 "이론과 실제사이의 틈을 메우다" 라는 글이 끌려
그로킹 심화 강화학습 책을 읽어보게 되었습니다.

 

책 표지

 

> 책의 구성 및 내용

이 책은 500 page입니다.

책 초반에 머신러닝에서 지도학습/비지도학습/강화학습/딥러닝에 대한 분류에 대해
설명하고 있습니다.

 

머신러닝 (지도학습/비지도학습/강화학습/딥러닝)

 

 

개인적으로는 정확한 x, y label 을 가지는 지도학습만 주로 경험해본 터라
책에서 주로 설명하는 강화학습에 대한 내용들이 약간은 생소하게 느껴졌습니다.

다만 예제를 통해 상세히 설명해주고 있어서 이해가 어렵지는 않았습니다.

 

 

코드도 잘 설명되어 있어 이론적으로 설명해주었던 강화학습이
실제적으로 코드로는 어떻게 표현되는지도 책에서 볼 수 있습니다.

 

 

 

책은 나름의 위트도 있습니다. 특별히 재미있었던 부분은 에이전트의 행동평가 항목에서
강화학습의 순간적인 목표와 장기적인 목표를 설명할 때 책에서는 아래와 같이 설명하고 있습니다.

오늘 밤, 영화를 보는 것이 좋을까요? 아니면 이 책을 계속 읽는 것이 좋을까요?
어떤 선택은 순간적인 만족을 줄 것입니다. 영화를 보게 된다면, 부자가 된 느낌도 얻을 것이고,
사랑을 얻을 수도 있고,  다이어트도 할 수 있을 것입니다. 두시간 동안 팝콘을 먹으면서 말입니다.
반면, 책을 읽어도 오늘 밤 당장에는 아무것도 생기지 않을 것입니다.
하지만 아마도, 장기간을 놓고 봤을때 더 큰 만족을 얻을 수 있을 것입니다.

펙트폭행에 책을 읽을 수 밖에 없었습니다...

우습게도, 강화학습책을 보면서 중간중간 나오는 "미겔의 한마디"라는 섹션을 보면서
결국 강화학습도 목표에 도달하기 위한 효율적인 방법을 찾는 것이고 
삶도 똑같은 목표로 강화학습과 같이 목표를 효율적으로 도달하는 방법의 경험들을
해 나가는 것이라는 것에 묘한 기분이 들기도 했습니다.

이전에 읽었던 머신러닝 책들이 대부분 지도학습을 얘기하고 있다면
이 책은 명확하게 강화학습에 대해 설명하고 알려주고 있습니다.

많은 예시와 코드들이 이해를 쉽게 도와주지만, 머신러닝의 기초지식은 가지고 있어야
읽기 쉽겠다는 생각이 많이 들었습니다.

> 장점

  • 강화학습에 대한 명쾌할 설명과 많은 예시들

> 단점

  • 다소 어렵게 느껴질 수 있음

책읽기 필요사항

머신러닝에 대한 기초 지식

 

추천 독자

머신러닝을 기본적으로 학습한 학생 또는 IT 전문가 

 

> 정보

저자: 미겔 모랄레스
옮긴이: 강찬석
출판사: 한빛미디어
가격: 35,000원
전체 페이지: 500페이지


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

그로킹 심층 강화학습 표지.jpg

이론과 실제 사이의 틈을 메우다니....

아직 인공지능 관련 공부를 시작하고 다양한 강의와 동영상 자료 관련 책등을 

읽고 보고 있는 중이다.

 

리뷰에 신청한 책이 아니라 처음 받았을 때 느낌이 뭔가 어려워 보인다.....


책 전반적으로 심층 강화학습에 대해 설명하고 다양한 수식이나 코드를 배치하여 하나 하나 독자를

 

이해 시키려고 하고 있다.

 

물론 기초적인 수학적 지식을 필요로 하고 용어등 낯선 부분이 분명이 존재한다.

 

여러가지 이론을 기초로 하여 실무에 필요한 내용까지 가감없이 전달하고자 한다.

 

내용도 방대하다... 아 음 좀 어렵네 내공이 좀더 필요하겠다라는 생각이 가감없이 든다.

 

하지만 이 책은 강화학습에 필요한 모든 내용을 다 포함하고 있다.

 

언제든지 다시 보고 또 보고 해도 좋을 그런 책이다.

 

초보자가 보기에는 쉽지 않은 책은 분명하다. 인공지능에 필요한 기본적인 지식이 어느정도

 

있는 독자이고 관련 알고리즘을 학습한 독자라면 충분히 가치가 있는 책이라고 생각이 든다.

 

강화학습에 대해서 이론과 실무가 적절히 녹아져 있는 책이다.

 

충분히 이해하기 쉽게 다양한 수식과 도형등을 가지고 설명하기에 꽤 괜찮은 책이다.

 

이론과 실제 사이의 틈을 충분히 매울수 있게 도와줄 그런 책이다.

 

KakaoTalk_20211116_234448044.jpg

이 책은 원서로 처음 접했습니다. 그 때 읽으면서 '언제쯤 번역이 되어 나올까' 라는 생각을 했습니다.

이 책의 저자인 믹겔 모랄레스가 책의 서문에 말했던 것 처럼 '이론과 실제 사이의 틈을 메우는 것'을 책을 읽으면서 느꼈기 때문입니다.

논문을 읽다가 아니면 다른 책을 보다가 이해가 안되는 수식이나 코드를 발견한 후, 이 책에서 그 내용을 찾아보면 너무나도 쉽게 이해가 됐기 때문입니다.

 

 

KakaoTalk_20211116_234448813.jpg

이 책의 장점은 수식을 설명할 때 다양한 그림을 통해 설명을 하고 있습니다. 그래서, 그만큼 수식 자체를 이해하기 쉬웠습니다. 또한, 코드도 순서대로 핵심적인 부분만 잘라서 설명을 하고 있습니다.

 

이 책은 고전적인 강화학습부터 딥 강화학습까지 스토리로 구성되어 있습니다. 그리고 마지막 부분은 '범용 인공지능을 향한 길' 이라는 타이틀로 Inverse RL, Meta Learning, Transfer Learning, curriculum Learning 그리고 multi agent rl 등 최근에 관심이 집중되는 분야에 대해 개념을 설명하면서 마무리 하고 있습니다.

강화학습은 쉬운듯 하면서 어렵고 이해한듯 하면서 이해가 안되는... 그리고 실제 적용하려고 하면 막막해지는 . 그런 분야인듯 합니다.

하지만, 이 책을 통해 조금 더 그런 간격을 줄일 수 있을 것이라 생각합니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원 무료배송
닫기

리뷰쓰기

닫기
* 상품명 :
그로킹 심층 강화학습
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
그로킹 심층 강화학습
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
그로킹 심층 강화학습
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1