lander/model.py

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical


class ActorCritic(nn.Module):
    def __init__(self, seed: int = 12345):
        super(ActorCritic, self).__init__()
        torch.random.manual_seed(seed)
        # here we need the AC Network

        self.logprobs = []
        self.state_values = []
        self.rewards = []
        pass

    def forward(self, state):
        # Here we need to evaluate the AC Network
        pass

    def calculate_loss(self, gamma: float = 0.99):
        # calculating discounted rewards

        pass

    def clear_memory(self):
        del self.logprobs[:]
        del self.state_values[:]
        del self.rewards[:]
initial commit 2022-07-22 11:49:30 +02:00			`import torch`
			`import torch.nn as nn`
			`import torch.nn.functional as F`
			`from torch.distributions import Categorical`


			`class ActorCritic(nn.Module):`
			`def __init__(self, seed: int = 12345):`
			`super(ActorCritic, self).__init__()`
			`torch.random.manual_seed(seed)`
implement A-C 2022-07-22 12:03:19 +02:00			`# here we need the AC Network`
initial commit 2022-07-22 11:49:30 +02:00
			`self.logprobs = []`
			`self.state_values = []`
			`self.rewards = []`
implement A-C 2022-07-22 12:03:19 +02:00			`pass`
initial commit 2022-07-22 11:49:30 +02:00
			`def forward(self, state):`
implement A-C 2022-07-22 12:03:19 +02:00			`# Here we need to evaluate the AC Network`
			`pass`
initial commit 2022-07-22 11:49:30 +02:00
			`def calculate_loss(self, gamma: float = 0.99):`
implement A-C 2022-07-22 12:03:19 +02:00			`# calculating discounted rewards`
initial commit 2022-07-22 11:49:30 +02:00
implement A-C 2022-07-22 12:03:19 +02:00			`pass`
initial commit 2022-07-22 11:49:30 +02:00
			`def clear_memory(self):`
			`del self.logprobs[:]`
			`del self.state_values[:]`
			`del self.rewards[:]`