ESPHome: /opt/build/esphome/esphome/components/micro_wake_word/micro_wake_word.h Source File

 #pragma once

 //
 #ifndef CLANG_TIDY

 #ifdef USE_ESP_IDF

 #include "esphome/core/automation.h"
 #include "esphome/core/component.h"
 #include "esphome/core/ring_buffer.h"

 #include "esphome/components/microphone/microphone.h"

 #include <tensorflow/lite/core/c/common.h>
 #include <tensorflow/lite/micro/micro_interpreter.h>
 #include <tensorflow/lite/micro/micro_mutable_op_resolver.h>

 namespace esphome {
 namespace micro_wake_word {

 // The following are dictated by the preprocessor model
 //
 // The number of features the audio preprocessor generates per slice
 static const uint8_t PREPROCESSOR_FEATURE_SIZE = 40;
 // How frequently the preprocessor generates a new set of features
 static const uint8_t FEATURE_STRIDE_MS = 20;
 // Duration of each slice used as input into the preprocessor
 static const uint8_t FEATURE_DURATION_MS = 30;
 // Audio sample frequency in hertz
 static const uint16_t AUDIO_SAMPLE_FREQUENCY = 16000;
 // The number of old audio samples that are saved to be part of the next feature window
 static const uint16_t HISTORY_SAMPLES_TO_KEEP =
     ((FEATURE_DURATION_MS - FEATURE_STRIDE_MS) * (AUDIO_SAMPLE_FREQUENCY / 1000));
 // The number of new audio samples to receive to be included with the next feature window
 static const uint16_t NEW_SAMPLES_TO_GET = (FEATURE_STRIDE_MS * (AUDIO_SAMPLE_FREQUENCY / 1000));
 // The total number of audio samples included in the feature window
 static const uint16_t SAMPLE_DURATION_COUNT = FEATURE_DURATION_MS * AUDIO_SAMPLE_FREQUENCY / 1000;
 // Number of bytes in memory needed for the preprocessor arena
 static const uint32_t PREPROCESSOR_ARENA_SIZE = 9528;

 // The following configure the streaming wake word model
 //
 // The number of audio slices to process before accepting a positive detection
 static const uint8_t MIN_SLICES_BEFORE_DETECTION = 74;

 // Number of bytes in memory needed for the streaming wake word model
 static const uint32_t STREAMING_MODEL_ARENA_SIZE = 64000;
 static const uint32_t STREAMING_MODEL_VARIABLE_ARENA_SIZE = 1024;

 enum State {
   IDLE,
   START_MICROPHONE,
   STARTING_MICROPHONE,
   DETECTING_WAKE_WORD,
   STOP_MICROPHONE,
   STOPPING_MICROPHONE,
 };

 class MicroWakeWord : public Component {
  public:
   void setup() override;
   void loop() override;
   float get_setup_priority() const override;
   void dump_config() override;

   void start();
   void stop();

   bool is_running() const { return this->state_ != State::IDLE; }

   bool initialize_models();

   std::string get_wake_word() { return this->wake_word_; }

   // Increasing either of these will reduce the rate of false acceptances while increasing the false rejection rate
   void set_probability_cutoff(float probability_cutoff) { this->probability_cutoff_ = probability_cutoff; }
   void set_sliding_window_average_size(size_t size);

   void set_microphone(microphone::Microphone *microphone) { this->microphone_ = microphone; }

   Trigger<std::string> *get_wake_word_detected_trigger() const { return this->wake_word_detected_trigger_; }

   void set_model_start(const uint8_t *model_start) { this->model_start_ = model_start; }
   void set_wake_word(const std::string &wake_word) { this->wake_word_ = wake_word; }

  protected:
   void set_state_(State state);
   int read_microphone_();

   const uint8_t *model_start_;
   std::string wake_word_;

   microphone::Microphone *microphone_{nullptr};
   Trigger<std::string> *wake_word_detected_trigger_ = new Trigger<std::string>();
   State state_{State::IDLE};
   HighFrequencyLoopRequester high_freq_;

   std::unique_ptr<RingBuffer> ring_buffer_;

   int16_t *input_buffer_;

   const tflite::Model *preprocessor_model_{nullptr};
   const tflite::Model *streaming_model_{nullptr};
   tflite::MicroInterpreter *streaming_interpreter_{nullptr};
   tflite::MicroInterpreter *preprocessor_interperter_{nullptr};

   std::vector<float> recent_streaming_probabilities_;
   size_t last_n_index_{0};

   float probability_cutoff_{0.5};
   size_t sliding_window_average_size_{10};

   // When the wake word detection first starts or after the word has been detected once, we ignore this many audio
   // feature slices before accepting a positive detection again
   int16_t ignore_windows_{-MIN_SLICES_BEFORE_DETECTION};

   uint8_t *streaming_var_arena_{nullptr};
   uint8_t *streaming_tensor_arena_{nullptr};
   uint8_t *preprocessor_tensor_arena_{nullptr};
   int8_t *new_features_data_{nullptr};

   tflite::MicroResourceVariables *mrv_{nullptr};

   // Stores audio fed into feature generator preprocessor
   int16_t *preprocessor_audio_buffer_;

   bool detected_{false};

   bool detect_wake_word_();

   bool slice_available_();

   bool update_features_();

   bool generate_single_feature_(const int16_t *audio_data, int audio_data_size,
                                 int8_t feature_output[PREPROCESSOR_FEATURE_SIZE]);

   float perform_streaming_inference_();

   bool stride_audio_samples_(int16_t **audio_samples);

   bool register_preprocessor_ops_(tflite::MicroMutableOpResolver<18> &op_resolver);

   bool register_streaming_ops_(tflite::MicroMutableOpResolver<17> &op_resolver);
 };

 template<typename... Ts> class StartAction : public Action<Ts...>, public Parented<MicroWakeWord> {
  public:
   void play(Ts... x) override { this->parent_->start(); }
 };

 template<typename... Ts> class StopAction : public Action<Ts...>, public Parented<MicroWakeWord> {
  public:
   void play(Ts... x) override { this->parent_->stop(); }
 };

 template<typename... Ts> class IsRunningCondition : public Condition<Ts...>, public Parented<MicroWakeWord> {
  public:
   bool check(Ts... x) override { return this->parent_->is_running(); }
 };

 }  // namespace micro_wake_word
 }  // namespace esphome

 #endif  // USE_ESP_IDF

 #endif  // CLANG_TIDY
esphome::micro_wake_word::MicroWakeWord::streaming_interpreter_
tflite::MicroInterpreter * streaming_interpreter_
Definition: micro_wake_word.h:109

esphome::micro_wake_word::MicroWakeWord::stop
void stop()
Definition: micro_wake_word.cpp:163

esphome::micro_wake_word::MicroWakeWord::detect_wake_word_
bool detect_wake_word_()
Detects if wake word has been said.
Definition: micro_wake_word.cpp:326

esphome::micro_wake_word::MicroWakeWord::set_model_start
void set_model_start(const uint8_t *model_start)
Definition: micro_wake_word.h:88

esphome::micro_wake_word::MicroWakeWord::preprocessor_audio_buffer_
int16_t * preprocessor_audio_buffer_
Definition: micro_wake_word.h:130

esphome::micro_wake_word::MicroWakeWord::register_preprocessor_ops_
bool register_preprocessor_ops_(tflite::MicroMutableOpResolver< 18 > &op_resolver)
Returns true if successfully registered the preprocessor&#39;s TensorFlow operations. ...
Definition: micro_wake_word.cpp:422

esphome::micro_wake_word::MicroWakeWord::preprocessor_model_
const tflite::Model * preprocessor_model_
Definition: micro_wake_word.h:107

esphome::micro_wake_word::MicroWakeWord::set_state_
void set_state_(State state)
Definition: micro_wake_word.cpp:175

esphome::micro_wake_word::MicroWakeWord::wake_word_detected_trigger_
Trigger< std::string > * wake_word_detected_trigger_
Definition: micro_wake_word.h:99

esphome::gree::Model
Model
Definition: gree.h:70

esphome::micro_wake_word::MicroWakeWord::get_wake_word
std::string get_wake_word()
Definition: micro_wake_word.h:78

esphome::micro_wake_word::MicroWakeWord::last_n_index_
size_t last_n_index_
Definition: micro_wake_word.h:113

x
uint16_t x
Definition: tt21100.cpp:17

esphome::micro_wake_word::MicroWakeWord::state_
State state_
Definition: micro_wake_word.h:100

esphome::micro_wake_word::MicroWakeWord::ring_buffer_
std::unique_ptr< RingBuffer > ring_buffer_
Definition: micro_wake_word.h:103

esphome::micro_wake_word::MicroWakeWord::model_start_
const uint8_t * model_start_
Definition: micro_wake_word.h:95

esphome::micro_wake_word::MicroWakeWord::recent_streaming_probabilities_
std::vector< float > recent_streaming_probabilities_
Definition: micro_wake_word.h:112

esphome::HighFrequencyLoopRequester
Helper class to request loop() to be called as fast as possible.
Definition: helpers.h:603

esphome::micro_wake_word::MicroWakeWord::detected_
bool detected_
Definition: micro_wake_word.h:132

esphome::micro_wake_word::STARTING_MICROPHONE
Definition: micro_wake_word.h:58

automation.h

esphome::micro_wake_word::MicroWakeWord::loop
void loop() override
Definition: micro_wake_word.cpp:110

esphome::micro_wake_word::StopAction
Definition: micro_wake_word.h:191

esphome::micro_wake_word::MicroWakeWord::streaming_var_arena_
uint8_t * streaming_var_arena_
Definition: micro_wake_word.h:122

esphome::micro_wake_word::MicroWakeWord::get_setup_priority
float get_setup_priority() const override
Definition: micro_wake_word.cpp:35

esphome::micro_wake_word::MicroWakeWord::wake_word_
std::string wake_word_
Definition: micro_wake_word.h:96

esphome::micro_wake_word::STOP_MICROPHONE
Definition: micro_wake_word.h:60

esphome::Component
Definition: component.h:68

esphome::micro_wake_word::MicroWakeWord::streaming_tensor_arena_
uint8_t * streaming_tensor_arena_
Definition: micro_wake_word.h:123

esphome::micro_wake_word::MicroWakeWord::high_freq_
HighFrequencyLoopRequester high_freq_
Definition: micro_wake_word.h:101

esphome::micro_wake_word::MicroWakeWord::ignore_windows_
int16_t ignore_windows_
Definition: micro_wake_word.h:120

esphome::micro_wake_word::MicroWakeWord::sliding_window_average_size_
size_t sliding_window_average_size_
Definition: micro_wake_word.h:116

esphome::micro_wake_word::MicroWakeWord::set_probability_cutoff
void set_probability_cutoff(float probability_cutoff)
Definition: micro_wake_word.h:81

esphome::micro_wake_word::MicroWakeWord::stride_audio_samples_
bool stride_audio_samples_(int16_t **audio_samples)
Strides the audio samples by keeping the last 10 ms of the previous slice.
Definition: micro_wake_word.cpp:380

esphome::micro_wake_word::MicroWakeWord::setup
void setup() override
Definition: micro_wake_word.cpp:63

esphome::micro_wake_word::MicroWakeWord::input_buffer_
int16_t * input_buffer_
Definition: micro_wake_word.h:105

esphome::microphone::Microphone
Definition: microphone.h:16

esphome::micro_wake_word::DETECTING_WAKE_WORD
Definition: micro_wake_word.h:59

esphome::micro_wake_word::MicroWakeWord::preprocessor_interperter_
tflite::MicroInterpreter * preprocessor_interperter_
Definition: micro_wake_word.h:110

esphome::micro_wake_word::STOPPING_MICROPHONE
Definition: micro_wake_word.h:61

esphome::micro_wake_word::MicroWakeWord::read_microphone_
int read_microphone_()
Definition: micro_wake_word.cpp:90

esphome::micro_wake_word::MicroWakeWord::update_features_
bool update_features_()
Shifts previous feature slices over by one and generates a new slice of features. ...
Definition: micro_wake_word.cpp:289

ring_buffer.h

esphome::micro_wake_word::MicroWakeWord::perform_streaming_inference_
float perform_streaming_inference_()
Performs inference over the most recent feature slice with the streaming model.
Definition: micro_wake_word.cpp:304

esphome::micro_wake_word::MicroWakeWord::dump_config
void dump_config() override
Definition: micro_wake_word.cpp:56

esphome::micro_wake_word::IsRunningCondition::check
bool check(Ts... x) override
Definition: micro_wake_word.h:198

esphome::Action
Definition: automation.h:121

esphome::micro_wake_word::START_MICROPHONE
Definition: micro_wake_word.h:57

esphome::micro_wake_word::MicroWakeWord::microphone_
microphone::Microphone * microphone_
Definition: micro_wake_word.h:98

esphome::Condition
Base class for all automation conditions.
Definition: automation.h:74

esphome::micro_wake_word::IDLE
Definition: micro_wake_word.h:56

esphome::micro_wake_word::MicroWakeWord::start
void start()
Definition: micro_wake_word.cpp:151

esphome::micro_wake_word::MicroWakeWord::register_streaming_ops_
bool register_streaming_ops_(tflite::MicroMutableOpResolver< 17 > &op_resolver)
Returns true if successfully registered the streaming model&#39;s TensorFlow operations.
Definition: micro_wake_word.cpp:463

esphome::micro_wake_word::StopAction::play
void play(Ts... x) override
Definition: micro_wake_word.h:193

esphome::micro_wake_word::IsRunningCondition
Definition: micro_wake_word.h:196

esphome::micro_wake_word::MicroWakeWord::set_wake_word
void set_wake_word(const std::string &wake_word)
Definition: micro_wake_word.h:89

esphome::micro_wake_word::MicroWakeWord::new_features_data_
int8_t * new_features_data_
Definition: micro_wake_word.h:125

esphome::micro_wake_word::StartAction
Definition: micro_wake_word.h:186

esphome::micro_wake_word::MicroWakeWord::initialize_models
bool initialize_models()
Definition: micro_wake_word.cpp:181

esphome::micro_wake_word::State
State
Definition: micro_wake_word.h:55

esphome::micro_wake_word::MicroWakeWord::is_running
bool is_running() const
Definition: micro_wake_word.h:74

esphome::micro_wake_word::MicroWakeWord::get_wake_word_detected_trigger
Trigger< std::string > * get_wake_word_detected_trigger() const
Definition: micro_wake_word.h:86

esphome::micro_wake_word::MicroWakeWord::generate_single_feature_
bool generate_single_feature_(const int16_t *audio_data, int audio_data_size, int8_t feature_output[PREPROCESSOR_FEATURE_SIZE])
Generates features from audio samples.
Definition: micro_wake_word.cpp:407

esphome::micro_wake_word::MicroWakeWord
Definition: micro_wake_word.h:64

esphome
This is a workaround until we can figure out a way to get the tflite-micro idf component code availab...
Definition: a01nyub.cpp:7

esphome::Trigger< std::string >

esphome::micro_wake_word::StartAction::play
void play(Ts... x) override
Definition: micro_wake_word.h:188

component.h

microphone.h

esphome::micro_wake_word::MicroWakeWord::set_microphone
void set_microphone(microphone::Microphone *microphone)
Definition: micro_wake_word.h:84

esphome::micro_wake_word::MicroWakeWord::slice_available_
bool slice_available_()
Returns true if there are enough audio samples in the buffer to generate another slice of features...
Definition: micro_wake_word.cpp:374

esphome::micro_wake_word::MicroWakeWord::preprocessor_tensor_arena_
uint8_t * preprocessor_tensor_arena_
Definition: micro_wake_word.h:124

esphome::micro_wake_word::MicroWakeWord::set_sliding_window_average_size
void set_sliding_window_average_size(size_t size)
Definition: micro_wake_word.cpp:369

esphome::micro_wake_word::MicroWakeWord::streaming_model_
const tflite::Model * streaming_model_
Definition: micro_wake_word.h:108

esphome::micro_wake_word::MicroWakeWord::probability_cutoff_
float probability_cutoff_
Definition: micro_wake_word.h:115

esphome::Parented
Helper class to easily give an object a parent of type T.
Definition: helpers.h:515

state
bool state
Definition: fan.h:34

esphome::micro_wake_word::MicroWakeWord::mrv_
tflite::MicroResourceVariables * mrv_
Definition: micro_wake_word.h:127