Spaces:

langtech-innovation
/

WhisperLiveKitDiarization

Paused

App Files Files Community

regularfry commited on Apr 17, 2024

Commit

8060d45

1 Parent(s): df64b4e

Default log level to DEBUG, faster-whisper to match

Browse files

Files changed (2) hide show

whisper_online.py +6 -1
whisper_online_server.py +4 -10

whisper_online.py CHANGED Viewed

@@ -106,7 +106,7 @@ class FasterWhisperASR(ASRBase):
     def load_model(self, modelsize=None, cache_dir=None, model_dir=None):
         from faster_whisper import WhisperModel
-        logging.getLogger("faster_whisper").setLevel(logging.WARNING)
         if model_dir is not None:
             logger.debug(f"Loading whisper model from model_dir {model_dir}. modelsize and cache_dir parameters are not used.")
             model_size_or_path = model_dir
@@ -558,6 +558,7 @@ def add_shared_args(parser):
     parser.add_argument('--vad', action="store_true", default=False, help='Use VAD = voice activity detection, with the default parameters.')
     parser.add_argument('--buffer_trimming', type=str, default="segment", choices=["sentence", "segment"],help='Buffer trimming strategy -- trim completed sentences marked with punctuation mark and detected by sentence segmenter, or the completed segments returned by Whisper. Sentence segmenter must be installed for "sentence" option.')
     parser.add_argument('--buffer_trimming_sec', type=float, default=15, help='Buffer trimming length threshold in seconds. If buffer length is longer, trimming sentence/segment is triggered.')
 def asr_factory(args, logfile=sys.stderr):
     """
@@ -624,6 +625,10 @@ if __name__ == "__main__":
         logger.error("No or one option from --offline and --comp_unaware are available, not both. Exiting.")
         sys.exit(1)
     audio_path = args.audio_path
     SAMPLING_RATE = 16000

     def load_model(self, modelsize=None, cache_dir=None, model_dir=None):
         from faster_whisper import WhisperModel
+        logging.getLogger("faster_whisper").setLevel(logger.level)
         if model_dir is not None:
             logger.debug(f"Loading whisper model from model_dir {model_dir}. modelsize and cache_dir parameters are not used.")
             model_size_or_path = model_dir
     parser.add_argument('--vad', action="store_true", default=False, help='Use VAD = voice activity detection, with the default parameters.')
     parser.add_argument('--buffer_trimming', type=str, default="segment", choices=["sentence", "segment"],help='Buffer trimming strategy -- trim completed sentences marked with punctuation mark and detected by sentence segmenter, or the completed segments returned by Whisper. Sentence segmenter must be installed for "sentence" option.')
     parser.add_argument('--buffer_trimming_sec', type=float, default=15, help='Buffer trimming length threshold in seconds. If buffer length is longer, trimming sentence/segment is triggered.')
+    parser.add_argument("-l", "--log-level", dest="log_level", choices=['DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'], help="Set the log level", default='DEBUG')
 def asr_factory(args, logfile=sys.stderr):
     """
         logger.error("No or one option from --offline and --comp_unaware are available, not both. Exiting.")
         sys.exit(1)
+    if args.log_level:
+        logging.basicConfig(format='whisper-%(levelname)s:%(name)s: %(message)s',
+                            level=getattr(logging, args.log_level))
     audio_path = args.audio_path
     SAMPLING_RATE = 16000

whisper_online_server.py CHANGED Viewed

@@ -8,7 +8,6 @@ import logging
 import numpy as np
 logger = logging.getLogger(__name__)
-print(__name__)
 parser = argparse.ArgumentParser()
 # server options
@@ -17,18 +16,13 @@ parser.add_argument("--port", type=int, default=43007)
 parser.add_argument("--warmup-file", type=str, dest="warmup_file",
         help="The path to a speech audio wav file to warm up Whisper so that the very first chunk processing is fast. It can be e.g. https://github.com/ggerganov/whisper.cpp/raw/master/samples/jfk.wav .")
-parser.add_argument("-l", "--log-level", dest="log_level",
-                    choices=['DEBUG', 'INFO', 'WARNING', 'ERROR', 'CRITICAL'],
-                    help="Set the log level",
-                    default='INFO')
 # options from whisper_online
 add_shared_args(parser)
 args = parser.parse_args()
 if args.log_level:
-    logging.basicConfig(format='whisper-server-%(levelname)s: %(message)s',
                         level=getattr(logging, args.log_level))
 # setting whisper object by args
@@ -47,11 +41,11 @@ if args.warmup_file:
     if os.path.isfile(args.warmup_file):
         a = load_audio_chunk(args.warmup_file,0,1)
         asr.transcribe(a)
-        print("INFO: Whisper is warmed up.",file=sys.stderr)
     else:
-        print("WARNING: The warm up file is not available. "+msg,file=sys.stderr)
 else:
-    print("WARNING: " + msg, file=sys.stderr)
 ######### Server objects

 import numpy as np
 logger = logging.getLogger(__name__)
 parser = argparse.ArgumentParser()
 # server options
 parser.add_argument("--warmup-file", type=str, dest="warmup_file",
         help="The path to a speech audio wav file to warm up Whisper so that the very first chunk processing is fast. It can be e.g. https://github.com/ggerganov/whisper.cpp/raw/master/samples/jfk.wav .")
 # options from whisper_online
 add_shared_args(parser)
 args = parser.parse_args()
 if args.log_level:
+    logging.basicConfig(format='whisper-server-%(levelname)s:%(name)s: %(message)s',
                         level=getattr(logging, args.log_level))
 # setting whisper object by args
     if os.path.isfile(args.warmup_file):
         a = load_audio_chunk(args.warmup_file,0,1)
         asr.transcribe(a)
+        logger.info("Whisper is warmed up.")
     else:
+        logger.warning("The warm up file is not available. "+msg)
 else:
+    logger.warning(msg)
 ######### Server objects