voice-activity-detection

Here are 174 public repositories matching this topic...

modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

pytorch speech-recognition vad punctuation whisper audio-visual-speech-recognition speaker-diarization voice-activity-detection conformer pretrained-model rnnt dfsmn paraformer speechgpt speechllm

Updated Jul 23, 2025
Python

noisetorch / NoiseTorch

Star

Real-time microphone noise suppression on Linux.

linux voice pulseaudio hacktoberfest noise-reduction voice-activity-detection voice-activated noise-suppression hacktoberfest2023

Updated Jan 13, 2025
Go

pyannote / pyannote-audio

Star

Neural building blocks for speaker diarization: speech activity detection, speaker change detection, overlapped speech detection, speaker embedding

pytorch pretrained-models speaker-recognition speaker-verification speech-processing speaker-diarization voice-activity-detection speech-activity-detection speaker-change-detection speaker-embedding overlapped-speech-detection

Updated Jul 24, 2025
Jupyter Notebook

smacke / ffsubsync

Sponsor

Star

Automagically synchronize subtitles with video.

Updated Jul 20, 2025
Python

snakers4 / silero-vad

Star

Silero VAD: pre-trained enterprise-grade Voice Activity Detector

voice-commands speech pytorch voice-recognition vad voice-control speech-processing voice-detection voice-activity-detection onnx onnxruntime onnx-runtime

Updated Jun 11, 2025
Python

BingLingGroup / autosub

Star

Command-line utility to transcribe/translate from video/audio/subtitles to subtitles

subtitles substation-alpha audio-segmentation xfyun cloud-speech-api voice-activity-detection baidu-api xunfei-api

Updated Dec 21, 2023
Python

jim-schwoebel / voice_datasets

Star

🔊 A comprehensive list of open-source datasets for voice and sound computing (95+ datasets).

data voice voice-commands dataset voice-recognition noise voice-chat datasets voice-control voice-conversion voice-assistant voice-activity-detection voice-synthesis audio-datasets voice-computing voice-dataset voice-datasets audio-dataset

Updated Jun 6, 2024

Real-time speech recognition and voice activity detection (VAD) using next-gen Kaldi with ncnn without Internet connection. Support iOS, Android, Linux, macOS, Windows, Raspberry Pi, VisionFive2, LicheePi4A etc.

kotlin python c go csharp cpp speech-recognition vad asr voice-activity-detection

Updated May 30, 2025
C++

juanmc2005 / diart

Star

A python package to build AI-powered real-time audio applications

real-time deep-learning transcription speaker-diarization streaming-audio voice-activity-detection speaker-embedding

Updated Feb 12, 2025
Python

coqui-ai / open-speech-corpora

Star

💎 A list of accessible speech corpora for ASR, TTS, and other Speech Technologies

text-to-speech tts speech-synthesis voice-recognition speech-recognition speech-to-text stt speech-processing voice-activity-detection speech-separation speech-emotion-recognition voice-cloning

Updated Jun 6, 2024

TEN-framework / ten-vad

Star

Voice Activity Detector(VAD) from TEN: low-latency, high-performance and lightweight

audio real-time voice-commands speech voice-recognition vad automatic-speech-recognition speech-processing conversational-ai voice-activity-detection silero-vad

Updated Jul 21, 2025
C

ggeop / Python-ai-assistant

Star

Python AI assistant 🧠

Updated Nov 17, 2024
Python

jtkim-kaist / VAD

Star

Voice activity detection (VAD) toolkit including DNN, bDNN, LSTM and ACAM based VAD. We also provide our directly recorded dataset.

data speech dnn lstm speech-recognition attention vad voice-detection voice-activity-detection bdnn acam speech-activity-detection

Updated Jun 9, 2021
MATLAB

ina-foss / inaSpeechSegmenter

Star

CNN-based audio segmentation toolkit. Allows to detect speech, music, noise and speaker gender. Has been designed for large scale gender equality studies based on speech time per gender.

Updated Jan 6, 2025
Python

amsehili / auditok

Star

An audio/acoustic activity detection and audio segmentation tool

vad audio-data audio-activities audio-segmentation voice-detection voice-activity-detection

Updated Dec 11, 2024
Python

baxtree / subaligner

Star

Automatically synchronize and translate subtitles, or create new ones by transcribing, using pre-trained DNNs, Forced Alignments and Transformers. https://subaligner.readthedocs.io/