تبدیل صوت به متن با کد پایتون

کد پایتون به همراه توضیحات لازم برای این کار در اختیارتان قرارمی گیرد  برای این کار، معمولاً از کتابخانه SpeechRecognition استفاده می شود. همچنین، برای استفاده از این کتابخانه، به یک موتور تشخیص گفتار  (Speech Recognition Engine) مانند Google Speech Recognition API نیاز دارید.

1-نصب کتابخانه: ابتدا باید کتابخانه SpeechRecognition را نصب کنید. برای این کار، از pip استفاده کنید:

2-نصب PyAudio (اختیاری): اگر می خواهید از میکروفون برای ضبط صدا استفاده کنید، باید PyAudio را نیز نصب کنید.

3-

  1. کد پایتون:

    • ابتدا کتابخانه SpeechRecognition را وارد می‌کنیم.
    • تابع convert_speech_to_text فایل صوتی را به عنوان ورودی می‌گیرد.
    • یک شیء Recognizer ایجاد می‌کنیم.
    • فایل صوتی را باز کرده و با استفاده از r.record(source) آن را می‌خوانیم.
    • از r.recognize_google(audio, language="fa-IR") برای تبدیل صدا به متن استفاده می‌کنیم. language="fa-IR" مشخص می‌کند که زبان مورد استفاده فارسی است.
    • در صورت بروز خطا، پیام مناسبی چاپ می‌شود.
  2. نکات مهم:

    • فایل صوتی باید در فرمت قابل قبول باشد (WAV, MP3, FLAC و غیره).
    • برای استفاده از Google Speech Recognition API، باید به اینترنت متصل باشید.
    • برای استفاده طولانی مدت و حرفه ای، بهتر است از API های پولی مانند Google Cloud Speech-to-Text استفاده کنید.
    • مسیر فایل صوتی (file_path) را با مسیر فایل صوتی خود جایگزین کنید.

لطفاً توجه داشته باشید که برای اجرای این کد، باید فایل صوتی مورد نظر خود را در مسیر مشخص شده قرار دهید و کتابخانه‌های لازم را نصب کرده باشید.

کد  مورد نظر :

import speech_recognition as sr

def convert_speech_to_text(audio_file_path):
    """
    تبدیل فایل صوتی به متن با استفاده از کتابخانه SpeechRecognition.

    Args:
        audio_file_path (str): مسیر فایل صوتی.

    Returns:
        str: متن تبدیل شده از صوت.
    """
    # ایجاد یک شیء Recognizer
    r = sr.Recognizer()

    # باز کردن فایل صوتی
    with sr.AudioFile(audio_file_path) as source:
        audio = r.record(source)  # خواندن کل فایل صوتی

    try:
        # استفاده از Google Speech Recognition
        text = r.recognize_google(audio, language="fa-IR") # fa-IR برای زبان فارسی
        print("متن تبدیل شده:")
        print(text)
        return text
    except sr.UnknownValueError:
        print("Google Speech Recognition نتوانست صدا را تشخیص دهد")
        return None
    except sr.RequestError as e:
        print(f"Could not request results from Google Speech Recognition service; {e}")
        return None

# مثال استفاده
file_path = "[/mnt/data/audio.wav"](https://gapgpt.app/media/code_interpreter/a3e60a3f-398c-4ed1-9ce1-e64c73083b36/audio.wav%22)  # مسیر فایل صوتی خود را وارد کنید
converted_text = convert_speech_to_text(file_path)

if converted_text:
    print("تبدیل با موفقیت انجام شد.")
else:
    print("تبدیل انجام نشد.")

print(f"مسیر فایل ذخیره شده: {file_path}")