วิธีสร้างผู้ช่วย AI แบบ DIY ด้วย Raspberry Pi

อยากได้ผู้ช่วยเสียงขนาดจิ๋วที่ทำตามคำสั่งของคุณ ทำงานบนฮาร์ดแวร์ของคุณเอง และจะไม่สั่งสับปะรด 12 ลูกโดยไม่ได้ตั้งใจเพราะฟังผิดใช่ไหม? การสร้าง ผู้ช่วย AI แบบ DIY ด้วย Raspberry Pi นั้นทำได้จริง สนุก และยืดหยุ่นอย่างน่าประหลาดใจ คุณจะต้องต่อสายคำสั่งปลุก ระบบรู้จำเสียงพูด (ASR = การรู้จำเสียงพูดอัตโนมัติ) หน่วยประมวลผลภาษาธรรมชาติ (กฎหรือ LLM) และระบบแปลงข้อความเป็นเสียงพูด (TTS) เพิ่มสคริปต์ บริการหนึ่งหรือสองอย่าง และปรับแต่งเสียงอย่างระมัดระวัง คุณก็จะได้ลำโพงอัจฉริยะขนาดพกพาที่เชื่อฟังกฎของคุณแล้ว

มาเริ่มต้นใช้งาน Raspberry Pi ตั้งแต่เริ่มต้นจนจบโดยไม่ต้องปวดหัวกันเลย เราจะครอบคลุมทุกขั้นตอน ตั้งแต่ชิ้นส่วน การติดตั้ง การเขียนโค้ด การเปรียบเทียบ ข้อควรระวัง... ทุกอย่างครบถ้วน 🌯

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 วิธีศึกษา AI อย่างมีประสิทธิภาพ
สร้างแผนการเรียน ฝึกทำโครงงาน และติดตามความคืบหน้า.

🔗 วิธีเริ่มต้นบริษัท AI
ตรวจสอบปัญหา สร้าง MVP (Minimum Viable Product) รวบรวมทีมงาน หาลูกค้ากลุ่มแรก.

🔗 วิธีใช้ AI เพื่อเพิ่มประสิทธิภาพการทำงาน
ทำให้งานประจำกลายเป็นระบบอัตโนมัติ ปรับปรุงขั้นตอนการทำงาน และเพิ่มผลผลิตเชิงสร้างสรรค์.

🔗 วิธีการนำ AI มาใช้ในธุรกิจของคุณ
ระบุขั้นตอนที่มีผลกระทบสูง ดำเนินการทดลอง วัดผลตอบแทนจากการลงทุน และขยายผล.

อะไรทำให้ผู้ช่วย AI DIY ที่ดีด้วย Raspberry Pi ✅

โดยค่าเริ่มต้นจะเป็นแบบส่วนตัว – เก็บเสียงไว้ในเครื่องเท่าที่เป็นไปได้ คุณเป็นผู้กำหนดว่าเสียงใดจะส่งออกไปยังอุปกรณ์ได้
แบบแยกส่วน – สามารถสลับเปลี่ยนส่วนประกอบได้เหมือนตัวต่อเลโก้: ระบบประมวลผลคำปลุก, ระบบรู้จำเสียงพูดอัตโนมัติ (ASR), ระบบจัดการเสียงพูด (LLM), ระบบแปลงคำเป็นเสียงพูด (TTS)
ราคาไม่แพง – ส่วนใหญ่เป็นโอเพนซอร์ส ไมโครโฟน ลำโพง และ Raspberry Pi
ปรับแต่งได้ง่าย – อยากได้ระบบบ้านอัจฉริยะ แผงควบคุม ฟังก์ชันการทำงานอัตโนมัติ และทักษะเฉพาะตัวใช่ไหม? ง่ายมาก
เชื่อถือได้ – มีระบบจัดการบริการ บูตเครื่องและเริ่มรับฟังโดยอัตโนมัติ
สนุกแน่นอน – คุณจะได้เรียนรู้มากมายเกี่ยวกับเสียง กระบวนการ และการออกแบบที่ขับเคลื่อนด้วยเหตุการณ์

เคล็ดลับเล็กๆ น้อยๆ: หากคุณใช้ Raspberry Pi 5 และวางแผนที่จะรันโมเดลโลคอลที่หนักกว่า พัดลมระบายความร้อนแบบหนีบจะช่วยได้ภายใต้ภาระงานต่อเนื่อง (หากไม่แน่ใจ ให้เลือก Active Cooler อย่างเป็นทางการที่ออกแบบมาสำหรับ Pi 5) [1]

ชิ้นส่วนและเครื่องมือที่คุณต้องใช้ 🧰

Raspberry Pi : แนะนำให้ใช้ Pi 4 หรือ Pi 5 เพื่อให้มีพื้นที่เหลือเฟือในการใช้งาน
การ์ด microSD : แนะนำให้ใช้ขนาด 32 GB ขึ้นไป
ไมโครโฟน USB : ไมโครโฟนสำหรับการประชุมแบบ USB ธรรมดาก็ใช้งานได้ดีเยี่ยม
ลำโพง : ลำโพง USB หรือ 3.5 มม. หรือ I2S amp HAT
เครือข่าย : อีเธอร์เน็ต หรือ Wi-Fi
อุปกรณ์เสริม: เคส, พัดลมระบายความร้อน สำหรับ Pi 5, ปุ่มกดเพื่อพูดคุย, วงแหวน LED [1]

ระบบปฏิบัติการและการตั้งค่าพื้นฐาน

แฟลช Raspberry Pi OS ด้วย Raspberry Pi Imager เป็นวิธีที่ตรงไปตรงมาในการสร้าง microSD ที่บูตได้พร้อมพรีเซ็ตที่คุณต้องการ [1]
เปิดเครื่อง เชื่อมต่อเครือข่าย จากนั้นอัปเดตแพ็กเกจ:

sudo apt update && sudo apt upgrade -y

พื้นฐานเสียง : บน Raspberry Pi OS คุณสามารถตั้งค่าเอาต์พุตเริ่มต้น ระดับเสียง และอุปกรณ์ต่างๆ ผ่านทาง UI บนเดสก์ท็อปหรือ raspi-config ได้ รองรับเสียงผ่าน USB และ HDMI ในทุกรุ่น และมีเอาต์พุต Bluetooth ในรุ่นที่มี Bluetooth [1]
ตรวจสอบอุปกรณ์:

บันทึก -l เล่น -l

จากนั้นทดสอบการบันทึกและการเล่น หากระดับเสียงดูผิดปกติ ให้ตรวจสอบมิกเซอร์และการตั้งค่าเริ่มต้นก่อนที่จะโทษไมโครโฟน.

ภาพรวมสถาปัตยกรรม 🗺️

ง่าย ด้วย Raspberry Pi จะมีลักษณะดังนี้:

คำปลุก → การบันทึกเสียงสด → การถอดเสียง ASR → การจัดการเจตนาหรือ LLM → ข้อความตอบกลับ → TTS → การเล่นเสียง → การดำเนินการเพิ่มเติมผ่าน MQTT หรือ HTTP (ไม่จำเป็น).

คำสั่งปลุก : Porcupine มีขนาดเล็ก แม่นยำ และทำงานในพื้นที่โดยมีการควบคุมความไวต่อคำหลักแต่ละคำ [2]
ASR : Whisper เป็นโมเดล ASR อเนกประสงค์หลายภาษาที่ได้รับการฝึกฝนมาประมาณ 680,000 ชั่วโมง มีความทนทานต่อสำเนียง/เสียงรบกวนพื้นหลัง สำหรับการใช้งานบนอุปกรณ์ whisper.cpp มีเส้นทางการอนุมาน C/C++ ที่กระชับ [3][4]
สมอง : คุณเลือกได้เอง – ระบบ LLM บนคลาวด์ผ่าน API, ระบบประมวลผลกฎ หรือการอนุมานในเครื่อง ขึ้นอยู่กับกำลังการประมวลผล
TTS : Piper สร้างเสียงพูดที่เป็นธรรมชาติในพื้นที่ ซึ่งเร็วพอสำหรับการตอบสนองที่รวดเร็วบนฮาร์ดแวร์ระดับปานกลาง [5]

ตารางเปรียบเทียบโดยย่อ 🔎

เครื่องมือ	เหมาะสำหรับ	ราคาค่อนข้างสูง	เหตุผลที่มันได้ผล
คำปลุกเม่น	ตัวกระตุ้นการฟังตลอดเวลา	ระดับฟรี +	CPU ต่ำ แม่นยำ ผูกง่าย [2]
วิสเปอร์.ซีพีพี	ระบบรู้จำเสียงพูดในเครื่อง Pi	โอเพนซอร์ส	ความแม่นยำดี เป็นมิตรกับ CPU [4]
ฟาสต์เตอร์-วิสเปอร์	ASR ที่เร็วขึ้นบน CPU/GPU	โอเพนซอร์ส	การปรับปรุงประสิทธิภาพของ CTranslate2
ไพเปอร์ ทีทีเอส	เอาต์พุตเสียงท้องถิ่น	โอเพนซอร์ส	เสียงเร็ว หลายภาษา [5]
API LLM บนคลาวด์	การให้เหตุผลที่ลึกซึ้ง	ขึ้นอยู่กับการใช้งาน	ลดภาระการประมวลผลหนัก
โหนดเรด	การวางแผนและดำเนินการ	โอเพนซอร์ส	แผนผังการทำงานแบบเห็นภาพ รองรับ MQTT

ขั้นตอนการสร้าง: ลูปเสียงแรกของคุณ 🧩

เราจะใช้ Porcupine สำหรับคำสั่งปลุก, Whisper สำหรับการถอดเสียง, ฟังก์ชัน "สมอง" ขนาดเล็กสำหรับการตอบกลับ (แทนที่ด้วย LLM ที่คุณเลือก) และ Piper สำหรับการพูด ทำให้มันเรียบง่ายที่สุดก่อน แล้วค่อยปรับปรุงไปเรื่อยๆ.

1) ติดตั้งส่วนประกอบที่จำเป็น

sudo apt install -y python3-pip portaudio19-dev sox ffmpeg pip3 install sounddevice numpy

Porcupine: ดาวน์โหลด SDK/bindings สำหรับภาษาของคุณและทำตามคู่มือเริ่มต้นใช้งานฉบับย่อ (คีย์การเข้าถึง + รายการคำหลัก + เฟรมเสียง → .process ) [2]
Whisper (CPU-friendly): สร้าง whisper.cpp :

git clone https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B build && cmake --build build -j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f your.wav -otxt

ข้างต้นสะท้อนให้เห็นถึงการเริ่มต้นอย่างรวดเร็วของโครงการ [4]

ชอบใช้ Python ใช่ไหม? faster-whisper (CTranslate2) มักจะทำงานได้เร็วกว่า Python แบบดั้งเดิมบน CPU ที่มีสเปคปานกลาง

2) ตั้งค่า Piper TTS

git clone https://github.com/rhasspy/piper cd piper make # ดาวน์โหลดโมเดลเสียงที่คุณชอบ เช่น en_US-amy echo "Hello there." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav

Piper ได้รับการออกแบบมาสำหรับ TTS บนอุปกรณ์โดยมีตัวเลือกเสียง/ภาษาหลายภาษา [5]

3) ลูปช่วยแบบง่ายที่สุดใน Python

ออกแบบมาให้กระชับโดยเจตนา: รอรับวลีปลุก (stub), บันทึก, ถอดเสียงด้วย whisper.cpp , สร้างข้อความตอบกลับ (placeholder), จากนั้นพูดผ่าน Piper เปลี่ยน placeholder ด้วย LLM หรือตรรกะกฎที่คุณชื่นชอบ

import os, subprocess, wave import sounddevice as sd WAKE_WORD = "hey computer" # สลับใช้ Porcupine ในเวอร์ชันใช้งานจริง [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 CHANNELS = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=CHANNELS, dtype='int16') sd.wait() with wave.open(path, 'wb') as w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR) with open(path.replace(".wav", ".txt"), "r", encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): if "weather" in prompt.lower(): return "ฉันมองไม่เห็นเมฆ แต่สภาพอากาศอาจจะดีก็ได้ พกเสื้อแจ็คเก็ตไปด้วยเผื่อไว้" return "คุณพูดว่า: " + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text.encode("utf-8")); proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("ผู้ช่วยพร้อมแล้ว พิมพ์วลีปลุกเพื่อทดสอบ") while True: typed = input("> ").strip().lower() if typed == WAKE_WORD: wav_path = f"{WORKDIR}/input.wav" record_wav(wav_path) text = transcribe(wav_path) reply = generate_reply(text) print("ผู้ใช้:", text); print("ผู้ช่วย:", reply) speak(reply) else: print("พิมพ์วลีปลุกเพื่อทดสอบลูป")

สำหรับการตรวจจับคำปลุกจริง ให้ผสานรวมตัวตรวจจับการสตรีมของ Porcupine (ใช้ CPU ต่ำ ความไวต่อคำหลัก) [2]

การปรับแต่งเสียงที่สำคัญอย่างแท้จริง 🎚️

การแก้ไขเล็กๆ น้อยๆ เพียงไม่กี่อย่าง จะทำให้ผู้ช่วยของคุณรู้สึกฉลาดขึ้นถึง 10 เท่า:

ระยะห่างของไมโครโฟน : 30–60 ซม. เป็นระยะที่เหมาะสมที่สุดสำหรับไมโครโฟน USB หลายรุ่น
ระดับ : หลีกเลี่ยงการตัดสัญญาณอินพุตและรักษาการเล่นให้ราบรื่น แก้ไขการกำหนดเส้นทางก่อนที่จะไล่ตามโค้ดที่หายไป บน Raspberry Pi OS คุณสามารถจัดการอุปกรณ์เอาต์พุตและระดับผ่านเครื่องมือระบบหรือ raspi-config ได้ [1]
ลักษณะเสียงภายในห้อง : ผนังแข็งทำให้เกิดเสียงสะท้อน แผ่นรองนุ่มๆ ใต้ไมโครโฟนจะช่วยได้
เกณฑ์คำปลุก : ไวเกินไป → ทริกเกอร์ผี; เข้มงวดเกินไป → คุณจะตะโกนใส่พลาสติก Porcupine ช่วยให้คุณปรับความไวต่อคำหลักได้ [2]
ระบบระบายความร้อน : การบันทึกข้อมูลเป็นเวลานานบน Pi 5 ได้รับประโยชน์จากระบบระบายความร้อนแบบแอคทีฟอย่างเป็นทางการเพื่อประสิทธิภาพที่ต่อเนื่อง [1]

เปลี่ยนจากของเล่นเป็นเครื่องใช้ไฟฟ้า: บริการบำรุงรักษา ระบบสตาร์ทอัตโนมัติ การตรวจสอบสภาพ 🧯

มนุษย์มักลืมรันสคริปต์ คอมพิวเตอร์มักลืมปฏิบัติต่อผู้อื่นอย่างสุภาพ เปลี่ยนลูปของคุณให้เป็นบริการที่มีการจัดการ:

สร้างหน่วย systemd:

[Unit] Description=ผู้ช่วยเสียง DIY After=network.target sound.target [Service] User=pi WorkingDirectory=/home/pi/assistant ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [Install] WantedBy=multi-user.target

เปิดใช้งาน:

sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl enable --now assistant.service

ส่วนท้ายของบันทึก:

journalctl -u assistant -f

ตอนนี้มันเริ่มทำงานเมื่อเปิดเครื่อง รีสตาร์ทเมื่อเกิดข้อผิดพลาด และโดยทั่วไปแล้วทำงานเหมือนเครื่องใช้ไฟฟ้าทั่วไป อาจจะน่าเบื่อเล็กน้อย แต่ดีขึ้นมาก.

ระบบทักษะ: นำไปใช้ให้เกิดประโยชน์จริงที่บ้าน 🏠✨

เมื่อการป้อนเสียงและการแสดงผลด้วยเสียงมีความเสถียรแล้ว ให้เพิ่มการกระทำต่างๆ เข้าไป:

Intent router : เส้นทางคีย์เวิร์ดแบบง่ายสำหรับงานทั่วไป
บ้านอัจฉริยะ : เผยแพร่เหตุการณ์ไปยัง MQTT หรือเรียกใช้เอนด์พอยต์ HTTP ของ Home Assistant
ปลั๊กอิน : ฟังก์ชัน Python ด่วน เช่น set_timer , what_is_the_time , play_radio , run_scene

แม้จะมีระบบ LLM บนคลาวด์เข้ามาเกี่ยวข้อง ก็ควรจัดลำดับคำสั่งภายในเครื่องที่ชัดเจนก่อน เพื่อความรวดเร็วและน่าเชื่อถือ.

การใช้งานแบบโลคอลอย่างเดียว เทียบกับการใช้งานผ่านระบบคลาวด์: ข้อแลกเปลี่ยนที่คุณจะรู้สึกได้ 🌓

เฉพาะในพื้นที่
: เป็นส่วนตัว ออฟไลน์ ค่าใช้จ่ายที่คาดการณ์ได้
ข้อเสีย: โมเดลขนาดใหญ่อาจทำงานช้าบนบอร์ดขนาดเล็ก การฝึกอบรมหลายภาษาของ Whisper ช่วยเพิ่มความทนทานหากคุณเก็บไว้ในอุปกรณ์หรือบนเซิร์ฟเวอร์ใกล้เคียง [3]

การใช้ระบบช่วยเหลือบนคลาวด์
: การให้เหตุผลที่มีประสิทธิภาพสูง, กรอบบริบทที่กว้างขึ้น
ข้อเสีย: ข้อมูลออกจากอุปกรณ์, การพึ่งพาเครือข่าย, ต้นทุนที่ผันแปร

ระบบไฮบริดมักจะชนะ: คำปลุก + ASR ในเครื่อง → เรียก API เพื่อการอนุมาน → TTS ในเครื่อง [2][3][5]

การแก้ไขปัญหา: ปัญหาแปลกๆ และวิธีแก้ไขด่วน 👾

คำสั่งปลุกทำงานผิดพลาด : ลดความไวลงหรือลองใช้ไมโครโฟนตัวอื่น [2]
ASR lag : ใช้โมเดล Whisper ที่เล็กกว่าหรือสร้าง whisper.cpp ด้วยแฟล็กการเผยแพร่ ( -j --config Release ) [4]
เสียง TTS ไม่ราบรื่น : สร้างวลีทั่วไปล่วงหน้า ตรวจสอบอุปกรณ์เสียงและอัตราการสุ่มตัวอย่างของคุณ
ไม่พบไมโครโฟน : โปรดตรวจสอบ arecord -l และมิกเซอร์
การลดประสิทธิภาพเนื่องจากความร้อน : ใช้ Active Cooler อย่างเป็นทางการบน Pi 5 เพื่อประสิทธิภาพที่ต่อเนื่อง [1]

หมายเหตุเกี่ยวกับความปลอดภัยและความเป็นส่วนตัวที่คุณควรอ่าน 🔒

อัปเดต Raspberry Pi ของคุณด้วย APT อยู่เสมอ.
หากคุณใช้ API บนระบบคลาวด์ โปรดบันทึกสิ่งที่คุณส่ง และพิจารณาลบข้อมูลส่วนบุคคลออกก่อนในเครื่องของคุณ.
เรียกใช้บริการด้วยสิทธิ์ขั้นต่ำที่สุด หลีกเลี่ยงการใช้ sudo ใน ExecStart เว้นแต่จำเป็น
จัดให้มี โหมดใช้งานเฉพาะพื้นที่ สำหรับแขก หรือช่วงเวลาเงียบสงบ

รูปแบบการประกอบ: ผสมผสานและจับคู่ได้ตามใจชอบ เหมือนแซนด์วิช 🥪

เฉพาะที่ : Porcupine + whisper.cpp + Piper + กฎง่ายๆ เป็นส่วนตัวและแข็งแรง [2][4][5]
ระบบช่วยเหลือบนคลาวด์ที่รวดเร็ว : Porcupine + (Whisper เวอร์ชันท้องถิ่นขนาดเล็ก หรือ ASR บนคลาวด์) + TTS เวอร์ชันท้องถิ่น + LLM บนคลาวด์
ศูนย์กลางระบบบ้านอัจฉริยะ : เพิ่มโฟลว์ Node-RED หรือ Home Assistant สำหรับกิจวัตร ฉาก และเซ็นเซอร์ต่างๆ

ตัวอย่างทักษะ: เปิดไฟผ่าน MQTT 💡

import paho.mqtt.client as mqtt MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60) payload = "ON" if state.lower().startswith("on") else "OFF" client.publish(TOPIC, payload, qos=1, retain=False) client.disconnect() # if "turn on the lights" in text: set_light("on")

ลองเพิ่มประโยคเสียงอย่างเช่น “เปิดโคมไฟห้องนั่งเล่น” ดูสิ แล้วคุณจะรู้สึกเหมือนเป็นพ่อมดเลย.

เหตุผลที่การจัดเรียงแบบนี้ได้ผลในทางปฏิบัติ 🧪

Porcupine มีประสิทธิภาพและแม่นยำในการตรวจจับคำปลุกบนบอร์ดขนาดเล็ก ซึ่งทำให้การฟังตลอดเวลาเป็นไปได้ [2]
การฝึกอบรมขนาดใหญ่และหลากหลายภาษาของ Whisper ทำให้มีความแข็งแกร่งต่อสภาพแวดล้อมและสำเนียงที่หลากหลาย [3]
whisper.cpp ช่วยให้สามารถใช้พลังงานนั้นได้บนอุปกรณ์ที่ใช้ CPU เพียงอย่างเดียว เช่น Pi [4]
Piper ช่วยให้การตอบกลับรวดเร็วโดยไม่ต้องส่งไฟล์เสียงไปยัง TTS บนคลาวด์ [5]

ยาวเกินไป อ่านไม่จบ

สร้าง ผู้ช่วย AI DIY ส่วนตัวแบบโมดูลาร์ด้วย Raspberry Pi โดยการรวม Porcupine สำหรับคำปลุก, Whisper (ผ่าน whisper.cpp ) สำหรับ ASR, สมองที่คุณเลือกสำหรับการตอบกลับ และ Piper สำหรับ TTS ในเครื่อง ห่อหุ้มเป็นบริการ systemd ปรับแต่งเสียง และเชื่อมต่อการทำงาน MQTT หรือ HTTP มันถูกกว่าที่คุณคิด และน่าพึงพอใจอย่างประหลาดที่จะใช้งาน [1][2][3][4][5]

เอกสารอ้างอิง

ซอฟต์แวร์และระบบระบายความร้อนสำหรับ Raspberry Pi – Raspberry Pi Imager (ดาวน์โหลดและใช้งาน) และข้อมูลผลิตภัณฑ์ Pi 5 Active Cooler
- Raspberry Pi Imager: อ่านเพิ่มเติม
- ระบบระบายความร้อนแบบแอคทีฟ (Pi 5): อ่านเพิ่มเติม
Porcupine Wake Word – SDK และคู่มือเริ่มต้นใช้งานฉบับย่อ (คำสำคัญ ความไว การอนุมานเฉพาะที่)
- อ่านเพิ่มเติม
Whisper (โมเดล ASR) – ระบบ ASR ที่รองรับหลายภาษาและมีความเสถียรสูง ผ่านการฝึกฝนมาแล้วประมาณ 680,000 ชั่วโมง
- Radford และคณะ, การรู้จำเสียงพูดที่ทนทานผ่านการกำกับดูแลแบบอ่อนขนาดใหญ่ (Whisper): อ่านเพิ่มเติม
whisper.cpp – การอนุมาน Whisper ที่เป็นมิตรกับ CPU พร้อม CLI และขั้นตอนการสร้าง
- อ่านเพิ่มเติม
Piper TTS – ระบบแปลงข้อความเป็นเสียงพูดด้วยโครงข่ายประสาทเทียมแบบโลคอลที่รวดเร็ว พร้อมเสียงพูด/ภาษาหลากหลาย
- อ่านเพิ่มเติม

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก

ประเทศ/ภูมิภาค