วิธีสร้างผู้ช่วย AI แบบ DIY ด้วย Raspberry Pi

วิธีสร้างผู้ช่วย AI แบบ DIY ด้วย Raspberry Pi

อยากได้ผู้ช่วยเสียงขนาดจิ๋วที่ทำตามคำสั่งของคุณ ทำงานบนฮาร์ดแวร์ของคุณเอง และจะไม่สั่งสับปะรด 12 ลูกโดยไม่ได้ตั้งใจเพราะฟังผิดใช่ไหม? การสร้าง ผู้ช่วย AI แบบ DIY ด้วย Raspberry Pi นั้นทำได้จริง สนุก และยืดหยุ่นอย่างน่าประหลาดใจ คุณจะต้องต่อสายคำสั่งปลุก ระบบรู้จำเสียงพูด (ASR = การรู้จำเสียงพูดอัตโนมัติ) หน่วยประมวลผลภาษาธรรมชาติ (กฎหรือ LLM) และระบบแปลงข้อความเป็นเสียงพูด (TTS) เพิ่มสคริปต์ บริการหนึ่งหรือสองอย่าง และปรับแต่งเสียงอย่างระมัดระวัง คุณก็จะได้ลำโพงอัจฉริยะขนาดพกพาที่เชื่อฟังกฎของคุณแล้ว

มาเริ่มต้นใช้งาน Raspberry Pi ตั้งแต่เริ่มต้นจนจบโดยไม่ต้องปวดหัวกันเลย เราจะครอบคลุมทุกขั้นตอน ตั้งแต่ชิ้นส่วน การติดตั้ง การเขียนโค้ด การเปรียบเทียบ ข้อควรระวัง... ทุกอย่างครบถ้วน 🌯

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 วิธีศึกษา AI อย่างมีประสิทธิภาพ
สร้างแผนการเรียน ฝึกทำโครงงาน และติดตามความคืบหน้า.

🔗 วิธีเริ่มต้นบริษัท AI
ตรวจสอบปัญหา สร้าง MVP (Minimum Viable Product) รวบรวมทีมงาน หาลูกค้ากลุ่มแรก.

🔗 วิธีใช้ AI เพื่อเพิ่มประสิทธิภาพการทำงาน
ทำให้งานประจำกลายเป็นระบบอัตโนมัติ ปรับปรุงขั้นตอนการทำงาน และเพิ่มผลผลิตเชิงสร้างสรรค์.

🔗 วิธีการนำ AI มาใช้ในธุรกิจของคุณ
ระบุขั้นตอนที่มีผลกระทบสูง ดำเนินการทดลอง วัดผลตอบแทนจากการลงทุน และขยายผล.


อะไรทำให้ผู้ช่วย AI DIY ที่ดีด้วย Raspberry Pi ✅

  • โดยค่าเริ่มต้นจะเป็นแบบส่วนตัว – เก็บเสียงไว้ในเครื่องเท่าที่เป็นไปได้ คุณเป็นผู้กำหนดว่าเสียงใดจะส่งออกไปยังอุปกรณ์ได้

  • แบบแยกส่วน – สามารถสลับเปลี่ยนส่วนประกอบได้เหมือนตัวต่อเลโก้: ระบบประมวลผลคำปลุก, ระบบรู้จำเสียงพูดอัตโนมัติ (ASR), ระบบจัดการเสียงพูด (LLM), ระบบแปลงคำเป็นเสียงพูด (TTS)

  • ราคาไม่แพง – ส่วนใหญ่เป็นโอเพนซอร์ส ไมโครโฟน ลำโพง และ Raspberry Pi

  • ปรับแต่งได้ง่าย – อยากได้ระบบบ้านอัจฉริยะ แผงควบคุม ฟังก์ชันการทำงานอัตโนมัติ และทักษะเฉพาะตัวใช่ไหม? ง่ายมาก

  • เชื่อถือได้ – มีระบบจัดการบริการ บูตเครื่องและเริ่มรับฟังโดยอัตโนมัติ

  • สนุกแน่นอน – คุณจะได้เรียนรู้มากมายเกี่ยวกับเสียง กระบวนการ และการออกแบบที่ขับเคลื่อนด้วยเหตุการณ์

เคล็ดลับเล็กๆ น้อยๆ: หากคุณใช้ Raspberry Pi 5 และวางแผนที่จะรันโมเดลโลคอลที่หนักกว่า พัดลมระบายความร้อนแบบหนีบจะช่วยได้ภายใต้ภาระงานต่อเนื่อง (หากไม่แน่ใจ ให้เลือก Active Cooler อย่างเป็นทางการที่ออกแบบมาสำหรับ Pi 5) [1]


ชิ้นส่วนและเครื่องมือที่คุณต้องใช้ 🧰

  • Raspberry Pi : แนะนำให้ใช้ Pi 4 หรือ Pi 5 เพื่อให้มีพื้นที่เหลือเฟือในการใช้งาน

  • การ์ด microSD : แนะนำให้ใช้ขนาด 32 GB ขึ้นไป

  • ไมโครโฟน USB : ไมโครโฟนสำหรับการประชุมแบบ USB ธรรมดาก็ใช้งานได้ดีเยี่ยม

  • ลำโพง : ลำโพง USB หรือ 3.5 มม. หรือ I2S amp HAT

  • เครือข่าย : อีเธอร์เน็ต หรือ Wi-Fi

  • อุปกรณ์เสริม: เคส, พัดลมระบายความร้อน สำหรับ Pi 5, ปุ่มกดเพื่อพูดคุย, วงแหวน LED [1]

ระบบปฏิบัติการและการตั้งค่าพื้นฐาน

  1. แฟลช Raspberry Pi OS ด้วย Raspberry Pi Imager เป็นวิธีที่ตรงไปตรงมาในการสร้าง microSD ที่บูตได้พร้อมพรีเซ็ตที่คุณต้องการ [1]

  2. เปิดเครื่อง เชื่อมต่อเครือข่าย จากนั้นอัปเดตแพ็กเกจ:

sudo apt update && sudo apt upgrade -y
  1. พื้นฐานเสียง : บน Raspberry Pi OS คุณสามารถตั้งค่าเอาต์พุตเริ่มต้น ระดับเสียง และอุปกรณ์ต่างๆ ผ่านทาง UI บนเดสก์ท็อปหรือ raspi-config ได้ รองรับเสียงผ่าน USB และ HDMI ในทุกรุ่น และมีเอาต์พุต Bluetooth ในรุ่นที่มี Bluetooth [1]

  2. ตรวจสอบอุปกรณ์:

บันทึก -l เล่น -l

จากนั้นทดสอบการบันทึกและการเล่น หากระดับเสียงดูผิดปกติ ให้ตรวจสอบมิกเซอร์และการตั้งค่าเริ่มต้นก่อนที่จะโทษไมโครโฟน.

 

AI Raspberry Pi

ภาพรวมสถาปัตยกรรม 🗺️

ง่าย ด้วย Raspberry Pi จะมีลักษณะดังนี้:

คำปลุก → การบันทึกเสียงสด → การถอดเสียง ASR → การจัดการเจตนาหรือ LLM → ข้อความตอบกลับ → TTS → การเล่นเสียง → การดำเนินการเพิ่มเติมผ่าน MQTT หรือ HTTP (ไม่จำเป็น).

  • คำสั่งปลุก : Porcupine มีขนาดเล็ก แม่นยำ และทำงานในพื้นที่โดยมีการควบคุมความไวต่อคำหลักแต่ละคำ [2]

  • ASR : Whisper เป็นโมเดล ASR อเนกประสงค์หลายภาษาที่ได้รับการฝึกฝนมาประมาณ 680,000 ชั่วโมง มีความทนทานต่อสำเนียง/เสียงรบกวนพื้นหลัง สำหรับการใช้งานบนอุปกรณ์ whisper.cpp มีเส้นทางการอนุมาน C/C++ ที่กระชับ [3][4]

  • สมอง : คุณเลือกได้เอง – ระบบ LLM บนคลาวด์ผ่าน API, ระบบประมวลผลกฎ หรือการอนุมานในเครื่อง ขึ้นอยู่กับกำลังการประมวลผล

  • TTS : Piper สร้างเสียงพูดที่เป็นธรรมชาติในพื้นที่ ซึ่งเร็วพอสำหรับการตอบสนองที่รวดเร็วบนฮาร์ดแวร์ระดับปานกลาง [5]


ตารางเปรียบเทียบโดยย่อ 🔎

เครื่องมือ เหมาะสำหรับ ราคาค่อนข้างสูง เหตุผลที่มันได้ผล
คำปลุกเม่น ตัวกระตุ้นการฟังตลอดเวลา ระดับฟรี + CPU ต่ำ แม่นยำ ผูกง่าย [2]
วิสเปอร์.ซีพีพี ระบบรู้จำเสียงพูดในเครื่อง Pi โอเพนซอร์ส ความแม่นยำดี เป็นมิตรกับ CPU [4]
ฟาสต์เตอร์-วิสเปอร์ ASR ที่เร็วขึ้นบน CPU/GPU โอเพนซอร์ส การปรับปรุงประสิทธิภาพของ CTranslate2
ไพเปอร์ ทีทีเอส เอาต์พุตเสียงท้องถิ่น โอเพนซอร์ส เสียงเร็ว หลายภาษา [5]
API LLM บนคลาวด์ การให้เหตุผลที่ลึกซึ้ง ขึ้นอยู่กับการใช้งาน ลดภาระการประมวลผลหนัก
โหนดเรด การวางแผนและดำเนินการ โอเพนซอร์ส แผนผังการทำงานแบบเห็นภาพ รองรับ MQTT

ขั้นตอนการสร้าง: ลูปเสียงแรกของคุณ 🧩

เราจะใช้ Porcupine สำหรับคำสั่งปลุก, Whisper สำหรับการถอดเสียง, ฟังก์ชัน "สมอง" ขนาดเล็กสำหรับการตอบกลับ (แทนที่ด้วย LLM ที่คุณเลือก) และ Piper สำหรับการพูด ทำให้มันเรียบง่ายที่สุดก่อน แล้วค่อยปรับปรุงไปเรื่อยๆ.

1) ติดตั้งส่วนประกอบที่จำเป็น

sudo apt install -y python3-pip portaudio19-dev sox ffmpeg pip3 install sounddevice numpy
  • Porcupine: ดาวน์โหลด SDK/bindings สำหรับภาษาของคุณและทำตามคู่มือเริ่มต้นใช้งานฉบับย่อ (คีย์การเข้าถึง + รายการคำหลัก + เฟรมเสียง → .process ) [2]

  • Whisper (CPU-friendly): สร้าง whisper.cpp :

git clone https://github.com/ggml-org/whisper.cpp cd whisper.cpp && cmake -B build && cmake --build build -j ./models/download-ggml-model.sh base.en ./build/bin/whisper-cli -m ./models/ggml-base.en.bin -f your.wav -otxt

ข้างต้นสะท้อนให้เห็นถึงการเริ่มต้นอย่างรวดเร็วของโครงการ [4]

ชอบใช้ Python ใช่ไหม? faster-whisper (CTranslate2) มักจะทำงานได้เร็วกว่า Python แบบดั้งเดิมบน CPU ที่มีสเปคปานกลาง

2) ตั้งค่า Piper TTS

git clone https://github.com/rhasspy/piper cd piper make # ดาวน์โหลดโมเดลเสียงที่คุณชอบ เช่น en_US-amy echo "Hello there." | ./piper --model voices/en/en_US-amy-medium.onnx --output_file hello.wav aplay hello.wav

Piper ได้รับการออกแบบมาสำหรับ TTS บนอุปกรณ์โดยมีตัวเลือกเสียง/ภาษาหลายภาษา [5]

3) ลูปช่วยแบบง่ายที่สุดใน Python

ออกแบบมาให้กระชับโดยเจตนา: รอรับวลีปลุก (stub), บันทึก, ถอดเสียงด้วย whisper.cpp , สร้างข้อความตอบกลับ (placeholder), จากนั้นพูดผ่าน Piper เปลี่ยน placeholder ด้วย LLM หรือตรรกะกฎที่คุณชื่นชอบ

import os, subprocess, wave import sounddevice as sd WAKE_WORD = "hey computer" # สลับใช้ Porcupine ในเวอร์ชันใช้งานจริง [2] RECORD_SECONDS = 6 SAMPLE_RATE = 16000 CHANNELS = 1 WORKDIR = "/home/pi/assistant" ASR_BIN = "/home/pi/whisper.cpp/build/bin/whisper-cli" # [4] ASR_MODEL = "/home/pi/whisper.cpp/models/ggml-base.en.bin" PIPER_BIN = "/home/pi/piper/build/piper" # [5] PIPER_VOICE = "/home/pi/piper/voices/en/en_US-amy-medium.onnx" os.makedirs(WORKDIR, exist_ok=True) def record_wav(path, seconds=RECORD_SECONDS): audio = sd.rec(int(seconds * SAMPLE_RATE), samplerate=SAMPLE_RATE, channels=CHANNELS, dtype='int16') sd.wait() with wave.open(path, 'wb') as w: w.setnchannels(CHANNELS); w.setsampwidth(2); w.setframerate(SAMPLE_RATE) w.writeframes(audio.tobytes()) def transcribe(path): cmd = [ASR_BIN, "-m", ASR_MODEL, "-f", path, "-otxt"] subprocess.run(cmd, check=True, cwd=WORKDIR) with open(path.replace(".wav", ".txt"), "r", encoding="utf-8") as f: return f.read().strip() def generate_reply(prompt): if "weather" in prompt.lower(): return "ฉันมองไม่เห็นเมฆ แต่สภาพอากาศอาจจะดีก็ได้ พกเสื้อแจ็คเก็ตไปด้วยเผื่อไว้" return "คุณพูดว่า: " + prompt def speak(text): proc = subprocess.Popen([PIPER_BIN, "--model", PIPER_VOICE, "--output_file", f"{WORKDIR}/reply.wav"], stdin=subprocess.PIPE) proc.stdin.write(text.encode("utf-8")); proc.stdin.close(); proc.wait() subprocess.run(["aplay", f"{WORKDIR}/reply.wav"], check=True) print("ผู้ช่วยพร้อมแล้ว พิมพ์วลีปลุกเพื่อทดสอบ") while True: typed = input("> ").strip().lower() if typed == WAKE_WORD: wav_path = f"{WORKDIR}/input.wav" record_wav(wav_path) text = transcribe(wav_path) reply = generate_reply(text) print("ผู้ใช้:", text); print("ผู้ช่วย:", reply) speak(reply) else: print("พิมพ์วลีปลุกเพื่อทดสอบลูป")

สำหรับการตรวจจับคำปลุกจริง ให้ผสานรวมตัวตรวจจับการสตรีมของ Porcupine (ใช้ CPU ต่ำ ความไวต่อคำหลัก) [2]


การปรับแต่งเสียงที่สำคัญอย่างแท้จริง 🎚️

การแก้ไขเล็กๆ น้อยๆ เพียงไม่กี่อย่าง จะทำให้ผู้ช่วยของคุณรู้สึกฉลาดขึ้นถึง 10 เท่า:

  • ระยะห่างของไมโครโฟน : 30–60 ซม. เป็นระยะที่เหมาะสมที่สุดสำหรับไมโครโฟน USB หลายรุ่น

  • ระดับ : หลีกเลี่ยงการตัดสัญญาณอินพุตและรักษาการเล่นให้ราบรื่น แก้ไขการกำหนดเส้นทางก่อนที่จะไล่ตามโค้ดที่หายไป บน Raspberry Pi OS คุณสามารถจัดการอุปกรณ์เอาต์พุตและระดับผ่านเครื่องมือระบบหรือ raspi-config ได้ [1]

  • ลักษณะเสียงภายในห้อง : ผนังแข็งทำให้เกิดเสียงสะท้อน แผ่นรองนุ่มๆ ใต้ไมโครโฟนจะช่วยได้

  • เกณฑ์คำปลุก : ไวเกินไป → ทริกเกอร์ผี; เข้มงวดเกินไป → คุณจะตะโกนใส่พลาสติก Porcupine ช่วยให้คุณปรับความไวต่อคำหลักได้ [2]

  • ระบบระบายความร้อน : การบันทึกข้อมูลเป็นเวลานานบน Pi 5 ได้รับประโยชน์จากระบบระบายความร้อนแบบแอคทีฟอย่างเป็นทางการเพื่อประสิทธิภาพที่ต่อเนื่อง [1]


เปลี่ยนจากของเล่นเป็นเครื่องใช้ไฟฟ้า: บริการบำรุงรักษา ระบบสตาร์ทอัตโนมัติ การตรวจสอบสภาพ 🧯

มนุษย์มักลืมรันสคริปต์ คอมพิวเตอร์มักลืมปฏิบัติต่อผู้อื่นอย่างสุภาพ เปลี่ยนลูปของคุณให้เป็นบริการที่มีการจัดการ:

  1. สร้างหน่วย systemd:

[Unit] Description=ผู้ช่วยเสียง DIY After=network.target sound.target [Service] User=pi WorkingDirectory=/home/pi/assistant ExecStart=/usr/bin/python3 /home/pi/assistant/assistant.py Restart=always RestartSec=3 [Install] WantedBy=multi-user.target
  1. เปิดใช้งาน:

sudo cp assistant.service /etc/systemd/system/ sudo systemctl daemon-reload sudo systemctl enable --now assistant.service
  1. ส่วนท้ายของบันทึก:

journalctl -u assistant -f

ตอนนี้มันเริ่มทำงานเมื่อเปิดเครื่อง รีสตาร์ทเมื่อเกิดข้อผิดพลาด และโดยทั่วไปแล้วทำงานเหมือนเครื่องใช้ไฟฟ้าทั่วไป อาจจะน่าเบื่อเล็กน้อย แต่ดีขึ้นมาก.


ระบบทักษะ: นำไปใช้ให้เกิดประโยชน์จริงที่บ้าน 🏠✨

เมื่อการป้อนเสียงและการแสดงผลด้วยเสียงมีความเสถียรแล้ว ให้เพิ่มการกระทำต่างๆ เข้าไป:

  • Intent router : เส้นทางคีย์เวิร์ดแบบง่ายสำหรับงานทั่วไป

  • บ้านอัจฉริยะ : เผยแพร่เหตุการณ์ไปยัง MQTT หรือเรียกใช้เอนด์พอยต์ HTTP ของ Home Assistant

  • ปลั๊กอิน : ฟังก์ชัน Python ด่วน เช่น set_timer , what_is_the_time , play_radio , run_scene

แม้จะมีระบบ LLM บนคลาวด์เข้ามาเกี่ยวข้อง ก็ควรจัดลำดับคำสั่งภายในเครื่องที่ชัดเจนก่อน เพื่อความรวดเร็วและน่าเชื่อถือ.


การใช้งานแบบโลคอลอย่างเดียว เทียบกับการใช้งานผ่านระบบคลาวด์: ข้อแลกเปลี่ยนที่คุณจะรู้สึกได้ 🌓

เฉพาะในพื้นที่
: เป็นส่วนตัว ออฟไลน์ ค่าใช้จ่ายที่คาดการณ์ได้
ข้อเสีย: โมเดลขนาดใหญ่อาจทำงานช้าบนบอร์ดขนาดเล็ก การฝึกอบรมหลายภาษาของ Whisper ช่วยเพิ่มความทนทานหากคุณเก็บไว้ในอุปกรณ์หรือบนเซิร์ฟเวอร์ใกล้เคียง [3]

การใช้ระบบช่วยเหลือบนคลาวด์
: การให้เหตุผลที่มีประสิทธิภาพสูง, กรอบบริบทที่กว้างขึ้น
ข้อเสีย: ข้อมูลออกจากอุปกรณ์, การพึ่งพาเครือข่าย, ต้นทุนที่ผันแปร

ระบบไฮบริดมักจะชนะ: คำปลุก + ASR ในเครื่อง → เรียก API เพื่อการอนุมาน → TTS ในเครื่อง [2][3][5]


การแก้ไขปัญหา: ปัญหาแปลกๆ และวิธีแก้ไขด่วน 👾

  • คำสั่งปลุกทำงานผิดพลาด : ลดความไวลงหรือลองใช้ไมโครโฟนตัวอื่น [2]

  • ASR lag : ใช้โมเดล Whisper ที่เล็กกว่าหรือสร้าง whisper.cpp ด้วยแฟล็กการเผยแพร่ ( -j --config Release ) [4]

  • เสียง TTS ไม่ราบรื่น : สร้างวลีทั่วไปล่วงหน้า ตรวจสอบอุปกรณ์เสียงและอัตราการสุ่มตัวอย่างของคุณ

  • ไม่พบไมโครโฟน : โปรดตรวจสอบ arecord -l และมิกเซอร์

  • การลดประสิทธิภาพเนื่องจากความร้อน : ใช้ Active Cooler อย่างเป็นทางการบน Pi 5 เพื่อประสิทธิภาพที่ต่อเนื่อง [1]


หมายเหตุเกี่ยวกับความปลอดภัยและความเป็นส่วนตัวที่คุณควรอ่าน 🔒

  • อัปเดต Raspberry Pi ของคุณด้วย APT อยู่เสมอ.

  • หากคุณใช้ API บนระบบคลาวด์ โปรดบันทึกสิ่งที่คุณส่ง และพิจารณาลบข้อมูลส่วนบุคคลออกก่อนในเครื่องของคุณ.

  • เรียกใช้บริการด้วยสิทธิ์ขั้นต่ำที่สุด หลีกเลี่ยงการใช้ sudo ใน ExecStart เว้นแต่จำเป็น

  • จัดให้มี โหมดใช้งานเฉพาะพื้นที่ สำหรับแขก หรือช่วงเวลาเงียบสงบ


รูปแบบการประกอบ: ผสมผสานและจับคู่ได้ตามใจชอบ เหมือนแซนด์วิช 🥪

  • เฉพาะที่ : Porcupine + whisper.cpp + Piper + กฎง่ายๆ เป็นส่วนตัวและแข็งแรง [2][4][5]

  • ระบบช่วยเหลือบนคลาวด์ที่รวดเร็ว : Porcupine + (Whisper เวอร์ชันท้องถิ่นขนาดเล็ก หรือ ASR บนคลาวด์) + TTS เวอร์ชันท้องถิ่น + LLM บนคลาวด์

  • ศูนย์กลางระบบบ้านอัจฉริยะ : เพิ่มโฟลว์ Node-RED หรือ Home Assistant สำหรับกิจวัตร ฉาก และเซ็นเซอร์ต่างๆ


ตัวอย่างทักษะ: เปิดไฟผ่าน MQTT 💡

import paho.mqtt.client as mqtt MQTT_HOST = "192.168.1.10" TOPIC = "home/livingroom/light/set" def set_light(state: str): client = mqtt.Client() client.connect(MQTT_HOST, 1883, 60) payload = "ON" if state.lower().startswith("on") else "OFF" client.publish(TOPIC, payload, qos=1, retain=False) client.disconnect() # if "turn on the lights" in text: set_light("on")

ลองเพิ่มประโยคเสียงอย่างเช่น “เปิดโคมไฟห้องนั่งเล่น” ดูสิ แล้วคุณจะรู้สึกเหมือนเป็นพ่อมดเลย.


เหตุผลที่การจัดเรียงแบบนี้ได้ผลในทางปฏิบัติ 🧪

  • Porcupine มีประสิทธิภาพและแม่นยำในการตรวจจับคำปลุกบนบอร์ดขนาดเล็ก ซึ่งทำให้การฟังตลอดเวลาเป็นไปได้ [2]

  • การฝึกอบรมขนาดใหญ่และหลากหลายภาษาของ Whisper ทำให้มีความแข็งแกร่งต่อสภาพแวดล้อมและสำเนียงที่หลากหลาย [3]

  • whisper.cpp ช่วยให้สามารถใช้พลังงานนั้นได้บนอุปกรณ์ที่ใช้ CPU เพียงอย่างเดียว เช่น Pi [4]

  • Piper ช่วยให้การตอบกลับรวดเร็วโดยไม่ต้องส่งไฟล์เสียงไปยัง TTS บนคลาวด์ [5]


ยาวเกินไป อ่านไม่จบ

สร้าง ผู้ช่วย AI DIY ส่วนตัวแบบโมดูลาร์ด้วย Raspberry Pi โดยการรวม Porcupine สำหรับคำปลุก, Whisper (ผ่าน whisper.cpp ) สำหรับ ASR, สมองที่คุณเลือกสำหรับการตอบกลับ และ Piper สำหรับ TTS ในเครื่อง ห่อหุ้มเป็นบริการ systemd ปรับแต่งเสียง และเชื่อมต่อการทำงาน MQTT หรือ HTTP มันถูกกว่าที่คุณคิด และน่าพึงพอใจอย่างประหลาดที่จะใช้งาน [1][2][3][4][5]


เอกสารอ้างอิง

  1. ซอฟต์แวร์และระบบระบายความร้อนสำหรับ Raspberry Pi – Raspberry Pi Imager (ดาวน์โหลดและใช้งาน) และข้อมูลผลิตภัณฑ์ Pi 5 Active Cooler

  2. Porcupine Wake Word – SDK และคู่มือเริ่มต้นใช้งานฉบับย่อ (คำสำคัญ ความไว การอนุมานเฉพาะที่)

  3. Whisper (โมเดล ASR) – ระบบ ASR ที่รองรับหลายภาษาและมีความเสถียรสูง ผ่านการฝึกฝนมาแล้วประมาณ 680,000 ชั่วโมง

    • Radford และคณะ, การรู้จำเสียงพูดที่ทนทานผ่านการกำกับดูแลแบบอ่อนขนาดใหญ่ (Whisper): อ่านเพิ่มเติม

  4. whisper.cpp – การอนุมาน Whisper ที่เป็นมิตรกับ CPU พร้อม CLI และขั้นตอนการสร้าง

  5. Piper TTS – ระบบแปลงข้อความเป็นเสียงพูดด้วยโครงข่ายประสาทเทียมแบบโลคอลที่รวดเร็ว พร้อมเสียงพูด/ภาษาหลากหลาย

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา


กลับไปที่บล็อก