ในโพสต์ล่าสุด Fabrice AI: การเดินทางทางเทคนิค ฉันได้อธิบายถึงการเดินทางที่เราผ่านมาเพื่อสร้าง Fabrice AI ให้ครบวงจร ฉันเริ่มต้นด้วยการใช้ Chat GPT 3 และ 3.5 ผิดหวังกับผลลัพธ์ที่ได้ ฉันจึงลองใช้ Langchain Framework เพื่อสร้างโมเดล AI ของตัวเองบนเฟรมเวิร์กนั้น ก่อนจะกลับมาใช้ Chat GPT อีกครั้งเมื่อพวกเขาเริ่มใช้ฐานข้อมูลเวกเตอร์และปรับปรุงผลลัพธ์อย่างมากด้วย 4o
นี่คือกระบวนการปัจจุบันสำหรับการฝึกอบรม Fabrice AI:
- ข้อมูลการฝึกอบรม (โพสต์ในบล็อก, URL ของ YouTube, URL ของพอดแคสต์, URL ของ PDF และ URL ของรูปภาพ) จะถูกเก็บไว้ในฐานข้อมูล WordPress ของเรา
- เราแยกข้อมูลออกมาแล้วจัดโครงสร้าง
- เราจัดเตรียมข้อมูลที่มีโครงสร้างให้กับ Open AI เพื่อการฝึกอบรมโดยใช้ Assistants API
- Open AI สร้างฐานข้อมูลที่เก็บเวกเตอร์และจัดเก็บข้อมูลไว้
นี่คือตัวอย่างของข้อมูลที่มีโครงสร้าง เนื้อหาแต่ละชิ้นมีไฟล์ JSON ของตัวเอง เราตรวจสอบให้แน่ใจว่าไม่เกินขีดจำกัด 32,000 โทเค็น
{
“รหัส”: “1”,
“วันที่”: ” “,
“ลิงก์”:”https://fabricegrinda.com/”,
“ชื่อ”: {
“เรนเดอร์”: “Fabrice AI คืออะไร?”
},
“หมวดหมู่”: “เกี่ยวกับ Fabrice”
“สื่อแนะนำ”: “https://fabricegrinda.com/wp-content/uploads/2023/12/About-me.png”,
“สื่ออื่น ๆ “: “,
“ประเภทความรู้”: “บล็อก”,
“contentUpdated”: “Fabrice AI เป็นตัวแทนดิจิทัลของความคิดของ Fabrice โดยอิงจากโพสต์บล็อกของเขา และพอดแคสต์และการสัมภาษณ์ที่ถอดเสียงโดยใช้ ChatGPT เนื่องจากข้อความถอดเสียงจำนวนมากถอดเสียงได้ไม่สมบูรณ์ และบล็อกเป็นเพียงตัวแทนของ Fabrice ในฐานะบุคคลเท่านั้น เราต้องขออภัยในความไม่ถูกต้องและข้อมูลที่ขาดหายไป อย่างไรก็ตาม นี่เป็นจุดเริ่มต้นที่ดีในการรับความคิดของ Fabrice ในหัวข้อต่างๆ”
}
นี่คือการดำเนินการทางเทคนิคปัจจุบัน:
- เว็บไซต์สำหรับผู้บริโภคจะถูกโฮสต์บน AWS Amplify
- การบูรณาการระหว่างไซต์สาธารณะและ Open AI ดำเนินการผ่านเลเยอร์ API ซึ่งโฮสต์บน AWS เป็นเซิร์ฟเวอร์ Python API
- เราใช้ MongoDB เป็นบันทึกเพื่อจัดเก็บคำถามทั้งหมดที่ถามโดยสาธารณะ คำตอบที่ได้รับจาก Chat GPT และ URL ของแหล่งที่มา
- เราใช้สคริปต์ต่างๆ เพื่อสร้างโครงสร้างข้อมูลจากบล็อก YouTube ฯลฯ เพื่อส่งไปยัง Open AI เพื่อการฝึกอบรม
- เราใช้ React-Speech Recognition เพื่อแปลงคำถามเสียงเป็นข้อความ
- เรายังใช้ Google Analytics เพื่อติดตามการเข้าชมเว็บไซต์ด้วย
สิ่งสำคัญที่ต้องทราบคือเราใช้ผู้ช่วยสองคน:
- หนึ่งสำหรับการตอบคำถาม
- หนึ่งสำหรับการรับ URL เมตาข้อมูล URL ของบล็อกที่มีเนื้อหาต้นฉบับเพื่อแสดงแหล่งที่มาที่ด้านล่างของคำตอบ
ต่อไปจะเกิดอะไรขึ้น?
- การปรับปรุงการแปลงคำพูดเป็นข้อความ
โมเดล Whisper ของ Open AI สำหรับ การพูดเป็นข้อความ มีความแม่นยำมากกว่า React นอกจากนี้ยังรองรับหลายภาษาตั้งแต่เริ่มต้น และยังเหมาะสำหรับการจัดการคำพูด สำเนียง และภาษาถิ่นผสมกัน ดังนั้น ฉันน่าจะย้ายไปใช้โมเดลนี้ในอีกไม่กี่เดือนข้างหน้า อย่างไรก็ตาม การตั้งค่าอาจซับซ้อนกว่า ดังนั้นอาจต้องใช้เวลาสักพัก คุณต้องจัดการโมเดล จัดการการอ้างอิง (เช่น Python ไลบรารี) และตรวจสอบว่าคุณมีฮาร์ดแวร์เพียงพอสำหรับประสิทธิภาพการทำงาน นอกจากนี้ Whisper ไม่ได้รับการออกแบบมาเพื่อใช้งานโดยตรงในเบราว์เซอร์ เมื่อสร้างแอปเว็บ คุณต้องสร้างบริการแบ็กเอนด์เพื่อจัดการการถอดเสียง ซึ่งจะเพิ่มความซับซ้อน
- อวาตาร์ Fabrice AI
ฉันต้องการสร้าง Fabrice AI Avatar ที่ดูและเสียงเหมือนฉันและคุณสามารถสนทนาด้วยได้ ฉันได้ลองใช้ D-iD แต่พบว่ามันแพงเกินไปสำหรับจุดประสงค์ของฉัน Eleven Labs เป็นแบบใช้เสียงเท่านั้น Synthesia นั้นยอดเยี่ยมมากแต่ปัจจุบันไม่สามารถสร้างวิดีโอแบบเรียลไทม์ได้ สุดท้ายฉันจึงตัดสินใจใช้ HeyGen เนื่องจากมีราคาและฟังก์ชันการทำงานที่เหมาะสมกว่า
ฉันสงสัยว่าในบางครั้ง Open AI จะเปิดตัวโซลูชันของตัวเอง ดังนั้นงานนี้จึงไร้ประโยชน์ ฉันสบายใจกับเรื่องนี้และจะเปลี่ยนไปใช้โซลูชัน Open AI เมื่อมีขึ้น ในขั้นตอนนี้ จุดประสงค์ของการฝึกทั้งหมดนี้คือการเรียนรู้ว่า AI สามารถทำอะไรได้บ้างและต้องใช้ความพยายามมากแค่ไหนจึงจะเข้าใจพื้นที่นี้ได้ดีขึ้น
- แดชบอร์ดแบบกำหนดเอง
ขณะนี้ ฉันต้องรันคิวรี MongoDB เพื่อดึงข้อมูลคำถามและคำตอบประจำวันออกมา ฉันกำลังสร้างแดชบอร์ดแบบง่าย ๆ ที่จะดึงข้อมูลออกมาได้และสถิติง่าย ๆ เกี่ยวกับจำนวนคิวรีในแต่ละภาษา จำนวนคำขอแปลงคำพูดเป็นข้อความ เป็นต้น
- แหล่งข้อมูลเพิ่มเติม
เราเพิ่งอัปโหลด FJ Labs Portfolio ไปยัง Fabrice AI แล้ว ตอนนี้คุณสามารถถามได้ว่าบริษัทนั้นเป็นส่วนหนึ่งของพอร์ตโฟลิโอหรือไม่ Fabrice AI จะตอบด้วยคำอธิบายสั้นๆ เกี่ยวกับบริษัทและลิงก์ไปยังเว็บไซต์ของบริษัท
เนื่องจาก Fabrice AI ได้รับคำถามส่วนตัวจำนวนมากแต่ไม่มีคำตอบ ฉันจึงใช้เวลาในการแท็กผู้พูดทุกคนใน วิดีโอวันเกิดครบรอบ 50 ปี ของฉันด้วยตนเองเพื่อให้ได้เนื้อหาที่ต้องการ
บทสรุป
จากงานทั้งหมดที่ฉันได้ทำในช่วงสิบสองเดือนที่ผ่านมาเกี่ยวกับทุกสิ่งที่เกี่ยวข้องกับ AI ดูเหมือนว่าจะมีข้อสรุปสากลที่ชัดเจน: ยิ่งคุณรอมากเท่าไหร่ ก็จะยิ่งถูก ง่ายกว่า และดีกว่า และยิ่งมีแนวโน้มมากขึ้นที่ Open AI จะเสนอสิ่งนี้ ในระหว่างนี้ โปรดแจ้งให้ฉันทราบหากคุณมีคำถามใดๆ