파브리스 AI: 현재 기술 구현

지난 글인 Fabrice AI: 기술 여정에서 Fabrice AI를 구축하기까지 겪었던 여정을 전체적으로 설명했습니다. 저는 먼저 Chat GPT 3과 3.5를 사용했습니다. 결과에 실망한 저는 Langchain 프레임워크를 사용하여 그 위에 자체 AI 모델을 구축한 후, 벡터 데이터베이스를 사용하기 시작하고 4o로 결과를 크게 개선한 후 다시 Chat GPT로 돌아왔습니다.

현재 Fabrice AI를 학습시키는 프로세스는 다음과 같습니다:

  • 교육 데이터(블로그 게시물, 유튜브 URL, 팟캐스트 URL, PDF URL 및 이미지 URL)는 워드프레스 데이터베이스에 저장됩니다.
  • 데이터를 추출하고 구조화합니다.
  • 어시스턴트 API를 사용하여 학습할 수 있도록 구조화된 데이터를 Open AI에 제공합니다.
  • 그런 다음 Open AI가 벡터 스토어 데이터베이스를 생성하여 저장합니다.

다음은 구조화된 데이터의 예입니다. 각 콘텐츠에는 고유한 JSON 파일이 있습니다. 토큰 한도인 32,000개를 초과하지 않도록 주의하고 있습니다.

{

“id”: “1”,

“날짜”: ” “,

“링크”:”https://fabricegrinda.com/”,

“title”: {

“렌더링”: “파브리스 AI란 무엇인가요?”

  },

“카테고리”: “파브리스 소개”,

“추천_미디어”: “https://fabricegrinda.com/wp-content/uploads/2023/12/About-me.png”,

“기타_미디어”: “”,

“지식 유형”: “블로그”,

“콘텐츠업데이트”: “파브리스 AI는 파브리스의 블로그 게시물과 ChatGPT를 사용하여 녹음된 일부 팟캐스트 및 인터뷰를 바탕으로 파브리스의 생각을 디지털로 표현한 것입니다. 많은 부분이 불완전하게 녹음되어 있고 블로그가 파브리스 개인에 대한 제한된 표현일 뿐이므로 부정확하고 누락된 정보가 있는 점에 대해 사과드립니다.”라고 설명합니다. 그럼에도 불구하고 여러 주제에 대한 파브리스의 생각을 알아볼 수 있는 좋은 출발점이 될 것입니다.”

}

는 현재 기술적으로 구현된 것입니다:

  • 소비자 대상 웹사이트는 AWS Amplify에서 호스팅됩니다.
  • 공개 사이트와 Open AI 간의 통합은 AWS에서 Python API 서버로 호스팅되는 API 계층을 통해 이루어집니다.
  • 저희는 MongoDB를 로그로 사용하여 대중이 질문한 모든 질문, Chat GPT에서 제공한 답변, 출처의 URL을 저장합니다.
  • 다양한 스크립트를 사용하여 블로그, YouTube 등의 데이터를 구조화하여 학습을 위해 Open AI에 전달합니다.
  • 저희는 음성 문의를 텍스트로 변환하기 위해 반응형 음성 인식을 사용합니다.
  • 또한 Google 애널리틱스를 사용하여 웹사이트 트래픽을 추적합니다.

두 명의 어시스턴트를 사용한다는 점에 유의하세요:

  • 하나는 질문에 대한 답변용입니다.
  • 하나는 메타데이터 URL, 즉 답변 하단에 소스를 표시할 원본 콘텐츠가 있는 블로그 URL을 가져오기 위한 것입니다.

다음 단계는 무엇인가요?

  1. 음성-텍스트 변환 개선 사항

음성을 텍스트로 변환하는 Open AI의 Whisper 모델은 React보다 더 정확합니다. 또한 기본적으로 여러 언어를 지원하며 혼합 언어 음성, 악센트 및 방언을 처리하는 데 능숙합니다. 따라서 저는 앞으로 몇 달 안에 이쪽으로 옮길 가능성이 높습니다. 다만 설정이 더 복잡하기 때문에 시간이 좀 걸릴 수도 있습니다. 모델을 처리하고, 종속성(예: Python, 라이브러리)을 관리하고, 효율적인 성능을 위해 충분한 하드웨어가 있는지 확인해야 합니다. 또한 Whisper는 브라우저에서 직접 사용하도록 설계되지 않았습니다. 웹 앱을 구축할 때는 트랜스크립션을 처리할 백엔드 서비스를 만들어야 하므로 복잡성이 가중됩니다.

  • 파브리스 AI 아바타

저와 닮은 외모와 음성을 가진 파브리스 AI 아바타를 만들어 대화를 나누고 싶어요. D-iD를 검토해 보았지만 제 목적에 비해 너무 비싸다는 것을 알게 되었습니다. Eleven Labs는 음성 전용입니다. Synthesia는 훌륭하지만 현재 실시간으로 동영상을 만들지 못합니다. 결국 가격대와 기능이 더 적절한 헤이젠을 사용하기로 결정했습니다.

언젠가는 Open AI가 자체 솔루션을 출시할 것이므로 이 작업은 무용지물이 될 것이라고 생각합니다. 저는 그것에 만족하며 Open AI 솔루션이 출시되면 그때 가서 전환할 것입니다. 지금 단계에서는 이 모든 연습의 요점은 AI로 무엇을 할 수 있는지, 그리고 공간을 더 잘 이해하는 데 얼마나 많은 작업이 필요한지 배우는 것입니다.

  • 사용자 지정 대시보드

지금은 그날의 질문과 답변의 추출을 얻기 위해 MongoDB 쿼리를 실행해야 합니다. 언어별 쿼리 수, 음성-텍스트 변환 요청 수 등에 대한 추출과 간단한 통계를 얻을 수 있는 간단한 대시보드를 만들고 있습니다.

  • 추가 데이터 소스

방금 FJ Labs 포트폴리오를 Fabrice AI에 업로드했습니다. 이제 포트폴리오에 포함되는 회사인지 여부를 물어볼 수 있습니다. Fabrice AI는 회사에 대한 간단한 설명과 웹사이트 링크를 통해 답변합니다.

Fabrice AI가 답변할 수 없는 개인적인 질문이 많았기 때문에 저는 시간을 들여 50번째 생일 동영상에 등장하는 모든 화자에게 수동으로 태그를 지정하여 필요한 콘텐츠를 제공했습니다.

결론

지난 12개월 동안 AI와 관련된 모든 것에 대해 연구한 결과, 분명한 보편적인 결론은 기다릴수록 더 저렴하고, 더 쉽고, 더 좋아지며, Open AI가 이를 제공할 가능성이 높아진다는 것입니다! 그동안 궁금한 점이 있으시면 언제든지 알려주세요.