파브리스 AI는 제 블로그의 모든 콘텐츠를 기반으로 제 생각을 디지털로 표현한 것입니다. 복잡한 쿼리를 뉘앙스와 정확성으로 이해하고 응답할 수 있는 대화형 지능형 비서를 의미합니다.
파브리스 AI는 제가 수년 동안 공유했던 방대한 지식의 디지털 버전을 만들어 인공지능의 잠재력을 탐구하기 위한 개인적인 탐구, 즉 실험으로 시작되었습니다. 처음에는 몇 시간 안에 완료할 수 있는 간단한 프로젝트라고 생각했습니다. 제가 공유한 풍부한 정보를 바탕으로 미묘한 답변을 제공할 수 있는 접근성 높은 지능형 비서를 만드는 것, 즉 제 콘텐츠를 OpenAI의 API에 업로드하고 AI가 상호 작용할 수 있도록 하는 간단한 계획이었죠.
하지만 이 여정을 시작하면서 예상했던 것보다 훨씬 더 복잡한 작업이라는 것을 금방 깨달았습니다. AI에 대한 간단한 입문이라고 생각했던 이 프로젝트는 피상적인 데이터 업로드 그 이상을 필요로 하는 포괄적이고 복잡한 작업으로 빠르게 확장되었습니다. 이 프로젝트는 AI, 자연어 처리, 지식 관리의 복잡성에 대한 심층적인 분석으로 이어졌습니다.
제가 직면한 핵심 과제는 단순히 정보를 저장하는 것이 아니라 원본 콘텐츠의 깊이와 뉘앙스를 반영하는 방식으로 해당 정보를 이해하고, 문맥을 파악하고, 정확하게 검색하도록 AI를 가르치는 것이었습니다. 단순한 데이터 저장 및 검색 방법만으로는 Fabrice AI가 처리하기를 원하는 복잡한 질문에 대응하기에 충분하지 않다는 것을 알게 되었기 때문에 다각적인 접근 방식이 필요했습니다.
이 여정에서 저는 벡터 검색 인덱스를 사용한 초기 시도부터 지식 그래프, 메타데이터 검색, 맞춤형 AI 모델과 관련된 고급 방법까지 다양한 접근 방식을 경험했습니다. 각 접근 방식에는 고유한 장단점이 있었고, 각 접근 방식은 저에게 AI의 복잡성과 디지털 지식 관리의 미묘한 차이에 대해 새로운 것을 가르쳐 주었습니다. 다음 블로그 게시물에서 기술적인 경로에 대해 자세히 설명하겠습니다.
직면한 기술적 문제 외에도 방대한 지식 기반을 생성하는 것도 어려운 일이었습니다. AI의 정확도를 테스트하는 초기 단계에서 일부 질문에 대한 가장 상세하고 정확한 답변은 제가 비디오 인터뷰나 팟캐스트에서 제공한 답변이라는 사실을 깨달았습니다. 정확도를 높이려면 지식창고에 제가 작성한 모든 게시물, 동영상 인터뷰, 팟캐스트, PowerPoint 프레젠테이션, 이미지 및 PDF 문서가 포함되어야 했습니다.
저는 모든 콘텐츠를 전사하는 것으로 시작했습니다. 자동 필사본이 대략적인 수준이기 때문에 AI가 콘텐츠를 이해했는지 확인해야 했습니다. 필사된 각 콘텐츠에 대한 답변을 테스트해야 했기 때문에 시간이 오래 걸렸습니다.
필사본을 통해 저와 다른 화자가 구분되긴 했지만, AI는 처음에는 100% 제가 말한 콘텐츠라고 생각했기 때문에 모든 콘텐츠에서 두 화자를 정확하게 구분할 수 있도록 많은 추가 학습이 필요했습니다. 또한 Fabrice AI가 최근 콘텐츠에 더 많은 가중치를 부여하기를 원했습니다. 물론 처음 시도했을 때는 제가 처음 글을 게시한 날짜가 아닌 제가 LLM에 콘텐츠를 업로드한 날짜를 사용했기 때문에 추가 조정이 필요했습니다.
또한 블로그에 공유한 슬라이드의 지식을 Azure의 이미지에서 텍스트로 변환하는 OCR 모델을 사용하여 필사한 다음 GPT 어시스턴트 지식창고에 파일을 업로드했습니다. 마찬가지로 WordPress의 미디어 라이브러리에서 PDF를 다운로드하여 지식창고에 업로드했습니다.
베타 테스트 중에 많은 친구들이 블로그에서 다루지 않은 개인적인 질문을 하는 것을 발견했습니다. 앞으로 몇 주 동안 사람들이 어떤 유형의 질문을 할지 궁금합니다. 제 블로그의 기존 콘텐츠로 답변을 찾을 수 없는 경우 답변을 보완할 예정입니다. Fabrice AI의 답변은 의도적으로 블로그의 콘텐츠로 제한하고 있으므로 Fabrice AI와 Chat GPT가 혼합된 것이 아니라 진정한 Fabrice AI를 얻을 수 있습니다.
여기까지 오기까지 험난한 길을 걸어왔다는 점을 말씀드리고 싶네요. 처음에는 GPT3를 사용했지만 그 결과에 실망했습니다. 일부 블로그 게시물에는 질문에 대한 정확한 답변이 있음에도 불구하고 계속 잘못된 소스를 사용하여 질문에 대한 답변을 제공했습니다. 올바른 콘텐츠를 사용하도록 하기 위해 수십 시간 동안 문제를 해결하려고 노력했지만(다음 블로그 게시물에서 다룰 예정입니다) 만족할 만한 결과를 얻지 못했습니다.
GPT3.5에서는 상황이 개선되었지만 여전히 실망스러웠습니다. 그런 다음 GPT 빌더를 사용하여 GPT 스토어에서 GPT 애플리케이션을 빌드했습니다. 조금 더 잘 작동하고 운영 비용도 저렴했습니다. 하지만 제 웹사이트에서는 실행할 수 없었고 Chat GPT의 유료 구독자만 사용할 수 있어서 너무 제한적이라고 느꼈습니다. 어쨌든 답변의 품질이 마음에 들지 않았고 대중에게 공개하는 것이 편하지 않았습니다.
4o 모델을 사용하는 GPT 어시스턴트가 출시되면서 획기적인 발전이 이루어졌습니다. 제가 어떤 콘텐츠를 사용할지 알려줄 필요 없이 스스로 알아서 알아서 작동하기 시작했고 모든 것이 더 잘 작동했습니다. 저는 GPT 애플리케이션 접근 방식을 버리고 다시 API를 사용하여 블로그에 임베드할 수 있도록 했습니다. 완전성을 위해 Gemini도 테스트했지만 GPT4o가 제공하는 답변이 더 좋았습니다.
지금은 텍스트 전용 버전을 출시합니다. 음성으로 질문할 수 있도록 음성-텍스트 변환 기능이 포함되어 있습니다. 저와 대화를 나눌 수 있는 대화형 버전을 코딩하는 몇 가지 방법을 고민하고 있습니다. 작동하는 프로토타입이 있지만 결과와 잠재적 비용이 만족스럽지 않습니다. 1인칭으로 말하고, 실제로 저처럼 보이고 들리며, 작동하는 데 많은 비용이 들지 않기를 원합니다.
앞으로 몇 달 동안 얼마나 진전이 있을지 지켜봐야겠지만, GPT5를 기다리는 것이 합리적일 수도 있습니다. 지금 생각해보면 GPT4o가 Fabrice AI를 개발할 때까지 기다렸다면 수백 시간의 작업을 절약할 수 있었을 것입니다. 다시 말하지만, 조사는 요점의 일부였고 매우 흥미로웠습니다.
그동안 파브리스 AI를 플레이해 보시고 여러분의 의견을 알려주세요!