Portfolio

Blog

Deep Learning Computer Science

GitHub

Visit GitHub

6조 09/06 발표

발표자

날짜

2023/09/06

교수님 피드백

https://www.notion.so/skipper0527/09-06-9be5e4a5bdd947afac0d52ae4861c9ba

1. 안내봇 이루멍 시나리오

사진

2. 역할분담

•

김영민: 센서 및 통신

•

김영준: 음성 인식

•

박정현: 로봇 제어

•

이용재: 로봇 제어

3. Simulation

•

unitree robotics 사의 시뮬레이션

◦

 low level control만 가능하며  walking같은 high level control은 구현이 안되어있다.

◦

rviz내에서 GO1 모델 확인 및 Joint 움직이기

구동사진

◦

Gazebo내에서 GO1 모델 확인 및 외부 힘 가하기

구동사진

•

CHAMP 시뮬레이션

◦

실제 로봇에 사용하는 명령은 아니지만 walking과 같은 high level control 가능

◦

rviz내에서 실행

구동사진

◦

gazebo내에서 실행

구동사진

4. 음성 AI 서비스

TASK: 대학교 캠퍼스 안내 음성 서비스

환영 및 인사: 투어 참가자들을 대학 캠퍼스에 환영하고 간단한 인사를 나눈다.

투어 계획 안내: 캠퍼스 투어의 전체적인 일정과 방문할 장소를 소개한다.

캠퍼스 소개: 대학의 역사, 특색, 학과 정보 등을 설명한다.

주요 시설 안내: 건물, 도서관, 운동시설 등 대학의 주요 시설을 둘러보면서 설명한다.

학교 생활 공유: 참가자들이 대학 생활에 대한 더 실질적인 이해를 할 수 있도록 도와준다.

질문 및 답변: 투어 중이나 투어 후에 참가자들의 질문에 답한다.

학교 이벤트 및 프로그램 소개: 대학 축제와 같은 행사나 학생들이 참여할 수 있는 다양한 프로그램을 소개한다.

투어 마무리 및 이별 인사: 투어가 끝난 후 참가자들에게 감사의 말을 전하고 마무리한다.

1. 안내 메세지 전달 (정적)

인사 및 캠퍼스 소개에서 처럼 일방적인 메세지 전달 단계에서는 미리 저장한 mp3 파일을 재생

로봇의 위치를 파악해 해당 위치에 따라 재생할 mp3 파일을 callback 함수 호출하는 방식

2. 상호작용 대화 (동적)

사용자의 질문에 답하기 위해 우선 음성 인식(Speech-to-Text, STT) 모듈이 사용자의 목소리를 듣고 텍스트로 변환한다. 이 텍스트는 언어 모델(Language Model, LLM)의 입력이 되며 언어 모델은 적절한 응답을 생성한다. 생성된 응답은 텍스트를 음성으로 변환하는 텍스트-투-스피치(Text-to-Speech, TTS) 모듈로 전달되어 스피커를 통해 출력된다.

호출명령어(Wake-up Word)

•

“시리야”, ”하이 빅스비” 처럼 호출명령어(Wake-up Word)를 설정

•

호출 명령어 트리거 이후 마이크로 음성 녹음

딥러닝 모델 구현

•

질문에 대한 답변을 생성하는 모델 구현

•

직접 구현보다는 LLM 모델을 fine-tuning하여 사용

•

Langchain 라이브러리를 활용하여 시립대 관련 문서를 추가 학습