改进的语音输入，支持语言处理、语音通话和Base64图像验证