Open AI 为 ChatGPT 添加语音与图片识别功能

OpenAI 开发的聊天机器人 ChatGPT，在 25 日宣布将正式支持用户以口说的方式来进行提问，且 GPT 将能够直接与用户语音对话、同时还将能读懂用户上传的图片。

官方表示语音、图像辨识新功能将在 2 周内部署给 ChatGPT Plus 及企业 Enterprise 用户。同时官方表示很快也会推向开发人员及免费版用户，但尚未给出详细时间。

官方说明，用户马上可以使用语音功能来与 ChatGPT 进行来回对话，例如为您的孩子播放睡前故事、给你晚餐的建议、练习口说能力等…应用范围广泛。

如何开启语音功能

若要开启语音功能，官方表示需前往 ChatGPT 应用程式的设置→新功能，然后选择加入语音对话。

点击主画面右上角的耳机按钮，还可以从五种不同的声音中选择你喜欢的声音。

用户可以点击照片按钮拍摄或选择影像，丢给 ChatGPT 来执行更多提问。例如可以拍下冰箱内部的照片就可取得食谱建议，或是拍下孩子的数学作业照片就能帮忙解决题目。

GPT 的模型能读懂照片、屏幕截图以及包含文字和图像的文件。其实早在今年 3 月时，OpenAI 在发布 GPT-4 时就展示过看图的功能，但由于当时安全性以及功能不完善等原因，直到近期才决定开放权限。

ChatGPT 识别图片