大模型是如何理解文字的

视频信息