在【视觉模型在岩石工程中的应用 (识别GSI图): Llama 3.2 vs ChatGPT-4o】一文中,我们比较了两个视觉模型解释英文图文的能力,结果显示闭源模型chatgpt-4o-latest-20240903比开源模型llama-3.2-vision-90b-instruct的解释能力好,特别指出后者更适用于目标检测。本文通过一小段需要OCR的文字测试了这两个模型识别和解释全中文的能力。
2. llama-3.2-vision-90b-instruct默认情况下,llama-3.2-vision虽然能识别中文的含义,但输出的是英文,一些有用的词汇包括:
(1) Newmark Method for Seismic Stability Analysis
(2) earthquake loads
(3) critical acceleration
(4) yield acceleration
Newmark方法是一种广泛使用的地震稳定性分析方法,讨论了Newmark法在地震稳定性分析中的应用,强调了其在评估地震荷载下结构稳定性方面的重要性。屈服加速度是确定地震荷载下结构稳定性的一个重要参数,解释了屈服加速度的概念及其与临界加速度的关系,包括计算给定结构的临界加速度。
3. chatgpt-4o-latest-20240903
默认情况下,chatgpt-4o能够识别出中文并且以中文进行解释。这段文字主要介绍了Newmark 方法在边坡地震分析中的应用,即在地震条件下如何使用 Newmark 法进行边坡稳定分析,解释了地震力对边坡稳定性的影响、边坡失稳的条件以及如何通过引入折减系数来提高分析的合理性。在边坡稳定极限分析方法中,常使用拟静力法来分析地震时的稳定性,这种方法通过在静力体系上施加水平和垂直体积力,来计算地震惯性力,以评估地震作用下边坡的稳定安全系数。然而,地震力的大小和方向是随时间变化的,因此边坡失稳只会在地震力作用下使边坡安全系数小于 1 的时间段内发生。随着地震惯性力的大小和方向的变化,边坡又可能恢复到稳定状态。短暂的不稳定可能导致边坡沿潜在滑裂面发生位移,但不一定会导致边坡破坏。如果边坡滑动的总位移值小于允许位移值,即使局部不稳定,边坡仍可视为抗震稳定的。而在拟静力法中,如果输入的加速度为真实的平均值,安全系数可能远小于 1,在实际计算中需要在此基础上乘以一个效应折减系数(通常取 0.25),以使整个分析过程更加合理并且具有经验依据。4. 结束语
除了上述两个模型外,我们也测试了minicpm-v视觉模型,结果发现这个模型基本能够用中文解释图片中的内容,但效果比llama-3.2-vision模型差一些,甚至出现了个别错误;pixtral-12b-2409模型完全不能识别中文,在以前的测试中,这个模型能够很好地识别英文和图片。(2) gpt-4o-mini-2024-07-18