其他

PHP使用OCR技术实现识别图片中的文字

悠悠楠杉

2025-07-04

0 评论

147 阅读

正在检测是否收录...

07/04

：首先需要选择一个合适的OCR库来识别图片中的文字。常用的PHP库有Tesseract，它是Google的开源OCR引擎，非常强大且支持多种语言。

安装Tesseract：在PHP中使用Tesseract，你需要先在服务器上安装Tesseract。可以通过命令行安装（以Ubuntu为例）：
bash sudo apt-get update sudo apt-get install tesseract-ocr sudo apt-get install libtesseract-dev
对于Windows系统，可以从GitHub或其他资源下载预编译的二进制文件或从源代码编译。

PHP扩展：安装php-tesseract扩展以在PHP中直接使用Tesseract功能。使用PECL安装：
bash pecl install php_tesseract
然后需要在php.ini中添加：
ini extension=tesseract.so
并重启你的PHP服务。

```php
<?php
requireonce 'vendor/autoload.php'; // 确保autoload已正确配置 use phptesseract\Tesseract;
use php_tesseract\TesseractException;

try {
$tesseract = new Tesseract();
$tesseract->setOption(array(
'lang' => 'eng', // 设置语言为英文
'oem' => 2, // 启用OEM 0: 无OEM，1: 传统的Tesseract 只能识别，2: 建议的Tesseract LSTM OCR 模式
'psm' => 6 // 自动页面分割模式
));

$imageFile = 'path/to/your/image.jpg'; // 图片路径
$text = $tesseract->recognize($imageFile)->getText(); // 执行OCR并获取文本

// 文本处理与Markdown生成逻辑开始
$title = ucfirst(strreplace('-', ' ', explode('.', $text)[0])); // 从文本中提取标题（简化处理） $keywords = explode(',', explode('.', $text)[1]); // 提取关键词（简化处理） $description = implode(' ', arrayslice(explode('.', $text)[2], 0, 100)); // 提取描述（前100个字符）
$content = implode(' ', array_slice(explode('.', $text)[3]), 0, 1000); // 正文内容（前1000个字符）

// 输出Markdown格式的文本
echo "# $title\n"; // 标题
echo "## Keywords\n"; // 关键词列表格式（简化）
foreach ($keywords as $kw) {
echo "- $kw\n";
}
echo "## Description\n"; // 描述内容（简化）
echo "$description\n"; // 描述内容（简短）
echo "## Content\n"; // 正文内容（前1000字）
echo "$content\n"; // 正文内容（前1000字）的详细内容（此处为简化的Markdown展示方式）
} catch (TesseractException $e) {
echo "Error: " . $e->getMessage(); // 错误处理
} catch (Exception $e) {
echo "General Error: " . $e->getMessage(); // 其他错误处理
}
?>
```
这段代码首先对图片进行OCR处理，然后从识别结果中尝试提取标题、关键词、描述和正文，最后生成Markdown格式的文本输出。这里对文本的处理使用了非常简单的逻辑，实际应用中可能需要更复杂的逻辑来准确提取这些信息。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/31751/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

PHP使用OCR技术实现识别图片中的文字

人生倒计时