中国开发网: 论坛: 程序员情感CBD: 贴子 379334
品雪: TMD,终于搞定了PDFBox中文处理问题
用一个ad hoc的patch搞定了GBK-EUC-H编码

PDFBOX的代码真是不能细看,太糙了。

一个被频繁调用的例程:
protected int getCodeFromArray( byte[] data, int offset, int length )
{
int code = 0;
for( int i=0; i<length; i++ )
{
code <<= 8;
code = (data[offset+i]+256)%256; //这行应该是 |=
}
return code;
}

相关信息:


欢迎光临本社区,您还没有登录,不能发贴子。请在 这里登录