品雪:
TMD,终于搞定了PDFBox中文处理问题
[阅读: 1959] 2006-08-21 18:14:08
用一个ad hoc的patch搞定了GBK-EUC-H编码
PDFBOX的代码真是不能细看,太糙了。
一个被频繁调用的例程:
protected int getCodeFromArray( byte[] data, int offset, int length )
{
int code = 0;
for( int i=0; i<length; i++ )
{
code <<= 8;
code = (data[offset+i]+256)%256; //这行应该是 |=
}
return code;
}