我正在玩一些新的JavaScript功能,如async / await和generator。我有功能readPages
签名
async function* readPages(....): AsyncIterableIterator<string> {}
我想用一些分隔符来连接这个函数的结果。我现在就是这样做的
let array = new Array<string>();
for await (const page of readPages(...))
array.push(page);
let result = array.join(pagesDelimiter);
我觉得这很啰嗦。可以做得更好吗?
这是完整的代码供参考
import * as fs from 'fs';
import { PDFJSStatic, PDFDocumentProxy } from 'pdfjs-dist';
const PDFJS: PDFJSStatic = require('pdfjs-dist');
PDFJS.disableWorker = true;
async function* readPages(doc: PDFDocumentProxy, wordsDelimiter = '\t'): AsyncIterableIterator<string> {
for (let i = 1; i <= doc.numPages; i++) {
const page = await doc.getPage(i);
const textContent = await page.getTextContent();
yield textContent.items.map(item => item.str).join(wordsDelimiter);
}
}
async function pdfToText(filename: string, pagesDelimiter = '\n', wordsDelimiter = '\t') {
const data = new Uint8Array(fs.readFileSync(filename));
const doc = await PDFJS.getDocument(data);
const array = new Array<string>();
for await (const page of readPages(doc, wordsDelimiter))
array.push(page);
return array.join(pagesDelimiter);
}
pdfToText('input.pdf').then(console.log);
好吧,我正在使用那些代码,我认为目前不可能比使用for-await-of
循环更好地处理这个任务。但是,你可以隐藏原型函数背后的那个循环......
declare global {
interface AsyncIterableIterator<T> {
toPromise(): Promise<T[]>;
}
}
(async function* (): any {})().constructor.prototype.toPromise = async function<T>(this: AsyncIterableIterator<T>): Promise<T[]> {
let result = new Array<T>();
for await (const item of this)
result.push(item);
return result;
};
所以我的代码
const array = new Array<string>();
for await (const page of readPages(...))
array.push(page);
const result = array.join(pagesDelimiter);
变
const array = await readPages(...).toPromise();
const result = array.join(pagesDelimiter);
是的,而且我知道,原型设计值得怀疑。但有趣的是,如何原型异步迭代器:-)。