cjk 相关问题

CJK代表中文,日文和韩文,用于标记这些东亚语言及其大字符库的常见问题。

在日语输入中输入 keyup 事件

我有一个输入字段,我正在其中监听键盘事件。 使用日语输入法,我开始输入字符,但事件没有被触发;这是预期的输入字符...

回答 2 投票 0

无法正确读取 Unicode 字符串

我正在使用 Java 读取 HTML 文件,但在处理 Unicode 字符时遇到一些问题。有问题的说法是: 我正在使用 Java 读取 HTML 文件,但在处理 Unicode 字符时遇到一些问题。有问题的说法是: <span class="xml-lang" lang="cmn-Hant" xml:lang="cmn-Hant">𦮼</span> 角色是 𦮼 (f0 a6 ae bc) 当我读到 ম¼ (e0 a6 ae c2 bc) 很接近,但显然是错误的。 我正在读取的文件标记为 utf-8(并且我将其读取为 utf-8),并且有大量其他可以完美读取的 CJK 字符串。 我希望有人可以简单地看一下这些字符串并理解 f0 -> e0 以及 c2 的引入。 有什么想法吗? 新信息: 所以我终于解决了我的问题,这是一条漫长而奇怪的道路。 我运行的大部分代码是 20 年前编写的,从那时起它就一直运行良好。数据正在通过几个我有一定信心的库。我无法弄清楚谁可以更改数据。 第一个问题是涉及的字符是 4 个字节,并且在我的输出中没有正确打印。在我的代码中,我尝试了几种字体,我尝试的最后一种是 Unifont,我相信它永远不会失败,因为它包含所有可能的代码点(哈哈,不,甚至不接近)。 因此我启动了 Eclipse 中的调试器来尝试跟踪发生了什么。当我查看数据时,有一个字符发生了变化。但事实并非如此,它很完美,调试器向我展示了不准确的世界观。 花了一点时间,但我终于发现我的代码和库运行良好,这最终是一个字体问题。我不确定这个 4 字节字符是怎么回事,但“典型”CJK 字体似乎都没有它。我最终找到了包含该字符的字体,现在一切正常。 感谢所有试图提供帮助的人。很抱歉带来这个非常奇怪的问题。 问题已解决。详细信息在编辑中。

回答 1 投票 0

维基百科上的汉字编码是什么?

我在维基百科上查看中文字符的编码,但无法弄清楚它们正在使用什么。例如“的”被编码为“%E7%9A%84”(参见此处)。这是三个字节,

回答 3 投票 0

使用PD4ML无法渲染PDF中的几个汉字

我正在尝试使用 PD4ML 生成 PDF,但在渲染时很少有中文字符显示为?在输出文件中。 下面是我生成 PDF 时参考的代码片段。 t...

回答 1 投票 0

无法在 Tomcat 7 中读写日语文件夹结构,但它适用于 Docker 容器

我在 CentOS 7 中从 Tomcat 7 Web 应用程序读取日语文件夹结构时遇到 FileNotFoundException。但是,它在 Docker 容器中工作并直接 Java 控制台执行。 乙...

回答 1 投票 0

哪种字体/设置可以在 Firefox 和 Linux 中的任何地方正确显示 U+2E976

我正在尝试找出必须安装哪种字体才能看到此页面上的字符: https://en.wiktionary.org/wiki/%F0%AE%A5%B6#Chinese 𮥶 是 U+2E976 我在 Linux Mint 上。我已经

回答 1 投票 0

iOS 17 上的 SpeechSynthesis API 因某些文本而失败

更新:已在 iOS 18 上修复 让声音=空; 函数更新语音(){ voice = voiceSynthesis.getVoices().find(voice => voice.voiceURI == 'com.apple.voice.compact.zh-CN.Tingting')

回答 1 投票 0

进行用户友好的输入,将正方形细分为坐标

我正在开发一个程序(用Python),该程序涉及将正方形切成更小的块。 用户必须输入一个“代码”,程序会自动将其转换为每个

回答 1 投票 0

以编程方式确定汉字的笔画数?

Unicode 是否存储有关中文、日文或其他基于笔画的字符的笔画计数信息?

回答 6 投票 0

用 Python 解析日本议会演讲的正则表达式

我是Python初学者,正在开发一个项目来预处理日语文本数据以进行参数挖掘。我需要提取元数据(例如议会会议、日期、演讲者)和演讲内容...

回答 1 投票 0

Flutter 如何比较两个编码不同的相同日语字符串

我在 Flutter 中有一个函数,它获取两个字符串作为参数,并从转换后的 csv 文件返回相应的数据。字符串 1 位于第一行的某个位置,字符串 2 位于...

回答 1 投票 0

在限定包含日语字符的子字符串之前分割字符串

我怎样才能分割这一行: 我 [wǒ] - (代词)我或我你 [nǐ] - (代词)你(第二人称单数);他自己 [tā] - (代词)他或他 分成三行,如下所示: 我 [wǒ] - (代词)我或我 ...

回答 5 投票 0

如何在Python中获取字符的unicode?

想要获取中文或越南语的汉名和日文字符的unicode 我已经尝试过这些代码 文本=“𬖰”; br = text.encode("unicode-escape"); 打印(br); 并得到了 b'\U00...

回答 1 投票 0

Mac 上的 Eclipse 在控制台中显示错误的汉字

我有一台MacBook Pro M2,运行Eclipse版本:2023-09(4.29.0),java版本Open Jdk 17.0.8.1 我有一个打印到控制台的程序,控制台编码设置为UTF-8,字体Menlo ...

回答 1 投票 0

Python,使用pdfplumber、pdfminer包从pdf中提取文本,粗体字符重复

目标:提取中文财务报告文本 实现:Python pdfplumber/pdfminer 包提取PDF文本到txt 问题:对于粗体 PDF 文本,txt 中相应的提取文本重复

回答 2 投票 0

通过codecvt解码多字节非Unicode字符失败

我在 MSVC 上尝试了 std::codecvt 并遇到了多字节字符编码的问题 - 它无法从有效的多字节序列转换回来,即使可以在

回答 1 投票 0

MeCab 似乎没有返回正确的响应

所以我刚刚安装了 MeCab 并尝试在节点中运行它。 我从这个网址 https://github.com/hecomi/node-mecab-async#readme 中获取了示例来检查我是否正确安装了它,但我猜有些事情发生了......

回答 1 投票 0

如何使用html或CSS将全角日语数字渲染为半角数字

嗨,在我尝试将浏览器(chrome)的语言更改为日语后,我的网页中的字符间距出现问题。我试图显示的字符只是数字。 ...

回答 2 投票 0

将单字节字符串(半角)转换为双字节(全角)

最近我在 C# 应用程序中遇到了这段代码。 cDataString = Strings.StrConv(cDataString, VbStrConv.Wide); 据我所知,StrConv是VB的一个字符串函数。您可以通过包含...来调用它

回答 2 投票 0

如何使用 ICU 库转换日文半角/全角字符

我不太熟悉java(来自c++/c#)。我需要使用 java 来将一些文档从半角日语字符转换为全角。 有人会友善地...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.