我正在阅读每个文件中的单词并将它们存储在列表中。
我能够计算出每个单词在该文件中出现的次数。
这是我的代码。
for name in files:
if name.endswith(".txt"):
with open(name, "r") as word_list:
words = word_list.read().split()
counts = Counter(words)
labels, values = zip(*counts.items())
labels = np.array(labels)
values = np.array(values)
此代码与我的进一步代码组合,产生数字的直方图
此词出现。这是我要数字的地方。
我需要将每个单词的出现次数与文件中单词的总数相除,以获得离散分布。
我如何实现该目标?
频率,正如您所建议的那样,仅由以下给出:
total = np.sum(values)
freqs = values / total
(可以组合,我这样写来使它更清楚)
我不确定这与“单词平均数”有什么关系,这意味着什么。