如何计算文本文件中的总字数

问题描述 投票:0回答:1

我得到了一个文本文件(称之为

text.txt
)。我需要计算单词总数(也计算重复次数)。我的代码是这样开始的:

def words():
    f = sc.textFile("text.txt")
    return f.DO_SOME_MAGIC()

所以我的问题简化为:应该去哪里

DO_SOME_MAGIC

PS

对于以下文本文件:

hello world
bye world

我应该收到

4
而不是:

(hello, 1)
(bye, 1)
(world, 2)
pyspark text-files word-count
1个回答
0
投票

实际上读取字符数很容易,因为文件的大小等于其字节数,

> file.txt
hello

对于 Windows: 由于“ “(回车符和换行符)

对于Linux: 由于 ' ,大小将为 6 '(换行)

另外,计算文件中的单词数是没有意义的,因为打开文件只是为了计算单词数??

这是读取文件大小的代码。

with open(file_path, 'r') as file:
    print(file.name)
    file_size = os.path.getsize(file_path)
    print(f"Size of the file: {file_size} bytes")

并且不要让我也获得行数!

.

.

.

# Count the total number of lines
    total_lines = sum(1 for line in file)
    print(f"Total number of lines: {total_lines}")
© www.soinside.com 2019 - 2024. All rights reserved.