我得到了一个文本文件(称之为
text.txt
)。我需要计算单词总数(也计算重复次数)。我的代码是这样开始的:
def words():
f = sc.textFile("text.txt")
return f.DO_SOME_MAGIC()
所以我的问题简化为:应该去哪里
DO_SOME_MAGIC
?
对于以下文本文件:
hello world
bye world
我应该收到
4
而不是:
(hello, 1)
(bye, 1)
(world, 2)
实际上读取字符数很容易,因为文件的大小等于其字节数,
> file.txt
hello
对于 Windows: 由于“ “(回车符和换行符)
对于Linux: 由于 ' ,大小将为 6 '(换行)
with open(file_path, 'r') as file:
print(file.name)
file_size = os.path.getsize(file_path)
print(f"Size of the file: {file_size} bytes")
.
.
.
# Count the total number of lines
total_lines = sum(1 for line in file)
print(f"Total number of lines: {total_lines}")