如何将文本文件(CSV)解析为haskell以便我可以对其进行操作?

问题描述 投票:0回答:2

我有一个具有以下格式的平面文本文件:

ID|COUNT|Desc
1|100|Something
2|100|More
1|15|Whatever

我需要将其加载到 Haskell 中,以便我可以执行一些操作(在 GROUP-BY ID 和 SUM COUNT 的情况下),我正在寻找方法来做到这一点 - 有一件事我不能使用任何额外的模块/包(这个是一个学校项目 - 试图用内置的任何东西来解决它)。

我做了一些研究,发现 Text.CSV 作为一个选项,但无法真正理解它是如何工作的(也找不到任何示例 - 这很可怕) - 在我花了很多时间想知道这是否是正确的方法 - 任何建议、想法或示例将不胜感激。

请记住,无论它如何存储,我之后都必须以某种方式处理数据。


我现在正在尝试这种方法:

main::IO()
main = do
       dbSales <- readFile "la.txt"
       let sales = lines dbSales
       (result, x, y) <- mapify sales
       print result

mapify :: [String] -> Map Int Int
mapify = Prelude.foldr (\s m -> let (id:count:desc) = (splitWhen (=='|') s)
                                    i = read id
                                    c = read count
                                 in insertWith (+) i c m) empty

但是它抱怨我调用mapify的那一行:

Couldn't match type `Map Int' with `IO'
Expected type: IO Int
  Actual type: Map Int Int

尝试使用新的输入文件,但不确定为什么但出现错误 - 如果我使用以下输入:

ID1|ID2|DATE|SUM
0|0|07/13/2014/100
0|1|07/13/2014/101
0|2|07/13/2014/102
1|0|07/13/2014/100

现在我尝试对 ID2 和 SUM 进行分组(而不是前面示例中的 od ID 和 COUNT):

mapify :: [String] -> Map Int Int
mapify = Prelude.foldr (\s m -> let (id1:id2:date:sum) = (splitWhen (=='|') s)
                                    i = read id1
                                    j = read id2
                                    k = read date
                                    c = read sum
                                  in insertWith (+) j c m) empty

但无论我尝试什么,我都会不断收到这样的错误:

Couldn't match type `[Char]' with `Char'
Expected type: String
  Actual type: [[Char]]
In the first argument of `read', namely `sum'
In the expression: read sum
In an equation for `c': c = read sum
haskell
2个回答
3
投票
mapify :: [String] -> Map Int Int
mapify = foldr (\s m -> let (id:count:desc) = (splitWhen (=='|') s)
                            i = read id :: Int
                            c = read count :: Int
                        in insertWith (+) i c m) empty

我想这应该就是你想要的。它将每个字符串的前两个值读入 Ints,然后 insertWith 将 id 添加到映射(如果不存在),或者增加当前计数(如果存在)。因为它会因格式错误的数据而崩溃,所以你可能想修复它,并且它需要

Data.List.Split
Data.Map


0
投票

整个工作代码:

import qualified Data.Map as M
import qualified Data.List.Split as S

main::IO()
main = do
       dbSales <- readFile "la.txt"
       let sales = tail (lines dbSales)
       let result = mapify sales
       print result

mapify :: [String] -> M.Map Int Int
mapify = Prelude.foldr (\s m -> let (id:count:desc) = (S.splitWhen (=='|') s)
                                    i = read id
                                    c = read count
                                 in M.insertWith (+) i c m) M.empty

(您需要将数据放入

la.txt
。)

© www.soinside.com 2019 - 2024. All rights reserved.