博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
20180918-1 词频统计
阅读量:6658 次
发布时间:2019-06-25

本文共 1317 字,大约阅读时间需要 4 分钟。

作业要求参见 

本次作业代码地址:https://coding.net/u/y45777704/p/WF/git/tree/origin/dist

词频统计

 

1.代码部分

2.1代码实现#调用函数(系统模块、正则表达式、采集模块等)

import sys# print("Input argument is %s" %(sys.argv))import reimport collectionsimport operator# file = input('请输入文件位置:')# for line in open(add):#     print(line)import glob

 

2.2词频统计部分

def get_words(file):        with open(file,encoding='gbk') as f:            words_box = []            for line in f:                if re.match(r'[a-zA-Z0-9]*', line):                    words_box.extend(line.strip().split())        return collections.Counter(words_box)

 

 

 

2.3输出词频统计

for file in file_list:        #print(file)        a = get_words(file)        print("total    %d" % len(a))        print()        a10 = collections.Counter.most_common(a, 10)        #print(a10)        # l = sorted(a.items(), key=operator.itemgetter(0), reverse=True)        for item in a10:            print("{key}\t{value}".format(key=item[0], value=item[1]))        print("")

 

3.功能实现

3.1从TXT文件中统计总字数,输出总字数并打印词语出现频率次数,降序输出。

 

 

 

3.2统计jane_Eyre的总字数和词频

 

 

3.3统计test文件夹中的Jane_Eyre和Wuthering_Heights的文本字数及词频

 

 

3.4尝试用command = input()输入指令实现功能,但没有成功。

4.PSP表格

 

PSP阶段 预计时间(min) 实际时间(min) 原因
第一功能 125 217 需求没有明确分析,没能输入单词,导致功能错误。
第二功能 62 73 没有找到功能函数,导致编码错误。
第三功能 146 172 没有输出正确的格式,一直在调整。
第四功能 35 69 没能实现功能

转载于:https://www.cnblogs.com/yangjm137/p/9695894.html

你可能感兴趣的文章
次短路问题总结
查看>>
swing时钟
查看>>
Linux下Tomcat日志分割
查看>>
GCC参数详解
查看>>
datagirdview自动跳一行选择显示,界面看板
查看>>
程序设计实习 02 第i位替换
查看>>
python基本数据类型
查看>>
服务器端车牌识别搭建
查看>>
修改卷组属性
查看>>
[NOIp]二叉树的指针实现
查看>>
git 已经commit 没有 poll / upload 回退
查看>>
in 笔试题目 前端总结 abc类地址 转载
查看>>
系统崩溃分析
查看>>
shiro学习笔记1
查看>>
南浮的IT民工
查看>>
linq 基本用法
查看>>
三个水杯 (bfs)
查看>>
jersey在 spring boot 添加 packages 扫描路径支持
查看>>
PropertyGrid仿VS的属性事件窗口
查看>>
PHP数组排序
查看>>