日韩精品一区二区三区高清_久久国产热这里只有精品8_天天做爽夜夜做爽_一本岛在免费一二三区

合肥生活安徽新聞合肥交通合肥房產生活服務合肥教育合肥招聘合肥旅游文化藝術合肥美食合肥地圖合肥社保合肥醫院企業服務合肥法律

代寫MET CS777 Large-Scale Text Processing

時間:2024-02-25  來源:合肥網hfw.cc  作者:hfw.cc 我要糾錯


Assignment 4

 

Large-Scale Text Processing

 

MET CS777

 

Description

 

In this assignment you will implement k-nearest neighbor classifier (KNNclassifier) to classify text documents. For example, given a search text “ How many goals did

 

Vancouver score last year?”, the algorithm searches all the documents corpus (corpus: large and structural text) and returns the top K similar documents.

 

The TF-IDF (Term Frequency - Inverse Document Frequency) is used as the similarity/distance measure between two document/texts.

 

In the first step, the top 20k English words of the corpus will be selected, then the TF-IDF matrix of a text corpus get computed, which is used to find similarity between the texts.

 

Wikipedia dataset

 

In this assignment, the Wikipedia data set is used. The entire Wikipedia data set has been downloaded from (https://dumps.wikimedia.org) and stored in a large file.

 

Each Wikipedia Page is a document and have a unique document ID and a

 

specific URL. For example,

 

• docID 418348

 

• URLhttps://en.wikipedia.org/wiki?curid=418348

 

Data format

 

Each line is a single document in a pseudo XML format.

 

 

 

Small Data Set - Wikipedia Pages

 

You can find a small data set (Only 1000 Wikipedia pages) on AWS S3:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1000LinesSmall.txt

 

Large Data Set

 

Large data set consists of 1 million pages (2.2 GB) and can be found here:

 

s3://metcs777-sp24/data/WikipediaPagesOneDocPerLine1m.txt

 

Categories of the large data of Wikipedia can be found here:

 

s3://metcs777-sp24/data/wiki-categorylinks.csv.bz2

 

Templates

 

Use Assignment4-Template.[ipynb/py] as starting point for your implementation.

 

Tasks

 

Task 1 (10 points): Generate a 20K dictionary

 

Task 1.1 - Using Wikipedia pages, find the top 20,000 English words, save them in an array, and sort them based on the frequency of the occurrence.

 

Task 1.2 - As a result, adictionary has been generated that contains the top 20K most frequent words in the corpus. Next go over each Wikipedia document and check if the words appear in the Top 20K words. At the end, produce an RDD that includes the docID as key and a Numpy array for the position of each word in the top 20K dictionary.

 

(docID, [dictionaryPos1,dictionaryPos2,dictionaryPos3...])

 

Task 2 (20 Points): Create the TF-IDF Array

 

After having the top 20K words we want to create a large array that its columns are the words of the dictionary with number of occurrences of each word and the rows are documents.

 

The first step is calculating the “Term Frequency”, TF (x, w), vector for each document as follows:

 

 

 

“Term Frequency” is an indication of the number of times a term occurs in a document. Numerator is number of occurrences of a word, and the denominator is the sum of all    the words of the document.

 

Next, calculate “Inverse Document Frequency” for all the documents and finally calculate TF-IDF(w) and create TF-IDF matrix of the corpus:

 

 

 

Note that the “size of corpus” is total number of documents (numerator). To learn more about TF-IDF see the Wikipedia page: https://en.wikipedia.org/wiki/Tf-idf

 

Task 3 - Implement the getPrediction function (30 Points)

 

Finally, implement the function getPrediction(textInput, k),which will predict the membership of the textInput to the top 20 closest documents, and the list of top categories.

 

You should use the cosine similarity to calculate the distances.

 

 

 

Task 4 (30 points): Implement the code using Dataframes

 

Implement the complete code in Dataframe and printout the results of the task 3 using dataframes in pyspark. From the beginning of your code to the end of your kNN implementation you are allowed to usespark dataframe and python (including python libraries like numpy). You are not allowed to use RDDs.

 

Task 5 (10 points) Removing Stop Words and Do Stemming

 

Task 5.1 - Remove Stop Words

 

Describe if removing the English Stop words (most common words like ”a, the, is, are, i, you, ...”) would change the final kNN results.

 

Does your result change significantly after removing the stop words? Why?

 

Provide reasons.

 

You do not need to code this task.

 

Task 5.2 - Considering English word stemming

 

We can stem the words [”game”,”gaming”,”gamed”,”games”] to their root word ”game” .

 

Does stemming change your result significantly? Why? Provide reasons.

 

You can learn more about stemming at:

 

https://en.wikipedia.org/wiki/Stemming

 

You do not need to code this task.

 

Submission Guidelines

 

● Naming Convention:

 

METCS777-Assignment3-[TaskX-Y]FIRST+LASTNAME.[pdf/py/ipynb]

 

Where:

 

o [TaskX-Y] doesn’t apply for .[pdf] files

 

o No space between first and lastname

 

● Files:

 

o Create one document in pdf that has screenshots of running results of all coding problems. For each task, copy and paste the results that your lastSpark job saved in the bucket. Also, for each Spark job, include a screenshot of the Spark History. Explain clearly and precisely the results.

 

o Include output file for each task.

 

o Please submit each file separately (DO NOT ZIP them!!!).

 

● For example, sample submission of John Doe’s Assignment 4 should be the following files:

 

o METCS777-Assignment4-JohnDoe.pdf

 

o METCS777-Assignment4-Task**4-JohnDoe.ipynb

 

o METCS777-Assignment4-Task**JohnDoe.py

 

o METCS777-Assignment4-Task**Output-JohnDoe.txt

 

o METCS777-Assignment4-Task2-JohnDoe.py

 

o METCS777-Assignment4-Task2-Output-JohnDoe.txt o …

 

 

 

Figure 1: Screenshot of Spark History

 

 

Evaluation Criteria for Coding Tasks

 

 

Academic Misconduct Regarding Programming

 

In a programming class like this, there is sometimes a very fine line between “cheating” and acceptable and beneficial interaction between peers. Thus, it is very important that  you fully understand what is and what is not allowed in terms of collaboration with your classmates. We want to be 100% precise,so that there can be no confusion.

 

The rule on collaboration and communication with your classmates is as follows: you cannot transmit or receive code from or to anyone in the class in anyway —visually (by  showing someone your code), electronically (by emailing, posting, or otherwise sending someone your code), verbally (by reading code to someone) or in any other way we have not yet imagined. Any other collaboration is acceptable.

 

It is not allowed to collaborate and communicate with people who are not your classmates (or your TAs or instructor). This means posting any questions of any nature to programming forums such as StackOverflow is strictly prohibited. As far as going to  the web and using Google, we will apply the “two-line rule”. Go to any web page you   like and do any search that you like. But you cannot take more than two lines of code   from an external resource and include it in your assignment in any form. Note that changing variable names or otherwise transforming or obfuscating code you found on  the web does not render the “two-line rule” inapplicable. It is still a violation to obtain more than two lines of code from an external resource and turn it in, whatever you do to those two lines after you first obtain them.

 

Furthermore, you must always cite your sources. Add a comment to your code that includes the URL(s) that you consulted when constructing your solution. This turns out to be very helpful when you’re looking at something you wrote a while ago and you need to remind yourself what you were thinking.

請加QQ:99515681  郵箱:99515681@qq.com   WX:codehelp 

掃一掃在手機打開當前頁
  • 上一篇:System Calls程序代做、代寫Manage Files
  • 下一篇:代寫CSC8636 – Summative Assessment
  • 無相關信息
    合肥生活資訊

    合肥圖文信息
    釘釘簽到打卡位置修改神器,2026怎么修改定位在范圍內
    釘釘簽到打卡位置修改神器,2026怎么修改定
    2025年10月份更新拼多多改銷助手小象助手多多出評軟件
    2025年10月份更新拼多多改銷助手小象助手多
    有限元分析 CAE仿真分析服務-企業/產品研發/客戶要求/設計優化
    有限元分析 CAE仿真分析服務-企業/產品研發
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    急尋熱仿真分析?代做熱仿真服務+熱設計優化
    出評 開團工具
    出評 開團工具
    挖掘機濾芯提升發動機性能
    挖掘機濾芯提升發動機性能
    海信羅馬假日洗衣機亮相AWE  復古美學與現代科技完美結合
    海信羅馬假日洗衣機亮相AWE 復古美學與現代
    合肥機場巴士4號線
    合肥機場巴士4號線
  • 短信驗證碼 豆包網頁版入口 目錄網 排行網

    關于我們 | 打賞支持 | 廣告服務 | 聯系我們 | 網站地圖 | 免責聲明 | 幫助中心 | 友情鏈接 |

    Copyright © 2025 hfw.cc Inc. All Rights Reserved. 合肥網 版權所有
    ICP備06013414號-3 公安備 42010502001045

    日韩精品一区二区三区高清_久久国产热这里只有精品8_天天做爽夜夜做爽_一本岛在免费一二三区

      <em id="rw4ev"></em>

        <tr id="rw4ev"></tr>

        <nav id="rw4ev"></nav>
        <strike id="rw4ev"><pre id="rw4ev"></pre></strike>
        一本久道久久久| 亚洲人成在线观看网站高清| 久久久激情视频| 国产精品高清网站| 欧美国产大片| 久久久精品视频成人| 欧美日韩亚洲一区在线观看| 欧美日韩一区二| 亚洲欧美日韩成人高清在线一区| 久久久久久国产精品mv| 亚洲精品五月天| 在线精品亚洲一区二区| 欧美日韩国产天堂| 亚洲女同在线| 伊人狠狠色丁香综合尤物| 久久人人爽爽爽人久久久| 亚洲一区二区日本| 国产欧美日韩一区二区三区在线| 国产精品成人观看视频国产奇米| 99国产麻豆精品| 久久精视频免费在线久久完整在线看| 久久综合九色欧美综合狠狠| 欧美三区美女| 久久精精品视频| 亚洲电影免费在线观看| 性欧美xxxx大乳国产app| 欧美.日韩.国产.一区.二区| 久久夜色精品国产欧美乱| 亚洲一区999| 欧美在线视频不卡| 亚洲国产电影| 欧美日韩精品高清| 久久久国产成人精品| 免费成人黄色片| 欧美成人综合在线| 国产精品亚洲一区| 国产午夜久久| 国产精品国产自产拍高清av| 国产精品久久网| 欧美日韩亚洲一区二| 亚洲视频高清| 欧美日韩一区成人| 国产精品一区二区三区成人| 亚洲欧美一区二区在线观看| 久久精品三级| 亚洲精品一区中文| 蜜臀va亚洲va欧美va天堂| 欧美 日韩 国产一区二区在线视频| 亚洲高清av在线| 国产日本欧美在线观看| 欧美高清hd18日本| 蜜臀99久久精品久久久久久软件| 欧美亚洲综合在线| 欧美中文在线视频| 精品88久久久久88久久久| 亚洲午夜国产一区99re久久| 午夜精品久久久久久久白皮肤| 国产欧美日韩综合精品二区| 国产一区二区三区在线观看免费视频| 亚洲国产成人在线播放| 一本色道88久久加勒比精品| 久久久久久夜精品精品免费| 欧美国产精品久久| 亚洲精品久久久一区二区三区| 国产欧美精品一区二区色综合| 久久漫画官网| 亚洲老司机av| 在线中文字幕一区| 国内精品写真在线观看| 欧美丝袜一区二区三区| 亚洲精品中文在线| 国产欧美日韩不卡免费| 亚洲一级在线观看| 欧美电影在线播放| 欧美日韩国产综合一区二区| 久久人人爽爽爽人久久久| 国产精品久久久久久久电影| 亚洲精品乱码久久久久久按摩观| 欧美一区二区女人| 国产精品稀缺呦系列在线| 1000部精品久久久久久久久| 免费成人在线观看视频| 亚洲视频一二区| 欧美理论在线播放| 国产精品久久久久高潮| 欧美午夜片在线免费观看| 亚洲一区二区三区高清不卡| 欧美精品国产精品日韩精品| 久久精品视频网| 亚洲精品国产精品乱码不99按摩| 国产日本精品| 91久久在线播放| 亚洲黄色成人久久久| 美女尤物久久精品| 亚洲清纯自拍| 亚洲黄网站在线观看| 亚洲高清av| 欧美日韩国产一中文字不卡| 国内精品**久久毛片app| 悠悠资源网久久精品| 美日韩在线观看| 亚洲韩日在线| 欧美www视频| 美日韩在线观看| 免费精品99久久国产综合精品| 亚洲欧美日韩国产中文| 免费精品视频| 亚洲风情亚aⅴ在线发布| 久久综合伊人77777尤物| 一本色道婷婷久久欧美| 夜夜嗨av一区二区三区中文字幕| 久久亚洲私人国产精品va媚药| 亚洲国产精品久久久久| 国产精品欧美日韩久久| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产日本欧美在线观看| 亚洲国产高潮在线观看| 日韩视频一区二区| 另类人畜视频在线| 久久综合九色综合网站| 欧美人与性禽动交情品| 国内精品久久国产| 午夜久久福利| 国语自产精品视频在线看8查询8| 国产精品美女久久久久av超清| 久久综合精品国产一区二区三区| 国产欧美一区二区精品秋霞影院| 国内精品久久久久久久影视麻豆| 性色av一区二区三区红粉影视| 欧美成人按摩| 日韩亚洲成人av在线| 国产精品三级视频| 亚洲高清中文字幕| 久久精品视频亚洲| 国产精品色在线| 一区二区三区成人精品| 欧美不卡视频一区发布| 在线免费高清一区二区三区| 国产精品视频在线观看| 久久全国免费视频| 国产亚洲精品久| 亚洲欧美综合v| 欧美区一区二区三区| 在线精品国产欧美| 欧美日韩免费区域视频在线观看| 国产精品久久久久久久久久三级| 欧美第十八页| 一区二区三区视频观看| 夜夜狂射影院欧美极品| 欧美视频一区二| 亚洲综合成人婷婷小说| 99国产精品私拍| 久久久亚洲成人| 亚洲免费在线电影| 一本色道久久综合一区| 欧美在线精品免播放器视频| 国产日本欧美在线观看| 欧美成人精品h版在线观看| 久久亚洲私人国产精品va媚药| 一区二区三区在线视频免费观看| 国产欧美韩日| 免费欧美电影| 欧美大片一区二区| 久久日韩粉嫩一区二区三区|