先列一些最基础的操作,后面如果使用到更复杂的会再补充
一、文件读取,获取列
直接贴代码
import pandas as pd # pip3 install pandas
data_path = "K:\workspace-sync\datasets\imdb-dataset-of-50k-movie-reviews\IMDB_Dataset.csv"
df = pd.read_csv(data_path)
print(df.head()) # 打印前5行数据
print(len(df)) # 长度
review_list = df["review"].to_list() # 读取review列的数据
sentiment_list = df["sentiment"].to_list() # 读取sentiment列的数据, positive、negative
label_list = [ 1 if i == 'positive' else 0 for i in sentiment_list] # 将sentiment列的数据转换为0和1
print(review_list[:10])
print(sentiment_list[:10])
print(label_list[:10])
封装成一个方法
def get_imdb_data(file_path):
df = pd.read_csv(file_path)
review_list = df["review"].to_list() # 读取review列的数据
sentiment_list = df["sentiment"].to_list() # 读取sentiment列的数据, positive、negative
label_list = [1 if i == 'positive' else 0 for i in sentiment_list] # 将sentiment列的数据转换为0和1
return review_list, label_list
text_list, labels_list = get_imdb_data(data_path)
print(text_list[:10])
print(label_list[:10])
您可以选择一种方式赞助本站
支付宝扫一扫赞助
微信钱包扫描赞助
赏