سلام دوباره
ممنون از توجه و پیشنهاداتتون ، مشکل حل شده و این قسمت برنامه رو به کمکتون انجام دادم.
اما یه مشکلی هست ، نمی دونم باید چی کار کنم!
ببینید ، اون فایلی که ابتدای این تاپیک بهتون دادم (که گفتم درواقع 15هزارخطیه ، اما من 5تاش ُ دادم) و گفته بودم که توی یک پوشه ای هم این docno ها قرار دارن.
شما یه خطش رو به عنوان مثال یه بار دیگه نگاه کنید:
قسمت docno به لطفتون جدا شد، اما قسمت topicid رو اگه ببینید ، نوشته 55001 ، یعنی docno به شماره APE20030803.0000.0096 مربوط به تاپیک(topicid) شماره 55001 هست و برای هر 15 هزار خط این قضیه وجود داره.
من باید بتونم مثلا از topicid به شماره 55001 ، بیام(بصورت تصادفی) مثلا 30 تا docno بردارم ، از topicid=55002 ، بیام 30 تا بردارم ، از topicid=55003 بیام 30تا و .... الی آخرین topicid که 55100 هست ، 30تا بردارم و روی این docno ها یه سری الگوریتم رو پیاده سازی کنم و در آخر بگم که آیا docno ی شماره X در topicid ، مربوط به خودش بوده یا نه..
الان مشکل من اینه که نمی دونم باید چطور docno و topicid مربوط به اون رو با هم داشته باشم که قابل استفاده باشه.. یعنی بگه topicid مربوط به docno = APE20030803.0000.0096 ، شماره مثلا 55001 هست (و غیره..) که بعدش بتونم بگم 30 تا داکیومنت از موضوع اولی بهم بده ، 30 تا از دومی و ...
ممنون میشم کمکم کنید . واقعا ممنون.
ممنون از توجه و پیشنهاداتتون ، مشکل حل شده و این قسمت برنامه رو به کمکتون انجام دادم.
اما یه مشکلی هست ، نمی دونم باید چی کار کنم!
ببینید ، اون فایلی که ابتدای این تاپیک بهتون دادم (که گفتم درواقع 15هزارخطیه ، اما من 5تاش ُ دادم) و گفته بودم که توی یک پوشه ای هم این docno ها قرار دارن.
شما یه خطش رو به عنوان مثال یه بار دیگه نگاه کنید:
کد:
<ONTOPIC topicid=55001 level=YES docno=APE20030803.0000.0096 fileid=20030803_0000_0737_APW_ENG comments="none">
قسمت docno به لطفتون جدا شد، اما قسمت topicid رو اگه ببینید ، نوشته 55001 ، یعنی docno به شماره APE20030803.0000.0096 مربوط به تاپیک(topicid) شماره 55001 هست و برای هر 15 هزار خط این قضیه وجود داره.
من باید بتونم مثلا از topicid به شماره 55001 ، بیام(بصورت تصادفی) مثلا 30 تا docno بردارم ، از topicid=55002 ، بیام 30 تا بردارم ، از topicid=55003 بیام 30تا و .... الی آخرین topicid که 55100 هست ، 30تا بردارم و روی این docno ها یه سری الگوریتم رو پیاده سازی کنم و در آخر بگم که آیا docno ی شماره X در topicid ، مربوط به خودش بوده یا نه..
الان مشکل من اینه که نمی دونم باید چطور docno و topicid مربوط به اون رو با هم داشته باشم که قابل استفاده باشه.. یعنی بگه topicid مربوط به docno = APE20030803.0000.0096 ، شماره مثلا 55001 هست (و غیره..) که بعدش بتونم بگم 30 تا داکیومنت از موضوع اولی بهم بده ، 30 تا از دومی و ...
ممنون میشم کمکم کنید . واقعا ممنون.